Quantization adalah teknik mengompresi model AI dari 16-bit ke 8-bit atau 4-bit. Pelajari cara bikin model 70 miliar parameter jalan di laptop biasa, metode GPTQ dan NF4, plus trade-off akurasi yang harus kamu tahu sebelum deploy ke production.
inference-optimization
1 Article
