11 miliardów parametrów to za dużo
Bielik-11B potrzebuje ~22GB VRAM w FP16. Większość firm i badaczy nie ma dostępu do tak mocnego GPU. Kwantyzacja 2-bit redukuje to do ~3.5GB.
Rozmiar modelu
Bielik-11B w FP16 waży ~22GB. To wyklucza uruchomienie na większości konsumenckich GPU i edge devices.
Brak badań dla polskiego
Kwantyzacja modeli anglojęzycznych jest dobrze zbadana. Dla polskiego LLM nikt wcześniej nie przeprowadził systematycznej analizy 2-bit.
Utrata jakości
Kompresja z 16 do 2 bitów to 8x redukcja. Pytanie nie brzmi "czy stracimy jakość", ale "ile i czy to akceptowalne".
6 metod, 22 benchmarki, 1 paper
Systematyczne porównanie najnowszych technik kwantyzacji na polskim modelu językowym.
Paper na arXiv
Opublikowany w kategorii cs.CL (Computation and Language). Pierwsza akademicka analiza kwantyzacji 2-bit polskiego modelu językowego.
78.50% accuracy
Najlepszy wynik 2-bit dla polskiego LLM na 22 benchmarkach. Metoda QTIP osiągnęła wynik, którego nie udało się pobić żadną inną techniką.
6 metod porównanych
GPTQ, QuIP#, AQLM, VPTQ, SpinQuant i QTIP. Każda metoda przetestowana na tych samych benchmarkach w identycznych warunkach.
Budżet: $285
Całość badań przeprowadzona za zaledwie $285 na GPU z vast.ai. Dowód, że nauka nie wymaga korporacyjnych budżetów.
Compression Ceiling
Kluczowe odkrycie: 4 różne metody zbiegają się do 78-79% accuracy. Sugeruje to information-theoretic limit kompresji 2-bit.
Narzędzia dobrane do zadania
Każde narzędzie ma konkretny powód. Bez buzzwordów.
PyTorch
Framework do deep learning, niezbędny do kwantyzacji modeli. Pełna kontrola nad operacjami tensorowymi na niskim poziomie.
GPTQ
Metoda kwantyzacji post-training. Szybka i efektywna, dobry baseline do porównań z bardziej zaawansowanymi technikami.
QuIP# (E8P)
Zaawansowana kwantyzacja z lattice codebooks. Najlepsza jakość w niskich bitach dzięki incoherence processing i E8 lattice.
VPTQ
Vector Post-Training Quantization z Microsoft Research. Nowatorska metoda grupująca wagi w wektory przed kwantyzacją.
QTIP
Najnowsza metoda, która osiągnęła najlepszy wynik (78.50%). Łączy tiled random Hadamard transforms z incoherence processing.
vast.ai
Tani cloud GPU marketplace. Pozwolił przeprowadzić pełne badania akademickie za $285 zamiast tysięcy dolarów.
lm-evaluation-harness
Standardowy framework EleutherAI do ewaluacji modeli językowych. 22 polskie benchmarki w jednym spójnym pipeline.
Paper, modele, uznanie
Paper opublikowany na arXiv i cytowany przez społeczność AI. Modele dostępne na HuggingFace (jakubrd4). Całość badań przeprowadzona za $285 na cloud GPU.
Potrzebujesz podobnego rozwiązania?
Kwantyzacja LLM, optymalizacja modeli AI, deployment na edge devices. Porozmawiajmy o Twoim projekcie.
Skontaktuj się →