Badania naukoweLLM Quantization

Bielik-Q2-Sharp

Opublikowany paper naukowy na arXiv. Pierwsza akademicka analiza kwantyzacji 2-bit polskiego modelu językowego Bielik-11B. Porównanie 6 różnych metod kompresji modeli AI.

📄 arXiv: 2603.04192 ↗🤗 HuggingFace: jakubrd4 ↗

78.50%

Accuracy (22 benchmarki)

Metod kwantyzacji

$285

Budżet na GPU

2-bit

Kompresja modelu

Bielik-Q2-Sharp - LLM Quantization Research

Wyzwanie

11 miliardów parametrów to za dużo

Bielik-11B potrzebuje ~22GB VRAM w FP16. Większość firm i badaczy nie ma dostępu do tak mocnego GPU. Kwantyzacja 2-bit redukuje to do ~3.5GB.

💾

Rozmiar modelu

Bielik-11B w FP16 waży ~22GB. To wyklucza uruchomienie na większości konsumenckich GPU i edge devices.

🇵🇱

Brak badań dla polskiego

Kwantyzacja modeli anglojęzycznych jest dobrze zbadana. Dla polskiego LLM nikt wcześniej nie przeprowadził systematycznej analizy 2-bit.

📉

Utrata jakości

Kompresja z 16 do 2 bitów to 8x redukcja. Pytanie nie brzmi "czy stracimy jakość", ale "ile i czy to akceptowalne".

Rozwiązanie

6 metod, 22 benchmarki, 1 paper

Systematyczne porównanie najnowszych technik kwantyzacji na polskim modelu językowym.

📄

Paper na arXiv

Opublikowany w kategorii cs.CL (Computation and Language). Pierwsza akademicka analiza kwantyzacji 2-bit polskiego modelu językowego.

🏆

78.50% accuracy

Najlepszy wynik 2-bit dla polskiego LLM na 22 benchmarkach. Metoda QTIP osiągnęła wynik, którego nie udało się pobić żadną inną techniką.

🔬

6 metod porównanych

GPTQ, QuIP#, AQLM, VPTQ, SpinQuant i QTIP. Każda metoda przetestowana na tych samych benchmarkach w identycznych warunkach.

💰

Budżet: $285

Całość badań przeprowadzona za zaledwie $285 na GPU z vast.ai. Dowód, że nauka nie wymaga korporacyjnych budżetów.

📊

Compression Ceiling

Kluczowe odkrycie: 4 różne metody zbiegają się do 78-79% accuracy. Sugeruje to information-theoretic limit kompresji 2-bit.

Tech Stack

Narzędzia dobrane do zadania

Każde narzędzie ma konkretny powód. Bez buzzwordów.

PyTorch

Framework do deep learning, niezbędny do kwantyzacji modeli. Pełna kontrola nad operacjami tensorowymi na niskim poziomie.

GPTQ

Metoda kwantyzacji post-training. Szybka i efektywna, dobry baseline do porównań z bardziej zaawansowanymi technikami.

QuIP# (E8P)

Zaawansowana kwantyzacja z lattice codebooks. Najlepsza jakość w niskich bitach dzięki incoherence processing i E8 lattice.

VPTQ

Vector Post-Training Quantization z Microsoft Research. Nowatorska metoda grupująca wagi w wektory przed kwantyzacją.

QTIP

Najnowsza metoda, która osiągnęła najlepszy wynik (78.50%). Łączy tiled random Hadamard transforms z incoherence processing.

vast.ai

Tani cloud GPU marketplace. Pozwolił przeprowadzić pełne badania akademickie za $285 zamiast tysięcy dolarów.

lm-evaluation-harness

Standardowy framework EleutherAI do ewaluacji modeli językowych. 22 polskie benchmarki w jednym spójnym pipeline.

Rezultaty

Paper, modele, uznanie

Paper opublikowany na arXiv i cytowany przez społeczność AI. Modele dostępne na HuggingFace (jakubrd4). Całość badań przeprowadzona za $285 na cloud GPU.

78.50%

Best 2-bit accuracy

$285

Budżet GPU

Polskie benchmarki

Metod kwantyzacji

📄 Czytaj paper na arXiv 🤗 Modele na HuggingFace

Potrzebujesz podobnego rozwiązania?

Kwantyzacja LLM, optymalizacja modeli AI, deployment na edge devices. Porozmawiajmy o Twoim projekcie.

Skontaktuj się →