„Bielik” otwartoźródłowy model językowy dla języka polskiego
Co to jest „Bielik” i dlaczego jest ważny?
„Bielik” to duży model językowy (LLM) zaprojektowany specjalnie dla języka polskiego, co czyni go unikalnym w porównaniu do globalnych modeli, takich jak ChatGPT, które głównie skupiają się na języku angielskim. Jego celem jest lepsze zrozumienie niuansów języka polskiego i kontekstu kulturowego, co jest kluczowe dla użytkowników w Polsce. Model jest otwarto-źródłowy, co oznacza, że każdy może go używać i rozwijać, szczególnie w sektorach takich jak edukacja, prawo czy medycyna.
Dostępny jest na platformie Hugging Face i osiąga wysokie wyniki w testach, takich jak Polish MT-Bench, szczególnie w rozumowaniu i odgrywaniu ról.
Jak powstał „Bielik”?
Rozwój „Bielika” rozpoczął się od zebrania ogromnego korpusu danych – ponad 1,5 TB tekstów w języku polskim, co było jednym z największych wyzwań. Model został wytrenowany na superkomputerach Helios i Athena w AGH, co umożliwiło przetwarzanie 36 miliardów tokenów, z czego 22 miliardy to teksty polskie. Proces obejmował pre-szkolenie i nadzorowane doskonalenie (SFT), z zaawansowanymi technikami, takimi jak Ważona Entropia Krótkoterminowa i Adaptatywna Szybkość Nauki.
Istnieją dwie główne wersje:
- Bielik-7B-v0.1 (7 miliardów parametrów), oparty na Mistral-7B-v0.1, z wynikami opublikowanymi w październiku 2024.
- Bielik-11B-v2, z 11 miliardami parametrów, uruchomiony w sierpniu 2024, oferujący lepsze możliwości, szczególnie w wersji 11B-v2.3-Instruct.
Raport: Rozwój i Aktualne Postępy Modelu Językowego „Bielik”
Wprowadzenie
Model językowy „Bielik” stanowi przełom w rozwoju polskiej Sztucznej Inteligencji, będąc pierwszym dużym modelem językowym (LLM) zaprojektowanym specjalnie dla języka polskiego. Inicjatywa ta, prowadzona przez Fundację SpeakLeash we współpracy z Akademickim Centrum Komputerowym Cyfronet AGH, ma na celu zapewnienie narzędzi AI, które lepiej radzą sobie z niuansami języka polskiego i kontekstem kulturowym, w porównaniu do dominujących, anglojęzycznych modeli, takich jak ChatGPT czy Gemini. Niniejszy raport szczegółowo omawia proces rozwoju, architekturę, wyniki testów oraz aktualny status „Bielika”, opierając się na dostępnych źródłach, w tym artykułach naukowych, komunikatach prasowych i platformach takich jak Hugging Face.
Tło i Motywacja
Rozwój „Bielika” był odpowiedzią na potrzebę stworzenia modelu językowego, który efektywnie obsługuje język polski, uwzględniając jego specyficzne cechy, takie jak fleksja czy idiomy. Globalne modele, takie jak Llama czy Mistral, często mają ograniczone zasoby danych w języku polskim, co skutkuje niższą precyzją w zadaniach związanych z tym językiem. „Bielik” ma na celu nie tylko poprawę jakości odpowiedzi, ale także zapewnienie otwartego dostępu, co czyni go użytecznym w sektorach publicznym i prywatnym, od administracji po badania naukowe.
Proces Rozwoju
Rozwój „Bielika” można podzielić na kilka kluczowych etapów: zbieranie danych, pre-szkolenie, nadzorowane doskonalenie (SFT) oraz optymalizację.
Zbieranie Danych
Jednym z największych wyzwań było zgromadzenie odpowiednich danych. Zespół SpeakLeash zebrał ponad 1,5 TB tekstów w języku polskim, tworząc jeden z największych i najlepiej udokumentowanych korpusów w kraju. Dane te pochodziły z różnych źródeł, w tym artykułów, dialogów i dokumentów specjalistycznych. Proces obejmował czyszczenie danych, usuwanie uszkodzonych tekstów, anonimizację danych osobowych oraz naprawę kodowania i formatowania. Jakość tekstów była oceniana za pomocą klasyfikatora XGBoost z 266 cechami stylometrycznymi, z progiem powyżej 90% dla kategorii „wysoka jakość”. Wyniki tej oceny przedstawiono w poniższej tabeli:
Metryka | Wartość |
---|---|
Precyzja | 0,8640 |
Czułość | 0,8285 |
F1-score | 0,8431 |
Szkolenie Modelu
„Bielik” został wytrenowany na superkomputerach Helios i Athena, należących do AGH UST w Krakowie, w ramach grantu obliczeniowego PLG/2024/016951. Proces pre-szkolenia wykorzystał 36 miliardów tokenów, z czego 22 miliardy stanowiły teksty polskie z 18 milionów dokumentów wysokiej jakości, uzupełnione danymi angielskimi z zestawu SlimPajama. Hiperparametry pre-szkolenia obejmowały:
- Optymalizator: AdamW (β1=0,9, β2=0,95, zanik wag=0,1)
- Szybkość nauki: Kosinowy spadek od 3e-05 do 2e-05
- Rozmiar partii globalnej: 256 (lokalny: 4)
- Obcinanie gradientu: Norma 1,0
- Precyzja mieszana: bfloat16
- Liczba iteracji: 17 350, przepustowość >9 200 tokenów/GPU/sek na 256 GPU NVIDIA GH200.
Proces nadzorowanego doskonalenia (SFT) wykorzystał ponad 2,3 miliona instrukcji (>700 milionów tokenów), w tym ręcznie anotowane dialogi polskie, wygenerowane instrukcje z 1 miliona artykułów pre-szkoleniowych oraz dane angielskie, takie jak OpenHermes-2.5. Techniki obejmowały maskowanie tokenów (strata tylko na tokenach treści), Adaptatywną Szybkość Nauki (ALR) skalowaną przez pierwiastek z T/BS, oraz Ważoną Entropię Krótkoterminową z wagami (1,0 dla wysokiej, 0,7 dla średniej, 0,5 dla niskiej jakości). Hiperparametry SFT obejmowały:
- Optymalizator: AdamW (β1=0,9, β2=0,95, zanik wag=0,05)
- Szybkość nauki: Kosinowy spadek od 7e-6 do 6e-7, 50 iteracji rozgrzewki
- Rozmiar partii globalnej: 128 (lokalny: 1)
- Obcinanie gradientu: Norma 1,0
- Precyzja mieszana: bfloat16
- Liczba iteracji: 55 440, 2,1 miliarda tokenów.
Porównanie wydajności frameworków ALLaMo i TinyLlama na GPU A100 40GB przedstawiono w poniższej tabeli:
Konfiguracja Frameworku | Całkowity Rozmiar Partii | Przepustowość (tokenów/GPU/sek) |
---|---|---|
TinyLlama 8xA100 40GB | 2 097 152 | 24 390 |
ALLaMo 8xA100 40GB | 2 097 152 | 26 150 (+7,2%) |
ALLaMo 8xA100 40GB | 2 359 296 | 26 550 (+8,8%) |
TinyLlama 16xA100 40GB | 2 097 152 | 24 000 |
ALLaMo 16xA100 40GB | 2 097 152 | 25 850 (+7,7%) |
ALLaMo 16xA100 40GB | 2 359 296 | 26 000 (+8,3%) |
Architektura i Funkcje Kluczowe
„Bielik” opiera się na architekturze transformera, z następującymi parametrami:
- Liczba warstw: 32
- Wymiar modelu: 4096
- Liczba głów uwagi: 32
- Wymiar klucza/wartości: 8
- Wielkość głowy: 128
- Pośredni wymiar: 14336
- Funkcja aktywacji: SwiGLU
- Wielkość słownika: 32000
- Długość kontekstu: 8192
- Okno przesuwne: 4096
Model wykorzystuje zaawansowane techniki, takie jak Grupy Query Attention (GQA), Sliding Window Attention, SwiGLU, Rotary Positional Embeddings (RoPE), Root Mean Square Layer Normalization (RMSNorm) i pre-normalizację. Tokenizator pochodzi z Mistral-7B-v0.1 (32 000 tokenów), z planami rozszerzenia w przyszłych wersjach.
Ocena Wydajności
Wydajność „Bielika” została oceniona za pomocą dwóch głównych benchmarków:
- Open PL LLM Leaderboard (Hugging Face): Wersja 7B-v0.1 osiągnęła średnią ocenę 29,38 we wszystkich zadaniach, 62,13 w RAG Reranking, 88,39 w RAG Reader i 123,31 w Perplexity, poprawiając wynik o 9 pkt procentowych w RAG Reader w porównaniu do Mistral-7B-v0.1 (73,68).
- Polish MT-Bench (Hugging Face): Średnia ocena 6,08, z wynikami w kategoriach:ModelKodowanieEkstrakcjaHumanistykaMatematykaRozumowanieOdgrywanie RólSTEMPisanieBielik-7B-Instruct-v0.13,004,358,474,106,157,836,907,85
Model wyróżnia się w rozumowaniu (6,15/10) i odgrywaniu ról (7,83/10), co jest szczególnie imponujące, biorąc pod uwagę jego mniejszą liczbę parametrów w porównaniu do niektórych konkurentów.
Aktualny Status i Perspektywy
Najnowsza wersja, „Bielik-11B-v2.3-Instruct”, została udostępniona na Hugging Face, oferując ulepszone możliwości, szczególnie w generowaniu odpowiedzi i przetwarzaniu specjalistycznych tekstów, takich jak prawnicze czy medyczne. Wersja 11B, uruchomiona w sierpniu 2024, ma 11 miliardów parametrów i została wytrenowana na większym zbiorze danych, co poprawiło jej wydajność. Model jest dostępny w formacie GGUF, co ułatwia jego wykorzystanie w różnych aplikacjach, takich jak chatboty czy systemy RAG (Retrieval-Augmented Generation).
Zespół SpeakLeash planuje dalszy rozwój, w tym rozszerzenie korpusu danych, poprawę wydajności w zadaniach specjalistycznych i integrację z administracją publiczną. Współpraca z Cyfronet AGH zapewnia dostęp do zaawansowanej infrastruktury obliczeniowej, co otwiera możliwości na dalsze innowacje.
Podsumowanie
„Bielik” to znaczący krok w rozwoju polskiej Sztucznej Inteligencji, demonstrując, że lokalne inicjatywy mogą konkurować z globalnymi liderami. Jego otwarto-źródłowy charakter i wysokie wyniki w testach, szczególnie w rozumowaniu i odgrywaniu ról, czynią go cennym narzędziem dla badaczy, przedsiębiorców i administracji. Przyszłość „Bielika” zapowiada się obiecująco, z planami dalszego doskonalenia i rozszerzania jego zastosowań.