Suomalaiset suuret kielimallit
Suomen kieli on haastava kohde suurille kielimalleille. Alle viisi miljoonaa äidinkielistä puhujaa, rikas morfologia ja vähäiset digitaaliset resurssit tekevät suomesta niin sanotun vähäresurssisen kielen, jolle ei yksinkertaisesti ole tarjolla lähelläkkään samaa datamäärää kuin englannille. Silti Suomessa on viime vuosina syntynyt joitakin avoimia kielimalleja, jotka ovat täysin toimivia ja hyödyllisiä, eivät pelkästään tutkimusartifakteja.
Tässä kirjoituksessa käyn kronologisesti läpi keskeiset suomalaiset LLM-hankkeet: niiden taustaorganisaatiot, arkkitehtuuriratkaisut, koulutusmenetelmät ja vertailutulokset.
Keskeisiä termejä
| Lyhenne | Englanniksi | Suomeksi |
|---|---|---|
| LLM | Large Language Model | Suuri kielimalli. Tekoälymalli, joka on oppinut tuottamaan ja ymmärtämään tekstiä valtavasta datamäärästä. |
| NLP | Natural Language Processing | Luonnollisen kielen käsittely. Tietojenkäsittelytieteen ala, joka tutkii ihmiskielen automaattista ymmärtämistä ja tuottamista. |
| GPT | Generative Pre-trained Transformer | Generatiivinen esikoulutettu muunnin. Arkkitehtuuri, jossa malli oppii ennustamaan seuraavan sanan pitkissä tekstijonoissa. |
| SFT | Supervised Fine-Tuning | Valvottu hienosäätö. Perusmallia opetetaan esimerkkien avulla noudattamaan ohjeita ja vastaamaan kysymyksiin. |
| DPO | Direct Preference Optimization | Suora preferenssioptimointi. Menetelmä, jossa mallia opetetaan tuottamaan ihmisten mielestä parempia vastauksia vertailuparien avulla. |
| CP | Continued Pretraining | Jatkokoulutus. Valmiiksi koulutetun mallin kouluttamista jatketaan uudella datalla, esimerkiksi uudella kielellä. |
Mallien nimissä esiintyvä numero, kuten "7B" tai "70B", viittaa parametrien lukumäärään miljardeissa (B = billion). Parametrit ovat mallin opittuja painoja, joiden avulla se käsittelee kieltä. Karkeasti ottaen mitä enemmän parametreja, sitä suurempi mallin kapasiteetti on, mutta samalla sen vaatima laskentateho ja muisti kasvavat. Esimerkiksi "Poro 34B" tarkoittaa 34,2 miljardin parametrin mallia, kun taas "Ahma 7B" on 7 miljardin parametrin malli. Suurempi ei kuitenkaan ole aina parempi: pienempi, hyvin koulutettu malli voi päihittää suuremman, jos koulutusdata ja -menetelmät ovat laadukkaampia.
Organisaatiot
Suomalaisten kielimallien taustalla on kolme keskeistä toimijaa, joiden yhteistyö on tuottanut valtaosan kaikista julkaistuista malleista.
TurkuNLP on Turun yliopiston luonnollisen kielen käsittelyn tutkimusryhmä, jota johtavat professorit Filip Ginter, Sampo Pyysalo ja Veronika Laippala. Ryhmä tunnetaan kansainvälisesti Universal Dependencies -projektin kontribuutioistaan sekä suomenkielisten NLP-resurssien pitkäjänteisestä kehittämisestä. TurkuNLP on ollut mukana käytännössä kaikissa merkittävissä suomalaisissa LLM-hankkeissa alusta lähtien ja vastannut erityisesti koulutusdatan keräämisestä, puhdistamisesta ja tieteellisestä julkaisutoiminnasta.
AMD Silo AI perustettiin vuonna 2017 ja kasvoi Euroopan suurimmaksi yksityiseksi tekoälylaboratorioksi. Yhtiö on erityisesti generatiivisen tekoälynsä SiloGen-yksikön kautta ollut keskeinen voimavara mallien koulutusinfrastruktuurin, ohjelmistokehityksen ja kaupallisen strategian puolella. AMD osti Silo AI:n vuonna 2024, minkä jälkeen yhteistyö LUMI-supertietokoneen ja AMD:n laitteiston kanssa on entisestään syventynyt.
Finnish-NLP-yhteisö on vapaaehtoispohjainen yhteisö, jonka pääkehittäjät ovat Aapo Tanskanen ja Rasmus Toivanen. He aloittivat suomenkielisten GPT-mallien esikouluttamisen jo vuonna 2021, ja heidän intohimoprojektinsa on tuottanut useita itsenäisiä malleja. Finnish-NLP on toiminut pienemmillä resursseilla kuin akateemis-kaupalliset konsortiot ja hyödyntänyt muun muassa Googlen TPU Research Cloud -ohjelmaa.
Kolmen pääorganisaation lisäksi hankkeissa ovat olleet mukana EU:n Horizon Europe -rahoitteinen HPLT (High Performance Language Technologies) -hanke sekä Tieteen tietotekniikan keskus CSC, joka tarjoaa LUMI-supertietokoneen laskentaresurssit. Mallien julkaisuun käytetty LumiOpen-organisaatio Hugging Facessa on TurkuNLP:n ja Silo AI:n yhteinen alusta.
Kuka tämän kaiken on maksanut?
Suomalaisten kielimallien rahoitus on sekoitus julkista, yksityistä ja eurooppalaista rahaa. Yksikään yksittäinen taho ei ole kustantanut kehitystä kokonaan.
Suurin yksittäinen kustannuserä on laskenta-aika LUMI-supertietokoneella. LUMI on rahoitettu EU:n EuroHPC-yhteishankkeen kautta, johon osallistuvat sekä Euroopan komissio että kansalliset rahoittajat, Suomessa erityisesti opetus- ja kulttuuriministeriö CSC:n kautta. LUMI:n laskenta-aikaa on myönnetty tutkijoille ja yrityksille erillisten hakuprosessien kautta. Kyseessä on miljoonien eurojen arvoinen julkisesti rahoitettu resurssi, jota on tarjottu strategiseen tutkimus- ja kehityskäyttöön.
TurkuNLP:n tutkijat ovat saaneet keskeistä rahoitusta EU:n Horizon Europe -ohjelman HPLT-hankkeesta (hankenumero 101070350). Tämä suora EU-tutkimusrahoitus on kattanut tutkijoiden palkkoja ja mahdollistanut valtavien, monikielisten data-aineistojen kuratoinnin, jotka ovat olleet Poro- ja Viking-mallien perusta.
Silo AI on hyödyntänyt kasvussaan sekä merkittävää yksityistä pääomaa että julkisia kannustimia. Ennen AMD:n yritysostoa Silo AI keräsi yhteensä noin 28,6 miljoonaa dollaria ulkopuolista pääomasijoitusta muun muassa Altorilta, Combientilta ja suomalaisilta enkelisijoittajilta. Yhtiö on saanut pitkäjänteistä tukea Business Finlandilta. Viimeisimpänä vuonna 2025 sille myönnettiin 15 miljoonan euron veturirahoitus "Compute to Impact" -hankkeeseen, jolla vauhditetaan suomalaista tekoälyekosysteemiä ja LUMIn hyödyntämistä. Yrityskaupan myötä kehitysresurssit ovat siirtyneet osaksi AMD:n maailmanlaajuista t&k-budjettia.
Finnish-NLP-yhteisön mallit on koulutettu kevyemmällä budjetilla. Googlen TPU Research Cloud tarjosi laskenta-aikaa maksutta akateemiseen työhön, ja myöhemmin yritykset kuten Datacrunch/Verda ovat sponsoroineet hienosäätöön tarvittavaa laskentatehoa. Kyseessä on pääosin vapaaehtoisten asiantuntijoiden panos, jota yksityiset toimijat ovat tukeneet infrastruktuurilahjoituksin.
Linkkejä
- Business Finland: Veturirahoitus AMD Silo AI:lle (2025)
- AMD Newsroom: AMD to Acquire Silo AI
- CORDIS: HPLT Project Information
- CSC: LUMI-supertietokone ja tekoälytehdas
- Hugging Face: Finnish-NLP & LumiOpen Models
Mallit kronologisessa järjestyksessä
1. FinGPT (TurkuNLP/gpt3-finnish) — marraskuu 2023
FinGPT on ensimmäinen suomenkielinen monikielisten kielimallien perhe, joka koulutettiin kokonaan alusta alkaen. Tutkimusryhmä koulutti seitsemän eri kokoista mallia (186M–13B parametria) puhtaasti suomenkielisellä datalla. Lisäksi he jatkoivat monikielisen BLOOM-mallin koulutusta suomen kielellä ja loivat BLUUMI-nimisen 176 miljardin parametrin mallin. FinGPT-mallien myötä esiteltiin FIN-bench, suomenkielinen versio BIG-bench-arviointikehyksestä.
Arkkitehtuuri perustuu BLOOM-malliin eli GPT-tyyliseen decoder-only-rakenteeseen, jossa käytetään ALiBi-positiokoodausta. Mallit koulutettiin 300 miljardin tokenin suomenkielisellä datasetillä, joka koostuu verkkoryöminnöistä (Parsebank, mC4, Common Crawl), uutisaineistoista (Yle, STT), sosiaalisesta mediasta (Suomi24, Reddit), Wikipediasta, Projekti Lönnrotista ja Kansalliskirjaston kokoelmista. Koulutus toteutettiin LUMI-supertietokoneella.
FinGPT-tutkimus julkaistiin EMNLP 2023 -konferenssissa Singaporessa joulukuussa 2023. Se oli ensimmäinen laaja akateeminen julkaisu suomenkielisten suurten kielimallien kouluttamisesta.
| Tiedot | |
|---|---|
| Kehittäjät | TurkuNLP (Turun yliopisto), Hugging Face |
| Parametrit | 186M, 437M, 881M, 1.5B, 2.8B, 7.5B, 13.3B (+ BLUUMI 176B) |
| Kieli | suomi (yksikielinen) |
| Koulutusdata | ~300B tokenia, suomenkielinen |
| Lisenssi | Apache 2.0 |
| Paperi | arXiv:2311.05640 (EMNLP 2023) |
| Huggingface | TurkuNLP/gpt3-finnish-13B |
| GitHub | TurkuNLP/Megatron-DeepSpeed |
| Julkaisu | marraskuu 2023 |
2. Poro 34B — marraskuu 2023 (checkpointit), huhtikuu 2024 (paperi)
Poro 34B syntyi oivalluksesta, että monikielisyys voi olla siunaus eikä kirous. Koska suomenkielinen data ei yksinkertaisesti riitä suuremman mallin tehokkaaseen kouluttamiseen, tutkijat yhdistivät englannin, suomen ja ohjelmointikielet samaan koulutusdatasettiin. Tämä lähestymistapa mahdollisti 34 miljardin parametrin mallin kouluttamisen biljoonalla tokenilla, vaikka suomenkielistä dataa oli käytettävissä vain noin 32 miljardia tokenia (upsampattuna neljäksi epookiksi noin 131 miljardiin tokeniin).
Poro käyttää BLOOM-arkkitehtuuria, johon on lisätty ylimääräinen kerrosnormalisointi heti embedding-kerroksen jälkeen koulutuksen vakauttamiseksi. Positiokoodauksessa hyödynnetään ALiBi-tekniikkaa, joka mahdollistaa konteksti-ikkunan laajentamisen päättelyvaiheessa. Malli sisältää 54 kerrosta, 56 huomiopäätä (attention heads) ja 7168:n piilokerrosdimension. Sanakirjan koko on 128 000 tokenia, ja se on räätälöity kattamaan englanti, suomi ja ohjelmointikielet tasapainoisesti.
Koulutusdata koostuu SlimPajamasta (54 %), StarCoderista (32 %) ja suomalaisesta datasta (13 %), johon on lisätty Tatoeba-käännöspareja (0,8 %) ja Project Gutenberg -kirjoja (0,5 %). Käännösparit luovat eksplisiittisen kieltenvälisen signaalin, joka parantaa mallin käännöskykyä ja samalla tukee suomen kielen ymmärtämistä.
Poro koulutettiin 512 AMD MI250X -suorittimella LUMI-supertietokoneella. Koulutus alkoi syyskuussa 2023, ja ensimmäiset checkpointit julkaistiin marraskuussa 2023. Tutkimuspaperiksi malli dokumentoitiin huhtikuussa 2024. Nimensä malli sai suomenkielisestä sanasta "poro" (reindeer), ja se symboloi suomalaista luontoa ja kulttuuria.
| Tiedot | |
|---|---|
| Kehittäjät | SiloGen (Silo AI), TurkuNLP (Turun yliopisto), HPLT |
| Parametrit | 34.2B |
| Kielet | suomi, englanti, ohjelmointikielet |
| Koulutusdata | 1T tokenia |
| Arkkitehtuuri | BLOOM + ALiBi |
| Konteksti-ikkuna | 2048 tokenia |
| Lisenssi | Apache 2.0 |
| Paperi | arXiv:2404.01856 |
| Huggingface | LumiOpen/Poro-34B |
| GitHub | TurkuNLP/Megatron-DeepSpeed |
| Julkaisu | marraskuu 2023 (ensimmäiset tarkistuspisteet), huhtikuu 2024 (julkaisu) |
3. Poro 34B Chat (OpenAssistant) — 2024
Poro 34B -perusmallin päälle rakennettiin chat-versio, joka kykenee seuraamaan käyttäjän ohjeita sekä suomeksi että englanniksi. Koska suomenkielistä instruction-dataa on erittäin vähän, tutkijat käänsivät englanninkielisiä datasettejä suomeksi käyttäen itse Poro-mallia kääntäjänä. Pohjana olivat OpenAssistant 2 -keskusteluaineisto sekä HelpSteer2-preferenssidatasetti.
Mallille tehtiin ensin supervised fine-tuning (SFT) ja sen jälkeen Direct Preference Optimization (DPO). Tutkimuksen merkittävä löydös oli, että jo 400 suomenkielistä instruction-esimerkkiä riittää kilpailukykyisen suorituskyvyn saavuttamiseen suomenkielisessä ohjeidenmukaisuudessa.
Tähän liittyvä tutkimuspaperi julkaistiin NoDaLiDa 2025 -konferenssissa maaliskuussa 2025.
| Tiedot | |
|---|---|
| Kehittäjät | TurkuNLP, Silo AI, HPLT |
| Perusmalli | Poro 34B |
| Menetelmä | SFT + DPO |
| Lisenssi | Apache 2.0 |
| Paperi | arXiv:2503.09407 (NoDaLiDa 2025) |
| Huggingface | LumiOpen/Poro-34B-chat-OpenAssistant |
| Julkaisu | 2024 |
4. Viking 7B / 13B / 33B — huhtikuu–toukokuu 2024
Uusi kielimalli Viking julkaistu – ensimmäinen avoin malli pohjoismaisille kielille
Viking-mallisto laajensi Poron lähestymistavan kattamaan kaikki pohjoismaiset kielet: suomen lisäksi tanskan, ruotsin, norjan ja islannin sekä edelleen englannin ja ohjelmointikielet. Samalla arkkitehtuuri päivitettiin nykyaikaisemmaksi.
Siinä missä Poro perustui vanhempaan BLOOM-arkkitehtuuriin, Viking käyttää Llama 2:n kaltaista GPT-rakennetta, jossa ovat mukana kiertyvät paikkakoodaukset (RoPE), Flash Attention ja Grouped Query Attention. Konteksti-ikkuna kasvoi 4096 tokeniin. Koulutusdata kaksinkertaistui kahteen biljoonaan tokeniin. Sanakirjan koko on 131 072 tokeniin ja se kattaa kaikki kohdekielet.
Viking 7B:n koulutus valmistui toukokuussa 2024, ja se oli ensimmäinen avoin kielimalli, joka tukee kaikkia Pohjoismaiden kieliä natiivisti. Viking 13B ja 33B julkaistiin checkpointeina, joista 13B valmistui myöhemmin ja 33B julkaistiin osittain koulutettuna. Malliperhe osoitti, että sama kieltenvälinen lähestymistapa toimii myös laajemmalle kielivalikoimalle.
Koulutus toteutettiin LUMI-supertietokoneella jopa 4096 AMD MI250X -suorittimella samanaikaisesti. Tämä oli yksi suurimmista yhtenäisistä koulutusajoista AMD-laitteistolla, ja tiimi rakensi siihen tarkoituksen mukautetun avoimen lähdekoodin koulutuskehyksen.
| Tiedot | |
|---|---|
| Kehittäjät | TurkuNLP (Turun yliopisto), SiloGen (Silo AI), HPLT |
| Parametrit | 7.55B / 13B / 33B |
| Kielet | suomi, ruotsi, norja, tanska, islanti, englanti, ohjelmointikielet |
| Koulutusdata | 2T tokenia |
| Arkkitehtuuri | Llama 2 -tyylinen (RoPE, flash attention, GQA) |
| Konteksti-ikkuna | 4096 tokenia |
| Lisenssi | Apache 2.0 |
| Huggingface | LumiOpen/Viking-7B, Viking-13B, Viking-33B |
| GitHub | LumiOpen/Megatron-DeepSpeed |
| Julkaisu | huhtikuu 2024 (ensimmäiset tarkistuspisteet), toukokuu 2024 (Viking 7B valmis) |
5. Ahma 3B ja 7B (Finnish-NLP) — kesäkuu 2024
Ahma-mallisarjan taustalla on kaksi itsenäistä kehittäjää, Aapo Tanskanen ja Rasmus Toivanen, jotka ovat kouluttaneet suomenkielisiä kielimalleja vuodesta 2021 lähtien. Heidän Finnish-NLP-organisaationsa on tuottanut GPT-2-malleja, RoBERTa-malleja, T5-malleja ja lopulta Llama-pohjaisia malleja suomelle.
Ahma 3B (3.6B parametria) ja Ahma 7B (7.0B parametria) koulutettiin kokonaan alusta alkaen suomenkielisellä datalla. Molemmat käyttävät alkuperäistä Llama (v1) -arkkitehtuuria 2048 tokenin konteksti-ikkunalla. Koulutuksessa hyödynnettiin tutkimusta toistuvan datan vaikutuksesta, sillä suomenkielistä dataa jouduttiin kierrättämään useaan kertaan: Ahma 3B näki 139 miljardia tokenia ja Ahma 7B vastaavasti 149 miljardia tokenia.
Koulutus tapahtui Googlen TPU Research Cloud -resursseja hyödyntäen. Ahma 7B:lle tehtiin kaksivaiheinen esikoulutus, jossa toisessa vaiheessa instruction-esimerkkejä sekoitettiin muun koulutusdatan joukkoon. Lisäksi julkaistiin instruct-viritetyt versiot: Ahma 3B Instruct ja Ahma 7B Instruct.
| Tiedot | |
|---|---|
| Kehittäjät | Finnish-NLP (Aapo Tanskanen, Rasmus Toivanen) |
| Parametrit | 3.6B / 7.0B |
| Kieli | suomi (yksikielinen) |
| Koulutusdata | ~139B tokenia (3B), ~149B tokenia (7B) |
| Arkkitehtuuri | Llama v1 |
| Konteksti-ikkuna | 2048 tokenia |
| Lisenssi | Apache 2.0 |
| Paperi | viittaa arXiv:2305.16264 (Scaling Data-Constrained LMs) |
| Huggingface | Finnish-NLP/Ahma-3B, Ahma-7B, Ahma-3B-Instruct, Ahma-7B-Instruct |
| Julkaisu | kesäkuu 2024 |
6. Finnish-NLP/llama-3b-finnish ja llama-7b-finnish — 2023–2024
Finnish-NLP julkaisi myös aikaisemman sukupolven Llama-malleja, jotka koulutettiin alusta alkaen 131 miljardin tokenin suomenkielisellä datalla. Nämä mallit ovat Ahma-sarjan edeltäjiä ja käyttävät samaa Llama v1 -arkkitehtuuria. Ne ovat puhtaita perusmalleja ilman instruction-viritystä.
| Tiedot | |
|---|---|
| Kehittäjät | Finnish-NLP (Aapo Tanskanen, Rasmus Toivanen) |
| Parametrit | 3.6B / 7.0B |
| Kieli | suomi (yksikielinen) |
| Koulutusdata | ~131B tokenia |
| Arkkitehtuuri | Llama v1 |
| Lisenssi | Apache 2.0 |
| Huggingface | Finnish-NLP/llama-3b-finnish, llama-7b-finnish |
| Julkaisu | 2023–2024 |
7. Ahma 2 (Gemma 3 4B Instruct) — 2025
Ahma-sarjan uusin jäsen edustaa strategista muutosta: sen sijaan, että malli koulutettaisiin alusta asti, Googlen Gemma 3 4B -mallia jatkokoulutettiin suomenkielisellä datalla. Kolmivaiheinen menetelmä koostuu jatkokoulutuksesta (continued pretraining, CP) englannin, suomen ja koodinvaihdon sekoituksella, supervised fine-tuningista (SFT) ja Direct Preference Optimizationista (DPO). Jatkokoulutus ja viritys painottuvat suomeen.
Ahma 2 4B Instruct parantaa selvästi aiempia Ahma-versioita kaikissa MTBench Finnish -kategorioissa. Erityisesti koodaus, matematiikka ja tiedonpoiminta paranivat merkittävästi. Malli koulutettiin Datacrunch/Verda-pilvipalvelun sponsoroimilla resursseilla (fine-tuning) ja Google TPU Research Cloudilla (esikoulutus).
| Tiedot | |
|---|---|
| Kehittäjät | Finnish-NLP (Rasmus Toivanen, Aapo Tanskanen) |
| Parametrit | 4B |
| Kielet | suomi (ensisijainen), englanti |
| Perusmalli | Google Gemma 3 4B |
| Menetelmä | CP + SFT + DPO |
| Lisenssi | Apache 2.0 |
| Huggingface | Finnish-NLP/Ahma-2-4B-Instruct |
| Julkaisu | 2025 |
8. Poro 2 (8B ja 70B) — kesäkuu 2025
Poro 2 edustaa uusinta sukupolvea ja merkitsee samalla lähestymistavan muutosta: sen sijaan, että malli koulutettaisiin alusta alkaen, lähtökohtana on Metan Llama 3.1 -perusmalli, jota jatkokoulutetaan 165 miljardin merkin datasetillä, jossa ovat mukana suomi, englanti, koodi ja matematiikka. Tämä jatkokoulutusmenetelmä (continued pretraining) on huomattavasti resurssitehokkaampi kuin koulutus tyhjästä.
Poro 2 -malliperheessä on kaksi kokoa, 8B ja 70B, ja kummastakin julkaistaan kolme versiota: perusmalli (base), SFT-viritetty versio ja lopullinen Instruct-malli, jossa on lisäksi DPO-optimointi. SFT-vaiheessa käytettiin 1,4 miljoonaa ohje-esimerkkiä englanniksi ja suomeksi, ja DPO-vaiheessa HelpSteer3-preferenssidataa.
Tulokset ovat vakuuttavia: Poro 2 8B Instruct parantaa suomenkielistä ohjeidenmukaisuutta keskimäärin 24 prosentilla verrattuna Llama 3.1 8B Instructiin ja voittaa myös Gemma 2 9B:n ja EuroLLM 9B:n suomessa. Poro 2 70B Instruct puolestaan ylittää Llama 3.3 70B Instructin suomessa yli 6 prosentilla säilyttäen samalla erinomaisen englanninkielisen suorituskyvyn.
Koulutuskehys päivitettiin Megatron-LM-pohjaiseksi (aiemmin Megatron-DeepSpeed). AMD Silo AI julkaisi samalla yksityiskohtaisen Continued Pretraining Playbook -oppaan, joka kuvaa koko prosessin datankeruusta evaluointiin ja tarjoaa muille kielille sovellettavan mallin.
| Tiedot | |
|---|---|
| Kehittäjät | AMD Silo AI, TurkuNLP (Turun yliopisto), HPLT |
| Parametrit | 8.03B / 70B |
| Kielet | suomi, englanti (+ koodi ja matematiikka) |
| Perusmalli | Llama 3.1 8B / 70B |
| Koulutusdata | 165B tokenia (jatkokoulutus) |
| Menetelmä | Continued pretraining + SFT + DPO |
| Konteksti-ikkuna | 8192 tokenia |
| Lisenssi | Llama 3.1/3.3 Community License |
| Huggingface | LumiOpen/Llama-Poro-2-8B-Instruct, Llama-Poro-2-70B-Instruct |
| GitHub | LumiOpen/Megatron-LM-lumi |
| Julkaisu | kesäkuu 2025 |
Vertailutuloksia
Suomenkieliset benchmarkit
Alla olevassa taulukossa esitetään keskeisten mallien suorituskykytulokset suomenkielisissä arvioinneissa. MTBench Finnish -tulokset on arvioitu LLM-tuomarina (tyypillisesti GPT-4), IFEval mittaa konkreettisten ohjeiden noudattamista ja AlpacaEval 2 yleistä vastausten laatua. Pohjamalleille (base) arviointituloksia on saatavilla FIN-bench-kehyksestä.
| Malli | Parametrit | MTBench FI (multi-turn) | IFEval FI | AlpacaEval 2 FI | Huom. |
|---|---|---|---|---|---|
| Ahma 3B Instruct | 3.6B | 4.05 | — | — | yksikielinen, pieni |
| Ahma 7B Instruct | 7.0B | 4.59 | — | — | yksikielinen |
| Llama 3.1 8B Instruct (viite) | 8B | 4.10 | 47.31 | 2.05 | englantikeskeinen |
| EuroLLM 9B Instruct (viite) | 9B | — | 44.17 | 8.15 | EU-monikielinen (v1) |
| Gemma 2 9B IT (viite) | 9B | — | 55.82 | 21.85 | monikielinen |
| Poro 34B Chat | 34.2B | 6.06 | — | — | monikielinen base |
| Ahma 2 4B Instruct | 4B | 6.57 | — | — | Gemma 3 -pohjainen |
| Poro 2 8B Instruct | 8B | 6.75 | 66.54 | 28.89 | Llama 3.1 -pohjainen |
| Poro 2 70B Instruct | 70B | 7.77 | 70.79 | 41.96 | lama 3.1 -pohjainen |
Kansainväliset monikieliset benchmarkit
Suomenkielisten arviointien lisäksi on hyödyllistä tarkastella monikielisiä benchmarkeja, joissa myös suuret kansainväliset mallit on testattu. Alla oleva taulukko perustuu EuroLLM-22B:n tuoreisiin vertailutuloksiin, joissa pisteet on laskettu kaikkien EuroLLM:n tukemien kielten (mukaan lukien suomi) keskiarvoina.
| Malli | Parametrit | HellaSwag | MMLU | MMLU-Pro | ARC-C | MGSM | Flores | WMT24++ | Borda |
|---|---|---|---|---|---|---|---|---|---|
| Täysin avoin | |||||||||
| EuroLLM-22B | 22B | 61.74 | 64.10 | 45.33 | 82.66 | 76.07 | 88.88 | 83.62 | 4.9 |
| Apertus-70B | 70B | 61.22 | 60.33 | 36.50 | 78.59 | 72.73 | 88.17 | 81.96 | 6.6 |
| OLMo-2-32B | 32B | 44.29 | 62.79 | 39.90 | 81.09 | 79.18 | 82.39 | 76.38 | 7.1 |
| Avoimet parametrit | |||||||||
| Mistral-3.2-24B | 24B | 82.59 | 74.80 | 64.09 | 89.22 | 89.58 | 82.73 | 72.81 | 4.7 |
| Llama-3.3-70B | 70B | 73.54 | 78.43 | 65.68 | 90.13 | 91.64 | 88.15 | 82.28 | 3.3 |
| Gemma-3-27B | 27B | 74.60 | 74.58 | 60.21 | 90.09 | 88.44 | 88.81 | 83.65 | 3.7 |
| Qwen3-32B | 32B | 79.51 | 78.97 | 70.14 | 92.55 | 91.69 | 86.36 | 81.69 | 2.9 |
| Qwen3-30B-A3B | 30B (3B akt.) | 78.96 | 79.54 | 71.98 | 92.33 | 90.53 | 86.57 | 81.90 | 2.9 |
Lähde: EuroLLM-22B Technical Report (arXiv:2602.05879). Borda Count kuvaa mallin keskimääräistä sijoitusta kaikissa benchmarkeissa (pienempi on parempi). Lihavoitu arvo on paras koko taulukossa, alleviivattu paras täysin avoin malli.
EuroLLM-22B ansaitsee erityismaininnan: se on EU-rahoitteinen, täysin avoin (Apache 2.0) ja tukee kaikkia EU:n virallisia kieliä mukaan lukien suomi. Malli koulutettiin 4 biljoonalla tokenilla 400 NVIDIA H100 -suorittimella MareNostrum5-supertietokoneella EuroHPC-laskentaresursseilla. Kehittäjänä on UTTER-konsortio (Unified Transcription and Translation for Extended Reality), johon kuuluvat Lissabonin Instituto Superior Técnico, Edinburghin yliopisto, Unbabel, NAVER Labs Europe ja Amsterdamin yliopisto. EuroLLM-22B:n arkkitehtuuri on moderni Transformer GQA:lla, RoPE:lla, SwiGLU-aktivaatioilla ja 32 768 tokenin konteksti-ikkunalla. Malli on erityisen vahva käännöstehtävissä, joissa se päihittää huomattavasti suurempia malleja Flores- ja WMT24++-benchmarkeissa.
Vertailun haasteet
Suoraa vertailua suomeen optimoitujen mallien ja kansainvälisten mallien välillä vaikeuttaa yhteisten suomenkielisten benchmarkien puute. MTBench Finnish ja IFEval Finnish ovat LumiOpen-tiimin kääntämiä ja ylläpitämiä arviointeja, joilla ei ole vielä laajaa kansainvälistä käyttöä. Monikielisten benchmarkien tulokset puolestaan ovat keskiarvoja useista kielistä, eivätkä kerro yksittäisen kielen suoritustasosta. Käytännön kokemukset viittaavat siihen, että suomeen optimoidut mallit tuottavat luontevampaa suomea, vaikka yleinen älykkyys ei olisi yhtä korkea kuin parhailla kansainvälisillä malleilla.
Arkkitehtuurien kehitys
Suomalaisten mallien historia heijastaa koko LLM-kentän arkkitehtuurikehitystä.
Ensimmäinen sukupolvi, johon kuuluvat FinGPT ja Poro 34B, perustui BLOOM-arkkitehtuuriin ALiBi-positiokoodauksella. Tämä oli luonteva valinta, koska TurkuNLP:n tutkijat olivat olleet mukana alkuperäisen BLOOM-mallin kehittämisessä BigScience-hankkeen kautta. ALiBi mahdollistaa konteksti-ikkunan ekstrapoloinnin päättelyaikana ilman uudelleenkoulutusta, mutta 2048 tokenin koulutusmaksimi rajoitti mallien käytännön soveltuvuutta.
Toinen sukupolvi eli Viking-malliperhe päivitti arkkitehtuurin Llama 2 -tyyliseksi: rotary positional embeddings (RoPE), flash attention ja grouped query attention tulivat käyttöön. Konteksti-ikkuna kasvoi 4096 tokeniin ja koulutuskehys modernisoitiin.
Kolmas sukupolvi, Poro 2, ei enää kouluta mallia alusta alkaen vaan jatkokouluttaa Llama 3.1 -perusmallia. Tämä lähestymistapa hyödyntää englannin kielen jo opittuja kyvykkyyksiä ja siirtää niitä kieltenvälisesti suomeen. Konteksti-ikkuna on 8192 tokenia ja koulutuskehys on vaihtunut Megatron-LM-pohjaiseksi.
Finnish-NLP:n Ahma-sarja on kulkenut rinnakkaista polkua: Llama v1 -arkkitehtuuri alusta koulutettuna, ja uusin Ahma 2 siirtyy samaan jatkokoulutusmalliin Gemma 3:n päällä.
LUMI ja laskentainfrastruktuuri
Lähes kaikki suuret suomalaiset kielimallit on koulutettu LUMI-supertietokoneella Kajaanissa. LUMI on EuroHPC-yhteishankkeen rahoittama ja CSC:n operoima, ja se on ollut koulutushetkinä Euroopan tehokkain supertietokone. Alkuperäinen LUMI-G-osio koostuu AMD Instinct MI250X -kiihdyttimistä, joista jokainen sisältää kaksi Graphics Complex Die (GCD) -yksikköä.
Poron koulutuksessa käytettiin 512 MI250X-suoritinta (world size 1024), ja Viking skaalautui jopa 4096 MI250X:ään. Silo AI ja TurkuNLP rakensivat AMD:n laitteistolle räätälöidyn ohjelmistokerroksen, joka perustuu Megatron-DeepSpeed-kehykseen ja myöhemmin Megatron-LM-pohjaiseen kehykseen. Koulutuksessa käytetään 3D-parallelismia (tensor, pipeline ja data parallelism) ja bfloat16-tarkkuutta.
Seuraava sukupolvi: LUMI-AI ja tekoälytehdas
Vuonna 2026 suomalainen tekoälyinfrastruktuuri on siirtymässä uuteen aikakauteen LUMI-tekoälytehdashankkeen myötä. Kajaanin Renforsin rannassa on parhaillaan käynnissä CSC:n historian suurin datakeskushanke. Tammikuussa 2026 alkanut rakennusprojekti muuntaa vanhan paperikonehallin maailman edistyneimmäksi tekoäly- ja kvanttilaskennan keskukseksi. Uuden datakeskuksen on määrä valmistua keväällä 2027. Sinne sijoitetaan tekoälyyn optimoitu LUMI-AI-supertietokone sekä LUMI-IQ-kvanttitietokone. Tämä yhdistelmä mahdollistaa kvanttikiihdytetyn tekoälykehityksen, mikä on kansainvälisesti poikkeuksellista. Osana infrastruktuurin päivitystä nykyiseen datakeskukseen lisättiin vuonna 2025 kansallinen Roihu-supertietokone, joka tarjoaa merkittävää lisäkapasiteettia suomalaisille tutkijoille ja yrityksille. LUMI-AI toteutetaan kuuden maan konsortiona, johon kuuluvat Suomen lisäksi Norja, Puola, Tanska, Tšekki ja Viro.
LUMI-infrastruktuuri käyttää sataprosenttisesti vesivoimalla tuotettua sähköä, ja sen hukkalämpö kattaa noin 20 prosenttia Kajaanin kaupungin kaukolämmöstä. Uusi LUMI-AI-datakeskus jatkaa tätä linjaa hyödyntämällä modernia lämmön talteenottoa, ja rakentamisessa käytetään paikallisia materiaaleja, kuten kainuulaista CLT-puuelementtiä.
CSC Blogi: LUMI-AI-datakeskuksen rakentaminen täydessä vauhdissa (17.3.2026)
Yhteenveto ja linkkikokoelma
| Malli | Julkaisu | Parametrit | Arkkitehtuuri | Kielet | HF-linkki | Paperi |
|---|---|---|---|---|---|---|
| FinGPT (13B) | 11/2023 | 13.3B | BLOOM/ALiBi | fi | TurkuNLP/gpt3-finnish-13B | 2311.05640 |
| Poro 34B | 11/2023 | 34.2B | BLOOM/ALiBi | fi, en, koodi | LumiOpen/Poro-34B | 2404.01856 |
| Poro 34B Chat OA | 2024 | 34.2B | BLOOM/ALiBi + SFT/DPO | fi, en | LumiOpen/Poro-34B-chat-OpenAssistant | 2503.09407 |
| llama-3b-finnish | 2023–2024 | 3.6B | Llama v1 | fi | Finnish-NLP/llama-3b-finnish | — |
| Viking 7B | 04–05/2024 | 7.55B | Llama 2 -tyylinen | fi, en, pohjoism. | LumiOpen/Viking-7B | — |
| Viking 13B | 2024 | 13B | Llama 2 -tyylinen | fi, en, pohjoism. | LumiOpen/Viking-13B | — |
| Viking 33B | 2024 | 33B | Llama 2 -tyylinen | fi, en, pohjoism. | LumiOpen/Viking-33B | — |
| Ahma 3B / 7B | 06/2024 | 3.6B / 7.0B | Llama v1 | fi | Finnish-NLP/Ahma-7B | — |
| Ahma 2 4B Instruct | 2025 | 4B | Gemma 3 + CP/SFT/DPO | fi | Finnish-NLP/Ahma-2-4B-Instruct | — |
| Poro 2 8B Instruct | 06/2025 | 8.03B | Llama 3.1 + CP/SFT/DPO | fi, en | LumiOpen/Llama-Poro-2-8B-Instruct | — |
| Poro 2 70B Instruct | 06/2025 | 70B | Llama 3.1 + CP/SFT/DPO | fi, en | LumiOpen/Llama-Poro-2-70B-Instruct | — |
| EuroLLM-22B Instruct* | 2025 | 22B | Transformer/GQA/RoPE | fi + 34 kieltä | utter-project/EuroLLM-22B-Instruct-2512 | 2602.05879 |
*EuroLLM-22B ei ole suomalainen malli, mutta se tukee suomea ja on EU-rahoitteinen vertailukohta.
GitHub-repositoriot: TurkuNLP/Megatron-DeepSpeed, LumiOpen/Megatron-DeepSpeed, LumiOpen/Megatron-LM-lumi, LumiOpen/evaluation, LumiOpen/FastChat (MTBench Finnish).
Mihin suomalaisten mallien kehitys on matkalla?
Suomalaisten kielimallien kehityskaari viimeisen kahden vuoden aikana kertoo selkeän tarinan. Ensimmäinen sukupolvi todisti, että suomenkielisiä malleja ylipäätään voi kouluttaa ja että monikielinen koulutus päihittää yksikielisen lähestymistavan datanpuutteessa. Toinen sukupolvi laajensi kielivalikoimaa ja modernisoi arkkitehtuurin. Kolmas sukupolvi siirtyi jatkokoulutukseen, joka tuottaa paremmat tulokset murto-osalla alkuperäisestä laskentakustannuksesta.
Tämä kehityssuunta on merkityksellinen myös laajemmin. AMD Silo AI julkaisi Poro 2:n yhteydessä yksityiskohtaisen Continued Pretraining Playbook -oppaan, joka tarjoaa muille maille ja kielille toistettavan mallin. Jos suomenkaltaiselle vähäresurssiselle kielelle voi rakentaa kilpailukykyisen 70 miljardin parametrin mallin jatkokoulutuksella, sama lähestymistapa avautuu sadoille muille kielille ympäri maailmaa.
Merkittävin tiedossa oleva tuleva hanke on OpenEuroLLM, EU-rahoitteinen konsortio, jonka tavoitteena on rakentaa suorituskykyinen, monikielinen perusmalli kaikille Euroopan kielille. Hanketta koordinoi Kaarlen yliopisto Tšekissä, ja sitä johtaa AMD Silo AI:n Peter Sarlin. Konsortioon kuuluu 20 eurooppalaista tutkimuslaitosta ja yritystä, mukaan lukien saksalainen Aleph Alpha. Hankkeen budjetti on 37,4 miljoonaa euroa, josta valtaosa tulee Euroopan komissiolta. Kolmivuotinen tiekartta alkoi helmikuussa 2025, ja välitulosten odotetaan valmistuvan jo ensimmäisen vuoden aikana. OpenEuroLLM-perusmallin päälle rakennetaan erillisessä LLMs4EU-hankkeessa sovelluksia eri käyttötarkoituksiin.
AMD Silo AI:n laajempi strategia on siirtynyt kielimallien lisäksi kohti fyysistä tekoälyä ja robotiikkaa. Yhtiö on solminut yhteistyösopimuksia autonomisen ajamisen, robotiikkasimulaation ja multimodaalisten VLA-mallien (Vision Language Action) kehittämiseksi. Samalla Poro- ja Viking-malliperheiden kehittämisestä saatua osaamista hyödynnetään muiden eurooppalaisten kielten tukemiseen, kuten latvialainen Tilde on osoittanut kouluttamalla oman 30+ miljardin parametrin baltoslaavilaisen mallinsa AMD-laitteistolla.
Finnish-NLP-yhteisö jatkaa aktiivisena. Ahma 2:n julkaisun yhteydessä tiimi ilmoitti työskentelevänsä jo datasetien ja menetelmien parantamisen parissa suurempien mallien skaalaamista varten. Jatkokoulutusparadigman yleistyminen tarkoittaa, että kunkin uuden sukupolven perusmallin (Llama, Gemma, Qwen ja muut) julkaisun jälkeen suomenkielinen jatkokoulutus voidaan toteuttaa suhteellisen nopeasti ja edullisesti.
Suomalaisten kielimallien kehitys on osoitus siitä, että pienikin kielialue voi olla teknologisen kehityksen kärjessä, kun osaaminen, laskentaresurssit ja avoin yhteistyö kohtaavat. Vaikka globaalit jättiläiset hallitsevat markkinoita, kotimaisten mallien merkitys suomen kielen vivahteiden ymmärtämisessä, digitaalisen suvereniteetin varmistamisessa ja avoimen tutkimuksen edistämisessä on korvaamaton. Tulevaisuudessa suomalainen osaaminen näyttää toivottavasti suuntaa myös laajemmille eurooppalaisille hankkeille.