Kuva Raul Kozenevski

Suomalaiset suuret kielimallit

Suomen kieli on haastava kohde suurille kielimalleille. Alle viisi miljoonaa äidinkielistä puhujaa, rikas morfologia ja vähäiset digitaaliset resurssit tekevät suomesta niin sanotun vähäresurssisen kielen, jolle ei yksinkertaisesti ole tarjolla lähelläkkään samaa datamäärää kuin englannille. Silti Suomessa on viime vuosina syntynyt joitakin avoimia kielimalleja, jotka ovat täysin toimivia ja hyödyllisiä, eivät pelkästään tutkimusartifakteja.

Tässä kirjoituksessa käyn kronologisesti läpi keskeiset suomalaiset LLM-hankkeet: niiden taustaorganisaatiot, arkkitehtuuriratkaisut, koulutusmenetelmät ja vertailutulokset.


Keskeisiä termejä

Lyhenne Englanniksi Suomeksi
LLM Large Language Model Suuri kielimalli. Tekoälymalli, joka on oppinut tuottamaan ja ymmärtämään tekstiä valtavasta datamäärästä.
NLP Natural Language Processing Luonnollisen kielen käsittely. Tietojenkäsittelytieteen ala, joka tutkii ihmiskielen automaattista ymmärtämistä ja tuottamista.
GPT Generative Pre-trained Transformer Generatiivinen esikoulutettu muunnin. Arkkitehtuuri, jossa malli oppii ennustamaan seuraavan sanan pitkissä tekstijonoissa.
SFT Supervised Fine-Tuning Valvottu hienosäätö. Perusmallia opetetaan esimerkkien avulla noudattamaan ohjeita ja vastaamaan kysymyksiin.
DPO Direct Preference Optimization Suora preferenssioptimointi. Menetelmä, jossa mallia opetetaan tuottamaan ihmisten mielestä parempia vastauksia vertailuparien avulla.
CP Continued Pretraining Jatkokoulutus. Valmiiksi koulutetun mallin kouluttamista jatketaan uudella datalla, esimerkiksi uudella kielellä.

Mallien nimissä esiintyvä numero, kuten "7B" tai "70B", viittaa parametrien lukumäärään miljardeissa (B = billion). Parametrit ovat mallin opittuja painoja, joiden avulla se käsittelee kieltä. Karkeasti ottaen mitä enemmän parametreja, sitä suurempi mallin kapasiteetti on, mutta samalla sen vaatima laskentateho ja muisti kasvavat. Esimerkiksi "Poro 34B" tarkoittaa 34,2 miljardin parametrin mallia, kun taas "Ahma 7B" on 7 miljardin parametrin malli. Suurempi ei kuitenkaan ole aina parempi: pienempi, hyvin koulutettu malli voi päihittää suuremman, jos koulutusdata ja -menetelmät ovat laadukkaampia.

Organisaatiot

Suomalaisten kielimallien taustalla on kolme keskeistä toimijaa, joiden yhteistyö on tuottanut valtaosan kaikista julkaistuista malleista.

TurkuNLP on Turun yliopiston luonnollisen kielen käsittelyn tutkimusryhmä, jota johtavat professorit Filip Ginter, Sampo Pyysalo ja Veronika Laippala. Ryhmä tunnetaan kansainvälisesti Universal Dependencies -projektin kontribuutioistaan sekä suomenkielisten NLP-resurssien pitkäjänteisestä kehittämisestä. TurkuNLP on ollut mukana käytännössä kaikissa merkittävissä suomalaisissa LLM-hankkeissa alusta lähtien ja vastannut erityisesti koulutusdatan keräämisestä, puhdistamisesta ja tieteellisestä julkaisutoiminnasta.

AMD Silo AI perustettiin vuonna 2017 ja kasvoi Euroopan suurimmaksi yksityiseksi tekoälylaboratorioksi. Yhtiö on erityisesti generatiivisen tekoälynsä SiloGen-yksikön kautta ollut keskeinen voimavara mallien koulutusinfrastruktuurin, ohjelmistokehityksen ja kaupallisen strategian puolella. AMD osti Silo AI:n vuonna 2024, minkä jälkeen yhteistyö LUMI-supertietokoneen ja AMD:n laitteiston kanssa on entisestään syventynyt.

Finnish-NLP-yhteisö on vapaaehtoispohjainen yhteisö, jonka pääkehittäjät ovat Aapo Tanskanen ja Rasmus Toivanen. He aloittivat suomenkielisten GPT-mallien esikouluttamisen jo vuonna 2021, ja heidän intohimoprojektinsa on tuottanut useita itsenäisiä malleja. Finnish-NLP on toiminut pienemmillä resursseilla kuin akateemis-kaupalliset konsortiot ja hyödyntänyt muun muassa Googlen TPU Research Cloud -ohjelmaa.

Kolmen pääorganisaation lisäksi hankkeissa ovat olleet mukana EU:n Horizon Europe -rahoitteinen HPLT (High Performance Language Technologies) -hanke sekä Tieteen tietotekniikan keskus CSC, joka tarjoaa LUMI-supertietokoneen laskentaresurssit. Mallien julkaisuun käytetty LumiOpen-organisaatio Hugging Facessa on TurkuNLP:n ja Silo AI:n yhteinen alusta.

Kuka tämän kaiken on maksanut?

Suomalaisten kielimallien rahoitus on sekoitus julkista, yksityistä ja eurooppalaista rahaa. Yksikään yksittäinen taho ei ole kustantanut kehitystä kokonaan.

Suurin yksittäinen kustannuserä on laskenta-aika LUMI-supertietokoneella. LUMI on rahoitettu EU:n EuroHPC-yhteishankkeen kautta, johon osallistuvat sekä Euroopan komissio että kansalliset rahoittajat, Suomessa erityisesti opetus- ja kulttuuriministeriö CSC:n kautta. LUMI:n laskenta-aikaa on myönnetty tutkijoille ja yrityksille erillisten hakuprosessien kautta. Kyseessä on miljoonien eurojen arvoinen julkisesti rahoitettu resurssi, jota on tarjottu strategiseen tutkimus- ja kehityskäyttöön.

TurkuNLP:n tutkijat ovat saaneet keskeistä rahoitusta EU:n Horizon Europe -ohjelman HPLT-hankkeesta (hankenumero 101070350). Tämä suora EU-tutkimusrahoitus on kattanut tutkijoiden palkkoja ja mahdollistanut valtavien, monikielisten data-aineistojen kuratoinnin, jotka ovat olleet Poro- ja Viking-mallien perusta.

Silo AI on hyödyntänyt kasvussaan sekä merkittävää yksityistä pääomaa että julkisia kannustimia. Ennen AMD:n yritysostoa Silo AI keräsi yhteensä noin 28,6 miljoonaa dollaria ulkopuolista pääomasijoitusta muun muassa Altorilta, Combientilta ja suomalaisilta enkelisijoittajilta. Yhtiö on saanut pitkäjänteistä tukea Business Finlandilta. Viimeisimpänä vuonna 2025 sille myönnettiin 15 miljoonan euron veturirahoitus "Compute to Impact" -hankkeeseen, jolla vauhditetaan suomalaista tekoälyekosysteemiä ja LUMIn hyödyntämistä. Yrityskaupan myötä kehitysresurssit ovat siirtyneet osaksi AMD:n maailmanlaajuista t&k-budjettia.

Finnish-NLP-yhteisön mallit on koulutettu kevyemmällä budjetilla. Googlen TPU Research Cloud tarjosi laskenta-aikaa maksutta akateemiseen työhön, ja myöhemmin yritykset kuten Datacrunch/Verda ovat sponsoroineet hienosäätöön tarvittavaa laskentatehoa. Kyseessä on pääosin vapaaehtoisten asiantuntijoiden panos, jota yksityiset toimijat ovat tukeneet infrastruktuurilahjoituksin.

Linkkejä

Mallit kronologisessa järjestyksessä

1. FinGPT (TurkuNLP/gpt3-finnish) — marraskuu 2023

FinGPT on ensimmäinen suomenkielinen monikielisten kielimallien perhe, joka koulutettiin kokonaan alusta alkaen. Tutkimusryhmä koulutti seitsemän eri kokoista mallia (186M–13B parametria) puhtaasti suomenkielisellä datalla. Lisäksi he jatkoivat monikielisen BLOOM-mallin koulutusta suomen kielellä ja loivat BLUUMI-nimisen 176 miljardin parametrin mallin. FinGPT-mallien myötä esiteltiin FIN-bench, suomenkielinen versio BIG-bench-arviointikehyksestä.

Arkkitehtuuri perustuu BLOOM-malliin eli GPT-tyyliseen decoder-only-rakenteeseen, jossa käytetään ALiBi-positiokoodausta. Mallit koulutettiin 300 miljardin tokenin suomenkielisellä datasetillä, joka koostuu verkkoryöminnöistä (Parsebank, mC4, Common Crawl), uutisaineistoista (Yle, STT), sosiaalisesta mediasta (Suomi24, Reddit), Wikipediasta, Projekti Lönnrotista ja Kansalliskirjaston kokoelmista. Koulutus toteutettiin LUMI-supertietokoneella.

FinGPT-tutkimus julkaistiin EMNLP 2023 -konferenssissa Singaporessa joulukuussa 2023. Se oli ensimmäinen laaja akateeminen julkaisu suomenkielisten suurten kielimallien kouluttamisesta.

Tiedot
Kehittäjät TurkuNLP (Turun yliopisto), Hugging Face
Parametrit 186M, 437M, 881M, 1.5B, 2.8B, 7.5B, 13.3B (+ BLUUMI 176B)
Kieli suomi (yksikielinen)
Koulutusdata ~300B tokenia, suomenkielinen
Lisenssi Apache 2.0
Paperi arXiv:2311.05640 (EMNLP 2023)
Huggingface TurkuNLP/gpt3-finnish-13B
GitHub TurkuNLP/Megatron-DeepSpeed
Julkaisu marraskuu 2023

2. Poro 34B — marraskuu 2023 (checkpointit), huhtikuu 2024 (paperi)

Poro 34B syntyi oivalluksesta, että monikielisyys voi olla siunaus eikä kirous. Koska suomenkielinen data ei yksinkertaisesti riitä suuremman mallin tehokkaaseen kouluttamiseen, tutkijat yhdistivät englannin, suomen ja ohjelmointikielet samaan koulutusdatasettiin. Tämä lähestymistapa mahdollisti 34 miljardin parametrin mallin kouluttamisen biljoonalla tokenilla, vaikka suomenkielistä dataa oli käytettävissä vain noin 32 miljardia tokenia (upsampattuna neljäksi epookiksi noin 131 miljardiin tokeniin).

Poro käyttää BLOOM-arkkitehtuuria, johon on lisätty ylimääräinen kerrosnormalisointi heti embedding-kerroksen jälkeen koulutuksen vakauttamiseksi. Positiokoodauksessa hyödynnetään ALiBi-tekniikkaa, joka mahdollistaa konteksti-ikkunan laajentamisen päättelyvaiheessa. Malli sisältää 54 kerrosta, 56 huomiopäätä (attention heads) ja 7168:n piilokerrosdimension. Sanakirjan koko on 128 000 tokenia, ja se on räätälöity kattamaan englanti, suomi ja ohjelmointikielet tasapainoisesti.

Koulutusdata koostuu SlimPajamasta (54 %), StarCoderista (32 %) ja suomalaisesta datasta (13 %), johon on lisätty Tatoeba-käännöspareja (0,8 %) ja Project Gutenberg -kirjoja (0,5 %). Käännösparit luovat eksplisiittisen kieltenvälisen signaalin, joka parantaa mallin käännöskykyä ja samalla tukee suomen kielen ymmärtämistä.

Poro koulutettiin 512 AMD MI250X -suorittimella LUMI-supertietokoneella. Koulutus alkoi syyskuussa 2023, ja ensimmäiset checkpointit julkaistiin marraskuussa 2023. Tutkimuspaperiksi malli dokumentoitiin huhtikuussa 2024. Nimensä malli sai suomenkielisestä sanasta "poro" (reindeer), ja se symboloi suomalaista luontoa ja kulttuuria.

Tiedot
Kehittäjät SiloGen (Silo AI), TurkuNLP (Turun yliopisto), HPLT
Parametrit 34.2B
Kielet suomi, englanti, ohjelmointikielet
Koulutusdata 1T tokenia
Arkkitehtuuri BLOOM + ALiBi
Konteksti-ikkuna 2048 tokenia
Lisenssi Apache 2.0
Paperi arXiv:2404.01856
Huggingface LumiOpen/Poro-34B
GitHub TurkuNLP/Megatron-DeepSpeed
Julkaisu marraskuu 2023 (ensimmäiset tarkistuspisteet), huhtikuu 2024 (julkaisu)

3. Poro 34B Chat (OpenAssistant) — 2024

Poro 34B -perusmallin päälle rakennettiin chat-versio, joka kykenee seuraamaan käyttäjän ohjeita sekä suomeksi että englanniksi. Koska suomenkielistä instruction-dataa on erittäin vähän, tutkijat käänsivät englanninkielisiä datasettejä suomeksi käyttäen itse Poro-mallia kääntäjänä. Pohjana olivat OpenAssistant 2 -keskusteluaineisto sekä HelpSteer2-preferenssidatasetti.

Mallille tehtiin ensin supervised fine-tuning (SFT) ja sen jälkeen Direct Preference Optimization (DPO). Tutkimuksen merkittävä löydös oli, että jo 400 suomenkielistä instruction-esimerkkiä riittää kilpailukykyisen suorituskyvyn saavuttamiseen suomenkielisessä ohjeidenmukaisuudessa.

Tähän liittyvä tutkimuspaperi julkaistiin NoDaLiDa 2025 -konferenssissa maaliskuussa 2025.

Tiedot
Kehittäjät TurkuNLP, Silo AI, HPLT
Perusmalli Poro 34B
Menetelmä SFT + DPO
Lisenssi Apache 2.0
Paperi arXiv:2503.09407 (NoDaLiDa 2025)
Huggingface LumiOpen/Poro-34B-chat-OpenAssistant
Julkaisu 2024

4. Viking 7B / 13B / 33B — huhtikuu–toukokuu 2024

Uusi kielimalli Viking julkaistu – ensimmäinen avoin malli pohjoismaisille kielille

Viking-mallisto laajensi Poron lähestymistavan kattamaan kaikki pohjoismaiset kielet: suomen lisäksi tanskan, ruotsin, norjan ja islannin sekä edelleen englannin ja ohjelmointikielet. Samalla arkkitehtuuri päivitettiin nykyaikaisemmaksi.

Siinä missä Poro perustui vanhempaan BLOOM-arkkitehtuuriin, Viking käyttää Llama 2:n kaltaista GPT-rakennetta, jossa ovat mukana kiertyvät paikkakoodaukset (RoPE), Flash Attention ja Grouped Query Attention. Konteksti-ikkuna kasvoi 4096 tokeniin. Koulutusdata kaksinkertaistui kahteen biljoonaan tokeniin. Sanakirjan koko on 131 072 tokeniin ja se kattaa kaikki kohdekielet.

Viking 7B:n koulutus valmistui toukokuussa 2024, ja se oli ensimmäinen avoin kielimalli, joka tukee kaikkia Pohjoismaiden kieliä natiivisti. Viking 13B ja 33B julkaistiin checkpointeina, joista 13B valmistui myöhemmin ja 33B julkaistiin osittain koulutettuna. Malliperhe osoitti, että sama kieltenvälinen lähestymistapa toimii myös laajemmalle kielivalikoimalle.

Koulutus toteutettiin LUMI-supertietokoneella jopa 4096 AMD MI250X -suorittimella samanaikaisesti. Tämä oli yksi suurimmista yhtenäisistä koulutusajoista AMD-laitteistolla, ja tiimi rakensi siihen tarkoituksen mukautetun avoimen lähdekoodin koulutuskehyksen.

Tiedot
Kehittäjät TurkuNLP (Turun yliopisto), SiloGen (Silo AI), HPLT
Parametrit 7.55B / 13B / 33B
Kielet suomi, ruotsi, norja, tanska, islanti, englanti, ohjelmointikielet
Koulutusdata 2T tokenia
Arkkitehtuuri Llama 2 -tyylinen (RoPE, flash attention, GQA)
Konteksti-ikkuna 4096 tokenia
Lisenssi Apache 2.0
Huggingface LumiOpen/Viking-7B, Viking-13B, Viking-33B
GitHub LumiOpen/Megatron-DeepSpeed
Julkaisu huhtikuu 2024 (ensimmäiset tarkistuspisteet), toukokuu 2024 (Viking 7B valmis)

5. Ahma 3B ja 7B (Finnish-NLP) — kesäkuu 2024

Ahma-mallisarjan taustalla on kaksi itsenäistä kehittäjää, Aapo Tanskanen ja Rasmus Toivanen, jotka ovat kouluttaneet suomenkielisiä kielimalleja vuodesta 2021 lähtien. Heidän Finnish-NLP-organisaationsa on tuottanut GPT-2-malleja, RoBERTa-malleja, T5-malleja ja lopulta Llama-pohjaisia malleja suomelle.

Ahma 3B (3.6B parametria) ja Ahma 7B (7.0B parametria) koulutettiin kokonaan alusta alkaen suomenkielisellä datalla. Molemmat käyttävät alkuperäistä Llama (v1) -arkkitehtuuria 2048 tokenin konteksti-ikkunalla. Koulutuksessa hyödynnettiin tutkimusta toistuvan datan vaikutuksesta, sillä suomenkielistä dataa jouduttiin kierrättämään useaan kertaan: Ahma 3B näki 139 miljardia tokenia ja Ahma 7B vastaavasti 149 miljardia tokenia.

Koulutus tapahtui Googlen TPU Research Cloud -resursseja hyödyntäen. Ahma 7B:lle tehtiin kaksivaiheinen esikoulutus, jossa toisessa vaiheessa instruction-esimerkkejä sekoitettiin muun koulutusdatan joukkoon. Lisäksi julkaistiin instruct-viritetyt versiot: Ahma 3B Instruct ja Ahma 7B Instruct.

Tiedot
Kehittäjät Finnish-NLP (Aapo Tanskanen, Rasmus Toivanen)
Parametrit 3.6B / 7.0B
Kieli suomi (yksikielinen)
Koulutusdata ~139B tokenia (3B), ~149B tokenia (7B)
Arkkitehtuuri Llama v1
Konteksti-ikkuna 2048 tokenia
Lisenssi Apache 2.0
Paperi viittaa arXiv:2305.16264 (Scaling Data-Constrained LMs)
Huggingface Finnish-NLP/Ahma-3B, Ahma-7B, Ahma-3B-Instruct, Ahma-7B-Instruct
Julkaisu kesäkuu 2024

6. Finnish-NLP/llama-3b-finnish ja llama-7b-finnish — 2023–2024

Finnish-NLP julkaisi myös aikaisemman sukupolven Llama-malleja, jotka koulutettiin alusta alkaen 131 miljardin tokenin suomenkielisellä datalla. Nämä mallit ovat Ahma-sarjan edeltäjiä ja käyttävät samaa Llama v1 -arkkitehtuuria. Ne ovat puhtaita perusmalleja ilman instruction-viritystä.

Tiedot
Kehittäjät Finnish-NLP (Aapo Tanskanen, Rasmus Toivanen)
Parametrit 3.6B / 7.0B
Kieli suomi (yksikielinen)
Koulutusdata ~131B tokenia
Arkkitehtuuri Llama v1
Lisenssi Apache 2.0
Huggingface Finnish-NLP/llama-3b-finnish, llama-7b-finnish
Julkaisu 2023–2024

7. Ahma 2 (Gemma 3 4B Instruct) — 2025

Ahma-sarjan uusin jäsen edustaa strategista muutosta: sen sijaan, että malli koulutettaisiin alusta asti, Googlen Gemma 3 4B -mallia jatkokoulutettiin suomenkielisellä datalla. Kolmivaiheinen menetelmä koostuu jatkokoulutuksesta (continued pretraining, CP) englannin, suomen ja koodinvaihdon sekoituksella, supervised fine-tuningista (SFT) ja Direct Preference Optimizationista (DPO). Jatkokoulutus ja viritys painottuvat suomeen.

Ahma 2 4B Instruct parantaa selvästi aiempia Ahma-versioita kaikissa MTBench Finnish -kategorioissa. Erityisesti koodaus, matematiikka ja tiedonpoiminta paranivat merkittävästi. Malli koulutettiin Datacrunch/Verda-pilvipalvelun sponsoroimilla resursseilla (fine-tuning) ja Google TPU Research Cloudilla (esikoulutus).

Tiedot
Kehittäjät Finnish-NLP (Rasmus Toivanen, Aapo Tanskanen)
Parametrit 4B
Kielet suomi (ensisijainen), englanti
Perusmalli Google Gemma 3 4B
Menetelmä CP + SFT + DPO
Lisenssi Apache 2.0
Huggingface Finnish-NLP/Ahma-2-4B-Instruct
Julkaisu 2025

8. Poro 2 (8B ja 70B) — kesäkuu 2025

Poro 2 edustaa uusinta sukupolvea ja merkitsee samalla lähestymistavan muutosta: sen sijaan, että malli koulutettaisiin alusta alkaen, lähtökohtana on Metan Llama 3.1 -perusmalli, jota jatkokoulutetaan 165 miljardin merkin datasetillä, jossa ovat mukana suomi, englanti, koodi ja matematiikka. Tämä jatkokoulutusmenetelmä (continued pretraining) on huomattavasti resurssitehokkaampi kuin koulutus tyhjästä.

Poro 2 -malliperheessä on kaksi kokoa, 8B ja 70B, ja kummastakin julkaistaan kolme versiota: perusmalli (base), SFT-viritetty versio ja lopullinen Instruct-malli, jossa on lisäksi DPO-optimointi. SFT-vaiheessa käytettiin 1,4 miljoonaa ohje-esimerkkiä englanniksi ja suomeksi, ja DPO-vaiheessa HelpSteer3-preferenssidataa.

Tulokset ovat vakuuttavia: Poro 2 8B Instruct parantaa suomenkielistä ohjeidenmukaisuutta keskimäärin 24 prosentilla verrattuna Llama 3.1 8B Instructiin ja voittaa myös Gemma 2 9B:n ja EuroLLM 9B:n suomessa. Poro 2 70B Instruct puolestaan ylittää Llama 3.3 70B Instructin suomessa yli 6 prosentilla säilyttäen samalla erinomaisen englanninkielisen suorituskyvyn.

Koulutuskehys päivitettiin Megatron-LM-pohjaiseksi (aiemmin Megatron-DeepSpeed). AMD Silo AI julkaisi samalla yksityiskohtaisen Continued Pretraining Playbook -oppaan, joka kuvaa koko prosessin datankeruusta evaluointiin ja tarjoaa muille kielille sovellettavan mallin.

Tiedot
Kehittäjät AMD Silo AI, TurkuNLP (Turun yliopisto), HPLT
Parametrit 8.03B / 70B
Kielet suomi, englanti (+ koodi ja matematiikka)
Perusmalli Llama 3.1 8B / 70B
Koulutusdata 165B tokenia (jatkokoulutus)
Menetelmä Continued pretraining + SFT + DPO
Konteksti-ikkuna 8192 tokenia
Lisenssi Llama 3.1/3.3 Community License
Huggingface LumiOpen/Llama-Poro-2-8B-Instruct, Llama-Poro-2-70B-Instruct
GitHub LumiOpen/Megatron-LM-lumi
Julkaisu kesäkuu 2025

Vertailutuloksia

Suomenkieliset benchmarkit

Alla olevassa taulukossa esitetään keskeisten mallien suorituskykytulokset suomenkielisissä arvioinneissa. MTBench Finnish -tulokset on arvioitu LLM-tuomarina (tyypillisesti GPT-4), IFEval mittaa konkreettisten ohjeiden noudattamista ja AlpacaEval 2 yleistä vastausten laatua. Pohjamalleille (base) arviointituloksia on saatavilla FIN-bench-kehyksestä.

Malli Parametrit MTBench FI (multi-turn) IFEval FI AlpacaEval 2 FI Huom.
Ahma 3B Instruct 3.6B 4.05 yksikielinen, pieni
Ahma 7B Instruct 7.0B 4.59 yksikielinen
Llama 3.1 8B Instruct (viite) 8B 4.10 47.31 2.05 englantikeskeinen
EuroLLM 9B Instruct (viite) 9B 44.17 8.15 EU-monikielinen (v1)
Gemma 2 9B IT (viite) 9B 55.82 21.85 monikielinen
Poro 34B Chat 34.2B 6.06 monikielinen base
Ahma 2 4B Instruct 4B 6.57 Gemma 3 -pohjainen
Poro 2 8B Instruct 8B 6.75 66.54 28.89 Llama 3.1 -pohjainen
Poro 2 70B Instruct 70B 7.77 70.79 41.96 lama 3.1 -pohjainen

Kansainväliset monikieliset benchmarkit

Suomenkielisten arviointien lisäksi on hyödyllistä tarkastella monikielisiä benchmarkeja, joissa myös suuret kansainväliset mallit on testattu. Alla oleva taulukko perustuu EuroLLM-22B:n tuoreisiin vertailutuloksiin, joissa pisteet on laskettu kaikkien EuroLLM:n tukemien kielten (mukaan lukien suomi) keskiarvoina.

Malli Parametrit HellaSwag MMLU MMLU-Pro ARC-C MGSM Flores WMT24++ Borda
Täysin avoin
EuroLLM-22B 22B 61.74 64.10 45.33 82.66 76.07 88.88 83.62 4.9
Apertus-70B 70B 61.22 60.33 36.50 78.59 72.73 88.17 81.96 6.6
OLMo-2-32B 32B 44.29 62.79 39.90 81.09 79.18 82.39 76.38 7.1
Avoimet parametrit
Mistral-3.2-24B 24B 82.59 74.80 64.09 89.22 89.58 82.73 72.81 4.7
Llama-3.3-70B 70B 73.54 78.43 65.68 90.13 91.64 88.15 82.28 3.3
Gemma-3-27B 27B 74.60 74.58 60.21 90.09 88.44 88.81 83.65 3.7
Qwen3-32B 32B 79.51 78.97 70.14 92.55 91.69 86.36 81.69 2.9
Qwen3-30B-A3B 30B (3B akt.) 78.96 79.54 71.98 92.33 90.53 86.57 81.90 2.9

Lähde: EuroLLM-22B Technical Report (arXiv:2602.05879). Borda Count kuvaa mallin keskimääräistä sijoitusta kaikissa benchmarkeissa (pienempi on parempi). Lihavoitu arvo on paras koko taulukossa, alleviivattu paras täysin avoin malli.

EuroLLM-22B ansaitsee erityismaininnan: se on EU-rahoitteinen, täysin avoin (Apache 2.0) ja tukee kaikkia EU:n virallisia kieliä mukaan lukien suomi. Malli koulutettiin 4 biljoonalla tokenilla 400 NVIDIA H100 -suorittimella MareNostrum5-supertietokoneella EuroHPC-laskentaresursseilla. Kehittäjänä on UTTER-konsortio (Unified Transcription and Translation for Extended Reality), johon kuuluvat Lissabonin Instituto Superior Técnico, Edinburghin yliopisto, Unbabel, NAVER Labs Europe ja Amsterdamin yliopisto. EuroLLM-22B:n arkkitehtuuri on moderni Transformer GQA:lla, RoPE:lla, SwiGLU-aktivaatioilla ja 32 768 tokenin konteksti-ikkunalla. Malli on erityisen vahva käännöstehtävissä, joissa se päihittää huomattavasti suurempia malleja Flores- ja WMT24++-benchmarkeissa.

Vertailun haasteet

Suoraa vertailua suomeen optimoitujen mallien ja kansainvälisten mallien välillä vaikeuttaa yhteisten suomenkielisten benchmarkien puute. MTBench Finnish ja IFEval Finnish ovat LumiOpen-tiimin kääntämiä ja ylläpitämiä arviointeja, joilla ei ole vielä laajaa kansainvälistä käyttöä. Monikielisten benchmarkien tulokset puolestaan ovat keskiarvoja useista kielistä, eivätkä kerro yksittäisen kielen suoritustasosta. Käytännön kokemukset viittaavat siihen, että suomeen optimoidut mallit tuottavat luontevampaa suomea, vaikka yleinen älykkyys ei olisi yhtä korkea kuin parhailla kansainvälisillä malleilla.

Arkkitehtuurien kehitys

Suomalaisten mallien historia heijastaa koko LLM-kentän arkkitehtuurikehitystä.

Ensimmäinen sukupolvi, johon kuuluvat FinGPT ja Poro 34B, perustui BLOOM-arkkitehtuuriin ALiBi-positiokoodauksella. Tämä oli luonteva valinta, koska TurkuNLP:n tutkijat olivat olleet mukana alkuperäisen BLOOM-mallin kehittämisessä BigScience-hankkeen kautta. ALiBi mahdollistaa konteksti-ikkunan ekstrapoloinnin päättelyaikana ilman uudelleenkoulutusta, mutta 2048 tokenin koulutusmaksimi rajoitti mallien käytännön soveltuvuutta.

Toinen sukupolvi eli Viking-malliperhe päivitti arkkitehtuurin Llama 2 -tyyliseksi: rotary positional embeddings (RoPE), flash attention ja grouped query attention tulivat käyttöön. Konteksti-ikkuna kasvoi 4096 tokeniin ja koulutuskehys modernisoitiin.

Kolmas sukupolvi, Poro 2, ei enää kouluta mallia alusta alkaen vaan jatkokouluttaa Llama 3.1 -perusmallia. Tämä lähestymistapa hyödyntää englannin kielen jo opittuja kyvykkyyksiä ja siirtää niitä kieltenvälisesti suomeen. Konteksti-ikkuna on 8192 tokenia ja koulutuskehys on vaihtunut Megatron-LM-pohjaiseksi.

Finnish-NLP:n Ahma-sarja on kulkenut rinnakkaista polkua: Llama v1 -arkkitehtuuri alusta koulutettuna, ja uusin Ahma 2 siirtyy samaan jatkokoulutusmalliin Gemma 3:n päällä.

LUMI ja laskentainfrastruktuuri

Lähes kaikki suuret suomalaiset kielimallit on koulutettu LUMI-supertietokoneella Kajaanissa. LUMI on EuroHPC-yhteishankkeen rahoittama ja CSC:n operoima, ja se on ollut koulutushetkinä Euroopan tehokkain supertietokone. Alkuperäinen LUMI-G-osio koostuu AMD Instinct MI250X -kiihdyttimistä, joista jokainen sisältää kaksi Graphics Complex Die (GCD) -yksikköä.

Poron koulutuksessa käytettiin 512 MI250X-suoritinta (world size 1024), ja Viking skaalautui jopa 4096 MI250X:ään. Silo AI ja TurkuNLP rakensivat AMD:n laitteistolle räätälöidyn ohjelmistokerroksen, joka perustuu Megatron-DeepSpeed-kehykseen ja myöhemmin Megatron-LM-pohjaiseen kehykseen. Koulutuksessa käytetään 3D-parallelismia (tensor, pipeline ja data parallelism) ja bfloat16-tarkkuutta.

Seuraava sukupolvi: LUMI-AI ja tekoälytehdas

Vuonna 2026 suomalainen tekoälyinfrastruktuuri on siirtymässä uuteen aikakauteen LUMI-tekoälytehdashankkeen myötä. Kajaanin Renforsin rannassa on parhaillaan käynnissä CSC:n historian suurin datakeskushanke. Tammikuussa 2026 alkanut rakennusprojekti muuntaa vanhan paperikonehallin maailman edistyneimmäksi tekoäly- ja kvanttilaskennan keskukseksi. Uuden datakeskuksen on määrä valmistua keväällä 2027. Sinne sijoitetaan tekoälyyn optimoitu LUMI-AI-supertietokone sekä LUMI-IQ-kvanttitietokone. Tämä yhdistelmä mahdollistaa kvanttikiihdytetyn tekoälykehityksen, mikä on kansainvälisesti poikkeuksellista. Osana infrastruktuurin päivitystä nykyiseen datakeskukseen lisättiin vuonna 2025 kansallinen Roihu-supertietokone, joka tarjoaa merkittävää lisäkapasiteettia suomalaisille tutkijoille ja yrityksille. LUMI-AI toteutetaan kuuden maan konsortiona, johon kuuluvat Suomen lisäksi Norja, Puola, Tanska, Tšekki ja Viro.

LUMI-infrastruktuuri käyttää sataprosenttisesti vesivoimalla tuotettua sähköä, ja sen hukkalämpö kattaa noin 20 prosenttia Kajaanin kaupungin kaukolämmöstä. Uusi LUMI-AI-datakeskus jatkaa tätä linjaa hyödyntämällä modernia lämmön talteenottoa, ja rakentamisessa käytetään paikallisia materiaaleja, kuten kainuulaista CLT-puuelementtiä.

CSC Blogi: LUMI-AI-datakeskuksen rakentaminen täydessä vauhdissa (17.3.2026)

Yhteenveto ja linkkikokoelma

Malli Julkaisu Parametrit Arkkitehtuuri Kielet HF-linkki Paperi
FinGPT (13B) 11/2023 13.3B BLOOM/ALiBi fi TurkuNLP/gpt3-finnish-13B 2311.05640
Poro 34B 11/2023 34.2B BLOOM/ALiBi fi, en, koodi LumiOpen/Poro-34B 2404.01856
Poro 34B Chat OA 2024 34.2B BLOOM/ALiBi + SFT/DPO fi, en LumiOpen/Poro-34B-chat-OpenAssistant 2503.09407
llama-3b-finnish 2023–2024 3.6B Llama v1 fi Finnish-NLP/llama-3b-finnish
Viking 7B 04–05/2024 7.55B Llama 2 -tyylinen fi, en, pohjoism. LumiOpen/Viking-7B
Viking 13B 2024 13B Llama 2 -tyylinen fi, en, pohjoism. LumiOpen/Viking-13B
Viking 33B 2024 33B Llama 2 -tyylinen fi, en, pohjoism. LumiOpen/Viking-33B
Ahma 3B / 7B 06/2024 3.6B / 7.0B Llama v1 fi Finnish-NLP/Ahma-7B
Ahma 2 4B Instruct 2025 4B Gemma 3 + CP/SFT/DPO fi Finnish-NLP/Ahma-2-4B-Instruct
Poro 2 8B Instruct 06/2025 8.03B Llama 3.1 + CP/SFT/DPO fi, en LumiOpen/Llama-Poro-2-8B-Instruct
Poro 2 70B Instruct 06/2025 70B Llama 3.1 + CP/SFT/DPO fi, en LumiOpen/Llama-Poro-2-70B-Instruct
EuroLLM-22B Instruct* 2025 22B Transformer/GQA/RoPE fi + 34 kieltä utter-project/EuroLLM-22B-Instruct-2512 2602.05879

*EuroLLM-22B ei ole suomalainen malli, mutta se tukee suomea ja on EU-rahoitteinen vertailukohta.

GitHub-repositoriot: TurkuNLP/Megatron-DeepSpeed, LumiOpen/Megatron-DeepSpeed, LumiOpen/Megatron-LM-lumi, LumiOpen/evaluation, LumiOpen/FastChat (MTBench Finnish).

Mihin suomalaisten mallien kehitys on matkalla?

Suomalaisten kielimallien kehityskaari viimeisen kahden vuoden aikana kertoo selkeän tarinan. Ensimmäinen sukupolvi todisti, että suomenkielisiä malleja ylipäätään voi kouluttaa ja että monikielinen koulutus päihittää yksikielisen lähestymistavan datanpuutteessa. Toinen sukupolvi laajensi kielivalikoimaa ja modernisoi arkkitehtuurin. Kolmas sukupolvi siirtyi jatkokoulutukseen, joka tuottaa paremmat tulokset murto-osalla alkuperäisestä laskentakustannuksesta.

Tämä kehityssuunta on merkityksellinen myös laajemmin. AMD Silo AI julkaisi Poro 2:n yhteydessä yksityiskohtaisen Continued Pretraining Playbook -oppaan, joka tarjoaa muille maille ja kielille toistettavan mallin. Jos suomenkaltaiselle vähäresurssiselle kielelle voi rakentaa kilpailukykyisen 70 miljardin parametrin mallin jatkokoulutuksella, sama lähestymistapa avautuu sadoille muille kielille ympäri maailmaa.

Merkittävin tiedossa oleva tuleva hanke on OpenEuroLLM, EU-rahoitteinen konsortio, jonka tavoitteena on rakentaa suorituskykyinen, monikielinen perusmalli kaikille Euroopan kielille. Hanketta koordinoi Kaarlen yliopisto Tšekissä, ja sitä johtaa AMD Silo AI:n Peter Sarlin. Konsortioon kuuluu 20 eurooppalaista tutkimuslaitosta ja yritystä, mukaan lukien saksalainen Aleph Alpha. Hankkeen budjetti on 37,4 miljoonaa euroa, josta valtaosa tulee Euroopan komissiolta. Kolmivuotinen tiekartta alkoi helmikuussa 2025, ja välitulosten odotetaan valmistuvan jo ensimmäisen vuoden aikana. OpenEuroLLM-perusmallin päälle rakennetaan erillisessä LLMs4EU-hankkeessa sovelluksia eri käyttötarkoituksiin.

AMD Silo AI:n laajempi strategia on siirtynyt kielimallien lisäksi kohti fyysistä tekoälyä ja robotiikkaa. Yhtiö on solminut yhteistyösopimuksia autonomisen ajamisen, robotiikkasimulaation ja multimodaalisten VLA-mallien (Vision Language Action) kehittämiseksi. Samalla Poro- ja Viking-malliperheiden kehittämisestä saatua osaamista hyödynnetään muiden eurooppalaisten kielten tukemiseen, kuten latvialainen Tilde on osoittanut kouluttamalla oman 30+ miljardin parametrin baltoslaavilaisen mallinsa AMD-laitteistolla.

Finnish-NLP-yhteisö jatkaa aktiivisena. Ahma 2:n julkaisun yhteydessä tiimi ilmoitti työskentelevänsä jo datasetien ja menetelmien parantamisen parissa suurempien mallien skaalaamista varten. Jatkokoulutusparadigman yleistyminen tarkoittaa, että kunkin uuden sukupolven perusmallin (Llama, Gemma, Qwen ja muut) julkaisun jälkeen suomenkielinen jatkokoulutus voidaan toteuttaa suhteellisen nopeasti ja edullisesti.

Suomalaisten kielimallien kehitys on osoitus siitä, että pienikin kielialue voi olla teknologisen kehityksen kärjessä, kun osaaminen, laskentaresurssit ja avoin yhteistyö kohtaavat. Vaikka globaalit jättiläiset hallitsevat markkinoita, kotimaisten mallien merkitys suomen kielen vivahteiden ymmärtämisessä, digitaalisen suvereniteetin varmistamisessa ja avoimen tutkimuksen edistämisessä on korvaamaton. Tulevaisuudessa suomalainen osaaminen näyttää toivottavasti suuntaa myös laajemmille eurooppalaisille hankkeille.

← Takaisin blogiin