2026-04-10 · 17 min lukuaika

Suomalaiset suuret kielimallit

Suomen kieli on haastava kohde suurille kielimalleille. Alle viisi miljoonaa äidinkielistä puhujaa, rikas morfologia ja vähäiset digitaaliset resurssit tekevät suomesta niin sanotun vähäresurssisen kielen, jolle ei yksinkertaisesti ole tarjolla lähelläkkään samaa datamäärää kuin englannille. Silti Suomessa on viime vuosina syntynyt joitakin avoimia kielimalleja, jotka ovat täysin toimivia ja hyödyllisiä, eivät pelkästään tutkimusartifakteja.

Tässä kirjoituksessa käyn kronologisesti läpi keskeiset suomalaiset LLM-hankkeet: niiden taustaorganisaatiot, arkkitehtuuriratkaisut, koulutusmenetelmät ja vertailutulokset.

Keskeisiä termejä

Lyhenne	Englanniksi	Suomeksi
LLM	Large Language Model	Suuri kielimalli. Tekoälymalli, joka on oppinut tuottamaan ja ymmärtämään tekstiä valtavasta datamäärästä.
NLP	Natural Language Processing	Luonnollisen kielen käsittely. Tietojenkäsittelytieteen ala, joka tutkii ihmiskielen automaattista ymmärtämistä ja tuottamista.
GPT	Generative Pre-trained Transformer	Generatiivinen esikoulutettu muunnin. Arkkitehtuuri, jossa malli oppii ennustamaan seuraavan sanan pitkissä tekstijonoissa.
SFT	Supervised Fine-Tuning	Valvottu hienosäätö. Perusmallia opetetaan esimerkkien avulla noudattamaan ohjeita ja vastaamaan kysymyksiin.
DPO	Direct Preference Optimization	Suora preferenssioptimointi. Menetelmä, jossa mallia opetetaan tuottamaan ihmisten mielestä parempia vastauksia vertailuparien avulla.
CP	Continued Pretraining	Jatkokoulutus. Valmiiksi koulutetun mallin kouluttamista jatketaan uudella datalla, esimerkiksi uudella kielellä.

Mallien nimissä esiintyvä numero, kuten "7B" tai "70B", viittaa parametrien lukumäärään miljardeissa (B = billion). Parametrit ovat mallin opittuja painoja, joiden avulla se käsittelee kieltä. Karkeasti ottaen mitä enemmän parametreja, sitä suurempi mallin kapasiteetti on, mutta samalla sen vaatima laskentateho ja muisti kasvavat. Esimerkiksi "Poro 34B" tarkoittaa 34,2 miljardin parametrin mallia, kun taas "Ahma 7B" on 7 miljardin parametrin malli. Suurempi ei kuitenkaan ole aina parempi: pienempi, hyvin koulutettu malli voi päihittää suuremman, jos koulutusdata ja -menetelmät ovat laadukkaampia.

Organisaatiot

Suomalaisten kielimallien taustalla on kolme keskeistä toimijaa, joiden yhteistyö on tuottanut valtaosan kaikista julkaistuista malleista.

TurkuNLP on Turun yliopiston luonnollisen kielen käsittelyn tutkimusryhmä, jota johtavat professorit Filip Ginter, Sampo Pyysalo ja Veronika Laippala. Ryhmä tunnetaan kansainvälisesti Universal Dependencies -projektin kontribuutioistaan sekä suomenkielisten NLP-resurssien pitkäjänteisestä kehittämisestä. TurkuNLP on ollut mukana käytännössä kaikissa merkittävissä suomalaisissa LLM-hankkeissa alusta lähtien ja vastannut erityisesti koulutusdatan keräämisestä, puhdistamisesta ja tieteellisestä julkaisutoiminnasta.

AMD Silo AI perustettiin vuonna 2017 ja kasvoi Euroopan suurimmaksi yksityiseksi tekoälylaboratorioksi. Yhtiö on erityisesti generatiivisen tekoälynsä SiloGen-yksikön kautta ollut keskeinen voimavara mallien koulutusinfrastruktuurin, ohjelmistokehityksen ja kaupallisen strategian puolella. AMD osti Silo AI:n vuonna 2024, minkä jälkeen yhteistyö LUMI-supertietokoneen ja AMD:n laitteiston kanssa on entisestään syventynyt.

Finnish-NLP-yhteisö on vapaaehtoispohjainen yhteisö, jonka pääkehittäjät ovat Aapo Tanskanen ja Rasmus Toivanen. He aloittivat suomenkielisten GPT-mallien esikouluttamisen jo vuonna 2021, ja heidän intohimoprojektinsa on tuottanut useita itsenäisiä malleja. Finnish-NLP on toiminut pienemmillä resursseilla kuin akateemis-kaupalliset konsortiot ja hyödyntänyt muun muassa Googlen TPU Research Cloud -ohjelmaa.

Kolmen pääorganisaation lisäksi hankkeissa ovat olleet mukana EU:n Horizon Europe -rahoitteinen HPLT (High Performance Language Technologies) -hanke sekä Tieteen tietotekniikan keskus CSC, joka tarjoaa LUMI-supertietokoneen laskentaresurssit. Mallien julkaisuun käytetty LumiOpen-organisaatio Hugging Facessa on TurkuNLP:n ja Silo AI:n yhteinen alusta.

Kuka tämän kaiken on maksanut?

Suomalaisten kielimallien rahoitus on sekoitus julkista, yksityistä ja eurooppalaista rahaa. Yksikään yksittäinen taho ei ole kustantanut kehitystä kokonaan.

Suurin yksittäinen kustannuserä on laskenta-aika LUMI-supertietokoneella. LUMI on rahoitettu EU:n EuroHPC-yhteishankkeen kautta, johon osallistuvat sekä Euroopan komissio että kansalliset rahoittajat, Suomessa erityisesti opetus- ja kulttuuriministeriö CSC:n kautta. LUMI:n laskenta-aikaa on myönnetty tutkijoille ja yrityksille erillisten hakuprosessien kautta. Kyseessä on miljoonien eurojen arvoinen julkisesti rahoitettu resurssi, jota on tarjottu strategiseen tutkimus- ja kehityskäyttöön.

TurkuNLP:n tutkijat ovat saaneet keskeistä rahoitusta EU:n Horizon Europe -ohjelman HPLT-hankkeesta (hankenumero 101070350). Tämä suora EU-tutkimusrahoitus on kattanut tutkijoiden palkkoja ja mahdollistanut valtavien, monikielisten data-aineistojen kuratoinnin, jotka ovat olleet Poro- ja Viking-mallien perusta.

Silo AI on hyödyntänyt kasvussaan sekä merkittävää yksityistä pääomaa että julkisia kannustimia. Ennen AMD:n yritysostoa Silo AI keräsi yhteensä noin 28,6 miljoonaa dollaria ulkopuolista pääomasijoitusta muun muassa Altorilta, Combientilta ja suomalaisilta enkelisijoittajilta. Yhtiö on saanut pitkäjänteistä tukea Business Finlandilta. Viimeisimpänä vuonna 2025 sille myönnettiin 15 miljoonan euron veturirahoitus "Compute to Impact" -hankkeeseen, jolla vauhditetaan suomalaista tekoälyekosysteemiä ja LUMIn hyödyntämistä. Yrityskaupan myötä kehitysresurssit ovat siirtyneet osaksi AMD:n maailmanlaajuista t&k-budjettia.

Finnish-NLP-yhteisön mallit on koulutettu kevyemmällä budjetilla. Googlen TPU Research Cloud tarjosi laskenta-aikaa maksutta akateemiseen työhön, ja myöhemmin yritykset kuten Datacrunch/Verda ovat sponsoroineet hienosäätöön tarvittavaa laskentatehoa. Kyseessä on pääosin vapaaehtoisten asiantuntijoiden panos, jota yksityiset toimijat ovat tukeneet infrastruktuurilahjoituksin.

Linkkejä

Mallit kronologisessa järjestyksessä

1. FinGPT (TurkuNLP/gpt3-finnish) — marraskuu 2023

FinGPT on ensimmäinen suomenkielinen monikielisten kielimallien perhe, joka koulutettiin kokonaan alusta alkaen. Tutkimusryhmä koulutti seitsemän eri kokoista mallia (186M–13B parametria) puhtaasti suomenkielisellä datalla. Lisäksi he jatkoivat monikielisen BLOOM-mallin koulutusta suomen kielellä ja loivat BLUUMI-nimisen 176 miljardin parametrin mallin. FinGPT-mallien myötä esiteltiin FIN-bench, suomenkielinen versio BIG-bench-arviointikehyksestä.

Arkkitehtuuri perustuu BLOOM-malliin eli GPT-tyyliseen decoder-only-rakenteeseen, jossa käytetään ALiBi-positiokoodausta. Mallit koulutettiin 300 miljardin tokenin suomenkielisellä datasetillä, joka koostuu verkkoryöminnöistä (Parsebank, mC4, Common Crawl), uutisaineistoista (Yle, STT), sosiaalisesta mediasta (Suomi24, Reddit), Wikipediasta, Projekti Lönnrotista ja Kansalliskirjaston kokoelmista. Koulutus toteutettiin LUMI-supertietokoneella.

FinGPT-tutkimus julkaistiin EMNLP 2023 -konferenssissa Singaporessa joulukuussa 2023. Se oli ensimmäinen laaja akateeminen julkaisu suomenkielisten suurten kielimallien kouluttamisesta.

Tiedot
Kehittäjät	TurkuNLP (Turun yliopisto), Hugging Face
Parametrit	186M, 437M, 881M, 1.5B, 2.8B, 7.5B, 13.3B (+ BLUUMI 176B)
Kieli	suomi (yksikielinen)
Koulutusdata	~300B tokenia, suomenkielinen
Lisenssi	Apache 2.0
Paperi	arXiv:2311.05640 (EMNLP 2023)
Huggingface	TurkuNLP/gpt3-finnish-13B
GitHub	TurkuNLP/Megatron-DeepSpeed
Julkaisu	marraskuu 2023

2. Poro 34B — marraskuu 2023 (checkpointit), huhtikuu 2024 (paperi)

Poro 34B syntyi oivalluksesta, että monikielisyys voi olla siunaus eikä kirous. Koska suomenkielinen data ei yksinkertaisesti riitä suuremman mallin tehokkaaseen kouluttamiseen, tutkijat yhdistivät englannin, suomen ja ohjelmointikielet samaan koulutusdatasettiin. Tämä lähestymistapa mahdollisti 34 miljardin parametrin mallin kouluttamisen biljoonalla tokenilla, vaikka suomenkielistä dataa oli käytettävissä vain noin 32 miljardia tokenia (upsampattuna neljäksi epookiksi noin 131 miljardiin tokeniin).

Poro käyttää BLOOM-arkkitehtuuria, johon on lisätty ylimääräinen kerrosnormalisointi heti embedding-kerroksen jälkeen koulutuksen vakauttamiseksi. Positiokoodauksessa hyödynnetään ALiBi-tekniikkaa, joka mahdollistaa konteksti-ikkunan laajentamisen päättelyvaiheessa. Malli sisältää 54 kerrosta, 56 huomiopäätä (attention heads) ja 7168:n piilokerrosdimension. Sanakirjan koko on 128 000 tokenia, ja se on räätälöity kattamaan englanti, suomi ja ohjelmointikielet tasapainoisesti.

Koulutusdata koostuu SlimPajamasta (54 %), StarCoderista (32 %) ja suomalaisesta datasta (13 %), johon on lisätty Tatoeba-käännöspareja (0,8 %) ja Project Gutenberg -kirjoja (0,5 %). Käännösparit luovat eksplisiittisen kieltenvälisen signaalin, joka parantaa mallin käännöskykyä ja samalla tukee suomen kielen ymmärtämistä.

Poro koulutettiin 512 AMD MI250X -suorittimella LUMI-supertietokoneella. Koulutus alkoi syyskuussa 2023, ja ensimmäiset checkpointit julkaistiin marraskuussa 2023. Tutkimuspaperiksi malli dokumentoitiin huhtikuussa 2024. Nimensä malli sai suomenkielisestä sanasta "poro" (reindeer), ja se symboloi suomalaista luontoa ja kulttuuria.

Tiedot
Kehittäjät	SiloGen (Silo AI), TurkuNLP (Turun yliopisto), HPLT
Parametrit	34.2B
Kielet	suomi, englanti, ohjelmointikielet
Koulutusdata	1T tokenia
Arkkitehtuuri	BLOOM + ALiBi
Konteksti-ikkuna	2048 tokenia
Lisenssi	Apache 2.0
Paperi	arXiv:2404.01856
Huggingface	LumiOpen/Poro-34B
GitHub	TurkuNLP/Megatron-DeepSpeed
Julkaisu	marraskuu 2023 (ensimmäiset tarkistuspisteet), huhtikuu 2024 (julkaisu)

3. Poro 34B Chat (OpenAssistant) — 2024

Poro 34B -perusmallin päälle rakennettiin chat-versio, joka kykenee seuraamaan käyttäjän ohjeita sekä suomeksi että englanniksi. Koska suomenkielistä instruction-dataa on erittäin vähän, tutkijat käänsivät englanninkielisiä datasettejä suomeksi käyttäen itse Poro-mallia kääntäjänä. Pohjana olivat OpenAssistant 2 -keskusteluaineisto sekä HelpSteer2-preferenssidatasetti.

Mallille tehtiin ensin supervised fine-tuning (SFT) ja sen jälkeen Direct Preference Optimization (DPO). Tutkimuksen merkittävä löydös oli, että jo 400 suomenkielistä instruction-esimerkkiä riittää kilpailukykyisen suorituskyvyn saavuttamiseen suomenkielisessä ohjeidenmukaisuudessa.

Tähän liittyvä tutkimuspaperi julkaistiin NoDaLiDa 2025 -konferenssissa maaliskuussa 2025.

Tiedot
Kehittäjät	TurkuNLP, Silo AI, HPLT
Perusmalli	Poro 34B
Menetelmä	SFT + DPO
Lisenssi	Apache 2.0
Paperi	arXiv:2503.09407 (NoDaLiDa 2025)
Huggingface	LumiOpen/Poro-34B-chat-OpenAssistant
Julkaisu	2024

4. Viking 7B / 13B / 33B — huhtikuu–toukokuu 2024

Uusi kielimalli Viking julkaistu – ensimmäinen avoin malli pohjoismaisille kielille

Viking-mallisto laajensi Poron lähestymistavan kattamaan kaikki pohjoismaiset kielet: suomen lisäksi tanskan, ruotsin, norjan ja islannin sekä edelleen englannin ja ohjelmointikielet. Samalla arkkitehtuuri päivitettiin nykyaikaisemmaksi.

Siinä missä Poro perustui vanhempaan BLOOM-arkkitehtuuriin, Viking käyttää Llama 2:n kaltaista GPT-rakennetta, jossa ovat mukana kiertyvät paikkakoodaukset (RoPE), Flash Attention ja Grouped Query Attention. Konteksti-ikkuna kasvoi 4096 tokeniin. Koulutusdata kaksinkertaistui kahteen biljoonaan tokeniin. Sanakirjan koko on 131 072 tokeniin ja se kattaa kaikki kohdekielet.

Viking 7B:n koulutus valmistui toukokuussa 2024, ja se oli ensimmäinen avoin kielimalli, joka tukee kaikkia Pohjoismaiden kieliä natiivisti. Viking 13B ja 33B julkaistiin checkpointeina, joista 13B valmistui myöhemmin ja 33B julkaistiin osittain koulutettuna. Malliperhe osoitti, että sama kieltenvälinen lähestymistapa toimii myös laajemmalle kielivalikoimalle.

Koulutus toteutettiin LUMI-supertietokoneella jopa 4096 AMD MI250X -suorittimella samanaikaisesti. Tämä oli yksi suurimmista yhtenäisistä koulutusajoista AMD-laitteistolla, ja tiimi rakensi siihen tarkoituksen mukautetun avoimen lähdekoodin koulutuskehyksen.

Tiedot
Kehittäjät	TurkuNLP (Turun yliopisto), SiloGen (Silo AI), HPLT
Parametrit	7.55B / 13B / 33B
Kielet	suomi, ruotsi, norja, tanska, islanti, englanti, ohjelmointikielet
Koulutusdata	2T tokenia
Arkkitehtuuri	Llama 2 -tyylinen (RoPE, flash attention, GQA)
Konteksti-ikkuna	4096 tokenia
Lisenssi	Apache 2.0
Huggingface	LumiOpen/Viking-7B, Viking-13B, Viking-33B
GitHub	LumiOpen/Megatron-DeepSpeed
Julkaisu	huhtikuu 2024 (ensimmäiset tarkistuspisteet), toukokuu 2024 (Viking 7B valmis)

5. Ahma 3B ja 7B (Finnish-NLP) — kesäkuu 2024

Ahma-mallisarjan taustalla on kaksi itsenäistä kehittäjää, Aapo Tanskanen ja Rasmus Toivanen, jotka ovat kouluttaneet suomenkielisiä kielimalleja vuodesta 2021 lähtien. Heidän Finnish-NLP-organisaationsa on tuottanut GPT-2-malleja, RoBERTa-malleja, T5-malleja ja lopulta Llama-pohjaisia malleja suomelle.

Ahma 3B (3.6B parametria) ja Ahma 7B (7.0B parametria) koulutettiin kokonaan alusta alkaen suomenkielisellä datalla. Molemmat käyttävät alkuperäistä Llama (v1) -arkkitehtuuria 2048 tokenin konteksti-ikkunalla. Koulutuksessa hyödynnettiin tutkimusta toistuvan datan vaikutuksesta, sillä suomenkielistä dataa jouduttiin kierrättämään useaan kertaan: Ahma 3B näki 139 miljardia tokenia ja Ahma 7B vastaavasti 149 miljardia tokenia.

Koulutus tapahtui Googlen TPU Research Cloud -resursseja hyödyntäen. Ahma 7B:lle tehtiin kaksivaiheinen esikoulutus, jossa toisessa vaiheessa instruction-esimerkkejä sekoitettiin muun koulutusdatan joukkoon. Lisäksi julkaistiin instruct-viritetyt versiot: Ahma 3B Instruct ja Ahma 7B Instruct.

Tiedot
Kehittäjät	Finnish-NLP (Aapo Tanskanen, Rasmus Toivanen)
Parametrit	3.6B / 7.0B
Kieli	suomi (yksikielinen)
Koulutusdata	~139B tokenia (3B), ~149B tokenia (7B)
Arkkitehtuuri	Llama v1
Konteksti-ikkuna	2048 tokenia
Lisenssi	Apache 2.0
Paperi	viittaa arXiv:2305.16264 (Scaling Data-Constrained LMs)
Huggingface	Finnish-NLP/Ahma-3B, Ahma-7B, Ahma-3B-Instruct, Ahma-7B-Instruct
Julkaisu	kesäkuu 2024

6. Finnish-NLP/llama-3b-finnish ja llama-7b-finnish — 2023–2024

Finnish-NLP julkaisi myös aikaisemman sukupolven Llama-malleja, jotka koulutettiin alusta alkaen 131 miljardin tokenin suomenkielisellä datalla. Nämä mallit ovat Ahma-sarjan edeltäjiä ja käyttävät samaa Llama v1 -arkkitehtuuria. Ne ovat puhtaita perusmalleja ilman instruction-viritystä.

Tiedot
Kehittäjät	Finnish-NLP (Aapo Tanskanen, Rasmus Toivanen)
Parametrit	3.6B / 7.0B
Kieli	suomi (yksikielinen)
Koulutusdata	~131B tokenia
Arkkitehtuuri	Llama v1
Lisenssi	Apache 2.0
Huggingface	Finnish-NLP/llama-3b-finnish, llama-7b-finnish
Julkaisu	2023–2024

7. Ahma 2 (Gemma 3 4B Instruct) — 2025

Ahma-sarjan uusin jäsen edustaa strategista muutosta: sen sijaan, että malli koulutettaisiin alusta asti, Googlen Gemma 3 4B -mallia jatkokoulutettiin suomenkielisellä datalla. Kolmivaiheinen menetelmä koostuu jatkokoulutuksesta (continued pretraining, CP) englannin, suomen ja koodinvaihdon sekoituksella, supervised fine-tuningista (SFT) ja Direct Preference Optimizationista (DPO). Jatkokoulutus ja viritys painottuvat suomeen.

Ahma 2 4B Instruct parantaa selvästi aiempia Ahma-versioita kaikissa MTBench Finnish -kategorioissa. Erityisesti koodaus, matematiikka ja tiedonpoiminta paranivat merkittävästi. Malli koulutettiin Datacrunch/Verda-pilvipalvelun sponsoroimilla resursseilla (fine-tuning) ja Google TPU Research Cloudilla (esikoulutus).

Tiedot
Kehittäjät	Finnish-NLP (Rasmus Toivanen, Aapo Tanskanen)
Parametrit	4B
Kielet	suomi (ensisijainen), englanti
Perusmalli	Google Gemma 3 4B
Menetelmä	CP + SFT + DPO
Lisenssi	Apache 2.0
Huggingface	Finnish-NLP/Ahma-2-4B-Instruct
Julkaisu	2025

8. Poro 2 (8B ja 70B) — kesäkuu 2025

Poro 2 edustaa uusinta sukupolvea ja merkitsee samalla lähestymistavan muutosta: sen sijaan, että malli koulutettaisiin alusta alkaen, lähtökohtana on Metan Llama 3.1 -perusmalli, jota jatkokoulutetaan 165 miljardin merkin datasetillä, jossa ovat mukana suomi, englanti, koodi ja matematiikka. Tämä jatkokoulutusmenetelmä (continued pretraining) on huomattavasti resurssitehokkaampi kuin koulutus tyhjästä.

Poro 2 -malliperheessä on kaksi kokoa, 8B ja 70B, ja kummastakin julkaistaan kolme versiota: perusmalli (base), SFT-viritetty versio ja lopullinen Instruct-malli, jossa on lisäksi DPO-optimointi. SFT-vaiheessa käytettiin 1,4 miljoonaa ohje-esimerkkiä englanniksi ja suomeksi, ja DPO-vaiheessa HelpSteer3-preferenssidataa.

Tulokset ovat vakuuttavia: Poro 2 8B Instruct parantaa suomenkielistä ohjeidenmukaisuutta keskimäärin 24 prosentilla verrattuna Llama 3.1 8B Instructiin ja voittaa myös Gemma 2 9B:n ja EuroLLM 9B:n suomessa. Poro 2 70B Instruct puolestaan ylittää Llama 3.3 70B Instructin suomessa yli 6 prosentilla säilyttäen samalla erinomaisen englanninkielisen suorituskyvyn.

Koulutuskehys päivitettiin Megatron-LM-pohjaiseksi (aiemmin Megatron-DeepSpeed). AMD Silo AI julkaisi samalla yksityiskohtaisen Continued Pretraining Playbook -oppaan, joka kuvaa koko prosessin datankeruusta evaluointiin ja tarjoaa muille kielille sovellettavan mallin.

Tiedot
Kehittäjät	AMD Silo AI, TurkuNLP (Turun yliopisto), HPLT
Parametrit	8.03B / 70B
Kielet	suomi, englanti (+ koodi ja matematiikka)
Perusmalli	Llama 3.1 8B / 70B
Koulutusdata	165B tokenia (jatkokoulutus)
Menetelmä	Continued pretraining + SFT + DPO
Konteksti-ikkuna	8192 tokenia
Lisenssi	Llama 3.1/3.3 Community License
Huggingface	LumiOpen/Llama-Poro-2-8B-Instruct, Llama-Poro-2-70B-Instruct
GitHub	LumiOpen/Megatron-LM-lumi
Julkaisu	kesäkuu 2025

Vertailutuloksia

Suomenkieliset benchmarkit

Alla olevassa taulukossa esitetään keskeisten mallien suorituskykytulokset suomenkielisissä arvioinneissa. MTBench Finnish -tulokset on arvioitu LLM-tuomarina (tyypillisesti GPT-4), IFEval mittaa konkreettisten ohjeiden noudattamista ja AlpacaEval 2 yleistä vastausten laatua. Pohjamalleille (base) arviointituloksia on saatavilla FIN-bench-kehyksestä.

Malli	Parametrit	MTBench FI (multi-turn)	IFEval FI	AlpacaEval 2 FI	Huom.
Ahma 3B Instruct	3.6B	4.05	—	—	yksikielinen, pieni
Ahma 7B Instruct	7.0B	4.59	—	—	yksikielinen
Llama 3.1 8B Instruct (viite)	8B	4.10	47.31	2.05	englantikeskeinen
EuroLLM 9B Instruct (viite)	9B	—	44.17	8.15	EU-monikielinen (v1)
Gemma 2 9B IT (viite)	9B	—	55.82	21.85	monikielinen
Poro 34B Chat	34.2B	6.06	—	—	monikielinen base
Ahma 2 4B Instruct	4B	6.57	—	—	Gemma 3 -pohjainen
Poro 2 8B Instruct	8B	6.75	66.54	28.89	Llama 3.1 -pohjainen
Poro 2 70B Instruct	70B	7.77	70.79	41.96	lama 3.1 -pohjainen

Kansainväliset monikieliset benchmarkit

Suomenkielisten arviointien lisäksi on hyödyllistä tarkastella monikielisiä benchmarkeja, joissa myös suuret kansainväliset mallit on testattu. Alla oleva taulukko perustuu EuroLLM-22B:n tuoreisiin vertailutuloksiin, joissa pisteet on laskettu kaikkien EuroLLM:n tukemien kielten (mukaan lukien suomi) keskiarvoina.

Malli	Parametrit	HellaSwag	MMLU	MMLU-Pro	ARC-C	MGSM	Flores	WMT24++	Borda
Täysin avoin
EuroLLM-22B	22B	61.74	64.10	45.33	82.66	76.07	88.88	83.62	4.9
Apertus-70B	70B	61.22	60.33	36.50	78.59	72.73	88.17	81.96	6.6
OLMo-2-32B	32B	44.29	62.79	39.90	81.09	79.18	82.39	76.38	7.1
Avoimet parametrit
Mistral-3.2-24B	24B	82.59	74.80	64.09	89.22	89.58	82.73	72.81	4.7
Llama-3.3-70B	70B	73.54	78.43	65.68	90.13	91.64	88.15	82.28	3.3
Gemma-3-27B	27B	74.60	74.58	60.21	90.09	88.44	88.81	83.65	3.7
Qwen3-32B	32B	79.51	78.97	70.14	92.55	91.69	86.36	81.69	2.9
Qwen3-30B-A3B	30B (3B akt.)	78.96	79.54	71.98	92.33	90.53	86.57	81.90	2.9

Lähde: EuroLLM-22B Technical Report (arXiv:2602.05879). Borda Count kuvaa mallin keskimääräistä sijoitusta kaikissa benchmarkeissa (pienempi on parempi). Lihavoitu arvo on paras koko taulukossa, alleviivattu paras täysin avoin malli.

EuroLLM-22B ansaitsee erityismaininnan: se on EU-rahoitteinen, täysin avoin (Apache 2.0) ja tukee kaikkia EU:n virallisia kieliä mukaan lukien suomi. Malli koulutettiin 4 biljoonalla tokenilla 400 NVIDIA H100 -suorittimella MareNostrum5-supertietokoneella EuroHPC-laskentaresursseilla. Kehittäjänä on UTTER-konsortio (Unified Transcription and Translation for Extended Reality), johon kuuluvat Lissabonin Instituto Superior Técnico, Edinburghin yliopisto, Unbabel, NAVER Labs Europe ja Amsterdamin yliopisto. EuroLLM-22B:n arkkitehtuuri on moderni Transformer GQA:lla, RoPE:lla, SwiGLU-aktivaatioilla ja 32 768 tokenin konteksti-ikkunalla. Malli on erityisen vahva käännöstehtävissä, joissa se päihittää huomattavasti suurempia malleja Flores- ja WMT24++-benchmarkeissa.

Vertailun haasteet

Suoraa vertailua suomeen optimoitujen mallien ja kansainvälisten mallien välillä vaikeuttaa yhteisten suomenkielisten benchmarkien puute. MTBench Finnish ja IFEval Finnish ovat LumiOpen-tiimin kääntämiä ja ylläpitämiä arviointeja, joilla ei ole vielä laajaa kansainvälistä käyttöä. Monikielisten benchmarkien tulokset puolestaan ovat keskiarvoja useista kielistä, eivätkä kerro yksittäisen kielen suoritustasosta. Käytännön kokemukset viittaavat siihen, että suomeen optimoidut mallit tuottavat luontevampaa suomea, vaikka yleinen älykkyys ei olisi yhtä korkea kuin parhailla kansainvälisillä malleilla.

Arkkitehtuurien kehitys

Suomalaisten mallien historia heijastaa koko LLM-kentän arkkitehtuurikehitystä.

Ensimmäinen sukupolvi, johon kuuluvat FinGPT ja Poro 34B, perustui BLOOM-arkkitehtuuriin ALiBi-positiokoodauksella. Tämä oli luonteva valinta, koska TurkuNLP:n tutkijat olivat olleet mukana alkuperäisen BLOOM-mallin kehittämisessä BigScience-hankkeen kautta. ALiBi mahdollistaa konteksti-ikkunan ekstrapoloinnin päättelyaikana ilman uudelleenkoulutusta, mutta 2048 tokenin koulutusmaksimi rajoitti mallien käytännön soveltuvuutta.

Toinen sukupolvi eli Viking-malliperhe päivitti arkkitehtuurin Llama 2 -tyyliseksi: rotary positional embeddings (RoPE), flash attention ja grouped query attention tulivat käyttöön. Konteksti-ikkuna kasvoi 4096 tokeniin ja koulutuskehys modernisoitiin.

Kolmas sukupolvi, Poro 2, ei enää kouluta mallia alusta alkaen vaan jatkokouluttaa Llama 3.1 -perusmallia. Tämä lähestymistapa hyödyntää englannin kielen jo opittuja kyvykkyyksiä ja siirtää niitä kieltenvälisesti suomeen. Konteksti-ikkuna on 8192 tokenia ja koulutuskehys on vaihtunut Megatron-LM-pohjaiseksi.

Finnish-NLP:n Ahma-sarja on kulkenut rinnakkaista polkua: Llama v1 -arkkitehtuuri alusta koulutettuna, ja uusin Ahma 2 siirtyy samaan jatkokoulutusmalliin Gemma 3:n päällä.

LUMI ja laskentainfrastruktuuri

Lähes kaikki suuret suomalaiset kielimallit on koulutettu LUMI-supertietokoneella Kajaanissa. LUMI on EuroHPC-yhteishankkeen rahoittama ja CSC:n operoima, ja se on ollut koulutushetkinä Euroopan tehokkain supertietokone. Alkuperäinen LUMI-G-osio koostuu AMD Instinct MI250X -kiihdyttimistä, joista jokainen sisältää kaksi Graphics Complex Die (GCD) -yksikköä.

Poron koulutuksessa käytettiin 512 MI250X-suoritinta (world size 1024), ja Viking skaalautui jopa 4096 MI250X:ään. Silo AI ja TurkuNLP rakensivat AMD:n laitteistolle räätälöidyn ohjelmistokerroksen, joka perustuu Megatron-DeepSpeed-kehykseen ja myöhemmin Megatron-LM-pohjaiseen kehykseen. Koulutuksessa käytetään 3D-parallelismia (tensor, pipeline ja data parallelism) ja bfloat16-tarkkuutta.

Seuraava sukupolvi: LUMI-AI ja tekoälytehdas

Vuonna 2026 suomalainen tekoälyinfrastruktuuri on siirtymässä uuteen aikakauteen LUMI-tekoälytehdashankkeen myötä. Kajaanin Renforsin rannassa on parhaillaan käynnissä CSC:n historian suurin datakeskushanke. Tammikuussa 2026 alkanut rakennusprojekti muuntaa vanhan paperikonehallin maailman edistyneimmäksi tekoäly- ja kvanttilaskennan keskukseksi. Uuden datakeskuksen on määrä valmistua keväällä 2027. Sinne sijoitetaan tekoälyyn optimoitu LUMI-AI-supertietokone sekä LUMI-IQ-kvanttitietokone. Tämä yhdistelmä mahdollistaa kvanttikiihdytetyn tekoälykehityksen, mikä on kansainvälisesti poikkeuksellista. Osana infrastruktuurin päivitystä nykyiseen datakeskukseen lisättiin vuonna 2025 kansallinen Roihu-supertietokone, joka tarjoaa merkittävää lisäkapasiteettia suomalaisille tutkijoille ja yrityksille. LUMI-AI toteutetaan kuuden maan konsortiona, johon kuuluvat Suomen lisäksi Norja, Puola, Tanska, Tšekki ja Viro.

LUMI-infrastruktuuri käyttää sataprosenttisesti vesivoimalla tuotettua sähköä, ja sen hukkalämpö kattaa noin 20 prosenttia Kajaanin kaupungin kaukolämmöstä. Uusi LUMI-AI-datakeskus jatkaa tätä linjaa hyödyntämällä modernia lämmön talteenottoa, ja rakentamisessa käytetään paikallisia materiaaleja, kuten kainuulaista CLT-puuelementtiä.

CSC Blogi: LUMI-AI-datakeskuksen rakentaminen täydessä vauhdissa (17.3.2026)

Yhteenveto ja linkkikokoelma

Malli	Julkaisu	Parametrit	Arkkitehtuuri	Kielet	HF-linkki	Paperi
FinGPT (13B)	11/2023	13.3B	BLOOM/ALiBi	fi	TurkuNLP/gpt3-finnish-13B	2311.05640
Poro 34B	11/2023	34.2B	BLOOM/ALiBi	fi, en, koodi	LumiOpen/Poro-34B	2404.01856
Poro 34B Chat OA	2024	34.2B	BLOOM/ALiBi + SFT/DPO	fi, en	LumiOpen/Poro-34B-chat-OpenAssistant	2503.09407
llama-3b-finnish	2023–2024	3.6B	Llama v1	fi	Finnish-NLP/llama-3b-finnish	—
Viking 7B	04–05/2024	7.55B	Llama 2 -tyylinen	fi, en, pohjoism.	LumiOpen/Viking-7B	—
Viking 13B	2024	13B	Llama 2 -tyylinen	fi, en, pohjoism.	LumiOpen/Viking-13B	—
Viking 33B	2024	33B	Llama 2 -tyylinen	fi, en, pohjoism.	LumiOpen/Viking-33B	—
Ahma 3B / 7B	06/2024	3.6B / 7.0B	Llama v1	fi	Finnish-NLP/Ahma-7B	—
Ahma 2 4B Instruct	2025	4B	Gemma 3 + CP/SFT/DPO	fi	Finnish-NLP/Ahma-2-4B-Instruct	—
Poro 2 8B Instruct	06/2025	8.03B	Llama 3.1 + CP/SFT/DPO	fi, en	LumiOpen/Llama-Poro-2-8B-Instruct	—
Poro 2 70B Instruct	06/2025	70B	Llama 3.1 + CP/SFT/DPO	fi, en	LumiOpen/Llama-Poro-2-70B-Instruct	—
EuroLLM-22B Instruct*	2025	22B	Transformer/GQA/RoPE	fi + 34 kieltä	utter-project/EuroLLM-22B-Instruct-2512	2602.05879

*EuroLLM-22B ei ole suomalainen malli, mutta se tukee suomea ja on EU-rahoitteinen vertailukohta.

GitHub-repositoriot: TurkuNLP/Megatron-DeepSpeed, LumiOpen/Megatron-DeepSpeed, LumiOpen/Megatron-LM-lumi, LumiOpen/evaluation, LumiOpen/FastChat (MTBench Finnish).

Mihin suomalaisten mallien kehitys on matkalla?

Suomalaisten kielimallien kehityskaari viimeisen kahden vuoden aikana kertoo selkeän tarinan. Ensimmäinen sukupolvi todisti, että suomenkielisiä malleja ylipäätään voi kouluttaa ja että monikielinen koulutus päihittää yksikielisen lähestymistavan datanpuutteessa. Toinen sukupolvi laajensi kielivalikoimaa ja modernisoi arkkitehtuurin. Kolmas sukupolvi siirtyi jatkokoulutukseen, joka tuottaa paremmat tulokset murto-osalla alkuperäisestä laskentakustannuksesta.

Tämä kehityssuunta on merkityksellinen myös laajemmin. AMD Silo AI julkaisi Poro 2:n yhteydessä yksityiskohtaisen Continued Pretraining Playbook -oppaan, joka tarjoaa muille maille ja kielille toistettavan mallin. Jos suomenkaltaiselle vähäresurssiselle kielelle voi rakentaa kilpailukykyisen 70 miljardin parametrin mallin jatkokoulutuksella, sama lähestymistapa avautuu sadoille muille kielille ympäri maailmaa.

Merkittävin tiedossa oleva tuleva hanke on OpenEuroLLM, EU-rahoitteinen konsortio, jonka tavoitteena on rakentaa suorituskykyinen, monikielinen perusmalli kaikille Euroopan kielille. Hanketta koordinoi Kaarlen yliopisto Tšekissä, ja sitä johtaa AMD Silo AI:n Peter Sarlin. Konsortioon kuuluu 20 eurooppalaista tutkimuslaitosta ja yritystä, mukaan lukien saksalainen Aleph Alpha. Hankkeen budjetti on 37,4 miljoonaa euroa, josta valtaosa tulee Euroopan komissiolta. Kolmivuotinen tiekartta alkoi helmikuussa 2025, ja välitulosten odotetaan valmistuvan jo ensimmäisen vuoden aikana. OpenEuroLLM-perusmallin päälle rakennetaan erillisessä LLMs4EU-hankkeessa sovelluksia eri käyttötarkoituksiin.

AMD Silo AI:n laajempi strategia on siirtynyt kielimallien lisäksi kohti fyysistä tekoälyä ja robotiikkaa. Yhtiö on solminut yhteistyösopimuksia autonomisen ajamisen, robotiikkasimulaation ja multimodaalisten VLA-mallien (Vision Language Action) kehittämiseksi. Samalla Poro- ja Viking-malliperheiden kehittämisestä saatua osaamista hyödynnetään muiden eurooppalaisten kielten tukemiseen, kuten latvialainen Tilde on osoittanut kouluttamalla oman 30+ miljardin parametrin baltoslaavilaisen mallinsa AMD-laitteistolla.

Finnish-NLP-yhteisö jatkaa aktiivisena. Ahma 2:n julkaisun yhteydessä tiimi ilmoitti työskentelevänsä jo datasetien ja menetelmien parantamisen parissa suurempien mallien skaalaamista varten. Jatkokoulutusparadigman yleistyminen tarkoittaa, että kunkin uuden sukupolven perusmallin (Llama, Gemma, Qwen ja muut) julkaisun jälkeen suomenkielinen jatkokoulutus voidaan toteuttaa suhteellisen nopeasti ja edullisesti.

Suomalaisten kielimallien kehitys on osoitus siitä, että pienikin kielialue voi olla teknologisen kehityksen kärjessä, kun osaaminen, laskentaresurssit ja avoin yhteistyö kohtaavat. Vaikka globaalit jättiläiset hallitsevat markkinoita, kotimaisten mallien merkitys suomen kielen vivahteiden ymmärtämisessä, digitaalisen suvereniteetin varmistamisessa ja avoimen tutkimuksen edistämisessä on korvaamaton. Tulevaisuudessa suomalainen osaaminen näyttää toivottavasti suuntaa myös laajemmille eurooppalaisille hankkeille.