Merkittävimmät tutkimusartikkelit tekoälyn saralla 2015-2025
Kymmenessä vuodessa tekoäly on päihittänyt Turingin kokeen ja siirtynyt huomaamatta monen arjen työkaluksi.
Ajatuksena on, että tietokone on älykäs, jos sen vastauksia ei pysty erottamaan ihmisen vastauksista, eli tarkkailija ei osaa sanoa, onko keskustelukumppani ihminen vai kone. Turingin testin läpäisevä tekoäly onnistuu siis ainakin vaikuttamaan ajattelevalta. Jotta kokeen kielellisiä taitoja mittaava universaali luonne säilyisi, toteutetaan se tekstipohjaisesti. (Wikipedia)
Tämä ei tapahtunut yhdessä yössä eikä yhden keksinnön ansiosta. Käyn tässä läpi tärkeimpiä tutkimusartikkeleita, joista jokainen avasi jonkin uuden oven ja mahdollisuuden.
Artikkeleita on viisitoista, ja ne jakautuvat neljään teemaan: kielimallit käsittelee niitä perusteknologioita, joiden varaan ChatGPT ja vastaavat LLM:t rakentuvat; konenäkö seuraa, miten koneet oppivat näkemään ja ymmärtämään kuvia; teksti ja kuva yhdessä katsoo, miten nämä kaksi maailmaa yhdistyivät; ja oppimistekniikat esittelee menetelmiä, jotka tekevät mallien kouluttamisesta tehokkaampaa, halvempaa ja turvallisempaa.
Kielimallit
1. Attention Is All You Need (2017)
Tutkijat: Vaswani ym., Google Brain arXiv: 1706.03762
Tämä on syväoppimisalan "The" paperi. ChatGPT, Claude, Gemini ja kaikki muut suuret kielimallit rakentuvat tässä esitellylle transformer-arkkitehtuurille.
Ennen transformereita kielimallien piti lukea teksti sana kerrallaan, järjestyksessä alusta loppuun. Huomiomekanismi (attention) oli keksitty jo aiemmin, mutta sitä käytettiin vanhojen hitaiden verkkojen apupyöränä. Vaswanin tiimi heitti hitaat rakenteet romukoppaan kokonaan ja osoitti, että pelkkä huomiomekanismi (self-attention) itsessään riittää. Sen avulla malli voi tarkastella kaikkia sanoja yhtä aikaa ja oppia niiden keskinäisiä yhteyksiä rinnakkaisesti. Siitä juontuu paperin historiallinen nimi: Attention is All You Need. Koulutus nopeutui, ja mallit alkoivat ymmärtää kieltä aivan eri tavalla.
Tänään: jokainen chatbotti, kääntäjä ja hakukone, joka tuntuu "ymmärtävältä", hyödyntää transformer-arkkitehtuuria.
2. BERT (2018)
Tutkijat: Devlin ym., Google arXiv: 1810.04805
Transformer-arkkitehtuuri mahdollisti tehokkaan kielen käsittelyn, mutta GPT-tyyppiset mallit lukivat tekstiä vain yhteen suuntaan — vasemmalta oikealle. BERT käytti transformer-enkooderia kaksisuuntaisesti.
Sana tarkoittaa eri asioita eri yhteyksissä. "Kuusi" voi olla havupuu tai luku. BERT oppi ymmärtämään kontekstin koko lauseen perusteella eikä vain aiempien sanojen mukaan. Käytännössä tämä tarkoitti, että malli selvisi paremmin juuri niistä tehtävistä, joissa kielen merkitys on kriittistä.
Tänään: BERT on jäänyt LLM-mallien jalkoihin, mutta sillä on yhä käyttönsä NLP-alalla. Google otti BERTin käyttöön hakukoneeseensa vuonna 2019.
3. GPT-3: Language Models are Few-Shot Learners (2020)
Tutkijat: Brown ym., OpenAI arXiv: 2005.14165
GPT-3 osoitti, että kun kielimalli on tarpeeksi suuri ja sille on annettu tarpeeksi tekstiä, se voi oppia tekemään uusia tehtäviä ilman erillistä uudelleenkoulutusta.
Aiemmin tekoäly piti erikseen opettaa jokaista tehtävää varten: yksi malli kääntämiseen, toinen tiivistämiseen, kolmas kysymyksiin vastaamiseen. GPT-3 osoitti, että yksi riittävän suuri malli pystyy tekemään kaikkea tätä, kun sille vain näytetään muutama esimerkki. Tästä käytetään nimitystä few-shot learning eli "muutaman esimerkin oppiminen".
Tänään: Tämä avasi tien ohjekoulutukselle (instruction tuning) Sekä toimii myös nykyisten mallien kanssa, voit antaa mallille pari esimerkkiä haluamastasi tyylistä, ja se osaa noudattaa sitä.
4. InstructGPT (2022)
Tutkijat: Ouyang ym., OpenAI arXiv: 2203.02155
GPT-3 oli vaikuttava, mutta se saattoi vastata pyyntöihin tavalla, jota käyttäjä ei halunnut. InstructGPT esitteli käytännössä toimivan tavan yhdistää kaksi tekniikkaa: instruction tuning (mallin hienosäätö ohje–vastaus-pareilla) ja RLHF (vahvistusoppiminen ihmispalautteesta), jolla malli opetetaan tuottamaan ihmisten mielestä hyödyllisempiä vastauksia.
Raaka kielimalli osaa tuottaa sujuvaa tekstiä, mutta ei toimi kuten avulias assistentti. InstructGPT:n koulutusputkessa ihmisarvioijat vertaavat mallin eri vastauksia keskenään, ja palaute ohjaa mallia tuottamaan hyödyllisempiä ja vähemmän haitallisia vastauksia. Merkittävä tulos: pienemmäksi hienosäädetty malli InstructGPT 1.3B voitti arvioissa paljon suuremman raakamallin GPT-3 175B:.
Tänään: tämä on se koulutusparadigma, joka teki ChatGPT:stä toimivan assistentin, ja jonka pohjalta kaikki nykyiset johtavat assistentit on rakennettu.
5. LLaMA (2023)
Tutkijat: Touvron ym., Meta arXiv: 2302.13971
Meta julkaisi tutkijoille avoimen kielimallin, joka suorituskyvyltään kilpaili suurten yritysten suljettujen mallien kanssa. Tärkeintä: se pystyi pyörimään yksittäisellä tutkimuslaboratorion palvelimella.
Ennen LLaMAa tehokkaat kielimallit olivat käytännössä vain muutaman suuren teknologiayrityksen saavutettavissa. LLaMA osoitti, että pienemmälläkin mallilla, jota on koulutettu enemmän datalla, voidaan päästä samoihin tuloksiin. Tämä demokratisoi tekoälytutkimuksen: yliopistoissa, startuppeissa ja harrastuslaboratorioissa ympäri maailman saattoi nyt rakentaa ja tutkia kilpailukykyisiä kielimalleja.
Tänään: LLaMaan pohjautuvia malleja käytetään tuhansissa avoimen lähdekoodin projekteissa. LLaMA 3 oli 2025 saakka yksi käytetyimmistä pohjamalleista ja on edelleen laajasti käytössä.
Konenäkö
6. Deep Residual Learning for Image Recognition, ResNet (2015)
Tutkijat: He ym., Microsoft Research arXiv: 1512.03385
ResNet ratkaisi ongelman, joka oli hidastanut konenäön kehitystä vuosia: mitä syvempi neuroverkko, sitä huonommin se oppi.
Syvät neuroverkot pystyvät oppimaan monimutkaisempia kuvioita kuin matalat. Ongelma oli, että koulutuksessa käytetty signaali, gradientti, haihtui matkalla verkon alkupäähän. Resiudaalioppiminen ratkaisi tämän lisäämällä ns. ohitusyhteyksiä (skip connections), jotka antavat gradientin "hypätä" kerrosten yli. Tällä tempulla voitiin kouluttaa jopa 152-kerroksisia verkkoja, joita ei aiemmin pystytty opettamaan lainkaan.
Tänään: ResNet voitti ImageNet-kilpailun 2015 ja yhtenä tekijänä laukaisi kuvamallien nopean kehityksen. Teknologiaa käytetään lääketieteellisessä kuvantamisessa, teollisuuden laadunvalvonnassa ja kaikkialla, missä kone tunnistaa kuvia.
7. An Image is Worth 16x16 Words: ViT (2020)
Tutkijat: Dosovitskiy ym., Google arXiv: 2010.11929
Jos transformer toimii tekstille, voisiko se toimia myös kuville? ViT vastasi tähän kysymykseen jakamalla kuvan pieniin palasiin ja käsittelemällä niitä kuten sanoja.
Perinteiset konvoluutioverkot (CNN) tarkastelevat kuvaa pikseli kerrallaan paikallisesti. Transformer-pohjainen ViT näkee kuvan kaikki osat kerralla ja voi oppia kauempana toisistaan olevien alueiden välisiä yhteyksiä. Tämä tekee siitä paremman kuvien kokonaisvaltaiseen ymmärtämiseen.
Tänään: ViT on korvaamassa perinteisiä CNN-malleja monissa tehtävissä, mukaan lukien lääketieteellinen kuvantamisessa ja autonomisen ajamisen konenäkösovelluksissa.
Teksti ja kuva yhdessä
8. CLIP (2021)
Tutkijat: Radford ym., OpenAI arXiv: 2103.00020
CLIP opetettiin kymmenillä miljoonilla internetistä kerätyillä kuva-tekstipareilla siten, että malli oppi ymmärtämään, milloin kuva ja teksti vastaavat toisiaan.
Aiemmat kuvatunnistusmallit oli opetettu rajatulla joukolla luokkia: "kissa", "koira", "auto". CLIP pystyi luokittelemaan kuvan mihin tahansa tekstillä kuvailtuun kategoriaan ilman erillistä koulutusta. Etsitään kuvia tekstillä "suomalainen järvimaisema syksyllä"? CLIP ymmärtää, mitä haetaan.
Tänään: CLIP on kuvahaun ja kuvangeneroinnin perusta. Stable Diffusion ja Midjourney käyttävät tekniikkaa ymmärtääkseen, mitä tekstiohjeessa pyydetään.
9. DALL-E (2021)
Tutkijat: Ramesh ym., OpenAI arXiv: 2102.12092
DALL-E osoitti, että neuroverkko pystyy luomaan uusia, realistisia kuvia pelkästä tekstikuvauksesta.
Ennen tätä kuvien generoiminen oli satunnaista ja epätarkkaa. DALL-E pystyi tulkitsemaan monimutkaisia tekstiohjeita, kuten "avokado, joka istuu nojatuolissa", ja tuottamaan kuvan, jossa juuri niin tapahtuu. Tämä avasi kokonaan uuden kentän: generatiivisen kuvataiteen, markkinointimateriaalin, konseptitaiteen ja paljon muun nopean tuottamisen.
Tänään: tekstistä kuvaa generoivat palvelut ovat arkipäivää mainonnassa, internet-meemeissä ja jopa sotapropagandassa.
10. Segment Anything Model, SAM (2023)
Tutkijat: Kirillov ym., Meta arXiv: 2304.02643
SAM on konenäön perusmalli kuvien segmentoinnille: yksi yleiskäyttöinen malli, joka osaa ohjeistuksen avulla erottaa minkä tahansa objektin mistä tahansa kuvasta.
Segmentointi tarkoittaa pikselikohtaista tunnistusta: ei vain "tässä kuvassa on koira" vaan "nämä pikselit kuuluvat koiraan". Aiemmat mallit piti opettaa erikseen jokaista käyttötapausta varten. SAM pystyy segmentoimaan kohteen, jota se ei ole koskaan aiemmin nähnyt, pelkällä napautuksella tai tekstiohjeella. Se toimii valtavalla joukolla erityyppisiä kuvia.
Tänään: käytetään lääketieteellisessä kuvantamisessa, satelliittikuvien analysoinnissa, videon editoinnissa ja esimerkiksi Facebookin markkinapaikalla, jossa kohde erotetaan taustastaan automaattisesti.
Oppimistekniikat
11. SimCLR (2020)
Tutkijat: Chen ym., Google arXiv: 2002.05709
SimCLR osoitti, että neuroverkko voi oppia kuvien keskeisiä piirteitä ilman yhtään merkittyä harjoitusesimerkkiä.
Neuroverkon opettaminen vaatii normaalisti tuhansia tai miljoonia ihmisten luokittelemia kuvia: "tässä on kissa", "tässä on koira". Tämä on kallista ja hidasta. SimCLR käyttää kontrastiivista oppimista: malli vertaa samasta kuvasta tehtyjä eri versioita (satunnaisesti rajattu tai värisävy muutettu) toisiinsa ja oppii tunnistamaan, mitkä piirteet pysyvät samoina. Tuloksena on malli, joka ymmärtää kuvasisältöä ilman merkintätyötä.
Tänään: erityisen hyödyllinen lääketieteessä, missä asiantuntijamerkintöjä on vaikea saada. SimCLR-pohjaisia tekniikoita käytetään röntgenkuvien ja patologianäytteiden analysoinnissa.
12. Chinchilla-skaalauslait (2022)
Tutkijat: Hoffmann ym., DeepMind arXiv: 2203.15556
Tämä paperi osoitti, että tekoälyala oli kouluttanut malleja väärin: mallit olivat liian suuria suhteessa harjoitusdatan määrään.
Ennen Chinchillaa teknologiayritykset kilpailivat mallien koolla: suurempi malli on parempi malli. Chinchilla-tutkimus osoitti, että jos laskentabudjetti on kiinteä, paras tulos syntyy kasvattamalla mallin kokoa ja datan määrää yhtä paljon. Pienempi malli, jolle annetaan nelinkertaisesti dataa, päihittää suuremman mallin, jolle data on niukkaa. Tämä käänsi alan logiikan päälaelleen.
Tänään: kaikki johtavat kielimallit on sen jälkeen suunniteltu Chinchilla-periaatteiden mukaan. Se selittää, miksi pienet mutta huolellisesti koulutetut mallit ovat usein parempia kuin vain kokoa kasvattamalla tehty versio.
13. DDPM: Denoising Diffusion Probabilistic Models (2020)
Tutkijat: Ho ym., UC Berkeley arXiv: 2006.11239
DDPM esitteli diffuusiomallit: menetelmän, jossa neuroverkko oppii generoimaan kuvia purkamalla kohinaa askel kerrallaan.
Idea on yksinkertainen mutta nerokas. Malli opetetaan lisäämällä kuvaan vähitellen enemmän ja enemmän kohinaa, kunnes jäljellä on pelkkä satunnainen kohina. Sitten malli opettelee peruuttamaan tämän prosessin askel kerrallaan. Koulutuksen jälkeen malli osaa muuttaa satunnaisen kohinan realistiseksi kuvaksi. Tämä menetelmä tuotti parempaa ja monipuolisempaa kuvajälkeä kuin aiemmat generatiiviset mallit.
Tänään: DDPM on Stable Diffusionin, DALL-E 3:n ja muiden kuvageneraattoreiden tekninen perusta.
14. LoRA: Low-Rank Adaptation of Large Language Models (2021)
Tutkijat: Hu ym., Microsoft arXiv: 2106.09685
LoRA ratkaisi käytännön ongelman: miten hienosäätää suuri kielimalli omaan käyttötarkoitukseen ilman valtavaa laskentakapasiteettia?
GPT-3:n kouluttaminen tyhjästä maksaa miljoonia euroja. Mutta hienosäätökin, eli mallin jatkokouluttaminen uudella aineistolla, saattoi vaatia satoja GPU-tunteja. LoRA tarjoaa fiksun oikotien: sen sijaan, että muutetaan koko mallin kaikki 175 miljardia parametria, mallin raskaiden kerrosten rinnalle injektoidaan pienet matriisit, joita koulutetaan. Alkuperäiset painoarvot jäädytetään. GPT-3:n 175 miljardin parametrin sijaan koulutettavia parametreja on enää 18 miljoonaa. Lopputulos on lähes yhtä hyvä, mutta koulutus sopii yksittäiselle kuluttajagrafiikakorteille.
Tänään: LoRA on avoimen lähdekoodin yhteisöissä kaikkein eniten käytetty tekniikka omien mallien rakentamiseen. Se mahdollistaa, että pienet yritykset ja tutkijat voivat hienosäätää isoja malleja oman alansa datalla kohtuullisin kustannuksin.
15. Constitutional AI (2022)
Tutkijat: Bai ym., Anthropic arXiv: 2212.08073
Constitutional AI esitteli tavan opettaa kielimalleille eettiset ohjeistukset ilman, että jokaiseen ongelmatapaukseen tarvitaan ihmisarviointia.
Miksi tämä on tärkeä? RLHF-menetelmä InstructGPT:ssä vaatii ihmisarviointia jokaisesta hankkalasta tilanteesta. Tämä on kallista ja hidasta. Constitutional AI:ssa mallille annetaan joukko periaatteita eli "perustuslaki", jonka pohjalta se voi itse arvioida omia vastauksiaan ja korjata niitä. Ihmisarvioijien tarvetta turvallisuuskoulutuksessa pystyttiin merkittävästi vähentämään, ja mallin käyttäytyminen pysyi silti turvallisena ja perustellumpana.
Tänään: Anthropicin Claude käyttää tätä tekniikkaa. Se on esimerkki suunnasta, jossa mallien arvopohjaa pyritään tekemään läpinäkyväksi ja niiden toimintaa ymmärrettävämmäksi.
Yhteenveto
Viisitoista paperia, kymmenen vuotta, yksi vääjäämätön suunta: tekoälymallit kehittyvät kapeista erikoistyökaluista yleiskäyttöisiksi järjestelmiksi, jotka ymmärtävät sekä kieltä että kuvia ja joita voidaan soveltaa tehtäviin, joihin niitä ei ole erikseen opetettu.
Seuraava vuosikymmen on jo käynnissä.