

Valvoja: Valvoja
Mun mielestäni Suomessa julkaistaan nykyään aika paljon tuon tyylistä ja tasoista musiikkia, joten ihan hyvin on tekoäly tavoittanut sen idean
Tekoälytalkoot on suomalainen hanke, jonka tavoitteena on kehittää suomenkielistä tekoälyä ja sen soveltamismahdollisuuksia keräämällä ja luomalla laadukasta suomenkielistä aineistoa. Tekoälytalkoot nousi erityisesti esille vuonna 2020, kun suomalaiset organisaatiot ja yksityishenkilöt osallistuivat talkoisiin eri tavoin.
Tärkeimmät tavoitteet ja toimet:
Suomenkielisen tekoälyn kehitys:
Suomen kieli on harvinaisempi kieli tekoälymallien kehityksessä, joten tavoitteena on ollut vahvistaa tekoälyjen kykyä ymmärtää ja tuottaa sujuvaa suomea.
Kansalaisten osallistuminen:
Hankkeessa korostettiin, että kuka tahansa voi osallistua esimerkiksi keräämällä, tuottamalla tai muokkaamalla suomenkielistä dataa.
Esimerkiksi puheentunnistukseen liittyviä ääninäytteitä tai tekstimuotoista dataa kerättiin laajasti.
Yhteistyö organisaatioiden ja yksilöiden kesken:
Mukana olivat muun muassa Helsingin yliopisto, Tieteen tietotekniikan keskus CSC, sekä useita teknologia-alan yrityksiä.
Dataa tuotettiin esimerkiksi verkkotyökalujen kautta, joissa osallistujat tekivät annotointeja, eli merkitsivät ja muokkasivat tekstiä tai puhedataa.
Mitä tekoälytalkoiden tuloksista syntyi?
Suomenkielinen GPT-3-malli: Tekoälytalkoiden tuottamaa dataa käytettiin luomaan suomenkielisiä kielimalleja, kuten FinGPT ja muita vastaavia projekteja.
Puhe- ja tekstidataa: Talkoot lisäsivät huomattavasti suomenkielisen aineiston määrää avoimissa tietokannoissa.
Osallistumisen kulttuuri: Hanke toi tietoisuutta tekoälyn kehittämisestä ja teki siitä saavutettavampaa tavallisille kansalaisille.
Miksi hanke oli merkittävä?
Suomi on kielialueena pieni, eikä globaaleilla teknologiajätteillä aina ole resursseja tai kiinnostusta panostaa harvinaisiin kieliin. Tekoälytalkoot osoitti, että pienelläkin kielialueella voidaan yhteisvoimin kehittää ratkaisuja, jotka hyödyttävät niin yrityksiä, tutkijoita kuin tavallisia kansalaisia.
Vektoriavaruus on moniulotteinen tila, jonka sisällä jokainen yksittäinen vektori saa numeroarvoja jokaisella ulottuvuudella. Eri ulottuvuudet liittyvät toisiinsa, minkä ansiosta yksittäisten vektoreiden välinen etäisyys tai samankaltaisuus voidaan laskea numeroarvoksi. Näitä ulottuvuuksia kutsutaan kielimalleissa parametreiksi. Esimerkiksi LLAMA 8B -malli sisältää 8 miljardia tällaista parametriä. Eri käsitteiden (kissa, koira, kattila ja niin edelleen) samankaltaisuutta voidaan arvioida laskemalla niiden etäisyys toisistaan kaikilla mallin ulottuvuuksilla.