Pienten kielten puheentunnistus: uhka vai mahdollisuus Euroopalle?


Puheentunnistukseen perustuvien käyttöliittymien merkitys on vahvassa kasvussa. Automaattiset henkilökohtaiset avustajat, eri järjestelmien puheella ohjattavat toiminnot ja automaattinen kielen kääntäminen ovat esimerkkejä puheentunnistuksen jatkuvasti laajentuvista sovellusalueista. Markkinapohjaisen kasvun ohella myös lainsäädäntö, kuten EU:n esteettömyysdirektiivi, luo tarvetta automaattisille ratkaisuille puhutun kielen tunnistamisessa.

Puheentunnistusjärjestelmien markkinoita dominoivat suuret, Euroopan ulkopuolelta tulevat teknologiajätit, kuten Amazon, Google ja Huawei. Markkinoilla on jo tarjontaa suurille kieliryhmille, mutta pienille kieliryhmille, suurten kielten eri murteille tai erityisaloille ratkaisuja ei juurikaan ole saatavilla.

Eurooppalaiset ratkaisut puhutun kielen tunnistamiseen ovat tärkeä osa Euroopan digitaalisen suvereniteetin varmistamista. Sen sijaan, että eurooppalaiset käyttäjät luovuttavat datansa teknologiajättien käyttöön, on tärkeää, että markkinoilla on eurooppalaisia ratkaisuja, joilla varmistetaan järjestelmien läpinäkyvyys, vastuullisuus, yksityisyyden suoja ja eettisyys sekä toimivuus myös pienten kieliryhmien osalta. Euroopassa puhutaan kaikkiaan yli 200 eri kieltä. Tasa-arvon näkökulmasta on tärkeää, että puhekäyttöliittymiä toteutetaan myös pienille kieliryhmille.
Teknologinen kehitys on avannut mahdollisuuksia kehittää puheentunnistusjärjestelmiä kustannustehokkaasti eri toimijoiden hyödynnettäväksi. Euroopassa on alan korkeatasoista osaamista. Panostamalla ratkaisujen kehitykseen ja kaupallistamiseen Euroopalla on mahdollisuus varmistaa merkittävä asema puheentunnistusjärjestelmien toteuttajana. Globaalilla tasolla tuhannet eri kielet tarjoavat mittavat markkinamahdollisuudet ratkaisuille.

Esitin kirjallisen kysymyksen aiheesta Euroopan komissiolle: Mihin toimiin komissio on ryhtymässä eurooppalaisen puheentunnistusosaamisen vahvistamiseksi, pienten kieliryhmien puheentunnistusjärjestelmien kehittämisen edistämiseksi sekä Euroopan ja sen kansalaisten digitaalisen suvereniteetin varmistamiseksi?

 

Sisämarkkinoista vastaava komissaari Thierry Breton vastasi kysymykseeni komission puolesta seuraavasti:

Komissio tarjoaa Euroopan unionin pienille ja keskisuurille yrityksille, julkishallinnoille ja korkeakouluille mahdollisuuden käyttää ilmaiseksi erilaisia kieliteknologiapalveluita. Niihin sisältyy välineitä puheen transkriptioon, nimien ja niiden kaltaisten rakenteiden tunnistamiseen (named entity recognition, NER) ja tekstin luokitteluun sekä komission eTranslation-konekäännöspalvelu, joka kattaa tällä hetkellä 31 kieltä . Parhaillaan kehitetään talon sisäistä puheentunnistusvälinettä, jota on määrä tarjota myös ulkopuolisille käyttäjille.

Kieliteknologioiden kehittäminen vaatii puhdasta koulutusdataa. Direktiivillä 2019/1024 (avointa dataa koskeva direktiivi) varmistetaan, että enemmän kansallisen, alueellisen ja paikallisen tason julkisen sektorin tietoja on helposti uudelleenkäytettävissä. Komissio kannustaa jäsenvaltioita asettamaan teksti- ja äänitietoaineistonsa saataville avoimena datana erikoistuneen verkoston kautta. Komission rahoittama Euroopan kieliresurssien koordinointialoite on vuosien ajan koonnut kieliaineistoja ja -välineitä sekä tarjonnut mahdollisuuden käyttää niitä.

Digitaalinen Eurooppa -ohjelman puitteissa suunnitellun uuden kielidata-avaruuden (Language Data Space) käyttöönotto edistää entisestään tietojen ja mallien luomista, keräämistä, jakamista ja uudelleenkäyttöä kaikilla tarvittavilla kielillä. Se tarjoaa markkina-alustan monikielisille ja multimodaalisille tietoaineistoille, kielimalleille ja tekoälykomponenteille, jotka ovat välttämättömiä puheentunnistusjärjestelmien kehittämisessä.

Digitaalinen Eurooppa -ohjelmasta suurteholaskentaan, tekoälyyn, datan viiveettömään käsittelyyn verkon reunalla (cloud-to-edge) ja tietoinfrastruktuuriin tehtävillä investoinneilla sekä Horisontti-ohjelman tutkimusrahoituksella olisi tuettava myös EU:n kieliteknologia-alaa, jotta se voi kehittää Euroopassa tarvittavia välineitä ja palveluita.