Valoda mūsdienās ir cieši saistīta ar informācijas tehnoloģijām. Dators un mobilais tālrunis ir kļuvuši par universālu rīku – vārdnīcas ir pieejamas arī internetā, tastatūra un ekrāns ir mūsdienu pildspalvas, savukārt bibliotēkas ar miljoniem grāmatu nu ir pieejamas mazajos viedtālruņu ekrānos. Liela daļa šīs informācijas telpas ir angļu valodā, kas ir izaicinājums latviešu valodai, jo tas nozīmē, ka ikdienā daudz biežāk iegūstam informāciju angliski.
Eiropas izcilības tīkla “Meta-NET” pētījums “Latviešu valoda digitālajā laikmetā” liecina, ka valodas situācija ir atkarīga arī no tās lietojuma digitālās informācijas telpā un datorprogrammās. Tikai mazāk nekā 0,1 procents pasaules tīmekļa vietņu ir latviešu valodā, taču, lai latviešu valoda arī turpmāk būtu dzīvotspējīga, tai jābūt pieejamai atbilstošiem IT risinājumiem un valodas tehnoloģijām.
Kas ir valodas tehnoloģijas?
Valodas tehnoloģijas ir dažādi datorizēti rīki, kas izveidoti darbam ar valodu. To pirmsākumi meklējami 20. gadsimta otrajā pusē, kad sāka attīstīties datorlingvistika, taču tieši ap 2000. gadu, pieaugot datora ātrdarbībai, parādījās tādas tehnoloģijas kā pareizrakstības pārbaudes rīki, pilnveidoti mašīntulkotāji, runas sintēze un atpazīšana. Mūsdienās ir pieejamas ļoti dažādas valodas tehnoloģijas.
Elektroniskās vārdnīcas, rokasgrāmatas un terminu datubāzes
Tās ir vietnes, kur uzzināt vārdu pareizrakstību, atveidi un daudz ko citu. Latviešu valodā ir pieejami tādi elektroniskie uzziņas avoti kā:
- letonika.lv, kurā atrodamas vārdnīcas, grāmatas, enciklopēdijas u.tml.;
- tezaurs.lv – lielākā un populārākā latviešu valodas tiešsaistes vārdnīca;
- multitran.ru – vairākvalodu vārdnīca, kurā pie vārda skaidrojuma norādīts, cik un kādos vārdu savienojumos to lieto dažādās nozarēs;
- termini.gov.lv – Latvijas Nacionālais terminoloģijas portāls;
- personvarduatveide.lv – citvalodu personvārdu atveide latviešu valodā;
- valodasrokasgramata.lv – enciklopēdisks mācību palīglīdzeklis latviešu valodniecībā, kurā apkopoti un izklāstīti galvenie jautājumi 26 valodniecības nozarēs un apakšnozarēs.
Korpuss
Pētniecībā, tulkošanā un citās jomās bieži izmanto arī korpusus – apjomīgus tekstus un/vai transkribētus runas kopumus. Viens no lielākajiem korpusiem latviešu valodā ir publiski pieejamais LVK2018 jeb mūsdienu latviešu valodas tekstu korpuss un Eiropas Solidaritātes korpuss “EUR-Lex”.
Pareizrakstība
Pareizrakstības pārbaudītāji ir viena no populārākajām un visbiežāk izmantotajām valodas tehnoloģijām pasaulē, un tā vairs nav saistīta tikai ar programmu MS Word. Arvien populārāki kļūst rīki, kas spēj pārbaudīt pareizrakstību ne tikai pašā programmā, bet arī ārpus tās (piemēram, e-pastā), populārākais no tiem – Grammarly, kas analizē arī stilu un labskanību. Tas gan nav pieejams latviešu valodā, taču tehnoloģiju lokalizācijas uzņēmums “Tilde” tam ir radījis labu alternatīvu – Tildes Biroju.
Runas un teksta atpazīšana
Runas un teksta atpazīšanas programmas atpazīst un dekodē ierunātu audio vai ievadītu tekstu, pārvēršot to vēlamajā failā un formātā. Tās izmanto, piemēram, tekstu un datu apstrādē, tulkošanā/rediģēšanā, subtitrēšanā un tamlīdzīgi. Angļu valodā runas atpazīšanai ir pieejami tādi rīki kā Happyscribe, savukārt latviešu valodā ir pieejama Tildes Balss, kas ir pierādījums tam, ka iedarbīgas valodas tehnoloģijas iespējams izstrādāt arī latviešu valodā un ka tās nav paredzētas tikai valodniekiem. Uzņēmums “Tilde”, piemēram, nodrošina satura pieejamību vājdzirdīgiem un nedzirdīgiem Latvijas iedzīvotājiem sarunu festivālā “Lampa”, sniedzot iespēju lietot reāllaika titrēšanas rīku latviešu valodā un piedalīties festivāla diskusijās. Savukārt, teksta atpazīšanas programma Onlineocr.net ir paredzēta dažādām valodām, tostarp arī latviešu.
Mašīntulkošana
Viena no valodas tehnoloģijām, ko noteikti esi kādreiz pamēģinājis, ir mašīntulkotāji – to pamatā ir milzīga apjoma paralēlteksti, ko programma apstrādā tā, lai spētu tulkot arī citus tekstus (piemēram, Google tulkotājs). Ja agrāk tie bija piemēroti tikai tādām frāzēm kā “Labdien, mans vārds ir Jānis!”, tad mūsdienās tos var izmantot arī dažādu nozaru pārstāvji. Izcils piemērs ir “Tildes” radītais pielāgotais mašīntulkotājs hugo.lv, kas ir paredzēts dažādiem juridiskajiem tekstiem un nākotnē, iespējams, ievērojami atvieglos dažādus administratīvos procesus.
CAT – datorizētie tulkošanas rīki
Noteikti jāpiemin arī CAT (computer-assisted translation) jeb datorizētie tulkošanas rīki. Tiem gan nav nekāda sakara ar kaķiem – saskaņā ar tulkošanas uzņēmuma “Skrivanek Baltic” tīmekļa vietni datorizēti tulkošanas rīki ir īpašas tulkotājiem izstrādātas programmas, ar kurām var tekstu segmentēt (sadalīt pa teikumiem) un uzglabāt tulkošanas atmiņā visus tulkotos tekstus, šādi nodrošinot, ka divi vienādi teikumi nekad nebūs jātulko vairāk par vienu reizi. CAT rīkos tulkojumu veic cilvēks (atšķirībā no automatizētas jeb mašīntulkošanas), un mūsdienās vispopulārākie datorizētās tulkošanas rīki ir Memsource, SDL Trados Studio un MemoQ.
Virtuālie asistenti
Viena no jaunākajām (bet populārākajām) valodas tehnoloģijām ir virtuālie asistenti jeb čatboti, piemēram, izklaides un tehnoloģiju uzņēmuma “Tet” virtuālā asistente Anete jau vairāk nekā divus gadus atbild uz vienkāršiem klientu jautājumiem, šādi palīdzot klientu apkalpošanas speciālistiem. Kopš pagājušā gada beigām Anete spēj sazināties ar klientiem ne tikai rakstveidā, bet arī mutvārdos. “Tet” sadarbībā ar “Tildi” ir izstrādājuši arī Covid-19 virtuālo asistentu informācijas meklēšanai par koronavīrusu. Pasaulē medicīnas virtuālie asistenti nav nekas neierasts – ir pieejami vairāki čatboti, kas palīdz rūpēties ne tikai par fizisko, bet arī garīgo veselību, atbalstot ārkārtas situācijās, atgādinot iedzert zāles, novērtējot veselības stāvokli ar dažādu algoritmu palīdzību un daudz ko citu.
Gaidāms, ka nākamajos gados valodas tehnoloģijas arvien biežāk izmantosim medicīnā, izglītībā un citās jomās, rodot radošus un noderīgus risinājumus un padarot pasauli un informāciju pieejamāku ikvienam.
Raksta avots.