Jezikoslovna infrastruktura za slovenščino: CLARIN.SI in RI-SI – CLARIN

Dr. Darinka Verdonik, Univerza v Mariboru

Jezikoslovje z razvojem digitalnih tehnologij vedno širše spoznava in izkorišča prednosti računalniško podprtega raziskovanja jezika. V te namene se razvijajo številni korpusi besedil in govornih posnetkov, avtomatsko pridobljeni podatki o besedišču, orodja za avtomatsko jezikoslovno analizo in označevanje osnovnih jezikoslovnih ravni kot tudi orodja za analizo. Po drugi strani se z jezikom aktivno ukvarjajo tudi tehniške vede, in sicer v segmentu razvoja jezikovnih, govornih, semantičnih in sorodnih tehnologij oz. procesiranja naravnega jezika nasploh. Potrebe po odprtih jezikovnih virih in orodjih se zato pojavljajo tudi tam in so pogosto sorodne ali celo identične, kot jih ima jezikoslovje.

V začetkih, pred dvema desetletjema in več, je bil razvoj dokaj stihijski: ko je določena skupina jezikoslovcev ali inženirjev imela potrebo po nekem jezikovnem viru, ga je začela razvijati. Tako izdelani viri sprva niso bili dostopni širši javnosti ali pa so bili dostopni po zelo visoki ceni. Posledično se je začelo dogajati, da se je istovrstni vir razvijal dva- ali celo večkrat vedno znova. Ker pa je izdelava finančno in časovno zahtevna, se je hitro pokazalo, da je edini učinkovit in pluralen način razvoja sodelovanje vseh zainteresiranih akterjev in odprta jezikoslovna infrastruktura.

Ti procesi so potekali precej podobno tako v evropskem kot v slovenskem prostoru. Na evropski ravni je bila tako od leta 2008 financirana izgradnja jezikoslovne raziskovalne infrastrukture CLARIN in po njenem izteku leta 2012 ustanovljen konzorcij ERIC – European Research Infrastructure Consortium. Slovenija se je v ERIC vključila leta 2014, potem ko so se vse večje institucije ter podjetja in društva, ki so se takrat v Sloveniji ukvarjali z jezikoslovjem in jezikovnimi tehnologijami, povezali v konzorcij CLARIN.SI. Ta je vzpostavil certificirani repozitorij, ki sedaj hrani že prek 150 jezikovnih virov in orodij, dva spletna konkordančnika, ki omogočata dostop do skoraj 100 jezikovnih korpusov in njihovo analizo, in nekatera druga orodja in storitve. Za vzdrževanje teh pa je potrebna tudi ustrezna strojna oprema. Eden od pomembnih korakov naprej v opremljenosti je bil izveden v operaciji Razvoj raziskovalne infrastrukture za mednarodno konkurenčnost slovenskega RRI prostora – RI-SI – CLARIN.

Dodaj odgovor

Vaš e-naslov ne bo objavljen. * označuje zahtevana polja