Towards Self-explanatory Ontology Visualization with Contextual VerbalizationNormunds Grūzītis
Contenu connexe
Latviešu valodas resursi un rīki CLARIN infrastruktūrā
1. Latviešu valodas resursi un rīki
CLARIN infrastruktūrā
Normunds Grūzītis
LU Matemātikas un informātikas institūta
Mākslīgā intelekta laboratorija
Rīgā, 2011. gada 4. jūlijā
2. Mērķi
• Pieejamība:
– Tīmekļa pakalpes (webservices) valodas resursu un rīku attālinātai,
automatizētai izmantošanai, integrēšanai dažādās tīmekļa lietotnēs
• Vārdu un teikumu dalītājs
• Statistisks morfoloģiskais marķētājs (tageris)
• Morfoloģiskais analizators un sintezators
• Runas sintezators
• Latviešu literārās valodas vārdnīca
– Galalietotāju autentifikācija Latvijas akadēmisko identitāšu federācijā
• Mīlenbaha un Endzelīna Latviešu valodas vārdnīca u.c. autortiesību objekti
• Standartizācija:
– Morpho-syntacticAnnotationFramework (ISO/DIS 24611)
– TextCorpusFormat (vers. 0.4)
– LexicalMarkupFramework (ISO/IS 24613:2008)
– ISOcatDataCategoryRegistry (ISO/IS 12620:2009)
– MULTEXT-East (vers. 4)
• Atvērtība:
– Rīki: [Lesser]GeneralPublicLicense
– Resursi: CreativeCommonsLicense (ar nosacījumiem)
3. Statistisks morfoloģiskais tageris
• http://valoda.ailab.lv/ws/tagger/
• Datu apmaiņas formāti: ISO MAF, TCF
• Pazīmju kopas: ISOcat, MULTEXT-East
4. Tīmekļa pakalpju kombinēšana
• Dalība CLARIN WG 5.6 nodevumā “IntegrationofLanguageResourcesinto
Web serviceinfrastructure”: “Standardsinpractice: IMCS services”
– Eksperiments ar ISO MAF, kas pašlaik ir “internationaldraft” stadijā
• Tagera vajadzībām ieviests paplašinājums teikumu robežu anotēšanai,
analoģiski kā TCF formātā
– ISOcat kategoriju reģistrā ieviesti papildu termini latviešu valodai specifiskās
atstāstījuma (relative) un vajadzības (debitive) izteiksmes norādīšanai
(TCF) (TCF) (TCF) (TCF)
5. Izmantotie/pielāgotie standarti
• Datu apmaiņas formāti – valodneatkarīgi
• Pazīmju kopas (morfosintaktiskās kategorijas) – valodatkarīgas
• Mērķis:
– Panākt, lai plaši lietotie standarti atbilstu latviešu valodas parādībām
– Saprast, ar ko latviešu valodniecības tradīcija pārklājas/atšķiras
• Tomēr tradīcijai ir sekundāra nozīme
– Nodefinēt iespējami funkcionālu un sistemātisku morfosintaktisko pazīmju kopu
• MULTEXT-Eastvers. 4 atvasinājums, ņemot vērā:
– pieredzi korpuss.lv morfoloģiski marķēto korpusu izveidē un lietošanā
– pieredzi latviešu valodas sintaktiskajā analīzē
– pieredzi latviešu valodas ģenerēšanā (sintēzē)
– pieredzi nenormētas un normētas (kontrolētas) valodas analīzē/sintēzē
– pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē
– pieredzi statistiskajā morfoloģiskajā tagošanā
– esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi
– latviešu valodniecības tradīciju
7. Morfoloģiskais leksikons
Licence: CreativeCommonsAttribution-NonCommercial-ShareAlike 3.0
Pamatformas Vārdformas Pazīmes
Lietvārdi 32 386 355 488 710 976
Darbības vārdi 12 002 347 729 1 174 964
Īpašības vārdi 6 086 681 632 3 408 160
Apstākļa vārdi 6 497 6 497 0
Vietniekvārdi 51 472 944
Citi 409 409 0
Kopā 57 431 1 392 227 5 295 044
• Par pamatu ņemti LLVV šķirkļu vārdi
• Divdabju formas un skaitļa vārdi pašlaik nav ietverti
10. Drīzumā...
• Latviešu valodas tīmekļa pakalpes WebLichtinfrastruktūrā
– Dalītājs vārdos un teikumos, statistiskais morfoloģiskais marķētājs
– http://weblicht.sfs.uni-tuebingen.de/
– Galalietotājiem “draudzīga” tīmekļa saskarne reģistrēto rīku
kombinēšanai, darbināšanai un rezultātu pārlūkošanai
• Piekļuve Mīlenbaha un Endzelīna vārdnīcai, autentificējoties
ar LAIFE identitāti (piem., LUIS, LiepU, RA vai DU lietotāju)
– http://tezaurs.lv/mev/
– https://laife.lanet.lv
• Latviešu valodas korpusa platformas jaunā versija
– http://korpuss.lv/
– Uzlabota veiktspēja
– Tīmekļa saskarne (Bonito)
– Vienots, uzlabots marķējums (balstīts uz MULTEXT-Eastvers. 4)
Nākotnē: piekļuve caur LAIFE arī CLARIN-Europe resursiem, piem., WebLicht; “politisku”, administratīvu un juridisku jautājumu risināšana; taču CLARIN ir tikai viens no LAIFE use-case.