SlideShare une entreprise Scribd logo
1  sur  11
Télécharger pour lire hors ligne
Latviešu valodas resursi un rīki
    CLARIN infrastruktūrā

                                            Normunds Grūzītis
                    LU Matemātikas un informātikas institūta
                                         Mākslīgā intelekta laboratorija




            Rīgā, 2011. gada 4. jūlijā
Mērķi
• Pieejamība:
    – Tīmekļa pakalpes (webservices) valodas resursu un rīku attālinātai,
      automatizētai izmantošanai, integrēšanai dažādās tīmekļa lietotnēs
         •   Vārdu un teikumu dalītājs
         •   Statistisks morfoloģiskais marķētājs (tageris)
         •   Morfoloģiskais analizators un sintezators
         •   Runas sintezators
         •   Latviešu literārās valodas vārdnīca
    – Galalietotāju autentifikācija Latvijas akadēmisko identitāšu federācijā
         • Mīlenbaha un Endzelīna Latviešu valodas vārdnīca u.c. autortiesību objekti

• Standartizācija:
    –   Morpho-syntacticAnnotationFramework (ISO/DIS 24611)
    –   TextCorpusFormat (vers. 0.4)
    –   LexicalMarkupFramework (ISO/IS 24613:2008)
    –   ISOcatDataCategoryRegistry (ISO/IS 12620:2009)
    –   MULTEXT-East (vers. 4)

• Atvērtība:
    – Rīki: [Lesser]GeneralPublicLicense
    – Resursi: CreativeCommonsLicense (ar nosacījumiem)
Statistisks morfoloģiskais tageris
• http://valoda.ailab.lv/ws/tagger/
• Datu apmaiņas formāti: ISO MAF, TCF
• Pazīmju kopas: ISOcat, MULTEXT-East
Tīmekļa pakalpju kombinēšana
• Dalība CLARIN WG 5.6 nodevumā “IntegrationofLanguageResourcesinto
  Web serviceinfrastructure”: “Standardsinpractice: IMCS services”
   – Eksperiments ar ISO MAF, kas pašlaik ir “internationaldraft” stadijā
        • Tagera vajadzībām ieviests paplašinājums teikumu robežu anotēšanai,
          analoģiski kā TCF formātā
   – ISOcat kategoriju reģistrā ieviesti papildu termini latviešu valodai specifiskās
     atstāstījuma (relative) un vajadzības (debitive) izteiksmes norādīšanai




      (TCF)                    (TCF)                     (TCF)                    (TCF)
Izmantotie/pielāgotie standarti
• Datu apmaiņas formāti – valodneatkarīgi
• Pazīmju kopas (morfosintaktiskās kategorijas) – valodatkarīgas
• Mērķis:
    – Panākt, lai plaši lietotie standarti atbilstu latviešu valodas parādībām
    – Saprast, ar ko latviešu valodniecības tradīcija pārklājas/atšķiras
         • Tomēr tradīcijai ir sekundāra nozīme
    – Nodefinēt iespējami funkcionālu un sistemātisku morfosintaktisko pazīmju kopu
• MULTEXT-Eastvers. 4 atvasinājums, ņemot vērā:
    –   pieredzi korpuss.lv morfoloģiski marķēto korpusu izveidē un lietošanā
    –   pieredzi latviešu valodas sintaktiskajā analīzē
    –   pieredzi latviešu valodas ģenerēšanā (sintēzē)
    –   pieredzi nenormētas un normētas (kontrolētas) valodas analīzē/sintēzē
    –   pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē
    –   pieredzi statistiskajā morfoloģiskajā tagošanā
    –   esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi
    –   latviešu valodniecības tradīciju
Morfoloģiskais analizators/sintezators
•   http://valoda.ailab.lv/ws/morph/
•   Datu apmaiņas formāti: ISO LMF
•   Pazīmju kopas: ISOcat
Morfoloģiskais leksikons
Licence: CreativeCommonsAttribution-NonCommercial-ShareAlike 3.0


                         Pamatformas               Vārdformas   Pazīmes
Lietvārdi                32 386                    355 488      710 976
Darbības vārdi           12 002                    347 729      1 174 964
Īpašības vārdi           6 086                     681 632      3 408 160
Apstākļa vārdi           6 497                     6 497        0
Vietniekvārdi            51                        472          944
Citi                     409                       409          0
Kopā                     57 431                    1 392 227    5 295 044

•   Par pamatu ņemti LLVV šķirkļu vārdi
•   Divdabju formas un skaitļa vārdi pašlaik nav ietverti
Runas sintezators
• http://valoda.ailab.lv/ws/tts/
    – Pieprasījums: vārds, teikums vai teksta fragments
    – Atbilde: MP3 datne vai URL uz MP3 datni
• Tīmekļa pakalpei pieejama arī galalietotāju saskarne:
Latviešu literārās valodas vārdnīca




                             http://tezaurs.lv/llvv/
Drīzumā...
• Latviešu valodas tīmekļa pakalpes WebLichtinfrastruktūrā
   – Dalītājs vārdos un teikumos, statistiskais morfoloģiskais marķētājs
   – http://weblicht.sfs.uni-tuebingen.de/
   – Galalietotājiem “draudzīga” tīmekļa saskarne reģistrēto rīku
     kombinēšanai, darbināšanai un rezultātu pārlūkošanai
• Piekļuve Mīlenbaha un Endzelīna vārdnīcai, autentificējoties
  ar LAIFE identitāti (piem., LUIS, LiepU, RA vai DU lietotāju)
   – http://tezaurs.lv/mev/
   – https://laife.lanet.lv
• Latviešu valodas korpusa platformas jaunā versija
   –   http://korpuss.lv/
   –   Uzlabota veiktspēja
   –   Tīmekļa saskarne (Bonito)
   –   Vienots, uzlabots marķējums (balstīts uz MULTEXT-Eastvers. 4)
Paldies!
Sekojietjaunumiem:   twitter.com/AILab_lv

Contenu connexe

Latviešu valodas resursi un rīki CLARIN infrastruktūrā

  • 1. Latviešu valodas resursi un rīki CLARIN infrastruktūrā Normunds Grūzītis LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija Rīgā, 2011. gada 4. jūlijā
  • 2. Mērķi • Pieejamība: – Tīmekļa pakalpes (webservices) valodas resursu un rīku attālinātai, automatizētai izmantošanai, integrēšanai dažādās tīmekļa lietotnēs • Vārdu un teikumu dalītājs • Statistisks morfoloģiskais marķētājs (tageris) • Morfoloģiskais analizators un sintezators • Runas sintezators • Latviešu literārās valodas vārdnīca – Galalietotāju autentifikācija Latvijas akadēmisko identitāšu federācijā • Mīlenbaha un Endzelīna Latviešu valodas vārdnīca u.c. autortiesību objekti • Standartizācija: – Morpho-syntacticAnnotationFramework (ISO/DIS 24611) – TextCorpusFormat (vers. 0.4) – LexicalMarkupFramework (ISO/IS 24613:2008) – ISOcatDataCategoryRegistry (ISO/IS 12620:2009) – MULTEXT-East (vers. 4) • Atvērtība: – Rīki: [Lesser]GeneralPublicLicense – Resursi: CreativeCommonsLicense (ar nosacījumiem)
  • 3. Statistisks morfoloģiskais tageris • http://valoda.ailab.lv/ws/tagger/ • Datu apmaiņas formāti: ISO MAF, TCF • Pazīmju kopas: ISOcat, MULTEXT-East
  • 4. Tīmekļa pakalpju kombinēšana • Dalība CLARIN WG 5.6 nodevumā “IntegrationofLanguageResourcesinto Web serviceinfrastructure”: “Standardsinpractice: IMCS services” – Eksperiments ar ISO MAF, kas pašlaik ir “internationaldraft” stadijā • Tagera vajadzībām ieviests paplašinājums teikumu robežu anotēšanai, analoģiski kā TCF formātā – ISOcat kategoriju reģistrā ieviesti papildu termini latviešu valodai specifiskās atstāstījuma (relative) un vajadzības (debitive) izteiksmes norādīšanai (TCF) (TCF) (TCF) (TCF)
  • 5. Izmantotie/pielāgotie standarti • Datu apmaiņas formāti – valodneatkarīgi • Pazīmju kopas (morfosintaktiskās kategorijas) – valodatkarīgas • Mērķis: – Panākt, lai plaši lietotie standarti atbilstu latviešu valodas parādībām – Saprast, ar ko latviešu valodniecības tradīcija pārklājas/atšķiras • Tomēr tradīcijai ir sekundāra nozīme – Nodefinēt iespējami funkcionālu un sistemātisku morfosintaktisko pazīmju kopu • MULTEXT-Eastvers. 4 atvasinājums, ņemot vērā: – pieredzi korpuss.lv morfoloģiski marķēto korpusu izveidē un lietošanā – pieredzi latviešu valodas sintaktiskajā analīzē – pieredzi latviešu valodas ģenerēšanā (sintēzē) – pieredzi nenormētas un normētas (kontrolētas) valodas analīzē/sintēzē – pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē – pieredzi statistiskajā morfoloģiskajā tagošanā – esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi – latviešu valodniecības tradīciju
  • 6. Morfoloģiskais analizators/sintezators • http://valoda.ailab.lv/ws/morph/ • Datu apmaiņas formāti: ISO LMF • Pazīmju kopas: ISOcat
  • 7. Morfoloģiskais leksikons Licence: CreativeCommonsAttribution-NonCommercial-ShareAlike 3.0 Pamatformas Vārdformas Pazīmes Lietvārdi 32 386 355 488 710 976 Darbības vārdi 12 002 347 729 1 174 964 Īpašības vārdi 6 086 681 632 3 408 160 Apstākļa vārdi 6 497 6 497 0 Vietniekvārdi 51 472 944 Citi 409 409 0 Kopā 57 431 1 392 227 5 295 044 • Par pamatu ņemti LLVV šķirkļu vārdi • Divdabju formas un skaitļa vārdi pašlaik nav ietverti
  • 8. Runas sintezators • http://valoda.ailab.lv/ws/tts/ – Pieprasījums: vārds, teikums vai teksta fragments – Atbilde: MP3 datne vai URL uz MP3 datni • Tīmekļa pakalpei pieejama arī galalietotāju saskarne:
  • 9. Latviešu literārās valodas vārdnīca http://tezaurs.lv/llvv/
  • 10. Drīzumā... • Latviešu valodas tīmekļa pakalpes WebLichtinfrastruktūrā – Dalītājs vārdos un teikumos, statistiskais morfoloģiskais marķētājs – http://weblicht.sfs.uni-tuebingen.de/ – Galalietotājiem “draudzīga” tīmekļa saskarne reģistrēto rīku kombinēšanai, darbināšanai un rezultātu pārlūkošanai • Piekļuve Mīlenbaha un Endzelīna vārdnīcai, autentificējoties ar LAIFE identitāti (piem., LUIS, LiepU, RA vai DU lietotāju) – http://tezaurs.lv/mev/ – https://laife.lanet.lv • Latviešu valodas korpusa platformas jaunā versija – http://korpuss.lv/ – Uzlabota veiktspēja – Tīmekļa saskarne (Bonito) – Vienots, uzlabots marķējums (balstīts uz MULTEXT-Eastvers. 4)
  • 11. Paldies! Sekojietjaunumiem: twitter.com/AILab_lv

Notes de l'éditeur

  1. Nākotnē: piekļuve caur LAIFE arī CLARIN-Europe resursiem, piem., WebLicht; “politisku”, administratīvu un juridisku jautājumu risināšana; taču CLARIN ir tikai viens no LAIFE use-case.