SlideShare une entreprise Scribd logo
1  sur  17
Télécharger pour lire hors ligne
Česko-slovenský paralelný korpus určený
pre preklad medzi blízkymi jazykmi
Petra Galuščáková a Ondřej Bojar
{galuscakova,bojar}@ufal.mff.cuni.cz
Univerzita Karlova v Praze
Matematicko-fyzikální fakulta
Ústav formální a aplikované lingvistiky
20. 10. 2011 2
Obsah prezentácie
● Vytvorenie korpusu – postup a použité nástroje
● Možné zdroje paralelného korpusu
● Aplikácia korpusu
20. 10. 2011 3
Úvod
● Väčšie množstvo zdrojov pre češtinu
● Čeština a slovenčina sú veľmi príbuzné
● Čeština ako pivotný jazyk
● Česko-slovenský paralelný korpus
● Trénovanie automatického prekladu
● Vyhodnotenie automatického prekladu
CS
SK
EN PL
...
20. 10. 2011 4
Nástroje
Příběh, který hodláte číst, není
ani román, ani novela. Ty mají
svá pravidla, své zákony. Své
začátky a své konce. Tento
příběh – řekl bych – je
přeslechnut.
Příběh, který hodláte číst, není a
ni román, ani novela.
Ty mají svá pravidla, své zákony.
Své začátky a své konce.
Tento příběh – řekl bych –
je přeslechnut.
1-1 2.28889 Příběh, který hodláte číst, není ani román, ani novela. Príbeh, ktorý
hodláte čítať, nie je ani román, ani novela.
1-1 2.475 Ty mají svá pravidla, své zákony. Tie majú svoje pravidlá, svoje zákony.
1-1 2.08125 Své začátky a své konce. Začiatky a konce.
1-1 2.87805 Tento příběh – řekl bych – je přeslechnut. Tento príbeh —
povedal by som — je prepočutý.
Segmentácia
Alignment
Trénovateľný tokenizér
natrénovaný
na češtine a slovenčine
Hunalign
Príbeh, ktorý hodláte čítať, nie
je ani román, ani novela. Tie majú
svoje pravidlá, svoje zákony.
Začiatky a konce. Tento príbeh
— povedal by som — je
prepočutý.
Príbeh, ktorý hodláte čítať, nie je ani
román, ani novela.
Tie majú svoje pravidlá, svoje zákony.
Začiatky a konce.
Tento príbeh — povedal by som
— je prepočutý.
20. 10. 2011 5
Problémy
● Segmentácia je podstatná pri alignmente
● Problém v prípade, že česká segmentácia pracuje inak ako
slovenská
Alignment Česká veta Slovenská veta
2 - 1
"Pryč ode mne, vy zloto!
<s> Co vám udělaly ty
kačátka?
„Preč odo mňa, vy lotri! čo
vám urobili tie kačičky?
2 - 1
— <s> Viktor nevnímal
hovor a zmatek ve vagónu.
Viktor nevnímal vravu a
zmätok vo vagóne.
1 - 2 Stáří 23 let. Zoolingvistka.
Vek dvadsaťtri rokov. <s>
Zoolingvistka.
1 - 2 II/ MODLITBA II <s> MODLITBA
<s> označuje rozdelenie na vety
20. 10. 2011 6
Zdroje korpusu
● Knihy
● Acquis JRC
● Official Journal Európskej únie
● Webstránka Európskej komisie
Zdroj Slová CS Slová SK Tokeny CS Tokeny SK Vety
Knihy 6.6 mil 6.6 mil 8.1 mil 8.1 mil 550.6 k
Acquis 20.4 mil 20.6 mil 24.3 mil 24.4 mil 926.1 k
Journal 45.5 mil 45.5 mil 56.4 mil 56.3 mil 2.9 mil
Ec-
Europa
0.4 mil 0.4 mil 0.4 mil 0.4 mil 24.2 k
Total 72.9 mil 73.1 mil 89.2 mil 89.2 mil 4.4 mil
20. 10. 2011 7
Zdroje korpusu I - knihy
● Pripravený SAV
● Veľmi dobrý zdroj dát pre MT, problematický môže byť
alignment (málo štrukturované texty)
● 118 kníh (cs->sk, sk->cs a en->cs,sk), vlastný alignment
● Problém získať takýto zdroj, limitované použitie
20. 10. 2011 8
Zdroje korpusu II - Acquis
● Voľne dostupný paralelný viacjazyčný korpus dokumentov EÚ
● Oficiálny alignment
● České a slovenské texty boli vytvorené ako preklady z ďalšieho
jazyka, väčšinou angličtiny
● Veľké množstvo textov, ale obmedzená slovná zásoba, veľká
časť viet sa opakuje – nutné kombinovať s inými zdrojmi
Zdroj Vety spolu Jedinečné vety %
Acquis CZ 926082 608086 65.66
Acquis SK 926082 632916 68.34
Knihy CZ 153478 148705 96.89
Knihy SK 153478 149152 97.18
20. 10. 2011 9
Zdroje korpusu III – Official
Journal
● Opäť dokumenty EU, v 23 jazykoch
● Podobné dáta ako Acquis, podobné problémy
● Oficiálny alignment aj na úrovni viet
20. 10. 2011 10
Zdroje korpusu IV – Stránka
European Commision
● Rôzne jazykové varianty tej istej stránky, ktoré sa líšia príponou
v URL
● Slovenské a české texty vznikli najčastejšie ako preklad z
angličtiny
● Veľa nepreložených odstavcov v českých a slovenských
stránkach
● Na sťahovanie stránok bol implementovaný špeciálny web
crawler
● Stiahnuté stránky boli ďalej prečistené od html kódu a
deduplikované
20. 10. 2011 11
Využitie korpusu
20. 10. 2011 12
Automatický preklad
● Acquis a knihy boli použité pri trénovaní, ladení a testovaní
nástroja na automatický preklad Moses
● Celkom 6 prípadov (Acquis/Acquis, Acquis/Knihy, Knihy/Acquis,
Knihy/Knihy, Acquis+Knihy/Acquis, Acquis+Knihy/Knihy)
● Testovacia sada – 3860 náhodne vybraných riadkov z kníh
20. 10. 2011 13
Automatický preklad -
výsledky
● Na testovanie prekladu bola použitá metrika BLEU
Trénovacie /
Ladiace dáta
Počet trénovacích
viet
Počet ladiacich
viet
BLEU
Acquis / Acquis 708406 3148 0.1808
Acquis / Knihy 708406 3802 0.2071
Knihy / Acquis 137027 3148 0.4661
Knihy / Knihy 137027 3802 0.4701
Acquis + Knihy /
Acquis
845433 3148 0.4781
Acquis + Knihy /
Knihy
845433 3802 0.4887
20. 10. 2011 14
Automatický preklad – ukážky
výstupu
Originál
"Tak vidějí, vašnosti, dali jsme jim tu radu lacino," řekli pes s
kočičkou, "zrovna jsme si něco takového na zub přáli.
Acquis/Acquis
"tak vidějí, vašnosti, dali jsme im tu radu lacino," řekli pes s kočičkou,
"zrovna jsme si něco takéhoto na zub přáli.
Acquis/Knihy
"tak vidějí, vašnosti, dali jsme im tu radu lacino," řekli predvedenie
identifikácie psa s kočičkou, "zrovna si jsme inak takéhoto na zub
přáli.
Knihy/Acquis
„ nuž vidíte, pán veľkomožný, dali sme im tú radu lacno, “ povedali
pes s mačičkou, „ akurát sme si niečo takého na zub želali.
Knihy/Knihy
„ nuž vidíte, pán veľkomožný, dali sme im tú radu lacno, “ povedali
pes s mačičkou, „ práve sme si také čosi na zub želali.
Acquis+Knihy
/Acquis
„nuž vidíte, pán veľkomožný, dali sme im tú radu lacno,“ povedali pes
a mačička, „akurát sme si také čosi na zub želali.
Acquis+Knihy
/Knihy
„nuž vidíte, pán veľkomožný, dali sme im tú radu lacno,“ povedali pes
s mačičkou, „práve sme si také čosi na zub želali.
20. 10. 2011 15
Automatický preklad –
diskusia
● Pri natrénovaní na knihách je dosiahnuté skóre podstatne
vyššie ako pri natrénovaní na Acquise, hoci veľkosť trénovacích
dát je 5x nižšia
● Slovná zásoba z testovacej sady vybranej z kníh sa môže
nachádzať v trénovacích dátach
● Knihy vznikli na rozdiel od Acquisu vo väčšine ako preklad
cs->sk a sk->cs
● Knihy zlepšia výsledky aj v prípade, že sa použijú ako ladiaca
množina
● Pri spojení kníh a Acquisu nedochádza k výraznému zlepšeniu
výsledkov, ktoré boli dosiahnuté pri tréningu iba na knihách
20. 10. 2011 16
Záver
● Bol vytvorený česko-slovenský paralelný
korpus z niekoľkých zdrojov
● Korpus bol využitý pri automatickom preklade
● Pri preklade hrá dôležitú úlohu to, z akého
zdroja trénovacie dáta pochádzajú
● Stačí menšie množstvo dát, ktoré sú
rôznorodejšie
20. 10. 2011 17
Odkazy
● Acquis JRC
http://optima.jrc.it/Acquis
● Stránka Európskej komisie
http://ec.europa.eu
● Official Journal
http://eur­lex.europa.eu/JOIndex.do
● Trénovateľný tokenizér
Klyueva N., Bojar O. (2008). UMC 0.1: Czech-Russian-English Multilingual Corpus. In
Proceedings of International Conference Corpus Linguistics, pages 188–195.
● Hunalign
http://mokk.bme.hu/resources/hunalign
● Moses
http://www.statmt.org/moses

Contenu connexe

Plus de Petra Galuscakova

Combining Evidence for Cross-language Information Retrieval
Combining Evidence for Cross-language Information RetrievalCombining Evidence for Cross-language Information Retrieval
Combining Evidence for Cross-language Information RetrievalPetra Galuscakova
 
Multimodal Features for Linking Television Content
Multimodal Features for Linking Television ContentMultimodal Features for Linking Television Content
Multimodal Features for Linking Television ContentPetra Galuscakova
 
Czech Malach Cross-lingual Speech Retrieval Test Collection
Czech Malach Cross-lingual Speech Retrieval Test CollectionCzech Malach Cross-lingual Speech Retrieval Test Collection
Czech Malach Cross-lingual Speech Retrieval Test CollectionPetra Galuscakova
 
Audio Information for Hyperlinking of TV Content
Audio Information for Hyperlinking of TV ContentAudio Information for Hyperlinking of TV Content
Audio Information for Hyperlinking of TV ContentPetra Galuscakova
 
Multimodal Features for Search and Hyperlinking of Video Content
Multimodal Features for Search and Hyperlinking of Video ContentMultimodal Features for Search and Hyperlinking of Video Content
Multimodal Features for Search and Hyperlinking of Video ContentPetra Galuscakova
 
Evaluácia tematického vyhľadávania v audiovizuálnych nahrávkach
Evaluácia tematického vyhľadávania v audiovizuálnych nahrávkachEvaluácia tematického vyhľadávania v audiovizuálnych nahrávkach
Evaluácia tematického vyhľadávania v audiovizuálnych nahrávkachPetra Galuscakova
 
Experiments with Segmentation Strategies for Passage Retrieval in Audio-Visua...
Experiments with Segmentation Strategies for Passage Retrieval in Audio-Visua...Experiments with Segmentation Strategies for Passage Retrieval in Audio-Visua...
Experiments with Segmentation Strategies for Passage Retrieval in Audio-Visua...Petra Galuscakova
 
Application of Topic Segmentation in Audiovisual Information Retrieval
Application of Topic Segmentation in Audiovisual Information RetrievalApplication of Topic Segmentation in Audiovisual Information Retrieval
Application of Topic Segmentation in Audiovisual Information RetrievalPetra Galuscakova
 

Plus de Petra Galuscakova (8)

Combining Evidence for Cross-language Information Retrieval
Combining Evidence for Cross-language Information RetrievalCombining Evidence for Cross-language Information Retrieval
Combining Evidence for Cross-language Information Retrieval
 
Multimodal Features for Linking Television Content
Multimodal Features for Linking Television ContentMultimodal Features for Linking Television Content
Multimodal Features for Linking Television Content
 
Czech Malach Cross-lingual Speech Retrieval Test Collection
Czech Malach Cross-lingual Speech Retrieval Test CollectionCzech Malach Cross-lingual Speech Retrieval Test Collection
Czech Malach Cross-lingual Speech Retrieval Test Collection
 
Audio Information for Hyperlinking of TV Content
Audio Information for Hyperlinking of TV ContentAudio Information for Hyperlinking of TV Content
Audio Information for Hyperlinking of TV Content
 
Multimodal Features for Search and Hyperlinking of Video Content
Multimodal Features for Search and Hyperlinking of Video ContentMultimodal Features for Search and Hyperlinking of Video Content
Multimodal Features for Search and Hyperlinking of Video Content
 
Evaluácia tematického vyhľadávania v audiovizuálnych nahrávkach
Evaluácia tematického vyhľadávania v audiovizuálnych nahrávkachEvaluácia tematického vyhľadávania v audiovizuálnych nahrávkach
Evaluácia tematického vyhľadávania v audiovizuálnych nahrávkach
 
Experiments with Segmentation Strategies for Passage Retrieval in Audio-Visua...
Experiments with Segmentation Strategies for Passage Retrieval in Audio-Visua...Experiments with Segmentation Strategies for Passage Retrieval in Audio-Visua...
Experiments with Segmentation Strategies for Passage Retrieval in Audio-Visua...
 
Application of Topic Segmentation in Audiovisual Information Retrieval
Application of Topic Segmentation in Audiovisual Information RetrievalApplication of Topic Segmentation in Audiovisual Information Retrieval
Application of Topic Segmentation in Audiovisual Information Retrieval
 

Česko-slovenský paralelný korpus určený pre preklad medzi blízkymi jazykmi

  • 1. Česko-slovenský paralelný korpus určený pre preklad medzi blízkymi jazykmi Petra Galuščáková a Ondřej Bojar {galuscakova,bojar}@ufal.mff.cuni.cz Univerzita Karlova v Praze Matematicko-fyzikální fakulta Ústav formální a aplikované lingvistiky
  • 2. 20. 10. 2011 2 Obsah prezentácie ● Vytvorenie korpusu – postup a použité nástroje ● Možné zdroje paralelného korpusu ● Aplikácia korpusu
  • 3. 20. 10. 2011 3 Úvod ● Väčšie množstvo zdrojov pre češtinu ● Čeština a slovenčina sú veľmi príbuzné ● Čeština ako pivotný jazyk ● Česko-slovenský paralelný korpus ● Trénovanie automatického prekladu ● Vyhodnotenie automatického prekladu CS SK EN PL ...
  • 4. 20. 10. 2011 4 Nástroje Příběh, který hodláte číst, není ani román, ani novela. Ty mají svá pravidla, své zákony. Své začátky a své konce. Tento příběh – řekl bych – je přeslechnut. Příběh, který hodláte číst, není a ni román, ani novela. Ty mají svá pravidla, své zákony. Své začátky a své konce. Tento příběh – řekl bych – je přeslechnut. 1-1 2.28889 Příběh, který hodláte číst, není ani román, ani novela. Príbeh, ktorý hodláte čítať, nie je ani román, ani novela. 1-1 2.475 Ty mají svá pravidla, své zákony. Tie majú svoje pravidlá, svoje zákony. 1-1 2.08125 Své začátky a své konce. Začiatky a konce. 1-1 2.87805 Tento příběh – řekl bych – je přeslechnut. Tento príbeh — povedal by som — je prepočutý. Segmentácia Alignment Trénovateľný tokenizér natrénovaný na češtine a slovenčine Hunalign Príbeh, ktorý hodláte čítať, nie je ani román, ani novela. Tie majú svoje pravidlá, svoje zákony. Začiatky a konce. Tento príbeh — povedal by som — je prepočutý. Príbeh, ktorý hodláte čítať, nie je ani román, ani novela. Tie majú svoje pravidlá, svoje zákony. Začiatky a konce. Tento príbeh — povedal by som — je prepočutý.
  • 5. 20. 10. 2011 5 Problémy ● Segmentácia je podstatná pri alignmente ● Problém v prípade, že česká segmentácia pracuje inak ako slovenská Alignment Česká veta Slovenská veta 2 - 1 "Pryč ode mne, vy zloto! <s> Co vám udělaly ty kačátka? „Preč odo mňa, vy lotri! čo vám urobili tie kačičky? 2 - 1 — <s> Viktor nevnímal hovor a zmatek ve vagónu. Viktor nevnímal vravu a zmätok vo vagóne. 1 - 2 Stáří 23 let. Zoolingvistka. Vek dvadsaťtri rokov. <s> Zoolingvistka. 1 - 2 II/ MODLITBA II <s> MODLITBA <s> označuje rozdelenie na vety
  • 6. 20. 10. 2011 6 Zdroje korpusu ● Knihy ● Acquis JRC ● Official Journal Európskej únie ● Webstránka Európskej komisie Zdroj Slová CS Slová SK Tokeny CS Tokeny SK Vety Knihy 6.6 mil 6.6 mil 8.1 mil 8.1 mil 550.6 k Acquis 20.4 mil 20.6 mil 24.3 mil 24.4 mil 926.1 k Journal 45.5 mil 45.5 mil 56.4 mil 56.3 mil 2.9 mil Ec- Europa 0.4 mil 0.4 mil 0.4 mil 0.4 mil 24.2 k Total 72.9 mil 73.1 mil 89.2 mil 89.2 mil 4.4 mil
  • 7. 20. 10. 2011 7 Zdroje korpusu I - knihy ● Pripravený SAV ● Veľmi dobrý zdroj dát pre MT, problematický môže byť alignment (málo štrukturované texty) ● 118 kníh (cs->sk, sk->cs a en->cs,sk), vlastný alignment ● Problém získať takýto zdroj, limitované použitie
  • 8. 20. 10. 2011 8 Zdroje korpusu II - Acquis ● Voľne dostupný paralelný viacjazyčný korpus dokumentov EÚ ● Oficiálny alignment ● České a slovenské texty boli vytvorené ako preklady z ďalšieho jazyka, väčšinou angličtiny ● Veľké množstvo textov, ale obmedzená slovná zásoba, veľká časť viet sa opakuje – nutné kombinovať s inými zdrojmi Zdroj Vety spolu Jedinečné vety % Acquis CZ 926082 608086 65.66 Acquis SK 926082 632916 68.34 Knihy CZ 153478 148705 96.89 Knihy SK 153478 149152 97.18
  • 9. 20. 10. 2011 9 Zdroje korpusu III – Official Journal ● Opäť dokumenty EU, v 23 jazykoch ● Podobné dáta ako Acquis, podobné problémy ● Oficiálny alignment aj na úrovni viet
  • 10. 20. 10. 2011 10 Zdroje korpusu IV – Stránka European Commision ● Rôzne jazykové varianty tej istej stránky, ktoré sa líšia príponou v URL ● Slovenské a české texty vznikli najčastejšie ako preklad z angličtiny ● Veľa nepreložených odstavcov v českých a slovenských stránkach ● Na sťahovanie stránok bol implementovaný špeciálny web crawler ● Stiahnuté stránky boli ďalej prečistené od html kódu a deduplikované
  • 11. 20. 10. 2011 11 Využitie korpusu
  • 12. 20. 10. 2011 12 Automatický preklad ● Acquis a knihy boli použité pri trénovaní, ladení a testovaní nástroja na automatický preklad Moses ● Celkom 6 prípadov (Acquis/Acquis, Acquis/Knihy, Knihy/Acquis, Knihy/Knihy, Acquis+Knihy/Acquis, Acquis+Knihy/Knihy) ● Testovacia sada – 3860 náhodne vybraných riadkov z kníh
  • 13. 20. 10. 2011 13 Automatický preklad - výsledky ● Na testovanie prekladu bola použitá metrika BLEU Trénovacie / Ladiace dáta Počet trénovacích viet Počet ladiacich viet BLEU Acquis / Acquis 708406 3148 0.1808 Acquis / Knihy 708406 3802 0.2071 Knihy / Acquis 137027 3148 0.4661 Knihy / Knihy 137027 3802 0.4701 Acquis + Knihy / Acquis 845433 3148 0.4781 Acquis + Knihy / Knihy 845433 3802 0.4887
  • 14. 20. 10. 2011 14 Automatický preklad – ukážky výstupu Originál "Tak vidějí, vašnosti, dali jsme jim tu radu lacino," řekli pes s kočičkou, "zrovna jsme si něco takového na zub přáli. Acquis/Acquis "tak vidějí, vašnosti, dali jsme im tu radu lacino," řekli pes s kočičkou, "zrovna jsme si něco takéhoto na zub přáli. Acquis/Knihy "tak vidějí, vašnosti, dali jsme im tu radu lacino," řekli predvedenie identifikácie psa s kočičkou, "zrovna si jsme inak takéhoto na zub přáli. Knihy/Acquis „ nuž vidíte, pán veľkomožný, dali sme im tú radu lacno, “ povedali pes s mačičkou, „ akurát sme si niečo takého na zub želali. Knihy/Knihy „ nuž vidíte, pán veľkomožný, dali sme im tú radu lacno, “ povedali pes s mačičkou, „ práve sme si také čosi na zub želali. Acquis+Knihy /Acquis „nuž vidíte, pán veľkomožný, dali sme im tú radu lacno,“ povedali pes a mačička, „akurát sme si také čosi na zub želali. Acquis+Knihy /Knihy „nuž vidíte, pán veľkomožný, dali sme im tú radu lacno,“ povedali pes s mačičkou, „práve sme si také čosi na zub želali.
  • 15. 20. 10. 2011 15 Automatický preklad – diskusia ● Pri natrénovaní na knihách je dosiahnuté skóre podstatne vyššie ako pri natrénovaní na Acquise, hoci veľkosť trénovacích dát je 5x nižšia ● Slovná zásoba z testovacej sady vybranej z kníh sa môže nachádzať v trénovacích dátach ● Knihy vznikli na rozdiel od Acquisu vo väčšine ako preklad cs->sk a sk->cs ● Knihy zlepšia výsledky aj v prípade, že sa použijú ako ladiaca množina ● Pri spojení kníh a Acquisu nedochádza k výraznému zlepšeniu výsledkov, ktoré boli dosiahnuté pri tréningu iba na knihách
  • 16. 20. 10. 2011 16 Záver ● Bol vytvorený česko-slovenský paralelný korpus z niekoľkých zdrojov ● Korpus bol využitý pri automatickom preklade ● Pri preklade hrá dôležitú úlohu to, z akého zdroja trénovacie dáta pochádzajú ● Stačí menšie množstvo dát, ktoré sú rôznorodejšie
  • 17. 20. 10. 2011 17 Odkazy ● Acquis JRC http://optima.jrc.it/Acquis ● Stránka Európskej komisie http://ec.europa.eu ● Official Journal http://eur­lex.europa.eu/JOIndex.do ● Trénovateľný tokenizér Klyueva N., Bojar O. (2008). UMC 0.1: Czech-Russian-English Multilingual Corpus. In Proceedings of International Conference Corpus Linguistics, pages 188–195. ● Hunalign http://mokk.bme.hu/resources/hunalign ● Moses http://www.statmt.org/moses