It is already 29 years since I got involved in NLP research. It is almost the same period of the begin of NLP research in Thailand, especially for Thai language processing. Following the timeline, the slide shows the development of Thai NLP in terms of algorithm and language resource development.
9. POS Tagset
• 14 categories (N, PRON, V, AUX,
DET, ADV, CLAS, CONJ, PREP, INT,
PREF, END, NEG, PUNC) and 47
sub-categories
• VACT, VSTA, VATT
• Transitive, Intransitive
• AUX
• Word order
• S vs NP
• No diff in some cases
No. POS Description Example
1 NPRP Proper noun วินโดวส์ 95, โคโรน่า, โค้ก, พระอาทิตย์
2 NCNM Cardinal number หนึ่ง, สอง, สาม, 1, 2, 3
3 NONM Ordinal number ที่หนึ่ง, ที่สอง, ที่สาม, ที่1, ที่2, ที่3
4 NLBL Label noun 1, 2, 3, 4, ก, ข, a, b
5 NCMN Common noun หนังสือ, อาหาร, อาคาร, คน
6 NTTL Title noun ดร., พลเอก
7 PPRS Personal pronoun คุณ, เขา, ฉัน
8 PDMN Demonstrative pronoun นี่, นั่น, ที่นั่น, ที่นี่
9 PNTR Interrogative pronoun ใคร, อะไร, อย่างไร
10 PREL Relative pronoun ที่, ซื่ง, อัน, ผู้
11 VACT Active verb ทำงาน, ร้องเพลง, กิน
12 VSTA Stative verb เห็น, รู้, คือ
13 VATT Attributive verb อ้วน, ดี, สวย
14 XVBM Pre-verb auxiliary, before negator “ไม่” เกิด, เกือบ, กำลัง
15 XVAM Pre-verb auxiliary, after negator “ไม่” ค่อย, น่า, ได้
16 XVMM Pre-verb, before or after negator “ไม่” ควร, เคย, ต้อง
17 XVBB Pre-verb auxiliary, in imperative mood กรุณา, จง, เชิญ, อย่า, ห้าม
18 XVAE Post-verb auxiliary ไป, มา, ขึ้น
19 DDAN Definite determiner, after noun without
classifier in between
นี่, นั่น, โน่น, ทั้งหมด
20 DDAC Definite determiner, allowing classifier in
between
นี้, นั้น, โน้น, นู้น
21 DDBQ Definite determiner, between noun and
classifier or preceding quantitative
expression
ทั้ง, อีก, เพียง
22 DDAQ Definite determiner, following quantitative
expression
พอดี, ถ้วน
23 DIAC Indefinite determiner, following noun;
allowing classifier in between
ไหน, อื่น, ต่างๆ
24 DIBQ Indefinite determiner, between noun and
classifier or preceding quantitative
expression
บาง, ประมาณ, เกือบ
25 DIAQ Indefinite determiner, following
quantitative expression
กว่า, เศษ
26 DCNM Determiner, cardinal number expression หนึ่งคน, เสือ 2 ตัว
27 DONM Determiner, ordinal number expression ที่หนึ่ง, ที่สอง, ที่สุดท้าย
28 ADVN Adverb with normal form เก่ง, เร็ว, ช้า, สม่ำเสมอ
29 ADVI Adverb with iterative form เร็วๆ, เสมอๆ, ช้าๆ
30 ADVP Adverb with prefixed form โดยเร็ว
31 ADVS Sentential adverb โดยปกติ, ธรรมดา
32 CNIT Unit classifier ตัว, คน, เล่ม
33 CLTV Collective classifier คู่, กลุ่ม, ฝูง, เชิง, ทาง, ด้าน, แบบ, รุ่น
34 CMTR Measurement classifier กิโลกรัม, แก้ว, ชั่วโมง
35 CFQC Frequency classifier ครั้ง, เที่ยว
36 CVBL Verbal classifier ม้วน, มัด
37 JCRG Coordinating conjunction และ, หรือ, แต่
38 JCMP Comparative conjunction กว่า, เหมือนกับ, เท่ากับ
39 JSBR Subordinating conjunction เพราะว่า, เนื่องจาก, ที่, แม้ว่า, ถ้า
40 RPRE Preposition จาก, ละ, ของ, ใต้, บน
41 INT Interjection โอ้ย,โอ้, เออ, เอ๋, อ๋อ
42 FIXN Nominal prefix การทำงาน, ความสนุกสนาน
43 FIXV Adverbial prefix อย่างเร็ว
44 EAFF Ending for affirmative sentence จ๊ะ, จ้ะ, ค่ะ, ครับ, นะ, น่า, เถอะ
45 EITT Ending for interrogative sentence หรือ, เหรอ, ไหม, มั้ย
46 NEG Negator ไม่, มิได้, ไม่ได้, มิ
47 PUNC Punctuation (, ), “, ,, ;
28 August 2017, ISAI-NLP 2017, Hua Hin, Thailand
Virach Sornlertlamvanich, Naoto Takahashi and Hitoshi Isahara.
Building a Thai Part-Of-Speech Tagged Corpus (ORCHID).
The Journal of the Acoustical Society of Japan (E), Vol.20, No.3,
pp 189-140, May 1999.
10. Multi-lingual Machine Translation Project (MMT)
1987-1992 (+2)
• 6 years-project (1987-1992)
• Interlingual approach MMT for
CIJMT
• R&D
− Analysis
− Generation
− Dictionary
− Interlingua
− Integration system
• Collaboration
− Thailand (NECTEC, CU, KU, KMUTT,
KMITL)
− Japan (NEC, Fujitsu, Hitachi, OKI,
Sharp, Mitsubishi, Toshiba)
− China, Indonesia, Malaysia
• 1969 Computerized Alphabetization of
Thai
• 1974 Thai Transliteration System
• 1981 ARIANE Project
− English-Thai MT
− Ministry of University Affairs and Grenoble
Univ.
• 1986 Establishment of NECTEC
• 1986 TIS620-2529
− Thai Standard Character Code for Computer by
TISI
• 1987-92 (+2) NECTEC-CICC MMT Project
• 1992-present Establishment of LINKS at
NECTEC
− AI R&D Center at KMITT
− NAiST at KU
− KIND at SIIT
− RDI at NECTEC
− SLS at CU, ….
28 August 2017, ISAI-NLP 2017, Hua Hin, Thailand
15. LEXiTRON
• LEXiTRON version 1.1
• Corpus-based dictionary
• Dictionary for writing
• Launched in 1995
• CD-ROM for Windows 3.1 Thai
Edition
• Thai 11,000 entries
• English 9,000 entries
• 6 types of dictionaries
− General word entry
− Thai usage dictionary (sample
sentence)
− Synonym-Antonym
− Thai-English (equivalent)
− Word class
28 August 2017, ISAI-NLP 2017, Hua Hin, Thailand
Virach Sornlertlamvanich, Apichit Pittayaratsophon and Kriangchai Chansaenwilai.
Thai Dictionary Data Base Manipulation using Multi-indexed Double Array Trie.
The 5th Annual Conference, NECTEC, Bangkok. pp. 197-206, 1993. (in Thai)
17. ORCHID POS Tagged
Corpus
%TTitle: การประชุมทางวิชาการ ครั้งที่ 1
%ETitle: [1st Annual Conference]
%TAuthor:
%EAuthor:
%TInbook: การประชุมทางวิชาการ ครั้งที่ 1, โครงการวิจัยและพัฒนา
อิเล็กทรอนิกส์และคอมพิวเตอร์, ปีงบประมาณ 2531, เล่ม 1
%EInbook: The 1st Annual Conference, Electronics and
Computer Research and Development Project, Fiscal Year
1988, Book 1
%TPublisher: ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์
แห่งชาติ, กระทรวงวิทยาศาสตร์ เทคโนโลยีและการพลังงาน
%EPublisher: National Electronics and Computer
Technology Center, Ministry of Science, Technology and
Energy
%Page:
%Year: 1989
%File:
#P1
#1
การประชุมทางวิชาการ ครั้งที่ 1//
การ/FIXNป
ระชุม/VACT
ทาง/NCMN
วิชาการ/NCMN
<space>/PUNC
ครั้ง/CFQC
ที่ 1/DONM//
#2โครงการวิจัยและพัฒนาอิเล็กทรอนิกส์และคอมพิวเตอร์//
โครงการวิจัยและพัฒนา/NCMN
อิเล็กทรอนิกส์/NCMN
และ/JCRG
คอมพิวเตอร์/NCMN//
…
• ORCHID Corpus (1997) supported
by CRL Japan
• Source: NECTEC Technical
Report
• Size: 160 documents; 5.75 MB;
400K words
• Tag: XML tagged paragraph,
sentence, word, part-of-
speech
• Availability: for research
• Difficulties
• Hard to find consensus in the
sentence boundary, word
boundary, and POS tag
28 August 2017, ISAI-NLP 2017, Hua Hin, Thailand
Virach Sornlertlamvanich, Thatsanee Charoenporn and Hitoshi Isahara.
ORCHID: Thai Part-Of-Speech Tagged Corpus. Technical Report Orchid
TR-NECTEC-1997-001, NECTEC, Thailand, pp. 5-19, Dec 1997.
20. Term Candidate Extraction for Dictionary-less
Search Engine
• Virach Sornlertlamvanich et al. (COLING 2000) :
- Automatic Corpus-Based Thai Word Extraction with the C4.5 Learning
Algorithm
- C4.5-trained decision tree for determining potential word boundary
from MI, Entropy potential word boundary from MI, Entropy and
some linguistic information
- Capable of discovering new words in document without assistance
from static dictionary
28 August 2017, ISAI-NLP 2017, Hua Hin, Thailand
Virach Sornlertlamvanich, Tanapong Potipiti and Thatsanee Charoenporn.
Automatic Corpus-based Thai Word Extraction with the C4.5 Learning Algorithm.
Proceedings of the 18th International Conference on Computational Linguistics (COLING2000),
Saarbrucken, Germany, pp 802-807, July-August 2000.
21. Attributes(1) : Left and Right Mutual Information
High mutual information implies that xyz co-occurs more than expected
by chance. If xyz is a word, its MIL and MIR must be high.
…efunction… and ...function...
x yz zxy
where
x is the leftmost character of string xyz
y is the middle substring of xyz
z is the rightmost character of string xyz
p( ) is the probability function.
28 August 2017, ISAI-NLP 2017, Hua Hin, Thailand
26. The Names
• LEXiTRON :-
Lexicon + Electron
• ParSit :-
Parse it
• ORCHID :-
Orchid = Ran (蘭)
• Sansarn logo :-
Frog = Return of happiness
カエルは“福帰る”, 幸運が還ってくる
• LinuxTLE, OfficeTLE :-
TLE = Ta-Le (Sea series Linux distro)
Thai Language Extension
• Vaja :-
Speech
Smart-Q, EZKey,
28 August 2017, ISAI-NLP 2017, Hua Hin, Thailand
28. Collaboration Project
Project
Year
03 04 05 06 07 08 09 10
Asian E-Learning Network (AEN), CICC
Language Observatory Project (LOP), NUT
Intercultural Collaboration Experiments (ICE), KU
Asian Language Resource Network (ALRN), NUT
Asian Language Resources (ALR), NEDO
World Network on Linguistics Diversity (REDILI), UNESCO
Open Standards Promotion, NECTEC, UNDP-APDIP
Asian applied nlp for linguistics Diversity and language
resource Development (ADD)
KuiSci: STKC Research Community for MOST
KuiPoll: Educational Community (BUU, NECTEC)
KuiHerb: Collective Herbal Information (SIL, PSU, NECTEC)
AsianWordNet: WordNet for Asian languages development and
sharing
XPLOG: Experience Log for Local Wisdom Collection
NLP tools and corpora web services
③
28 August 2017, ISAI-NLP 2017, Hua Hin, Thailand
29. 28 August 2017, ISAI-NLP 2017, Hua Hin, Thailand
TCL’s Computational Lexicon: Representativity
Constraint based
a conceptual class referring to the whole of which a given word X is a
partWhole-of (WOF)
a conceptual class specifying a part of a given word XPart-of (POF)
a word having the opposite meaning of a given word XNot-equal (NEQ)
a word having the same meaning as a given word XEqual (EQU)
a conceptual class of a given word XIs-a (ISA)
Value descriptionAttribute
Logical Constraints
Semantic Constraints
a point or period of time when an event occursTime (TIM)
a position or place where an event occursLocation (LOC)
an entity used in the actionInstrument (INS)
an entity affected by the actionObject (OBJ)
an entity initiating the actionAgent (AGT)
36. Asian WordNet
http://www.asianwordnet.org/ • Asian WordNet
• Visualization of Asian WordNet
• Function
• Cross language visualization
• 3 modes of visualization
• Progress (May 3, 2010)
• Burmese
(19949 senses, 11006 u. words)
• Indonesian
(26175 senses, 24398 u. words)
• Japanese
(58447 senses, 64678 u. words)
• Korean
(42274 senses, 26009 u. words)
• Lao
(38890 senses, 44032 u. words)
• Mongolian
(1624 senses, 1574 u. words)
• Nepali
(41 senses, 42 u. words)
• Sinhala
(268 senses, 119 u. words)
• Sudanese
(69 senses, 52 u. words)
• Thai
(71139 senses, 69998 u. words)
• Collaboration
• TCL
• ADD members
28 August 2017, ISAI-NLP 2017, Hua Hin, Thailand