SlideShare une entreprise Scribd logo
1  sur  33
Télécharger pour lire hors ligne
ปรัชญา บุญขวัญ (อาร์ม)
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ
kaamanita@gmail.com, prachya.boonkwan@nectec.or.th
¡ รู้จักกับภาษาไทย
¡ ความมหัศจรรย์แห่งภาษาไทย
¡ ภาษาไทยในสังคมออนไลน์
¡ หัวข้อวิจัยที่น่าสนใจ
¡ สรุป
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 2
¡ ภาษาไทยเป็นภาษาคำโดด(analytic language)
§ ลำดับคำแบบประธาน-กริยา-กรรม (SVO) และความหมาย
หลักของหน่วยสร้าง (constituent) มักจะเป็นตัวขึ้นต้น
(head-initial)
§ ลำดับคำตายตัว และมีผลต่อการตีความความหมาย
§ ใช้คำกริยาวิเศษณ์ (adverb) และคำช่วย (auxiliary) เพื่อบอก
หน้าที่ทางไวยากรณ์ของคำในประโยค ไม่ต้องผันกริยา
(inflection) หรือเติมวิภัตติปัจจัย (declension)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 3
¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 4
ระบบความคิดแบบปัจเจกนิยม
เน้นความโดดเด่นของปัจเจกบุคคล
นิยมสื่อความหมายแบบชัดแจ้ง
ประเด็น
เหตุผล 1
เหตุผล 2
เหตุผล 3
สรุปสาระสำคัญ
ระบบความคิดแบบรวมศูนย์
เน้นความสัมพันธ์แนบแน่นภายในกลุ่ม
นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 5
ระบบความคิดแบบปัจเจกนิยม
ประเด็นนำไปสู่เหตุผลสนับสนุน
เน้นเล่าเรื่องตามลำดับและให้เหตุผล
ประเด็น
เหตุผล 1
เหตุผล 2
เหตุผล 3
สรุปสาระสำคัญ
ระบบความคิดแบบรวมศูนย์
ข้ออ้างนำไปสู่ประเด็น
เน้นข้อแก้ตัวและการขออภัยที่มารบกวน
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
¡ ภาษาไทยเรียบง่ายแต่สลับซับซ้อน (simplex) และนิยมใช้
ความหมายแฝง (high-context meaning)
§ คำในภาษาไทยมีหน่วยความหมายขนาดเล็ก (minimalist
semantics) ทำให้ต้องใช้คำจำนวนมากมาประกอบสร้างเป็น
หน่วยความหมายที่สลับซับซ้อน
§ สามารถละสรรพนาม (pro-dropping) และละหน่วยสร้าง
(ellipsis) ได้ หากยังสามารถอนุมานความหมายได้จากบริบท
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 6
¡ การใช้ความหมายแฝงทำให้เกิดความมหัศจรรย์
§ ระดับหน่วยคำ: “คำคืออะไร”
§ ระดับไวยากรณ์: “นี่มันคำประสมหรือหน่วยสร้าง” “ทำไม
ประโยคถึงได้ขาดรุ่งริ่งแบบนี้”
§ ระดับความหมาย: “จะตีความรูปแทนความหมายอย่างไร”
§ ระดับปริจเฉท: “อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน”
§ ระดับวัจนปฏิบัติ: “ประโยคนี้หมายความว่าอะไรกันแน่”
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 7
¡ ภาษาไทยเน้นการใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม
§ สรรพนามและหน่วยสร้างอื่นๆ สามารถละได้ ตราบเท่าที่
ภายในกลุ่มสามารถอนุมานได้จากบริบท
§ ความกำกวมทางภาษาก็เป็นที่ยอมรับได้ด้วยเหตุผลเดียวกัน
§ การใช้ความหมายแฝงก่อให้เกิดปัญหากับการประมวลผล
ภาษาธรรมชาติด้วยคอมพิวเตอร์
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 8
¡ การแก้ปัญหาความหมายแฝง (context resolution) มีลักษณะ
ไม่เป็นเชิงเส้น (non-linear) ทำให้การเชื่อมโยงบริบทเกิดภาวะ
non-projectivity ซึ่งต้องแก้ปัญหาด้วย Turing Machine
¡ ตัวอย่าง: การแก้ปัญหาความหมายแฝงด้วย Type Logical Grammar
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 9
สมชายฝากปลาทองไว้กับเพื่อนตอนไปทะเล เขาอยากนั่งตากลมโดยไม่ต้องห่วงเจ้าตากลม
√ เขา.pro
เขา.n
ตา|กลม|
√ ตาก|ลม|
√ ตา|กลม|
ตาก|ลม|
npa1 npa3 npa2a1 a2 a3
¡ การแก้ปัญหาความหมายแฝงด้วยกฎโดยใช้ Turing
Machine มีความซับซ้อนแบบ Exponential จึงเป็น
ปัญหาที่ทนรอไม่ได้ (intractable problem)
¡ ปัจจุบันนี้เราสามารถใช้วิธีการประมาณ (approximate)
เพื่อแก้ปัญหานี้ได้ โดยใช้แบบจำลองทางสถิติ (เช่น NB,
HMM, MEMM, และ CRF) หรือแบบจำลองเชิงตัวเลข
(เช่น SVM และ PCA) แต่ก็ต้องยอมแลกกับความแม่นยำ
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 10
¡ คำถาม 1: คำคืออะไร
§ ภาษาไทยพอมีเกณฑ์คร่าวๆ ของขอบเขตคำ
▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำมูลที่รวมกันแน่น
▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำประสมที่เปลี่ยนความหมายไป
▪ บ้างก็เชื่อว่าขึ้นอยู่กับการนำหน่วยความหมายของคำไปใช้งาน
§ ถึงจะกำหนดเกณฑ์คร่าวๆ ได้ แต่นักภาษาศาสตร์ก็ยังถกเถียง
กันอยู่เสมอเมื่อพบความลักลั่นของกฎเกณฑ์
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 11
¡ รวมกรณีการตัดคำที่ขัดแย้งกับสัญชาตญาณ (counter-intuitive)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 12
เกณฑ์ ตัวอย่าง กรณีที่ขัดแย้งกับสัญชาตญาณ
อิงตามคำมูล
ฉัน|นำ|ดอก|ไม้|ไป|ไหว้|
ศาล|พระ|ภูมิ|ที่|โรง|เรียน|ประจำ|
ดอก|ไม้| ศาล|พระ|ภูมิ| โรง|เรียน|
ตัดแยกให้เป็นคำมูลทั้งหมด
อิงตามคำมูล
ที่รวมกันแน่น
ฉัน|นำ|ดอกไม้|ไป|ไหว้|
ศาลพระภูมิ|ที่|โรงเรียน|ประจำ|
ดอก|จิก| (กล้วย) เล็บ|มือ|นาง|
ตัดแยก เพราะมีความถี่การเกิดร่วมไม่เพียงพอ
อิงตามคำประสม
เปลี่ยนความหมาย
ฉัน|นำ|ดอก|ไม้|ไป|ไหว้|
ศาล|พระภูมิ|ที่|โรง|เรียน|ประจำ|
ดอก|ไม้| แม่|น้ำ| โรง|เรียน|
ต้องตัดแยก เพราะยังไม่เปลี่ยนความหมาย
อิงตาม
หน่วยความหมาย
ฉัน|นำ|ดอกไม้|ไป|ไหว้|
ศาลพระภูมิ|ที่|โรงเรียนประจำ|
การออกกำลังกาย| หม้อแปลงไฟฟ้า|
ต้องตัดรวมเพราะมีคำที่ตรงกันในภาษาอังกฤษ
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 13
เกณฑ์ จุดประสงค์ ความลักลั่น ความกำกวม ตัวอย่าง
อิงตามคำมูล
วิเคราะห์โครงสร้าง
หน่วยคำ
ขอบเขตคำมูล
ทับซ้อนกัน
ต่ำสุด N/A
อิงตามคำมูล
ที่รวมกันแน่น
วิเคราะห์โครงสร้าง
ไวยากรณ์
เมื่อไหร่จึงจะถือว่า
รวมกันแน่น
ปานกลาง
Thai National
Corpus (TNC)
อิงตามคำประสมที่
เปลี่ยนความหมาย
วิเคราะห์โครงสร้าง
ไวยากรณ์
เมื่อไหร่จึงจะถือว่า
เปลี่ยนความหมาย
ปานกลาง BEST 2010
อิงตาม
หน่วยความหมาย
ใช้เพื่อสอนระบบ
แปลภาษาอัตโนมัติ
ไม่มีหน่วยความหมาย
กลางให้เป็นหลักยึด
สูง ORCHID
¡ คำถาม 2: นี่มันคำประสมหรือหน่วยสร้าง (กรณีชัดแจ้ง)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 14
หม้อหุงข้าว
N
หม้อ หุง ข้าว
N V N
VP
S
NP
หม้อหุงข้าว
N
ไฟฟ้า
N
NP
หม้อ หุง
N JV
JVP
NP
NP
ข้าว
N
ไฟฟ้า
N
NP
หม้อหุงข้าว
N
ซ้อมมือ
N
NP
หม้อ หุง
N JV
JVP
NP
NP
ข้าว
N
ซ้อมมือ
N
NP
1
3 4
หีบ ประดับ มรกต
N JV N
JVP
NP
NP
2
หีบประดับมรกต
N
×
×
×
×
(รวมกันแน่น)
(รวมกันแบบหลวม)
(‘ซ้อมมือ’ ขยาย ‘หม้อ’ ไม่ได้)(‘ไฟฟ้า’ขยาย ‘หม้อ’ ได้)
¡ คำถาม 2: นี่มันคำประสมหรือหน่วยสร้าง (กรณีไม่ชัดแจ้ง)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 15
คนขับรถ
N
คน ขับ รถ
N V N
VP
S
NP
คนขับรถ
N
บรรทุก
JV
NP
คน ขับ
N V
VP
S
NP
รถ
N
บรรทุก
V
NP
คน ขับ
N JV
JVP
NP
NP
รถ
N
บรรทุก
V
NP
1
2
คนขับรถบรรทุก
N× ×
(ไม่รวมกันแน่น)
(‘บรรทุก’ ขยาย ‘คน’ ไม่ได้)
¡ คำถาม 3: ทำไมประโยคถึงได้ขาดรุ่งริ่งแบบนี้
§ สรรพนามและหน่วยสร้างวลีบางชนิดสามารถละได้ หากว่า
ภายในกลุ่มยังสามารถอนุมานจากบริบทได้
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 16
สมชายฝากปลาทองไว้กับแม่ก่อนไปทะเล เพราะ φ1 อยากพักผ่อนโดยไม่ต้องห่วง φ2
npa1 npa2a1 a2 a3
because he wants to relax without worrying about it .
¡ คำถาม 4: จะตีความรูปแทนความหมายอย่างไร
§ เราสามารถถอดรูปแทนความหมายระดับตื้นจากไวยากรณ์ได้
โดยใช้ Categorial Grammar และ Lambda Calculus
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 17
คำศัพท์ Categorial Grammar Lambda Calculus
แม่, น้อง, ผ้า :- np mom’, sister’, clothes’
วาน :- snp1/(snp2)/np2 λx2 λf λx1.ask’(x1, x2, f(x2))
เก็บ :- snp1/np2 λx2 λx1.collect’(x1, x2)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 18
แม่ วาน น้อง เก็บ ผ้า
np
: mom’
snp1/(snp2)/np2
: λx2 λf λx1.ask’(x1, x2, f(x2))
np
: sister’
snp1/np2
: λx2 λx1.collect’(x1,x2)
np
: clothes’
snp1/(snp2)
: λf λx1.ask’(x1, sister’, f(sister’))
snp1
: λx1.collect’(x1, clothes’)
snp1
: λx1.ask’(x1, sister’, collect’(sister’ , clothes’))
s
: ask’(mom’, sister’, collect’(sister’, clothes’))
¡ คำถาม 4: จะตีความรูปแทนความหมายอย่างไร (ต่อ)
§ การใช้ความหมายแฝงทำให้เราไม่สามารถระบุนิพจน์สโกเลม
(Skolem’s term) และตัวบ่งปริมาณ (quantifier) ลงใน
รูปแทนความหมายได้
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 19
แม่ วาน น้อง เก็บ ผ้า : ask’(mom’, sister’, collect’(sister’, clothes’))
✍ ความกำกวม 1. ‘น้อง’ ที่ว่าหมายถึงน้องคนไหน: sister1’, sister2’, sister3’ … ฯลฯ
✍ ความกำกวม 2. ‘ผ้า’ ที่ว่าหมายถึงผ้าทุกผืนหรือผ้าบางผืน: ∀x. หรือ ∃x. clothes’(x)
¡ คำถาม 5: อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 20
ระบบความคิดแบบรวมศูนย์
นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม
เน้นข้อแก้ตัวและการขออภัยที่มารบกวน
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
ระบบความคิดในสื่อสารมวลชนบางชนิด
อาจใช้ความหมายแฝงเพื่อหลีกเลี่ยงการอ้างอิง
ไม่จำเป็นต้องมีประเด็นที่ชัดเจน
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
?
¡ คำถาม 6: ประโยคนี้หมายความว่าอะไรกันแน่
§ ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้
ความรู้ทางโลก (world knowledge) และสามัญสำนึก
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 21
ตอนเช้าๆ คุณพ่อเพิ่งตื่นนอน
คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว”
ลูกสาวตอบว่า “แปดโมงยี่สิบค่ะ”
¡ คำถาม 6: ประโยคนี้หมายความว่าอะไรกันแน่
§ ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้
ความรู้ทางโลก (world knowledge) และสามัญสำนึก
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 22
ณ เวลาตีสองสี่สิบห้านาที ลูกสาวเมากลับเข้าบ้าน
คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว”
ลูกสาวตอบว่า “ตีสองกว่าค่ะพ่อ”
¡ ภาษาไทยในปัจจุบันได้รับอิทธิพลจากอินเตอร์เน็ตและ
สังคมออนไลน์
§ มีคำและความหมายเกิดใหม่ตลอดเวลา ทั้งที่เกิดจากการเทียบเคียง
จากสถานการณ์ การสะกดผิดโดยรู้เท่าไม่ถึงการณ์ ความผิดพร่องใน
การพิมพ์ และการพิมพ์ผิดอย่างจงใจ
§ มีแหล่งข้อมูลขนาดใหญ่ซึ่งสามารถค้นคืนได้ เช่น Facebook,
Twitter, Instagram, หนังสือพิมพ์ และสื่อออนไลน์อื่นๆ
§ ไม่มั่นคง มีพลวัติสูงมาก เปลี่ยนแปลงตามสถานการณ์ได้อย่างรวดเร็ว
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 23
¡ การศึกษาแนวโน้มการใช้ภาษาในสื่อออนไลน์
§ ศึกษาจากการระบุหัวเรื่องด้วย hashtag เช่น #ร้องไห้หนักมาก
§ เครื่องมือที่ช่วยศึกษาภาษาไทยในสื่อออนไลน์ http://pop.ssense.in.th
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 24
¡ การวิเคราะห์ความคิดเห็น (sentiment analysis)
§ เราสามารถวิเคราะห์ขั้ว (polarity) และอารมณ์ (emotion)
ของความคิดเห็นได้โดยพิจารณาจากการใช้รูปคำและบริบท
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 25
โทรศัพท์ XXXXXXX เต็มเปี่ยมไปด้วยความพรีเมี่ยมที่ยอดเยี่ยมกว่าเคย
ไม่มีการติดต่อกลับมาใดๆ จนผมต้องเป็นฝ่ายอีเมล์ไปถามว่าเรื่องถึงไหนแล้ว
+ + +
- - - -
1
2
¡ การวิเคราะห์ความคิดเห็น (sentiment analysis) (ต่อ)
§ ความคิดเห็นแบบการประชด (sarcasm) มีความหมายลึกมีขั้ว
ตรงกันข้ามกับความหมายผิว (ambivalence)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 26
ร้าน XXXXX บริการสุดประทับใจ ไปทานอาหารสองครั้ง ออร์เดอร์หายทั้งสองครั้ง
+ -
แถมครั้งสุดท้ายที่ไป เด็กเสิร์ฟยังคิดค่าอาหารผิด ไปรวมออร์เดอร์ที่หายไว้ในบิล
- - -
¡ หัวข้อวิจัย
§ ระดับคำ: การตัดคำ การระบุคำประสม การกำกับชนิดของคำ
§ ระดับไวยากรณ์: การระบุก้อนหน่วยสร้างการวิเคราะห์โครงสร้างประโยค
การแก้ปัญหาการละในระดับไวยากรณ์
§ ระดับความหมาย: การกำกับบทบาทความหมาย การถอดรูปแทนความหมาย
การตีความนิพจน์สโกเลมและตัวบ่งปริมาณการตีความคำเกิดใหม่
§ ระดับปริจเฉท: การวิเคราะห์โครงสร้างเอกสารการสรุปเอกสารอัตโนมัติ
§ ระดับวัจนปฏิบัติ: การแก้ปัญหาความหมายแฝงการประมวลผลความรู้ทางโลก
(เทรนด์ปัจจุบันคือ ontology) การวิเคราะห์ความคิดเห็นและการประชด
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 27
¡ ข้อแนะนำ
§ ความรู้เบื้องต้นสำหรับภาษาไทย: ไวยากรณ์ไทย (นววรรณ
พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7)
§ ฝึกใช้ machine learning และเทคนิคที่เกี่ยวข้อง
§ ความแม่นยำของระบบขึ้นอยู่กับการออกแบบ “บริบท” เพื่อ
แทนความหมายแฝง เช่น คำก่อนหน้า (n-gram) คำแวดล้อม
(surrounding n-gram) โหนดแม่ในต้นไม้ไวยากรณ์ ฯลฯ
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 28
¡ ภาษาไทยมีความมหัศจรรย์5 ระดับ ซึ่งเป็นผลมาจาก
กรอบความคิดแบบรวมศูนย์และการใช้ความหมายแฝง
¡ การใช้กฎผสมกับ machine learning และการออกแบบ
รูปแทนบริบทจะช่วยแก้ปัญหาความหมายแฝงได้
¡ กรุณาปรึกษาหัวข้อวิจัยกับอาจารย์ที่ปรึกษาของท่าน
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 29
30
ที่มา: เพจมุกหรือ
เปลือกหมอย
¡ ความรู้เบื้องต้นสำหรับภาษาไทย
§ ไวยากรณ์ไทย (นววรรณ พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7)
§ โครงสร้างภาษาไทย: ระบบไวยากรณ์ (วิจินตน์ ภาณุพงศ์,
พ.ศ. 2520)
§ หลักภาษาไทย (กำชัย ทองหล่อ, 2515)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 31
¡ Machine Learning
§ A First Course in Machine Learning (Simon Rogers
and Mark Girolami, 2011) [เข้าใจง่าย]
§ Pattern Recognition and Machine Learning
(Christopher Bishop, 2007) [ยากระดับกลาง]
§ Information Theory, Inference, and Learning
Algorithms (David MacKay, 2003) [ยากและละเอียด]
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 32
¡ Natural Language Processing
§ Speech and Language Processing (Daniel Jurafsky
and James M. Martin, 2008) [ง่าย]
§ Foundations of Statistical Natural Language
Processing (Manning, Prabhakar, and Schütze, 2008)
[ยากระดับกลาง]
§ Natural Language Processing with Python (Bird,
Klein, and Loper, 2009) [ง่าย, สอนใช้ NLTK ด้วย]
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 33

Contenu connexe

Tendances

โครงงานประเภท “การพัฒนาโปรแกรมประยุกต์”
โครงงานประเภท “การพัฒนาโปรแกรมประยุกต์”โครงงานประเภท “การพัฒนาโปรแกรมประยุกต์”
โครงงานประเภท “การพัฒนาโปรแกรมประยุกต์”Royphim Namsongwong
 
Advanced Analytics Platform for Big Data Analytics
Advanced Analytics Platform for Big Data AnalyticsAdvanced Analytics Platform for Big Data Analytics
Advanced Analytics Platform for Big Data AnalyticsArvind Sathi
 
บทที่ 7 การสร้างเว็บไซต์อีคอมเมิร์ซ
บทที่ 7 การสร้างเว็บไซต์อีคอมเมิร์ซบทที่ 7 การสร้างเว็บไซต์อีคอมเมิร์ซ
บทที่ 7 การสร้างเว็บไซต์อีคอมเมิร์ซTeetut Tresirichod
 
แผนธุรกิจร้านก๋วยเตี๋ยวลูกชิ้นปลา “ชามโต”
แผนธุรกิจร้านก๋วยเตี๋ยวลูกชิ้นปลา “ชามโต”แผนธุรกิจร้านก๋วยเตี๋ยวลูกชิ้นปลา “ชามโต”
แผนธุรกิจร้านก๋วยเตี๋ยวลูกชิ้นปลา “ชามโต”Utai Sukviwatsirikul
 
Introduction to Big Data Analytics and Data Science
Introduction to Big Data Analytics and Data ScienceIntroduction to Big Data Analytics and Data Science
Introduction to Big Data Analytics and Data ScienceData Science Thailand
 
กาแฟดีต่อสุขภาพ
กาแฟดีต่อสุขภาพ กาแฟดีต่อสุขภาพ
กาแฟดีต่อสุขภาพ Ploy Jutamas
 
การสื่อสาร
การสื่อสารการสื่อสาร
การสื่อสารsariya25
 
โมเดลธุรกิจ Business Model Canvas
โมเดลธุรกิจ Business Model Canvasโมเดลธุรกิจ Business Model Canvas
โมเดลธุรกิจ Business Model CanvasInfluencer TH
 
แผนการตลาด
แผนการตลาดแผนการตลาด
แผนการตลาดChotiros Duangpien
 
ระบบเครือข่ายคอมพิวเตอร์
ระบบเครือข่ายคอมพิวเตอร์ระบบเครือข่ายคอมพิวเตอร์
ระบบเครือข่ายคอมพิวเตอร์Dr.Kridsanapong Lertbumroongchai
 
บทคัดย่อ โครงงานIS3
บทคัดย่อ โครงงานIS3 บทคัดย่อ โครงงานIS3
บทคัดย่อ โครงงานIS3 Akawid Puangkeaw
 
What Are The Latest Trends in Data Science?
What Are The Latest Trends in Data Science?What Are The Latest Trends in Data Science?
What Are The Latest Trends in Data Science?Bernard Marr
 
Big Data in Financial Services: How to Improve Performance with Data-Driven D...
Big Data in Financial Services: How to Improve Performance with Data-Driven D...Big Data in Financial Services: How to Improve Performance with Data-Driven D...
Big Data in Financial Services: How to Improve Performance with Data-Driven D...Perficient, Inc.
 

Tendances (20)

โครงงานประเภท “การพัฒนาโปรแกรมประยุกต์”
โครงงานประเภท “การพัฒนาโปรแกรมประยุกต์”โครงงานประเภท “การพัฒนาโปรแกรมประยุกต์”
โครงงานประเภท “การพัฒนาโปรแกรมประยุกต์”
 
Advanced Analytics Platform for Big Data Analytics
Advanced Analytics Platform for Big Data AnalyticsAdvanced Analytics Platform for Big Data Analytics
Advanced Analytics Platform for Big Data Analytics
 
Introduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data AnalyticsIntroduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data Analytics
 
บทที่ 7 การสร้างเว็บไซต์อีคอมเมิร์ซ
บทที่ 7 การสร้างเว็บไซต์อีคอมเมิร์ซบทที่ 7 การสร้างเว็บไซต์อีคอมเมิร์ซ
บทที่ 7 การสร้างเว็บไซต์อีคอมเมิร์ซ
 
Data analytics & its Trends
Data analytics & its TrendsData analytics & its Trends
Data analytics & its Trends
 
แผนธุรกิจร้านก๋วยเตี๋ยวลูกชิ้นปลา “ชามโต”
แผนธุรกิจร้านก๋วยเตี๋ยวลูกชิ้นปลา “ชามโต”แผนธุรกิจร้านก๋วยเตี๋ยวลูกชิ้นปลา “ชามโต”
แผนธุรกิจร้านก๋วยเตี๋ยวลูกชิ้นปลา “ชามโต”
 
Introduction to Big Data Analytics and Data Science
Introduction to Big Data Analytics and Data ScienceIntroduction to Big Data Analytics and Data Science
Introduction to Big Data Analytics and Data Science
 
กาแฟดีต่อสุขภาพ
กาแฟดีต่อสุขภาพ กาแฟดีต่อสุขภาพ
กาแฟดีต่อสุขภาพ
 
03 data preprocessing
03 data preprocessing03 data preprocessing
03 data preprocessing
 
การสื่อสาร
การสื่อสารการสื่อสาร
การสื่อสาร
 
โมเดลธุรกิจ Business Model Canvas
โมเดลธุรกิจ Business Model Canvasโมเดลธุรกิจ Business Model Canvas
โมเดลธุรกิจ Business Model Canvas
 
06 classification 2 bayesian and instance based classification
06 classification 2 bayesian and instance based classification06 classification 2 bayesian and instance based classification
06 classification 2 bayesian and instance based classification
 
แผนการตลาด
แผนการตลาดแผนการตลาด
แผนการตลาด
 
ระบบเครือข่ายคอมพิวเตอร์
ระบบเครือข่ายคอมพิวเตอร์ระบบเครือข่ายคอมพิวเตอร์
ระบบเครือข่ายคอมพิวเตอร์
 
Data Science: Past, Present, and Future
Data Science: Past, Present, and FutureData Science: Past, Present, and Future
Data Science: Past, Present, and Future
 
Text mining
Text miningText mining
Text mining
 
บทคัดย่อ โครงงานIS3
บทคัดย่อ โครงงานIS3 บทคัดย่อ โครงงานIS3
บทคัดย่อ โครงงานIS3
 
What Are The Latest Trends in Data Science?
What Are The Latest Trends in Data Science?What Are The Latest Trends in Data Science?
What Are The Latest Trends in Data Science?
 
Jobs in IT Sector
Jobs in IT SectorJobs in IT Sector
Jobs in IT Sector
 
Big Data in Financial Services: How to Improve Performance with Data-Driven D...
Big Data in Financial Services: How to Improve Performance with Data-Driven D...Big Data in Financial Services: How to Improve Performance with Data-Driven D...
Big Data in Financial Services: How to Improve Performance with Data-Driven D...
 

Similaire à Text Mining and Thai NLP

กฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอด
กฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอดกฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอด
กฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอดVisanu Euarchukiati
 
แผนประโยคบรรทัดฐาน.pdf
แผนประโยคบรรทัดฐาน.pdfแผนประโยคบรรทัดฐาน.pdf
แผนประโยคบรรทัดฐาน.pdfPawarit Phomma
 
โครงงานประเภททฤษฏี
โครงงานประเภททฤษฏีโครงงานประเภททฤษฏี
โครงงานประเภททฤษฏีNuchy Geez
 
กาพย์ยานี
กาพย์ยานีกาพย์ยานี
กาพย์ยานีkhorntee
 

Similaire à Text Mining and Thai NLP (6)

กฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอด
กฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอดกฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอด
กฎเกณฑ์-คำแนะนำการอ่านหนังสือเสียงให้คนตาบอด
 
Languageusage for radio writing
Languageusage for radio writingLanguageusage for radio writing
Languageusage for radio writing
 
Chitrapathachan
ChitrapathachanChitrapathachan
Chitrapathachan
 
แผนประโยคบรรทัดฐาน.pdf
แผนประโยคบรรทัดฐาน.pdfแผนประโยคบรรทัดฐาน.pdf
แผนประโยคบรรทัดฐาน.pdf
 
โครงงานประเภททฤษฏี
โครงงานประเภททฤษฏีโครงงานประเภททฤษฏี
โครงงานประเภททฤษฏี
 
กาพย์ยานี
กาพย์ยานีกาพย์ยานี
กาพย์ยานี
 

Plus de Data Science Thailand

Drawing Your career in business analytics and data science
Drawing Your career in business analytics and data scienceDrawing Your career in business analytics and data science
Drawing Your career in business analytics and data scienceData Science Thailand
 
Microsoft R Server for Data Sciencea
Microsoft R Server for Data ScienceaMicrosoft R Server for Data Sciencea
Microsoft R Server for Data ScienceaData Science Thailand
 
Electronic Medical Records - Paperless to Big Data Initiative
Electronic Medical Records - Paperless to Big Data InitiativeElectronic Medical Records - Paperless to Big Data Initiative
Electronic Medical Records - Paperless to Big Data InitiativeData Science Thailand
 
Machine learning in image processing
Machine learning in image processingMachine learning in image processing
Machine learning in image processingData Science Thailand
 
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...Data Science Thailand
 
Data Science Application in Business Portfolio & Risk Management
Data Science Application in Business Portfolio & Risk ManagementData Science Application in Business Portfolio & Risk Management
Data Science Application in Business Portfolio & Risk ManagementData Science Thailand
 
Precision Medicine - The Future of Healthcare
Precision Medicine - The Future of HealthcarePrecision Medicine - The Future of Healthcare
Precision Medicine - The Future of HealthcareData Science Thailand
 
Big Data Analytics to Enhance Security
Big Data Analytics to Enhance SecurityBig Data Analytics to Enhance Security
Big Data Analytics to Enhance SecurityData Science Thailand
 
Single Nucleotide Polymorphism Analysis (SNPs)
Single Nucleotide Polymorphism Analysis (SNPs)Single Nucleotide Polymorphism Analysis (SNPs)
Single Nucleotide Polymorphism Analysis (SNPs)Data Science Thailand
 
Technology behind-real-time-log-analytics
Technology behind-real-time-log-analytics Technology behind-real-time-log-analytics
Technology behind-real-time-log-analytics Data Science Thailand
 
Predictive Analytics in Manufacturing
Predictive Analytics in ManufacturingPredictive Analytics in Manufacturing
Predictive Analytics in ManufacturingData Science Thailand
 

Plus de Data Science Thailand (20)

Data Science Thailand Meetup#11
Data Science Thailand Meetup#11Data Science Thailand Meetup#11
Data Science Thailand Meetup#11
 
Define Your Data (Science) Career
Define Your Data (Science) CareerDefine Your Data (Science) Career
Define Your Data (Science) Career
 
Drawing Your career in business analytics and data science
Drawing Your career in business analytics and data scienceDrawing Your career in business analytics and data science
Drawing Your career in business analytics and data science
 
Data Science fuels Creativity
Data Science fuels CreativityData Science fuels Creativity
Data Science fuels Creativity
 
Microsoft R Server for Data Sciencea
Microsoft R Server for Data ScienceaMicrosoft R Server for Data Sciencea
Microsoft R Server for Data Sciencea
 
Electronic Medical Records - Paperless to Big Data Initiative
Electronic Medical Records - Paperless to Big Data InitiativeElectronic Medical Records - Paperless to Big Data Initiative
Electronic Medical Records - Paperless to Big Data Initiative
 
Machine learning in image processing
Machine learning in image processingMachine learning in image processing
Machine learning in image processing
 
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
 
Bioinformatics in a Nutshell
Bioinformatics in a NutshellBioinformatics in a Nutshell
Bioinformatics in a Nutshell
 
Data Science Application in Business Portfolio & Risk Management
Data Science Application in Business Portfolio & Risk ManagementData Science Application in Business Portfolio & Risk Management
Data Science Application in Business Portfolio & Risk Management
 
Myths of Data Science
Myths of Data ScienceMyths of Data Science
Myths of Data Science
 
Hr Analytics
Hr AnalyticsHr Analytics
Hr Analytics
 
Marketing analytics
Marketing analyticsMarketing analytics
Marketing analytics
 
Precision Medicine - The Future of Healthcare
Precision Medicine - The Future of HealthcarePrecision Medicine - The Future of Healthcare
Precision Medicine - The Future of Healthcare
 
Big Data Analytics to Enhance Security
Big Data Analytics to Enhance SecurityBig Data Analytics to Enhance Security
Big Data Analytics to Enhance Security
 
Single Nucleotide Polymorphism Analysis (SNPs)
Single Nucleotide Polymorphism Analysis (SNPs)Single Nucleotide Polymorphism Analysis (SNPs)
Single Nucleotide Polymorphism Analysis (SNPs)
 
Using hadoop for big data
Using hadoop for big dataUsing hadoop for big data
Using hadoop for big data
 
My Spark Journey
My Spark JourneyMy Spark Journey
My Spark Journey
 
Technology behind-real-time-log-analytics
Technology behind-real-time-log-analytics Technology behind-real-time-log-analytics
Technology behind-real-time-log-analytics
 
Predictive Analytics in Manufacturing
Predictive Analytics in ManufacturingPredictive Analytics in Manufacturing
Predictive Analytics in Manufacturing
 

Text Mining and Thai NLP

  • 2. ¡ รู้จักกับภาษาไทย ¡ ความมหัศจรรย์แห่งภาษาไทย ¡ ภาษาไทยในสังคมออนไลน์ ¡ หัวข้อวิจัยที่น่าสนใจ ¡ สรุป 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 2
  • 3. ¡ ภาษาไทยเป็นภาษาคำโดด(analytic language) § ลำดับคำแบบประธาน-กริยา-กรรม (SVO) และความหมาย หลักของหน่วยสร้าง (constituent) มักจะเป็นตัวขึ้นต้น (head-initial) § ลำดับคำตายตัว และมีผลต่อการตีความความหมาย § ใช้คำกริยาวิเศษณ์ (adverb) และคำช่วย (auxiliary) เพื่อบอก หน้าที่ทางไวยากรณ์ของคำในประโยค ไม่ต้องผันกริยา (inflection) หรือเติมวิภัตติปัจจัย (declension) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 3
  • 4. ¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 4 ระบบความคิดแบบปัจเจกนิยม เน้นความโดดเด่นของปัจเจกบุคคล นิยมสื่อความหมายแบบชัดแจ้ง ประเด็น เหตุผล 1 เหตุผล 2 เหตุผล 3 สรุปสาระสำคัญ ระบบความคิดแบบรวมศูนย์ เน้นความสัมพันธ์แนบแน่นภายในกลุ่ม นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น
  • 5. ¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 5 ระบบความคิดแบบปัจเจกนิยม ประเด็นนำไปสู่เหตุผลสนับสนุน เน้นเล่าเรื่องตามลำดับและให้เหตุผล ประเด็น เหตุผล 1 เหตุผล 2 เหตุผล 3 สรุปสาระสำคัญ ระบบความคิดแบบรวมศูนย์ ข้ออ้างนำไปสู่ประเด็น เน้นข้อแก้ตัวและการขออภัยที่มารบกวน ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น
  • 6. ¡ ภาษาไทยเรียบง่ายแต่สลับซับซ้อน (simplex) และนิยมใช้ ความหมายแฝง (high-context meaning) § คำในภาษาไทยมีหน่วยความหมายขนาดเล็ก (minimalist semantics) ทำให้ต้องใช้คำจำนวนมากมาประกอบสร้างเป็น หน่วยความหมายที่สลับซับซ้อน § สามารถละสรรพนาม (pro-dropping) และละหน่วยสร้าง (ellipsis) ได้ หากยังสามารถอนุมานความหมายได้จากบริบท 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 6
  • 7. ¡ การใช้ความหมายแฝงทำให้เกิดความมหัศจรรย์ § ระดับหน่วยคำ: “คำคืออะไร” § ระดับไวยากรณ์: “นี่มันคำประสมหรือหน่วยสร้าง” “ทำไม ประโยคถึงได้ขาดรุ่งริ่งแบบนี้” § ระดับความหมาย: “จะตีความรูปแทนความหมายอย่างไร” § ระดับปริจเฉท: “อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน” § ระดับวัจนปฏิบัติ: “ประโยคนี้หมายความว่าอะไรกันแน่” 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 7
  • 8. ¡ ภาษาไทยเน้นการใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม § สรรพนามและหน่วยสร้างอื่นๆ สามารถละได้ ตราบเท่าที่ ภายในกลุ่มสามารถอนุมานได้จากบริบท § ความกำกวมทางภาษาก็เป็นที่ยอมรับได้ด้วยเหตุผลเดียวกัน § การใช้ความหมายแฝงก่อให้เกิดปัญหากับการประมวลผล ภาษาธรรมชาติด้วยคอมพิวเตอร์ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 8
  • 9. ¡ การแก้ปัญหาความหมายแฝง (context resolution) มีลักษณะ ไม่เป็นเชิงเส้น (non-linear) ทำให้การเชื่อมโยงบริบทเกิดภาวะ non-projectivity ซึ่งต้องแก้ปัญหาด้วย Turing Machine ¡ ตัวอย่าง: การแก้ปัญหาความหมายแฝงด้วย Type Logical Grammar 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 9 สมชายฝากปลาทองไว้กับเพื่อนตอนไปทะเล เขาอยากนั่งตากลมโดยไม่ต้องห่วงเจ้าตากลม √ เขา.pro เขา.n ตา|กลม| √ ตาก|ลม| √ ตา|กลม| ตาก|ลม| npa1 npa3 npa2a1 a2 a3
  • 10. ¡ การแก้ปัญหาความหมายแฝงด้วยกฎโดยใช้ Turing Machine มีความซับซ้อนแบบ Exponential จึงเป็น ปัญหาที่ทนรอไม่ได้ (intractable problem) ¡ ปัจจุบันนี้เราสามารถใช้วิธีการประมาณ (approximate) เพื่อแก้ปัญหานี้ได้ โดยใช้แบบจำลองทางสถิติ (เช่น NB, HMM, MEMM, และ CRF) หรือแบบจำลองเชิงตัวเลข (เช่น SVM และ PCA) แต่ก็ต้องยอมแลกกับความแม่นยำ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 10
  • 11. ¡ คำถาม 1: คำคืออะไร § ภาษาไทยพอมีเกณฑ์คร่าวๆ ของขอบเขตคำ ▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำมูลที่รวมกันแน่น ▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำประสมที่เปลี่ยนความหมายไป ▪ บ้างก็เชื่อว่าขึ้นอยู่กับการนำหน่วยความหมายของคำไปใช้งาน § ถึงจะกำหนดเกณฑ์คร่าวๆ ได้ แต่นักภาษาศาสตร์ก็ยังถกเถียง กันอยู่เสมอเมื่อพบความลักลั่นของกฎเกณฑ์ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 11
  • 12. ¡ รวมกรณีการตัดคำที่ขัดแย้งกับสัญชาตญาณ (counter-intuitive) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 12 เกณฑ์ ตัวอย่าง กรณีที่ขัดแย้งกับสัญชาตญาณ อิงตามคำมูล ฉัน|นำ|ดอก|ไม้|ไป|ไหว้| ศาล|พระ|ภูมิ|ที่|โรง|เรียน|ประจำ| ดอก|ไม้| ศาล|พระ|ภูมิ| โรง|เรียน| ตัดแยกให้เป็นคำมูลทั้งหมด อิงตามคำมูล ที่รวมกันแน่น ฉัน|นำ|ดอกไม้|ไป|ไหว้| ศาลพระภูมิ|ที่|โรงเรียน|ประจำ| ดอก|จิก| (กล้วย) เล็บ|มือ|นาง| ตัดแยก เพราะมีความถี่การเกิดร่วมไม่เพียงพอ อิงตามคำประสม เปลี่ยนความหมาย ฉัน|นำ|ดอก|ไม้|ไป|ไหว้| ศาล|พระภูมิ|ที่|โรง|เรียน|ประจำ| ดอก|ไม้| แม่|น้ำ| โรง|เรียน| ต้องตัดแยก เพราะยังไม่เปลี่ยนความหมาย อิงตาม หน่วยความหมาย ฉัน|นำ|ดอกไม้|ไป|ไหว้| ศาลพระภูมิ|ที่|โรงเรียนประจำ| การออกกำลังกาย| หม้อแปลงไฟฟ้า| ต้องตัดรวมเพราะมีคำที่ตรงกันในภาษาอังกฤษ
  • 13. 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 13 เกณฑ์ จุดประสงค์ ความลักลั่น ความกำกวม ตัวอย่าง อิงตามคำมูล วิเคราะห์โครงสร้าง หน่วยคำ ขอบเขตคำมูล ทับซ้อนกัน ต่ำสุด N/A อิงตามคำมูล ที่รวมกันแน่น วิเคราะห์โครงสร้าง ไวยากรณ์ เมื่อไหร่จึงจะถือว่า รวมกันแน่น ปานกลาง Thai National Corpus (TNC) อิงตามคำประสมที่ เปลี่ยนความหมาย วิเคราะห์โครงสร้าง ไวยากรณ์ เมื่อไหร่จึงจะถือว่า เปลี่ยนความหมาย ปานกลาง BEST 2010 อิงตาม หน่วยความหมาย ใช้เพื่อสอนระบบ แปลภาษาอัตโนมัติ ไม่มีหน่วยความหมาย กลางให้เป็นหลักยึด สูง ORCHID
  • 14. ¡ คำถาม 2: นี่มันคำประสมหรือหน่วยสร้าง (กรณีชัดแจ้ง) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 14 หม้อหุงข้าว N หม้อ หุง ข้าว N V N VP S NP หม้อหุงข้าว N ไฟฟ้า N NP หม้อ หุง N JV JVP NP NP ข้าว N ไฟฟ้า N NP หม้อหุงข้าว N ซ้อมมือ N NP หม้อ หุง N JV JVP NP NP ข้าว N ซ้อมมือ N NP 1 3 4 หีบ ประดับ มรกต N JV N JVP NP NP 2 หีบประดับมรกต N × × × × (รวมกันแน่น) (รวมกันแบบหลวม) (‘ซ้อมมือ’ ขยาย ‘หม้อ’ ไม่ได้)(‘ไฟฟ้า’ขยาย ‘หม้อ’ ได้)
  • 15. ¡ คำถาม 2: นี่มันคำประสมหรือหน่วยสร้าง (กรณีไม่ชัดแจ้ง) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 15 คนขับรถ N คน ขับ รถ N V N VP S NP คนขับรถ N บรรทุก JV NP คน ขับ N V VP S NP รถ N บรรทุก V NP คน ขับ N JV JVP NP NP รถ N บรรทุก V NP 1 2 คนขับรถบรรทุก N× × (ไม่รวมกันแน่น) (‘บรรทุก’ ขยาย ‘คน’ ไม่ได้)
  • 16. ¡ คำถาม 3: ทำไมประโยคถึงได้ขาดรุ่งริ่งแบบนี้ § สรรพนามและหน่วยสร้างวลีบางชนิดสามารถละได้ หากว่า ภายในกลุ่มยังสามารถอนุมานจากบริบทได้ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 16 สมชายฝากปลาทองไว้กับแม่ก่อนไปทะเล เพราะ φ1 อยากพักผ่อนโดยไม่ต้องห่วง φ2 npa1 npa2a1 a2 a3 because he wants to relax without worrying about it .
  • 17. ¡ คำถาม 4: จะตีความรูปแทนความหมายอย่างไร § เราสามารถถอดรูปแทนความหมายระดับตื้นจากไวยากรณ์ได้ โดยใช้ Categorial Grammar และ Lambda Calculus 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 17 คำศัพท์ Categorial Grammar Lambda Calculus แม่, น้อง, ผ้า :- np mom’, sister’, clothes’ วาน :- snp1/(snp2)/np2 λx2 λf λx1.ask’(x1, x2, f(x2)) เก็บ :- snp1/np2 λx2 λx1.collect’(x1, x2)
  • 18. 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 18 แม่ วาน น้อง เก็บ ผ้า np : mom’ snp1/(snp2)/np2 : λx2 λf λx1.ask’(x1, x2, f(x2)) np : sister’ snp1/np2 : λx2 λx1.collect’(x1,x2) np : clothes’ snp1/(snp2) : λf λx1.ask’(x1, sister’, f(sister’)) snp1 : λx1.collect’(x1, clothes’) snp1 : λx1.ask’(x1, sister’, collect’(sister’ , clothes’)) s : ask’(mom’, sister’, collect’(sister’, clothes’))
  • 19. ¡ คำถาม 4: จะตีความรูปแทนความหมายอย่างไร (ต่อ) § การใช้ความหมายแฝงทำให้เราไม่สามารถระบุนิพจน์สโกเลม (Skolem’s term) และตัวบ่งปริมาณ (quantifier) ลงใน รูปแทนความหมายได้ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 19 แม่ วาน น้อง เก็บ ผ้า : ask’(mom’, sister’, collect’(sister’, clothes’)) ✍ ความกำกวม 1. ‘น้อง’ ที่ว่าหมายถึงน้องคนไหน: sister1’, sister2’, sister3’ … ฯลฯ ✍ ความกำกวม 2. ‘ผ้า’ ที่ว่าหมายถึงผ้าทุกผืนหรือผ้าบางผืน: ∀x. หรือ ∃x. clothes’(x)
  • 20. ¡ คำถาม 5: อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 20 ระบบความคิดแบบรวมศูนย์ นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม เน้นข้อแก้ตัวและการขออภัยที่มารบกวน ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น ระบบความคิดในสื่อสารมวลชนบางชนิด อาจใช้ความหมายแฝงเพื่อหลีกเลี่ยงการอ้างอิง ไม่จำเป็นต้องมีประเด็นที่ชัดเจน ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น ?
  • 21. ¡ คำถาม 6: ประโยคนี้หมายความว่าอะไรกันแน่ § ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้ ความรู้ทางโลก (world knowledge) และสามัญสำนึก 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 21 ตอนเช้าๆ คุณพ่อเพิ่งตื่นนอน คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว” ลูกสาวตอบว่า “แปดโมงยี่สิบค่ะ”
  • 22. ¡ คำถาม 6: ประโยคนี้หมายความว่าอะไรกันแน่ § ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้ ความรู้ทางโลก (world knowledge) และสามัญสำนึก 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 22 ณ เวลาตีสองสี่สิบห้านาที ลูกสาวเมากลับเข้าบ้าน คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว” ลูกสาวตอบว่า “ตีสองกว่าค่ะพ่อ”
  • 23. ¡ ภาษาไทยในปัจจุบันได้รับอิทธิพลจากอินเตอร์เน็ตและ สังคมออนไลน์ § มีคำและความหมายเกิดใหม่ตลอดเวลา ทั้งที่เกิดจากการเทียบเคียง จากสถานการณ์ การสะกดผิดโดยรู้เท่าไม่ถึงการณ์ ความผิดพร่องใน การพิมพ์ และการพิมพ์ผิดอย่างจงใจ § มีแหล่งข้อมูลขนาดใหญ่ซึ่งสามารถค้นคืนได้ เช่น Facebook, Twitter, Instagram, หนังสือพิมพ์ และสื่อออนไลน์อื่นๆ § ไม่มั่นคง มีพลวัติสูงมาก เปลี่ยนแปลงตามสถานการณ์ได้อย่างรวดเร็ว 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 23
  • 24. ¡ การศึกษาแนวโน้มการใช้ภาษาในสื่อออนไลน์ § ศึกษาจากการระบุหัวเรื่องด้วย hashtag เช่น #ร้องไห้หนักมาก § เครื่องมือที่ช่วยศึกษาภาษาไทยในสื่อออนไลน์ http://pop.ssense.in.th 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 24
  • 25. ¡ การวิเคราะห์ความคิดเห็น (sentiment analysis) § เราสามารถวิเคราะห์ขั้ว (polarity) และอารมณ์ (emotion) ของความคิดเห็นได้โดยพิจารณาจากการใช้รูปคำและบริบท 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 25 โทรศัพท์ XXXXXXX เต็มเปี่ยมไปด้วยความพรีเมี่ยมที่ยอดเยี่ยมกว่าเคย ไม่มีการติดต่อกลับมาใดๆ จนผมต้องเป็นฝ่ายอีเมล์ไปถามว่าเรื่องถึงไหนแล้ว + + + - - - - 1 2
  • 26. ¡ การวิเคราะห์ความคิดเห็น (sentiment analysis) (ต่อ) § ความคิดเห็นแบบการประชด (sarcasm) มีความหมายลึกมีขั้ว ตรงกันข้ามกับความหมายผิว (ambivalence) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 26 ร้าน XXXXX บริการสุดประทับใจ ไปทานอาหารสองครั้ง ออร์เดอร์หายทั้งสองครั้ง + - แถมครั้งสุดท้ายที่ไป เด็กเสิร์ฟยังคิดค่าอาหารผิด ไปรวมออร์เดอร์ที่หายไว้ในบิล - - -
  • 27. ¡ หัวข้อวิจัย § ระดับคำ: การตัดคำ การระบุคำประสม การกำกับชนิดของคำ § ระดับไวยากรณ์: การระบุก้อนหน่วยสร้างการวิเคราะห์โครงสร้างประโยค การแก้ปัญหาการละในระดับไวยากรณ์ § ระดับความหมาย: การกำกับบทบาทความหมาย การถอดรูปแทนความหมาย การตีความนิพจน์สโกเลมและตัวบ่งปริมาณการตีความคำเกิดใหม่ § ระดับปริจเฉท: การวิเคราะห์โครงสร้างเอกสารการสรุปเอกสารอัตโนมัติ § ระดับวัจนปฏิบัติ: การแก้ปัญหาความหมายแฝงการประมวลผลความรู้ทางโลก (เทรนด์ปัจจุบันคือ ontology) การวิเคราะห์ความคิดเห็นและการประชด 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 27
  • 28. ¡ ข้อแนะนำ § ความรู้เบื้องต้นสำหรับภาษาไทย: ไวยากรณ์ไทย (นววรรณ พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7) § ฝึกใช้ machine learning และเทคนิคที่เกี่ยวข้อง § ความแม่นยำของระบบขึ้นอยู่กับการออกแบบ “บริบท” เพื่อ แทนความหมายแฝง เช่น คำก่อนหน้า (n-gram) คำแวดล้อม (surrounding n-gram) โหนดแม่ในต้นไม้ไวยากรณ์ ฯลฯ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 28
  • 29. ¡ ภาษาไทยมีความมหัศจรรย์5 ระดับ ซึ่งเป็นผลมาจาก กรอบความคิดแบบรวมศูนย์และการใช้ความหมายแฝง ¡ การใช้กฎผสมกับ machine learning และการออกแบบ รูปแทนบริบทจะช่วยแก้ปัญหาความหมายแฝงได้ ¡ กรุณาปรึกษาหัวข้อวิจัยกับอาจารย์ที่ปรึกษาของท่าน 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 29
  • 31. ¡ ความรู้เบื้องต้นสำหรับภาษาไทย § ไวยากรณ์ไทย (นววรรณ พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7) § โครงสร้างภาษาไทย: ระบบไวยากรณ์ (วิจินตน์ ภาณุพงศ์, พ.ศ. 2520) § หลักภาษาไทย (กำชัย ทองหล่อ, 2515) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 31
  • 32. ¡ Machine Learning § A First Course in Machine Learning (Simon Rogers and Mark Girolami, 2011) [เข้าใจง่าย] § Pattern Recognition and Machine Learning (Christopher Bishop, 2007) [ยากระดับกลาง] § Information Theory, Inference, and Learning Algorithms (David MacKay, 2003) [ยากและละเอียด] 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 32
  • 33. ¡ Natural Language Processing § Speech and Language Processing (Daniel Jurafsky and James M. Martin, 2008) [ง่าย] § Foundations of Statistical Natural Language Processing (Manning, Prabhakar, and Schütze, 2008) [ยากระดับกลาง] § Natural Language Processing with Python (Bird, Klein, and Loper, 2009) [ง่าย, สอนใช้ NLTK ด้วย] 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 33