1. เทคโนโลยี Text Mining / Data Mining
รังสิมา เพ็ชรเม็ดใหญ่
ศูนย์บริการความรููทางวิทยาศาสตร์และเทคโนโลยี STKS
โครงการสัมมนา Applied ICT for Executive Librarians
30 กรกฎาคม 2553
มหาวิทยาลัยธุรกิจบัณฑิตย์
1
2. Outlines
ความหมาย Definition
ประวัติ ความเป็ นมา
เทคนิ ค Text Mining Techniques
การประยุกต์ใชู Applications
เคร่ ืองมือ Text mining tools
ประสบการณ์ ของ STKS กับ Text Mining
บรรณานุกรม
2
3. ความหมายของ Text Mining
Text mining is the process of analyzing & structure
Large sets of documents applying statistical
and/or Computational linguistics technology in
order to extract Previously unknown knowledge
useful to take crucial Business decision.
คือกระบวนการวิเคราะห์สารสนเทศเพ่ ือใหูคนพบสารสนเทศู
เร่ ืองใหม่ / เร่ องท่ไม่เคยรับรููมาก่อน ดูวยวิธการสกัดคำา/ตัดคำา
ื ี ี
information extraction ดูวยโปรแกรมคอมพิวเตอร์แบบอัตโนมัติ
นำ าเสนอผลการวิเคราะห์ใหูเป็ นความรูใหม่ รวมถึงสามารถ
ู
แสดงความสัมพันธ์ของขูอมูลใหม่ดูวย
3
4. ความหมาย Text mining (ต่อ)
Text mining is a new and exciting research area in
computer sciences that tries to solve the information
overload problem by using techniques from data mining
/ machine learning / natural language processing (NLP)
/ information retrieval and knowledge management.
A key element of text mining is its on the document
collection. At its simplest a document collection
can be any grouping of text based documents such as
business report /legal memorandum / e-mail/ research
Paper / manuscript /article /press release
4
5. Text Mining แตกต่างกับการสืบค้น
การสืบคูน / คูนคืน Searching เป็ นความตูองการคูนหาเร่ ือง
ท่ผูสบคูนรููจกมาก่อนรวมทังเป็ นเร่ ืองท่ีมีการเขียน/บันทึกไวูแลูว
ี ื ั ้
ส่วน Text Mining เป็ นการคูนพบขูอมูลท่ีไม่เคยรับรููมาก่อนหรือ
ไม่มีขูอมูลท่ถกบันทึกไวูก่อน
ี ู
Text Mining มีการนำ าไปประยุกต์ใชูในหลายสาขา จึงมีช่อเรียก
ื
แตกต่างกันไปเช่น
Data Mining
Scientometrics
Webometrics
Bibliometrics etc.
5
6. ประวัติ ของ Information Extraction / IE
จุดแรกเร่ิมมาจากการประชุม ในกลุ่ม ของ Natural language processing community
ในการประชุม MUC conferenceปี 1987โดย US DARPA (naval tactical operation)
MUC-2 Conference 1989
MUC-3 conference 1991 Latin American Terrorisms
MUC-4 1992
MUC-5 1993 Japanese document ( joint ventures + microelectronics)
MUC-6 1995 Financial domain
MUC-7 1998 Airline Crashes domain ( Chinese, Japanese, English )
European Commission / LRE ( linguistic research & engineering )
IE มีผลใหูเกิด ผลลัพธ์ท่ีสำาคัญทางวิทยาศาสตร์ หลายๆ โครงการ เช่น NAMIC /
CROSSMARC , MOSES
6
8. Example of output from industry analyzer term extraction process
Biogen Idec Inc. ended its third quarter with $543 million in
Revenues , slightly lower than analyst estimates as it near the
One-year anniversary of a merger that made it the world largest
Biotech company
The Cambridge,Mass.-based company reported non-GAAP
Earnings per share of 37 cents and net income of $132 million
compared with 35 cents and 123 million for the quarter last year. Analysts
consensus estimate for the quarter was
35 cents
8
14. TM กับภาคธุรกิจ
Customer Transaction Analysis เช่น บริษัทผลิตรถยนต์ บริษัทประกันภัย
ธนาคาร
Competitive Intelligence / CI เป็ นการศึกษาขูอมูลรอบดูานของภาคธุรกิจ
เช่น ขูอมูลคู่แข่ง พันธมิตร การตลาด การวิจย ฯลฯ ท่ีจะมีผลต่อสถานภาพ
ั
ของบริษัท
R & D support ใชูในงานวิจยทางวิทยาศาสตร์ สกัดคำาจากเน้ือหา
ั
เอกสารวิชาการ
14
15. การประยุกต์ในงาน Crime Pattern Detection
หน่ วยงานตำารวจท่ี Virginia ,USA. จัดทำารายงานประกอบการสอบสวนเรียกว่า
Police Information Report / PIR
ตูองการสรุปประวัติรูปแบบอาชญากรรม จากขูอมูลเดิมท่ีจัดเก็บไวูท่ีมีขนาดใหญ่
จึงทำาการประยุกต์ TM เพ่ ือใหูไดูขูอมูลใหม่ วิธีเดิมประมวลดูวยมือ พบว่ายุ่งยาก ใชูเวลามาก
ผลท่ีไดูผิดพลาดและลำาเอียง
ขันตอนแรกสุด คือการ data pre-process จัดทำาขูอมูลใหม่ใหูมี รูปแบบท่ีเหมาะสม คือ
้
Date District Event type Description
1/05/2003 Reston Robbery ……………….
5/05/2003 Lake Accident ……………….
6/05/2003 South Narcotics ………………
15
16. งานข้อมูลตำารวจ (ต่อ)
ขันตอนท่ี 2 Extract important & concept
้
ขันตอนท่ี 3 Analyze pattern ( Co-occurrence )
้
การสรุปผลการวิเคราะห์ ขูอมูลอาชญากรรม สามารถตอบคำาถาม เหล่านี้ไดู
เห็นความสัมพันธ์ของลักษณะเหตุการณ์กับสถานท่ีเกิดเหตุ
สกัดรายงานออกมาเป็ นสถิติ เช่น จำานวนการลักขโมย ยาเสพติด
ลักษณะอาวุธท่ีกอเหตุ มีก่ีประเภท จำานวน สัมพันธ์ประเภทอาชญากรรม
่
เคร่ ืองมือ software ท่ีใชูช่ือ Poly Analyst for text mining เป็ นภาษาอังกฤษ
และภาษาอ่ ืนๆ มากมาย คือ
German / Spanish / French /Russian / Italian / Portuguese / Dutch
/ Swedish / Greek
16
17. Text Mining Tools / Software
ขณะนี้ มีเคร่ ืองมือมากมาย แบบเชิงพาณิ ชย์ ไดูแก่
Megaputer Intelligence
SAS
SPSS
Synthema
TEMIS
Autonomy
Clearforest
Fast
IBM
Inxight
Vantage Point
etc.
17
18. Text Mining Tools ประเภท Open Sources Software
Gate - Natural language processing & language
engineering tool
YALE- with its Word vector Tool plugin data and text
mining software
Pimiento- a text-mining application framework written
in Java (http://ee.usyd.edu.au/~jjga/pimiento)
18
26. การประยุกต์ ใช้ข้อมูลจากฐานข้อมูลวิชาการท่ีบอกรับ
ตัวอย่าง รายการบรรณานุกรมงานวิจยตีพิมพ์ จากฐานข้อมูล Thomson : ISI – Web of Science
ั
PT J
AU Yoksan, R
Akashi, M
AF Yoksan, Rangrong
Akashi, Mitsuru
TI Low molecular weight chitosan-g-L-phenylalanine: Preparation,
characterization, and complex formation with DNA
SO CARBOHYDRATE POLYMERS
LA English
DT Article
DE Chitosan; Phenylalanine; DNA; Nanoparticle; Complex coacervation; DNA
release
ID HUMAN ENDOTHELIAL-CELLS; GENE DELIVERY; PLASMID DNA; TRANSFECTION
EFFICIENCY; IN-VITRO; NANOPARTICLES; OLIGOSACCHARIDE; SCAFFOLDS;
VECTORS; REMOVAL
AB The grafting of L-phenylalanine onto low molecular weight chitosan is
.............................................................................
C1 [Akashi, Mitsuru] Osaka Univ, Grad Sch Engn, Dept Appl Chem, Suita, Osaka 5650871, Japan.
[Yoksan, Rangrong] Kasetsart Univ, Fac Agroind, Dept Packaging Technol & Mat, Bangkok 10900, Thailand.
RP Akashi, M, Osaka Univ, Grad Sch Engn, Dept Appl Chem, 2-2 Yamadaoka,
Suita, Osaka 5650871, Japan.
EM akashi@chem.eng.osaka-u.ac.jp
FU Japan Society for the Promotion of Science (JSPS), Japan [P05133]
FX This work was financially supported by the Japan Society for the
Promotion of Science (JSPS), Japan (P05133). One of the authors (R.Y.)
thanks Assist. Prof. Michiya Matsusaki (Osaka University, Japan) for
the technique and discussion on cell culture.
NR 36
TC 5
PU ELSEVIER SCI LTD
PI OXFORD
PA THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD OX5 1GB, OXON, ENGLAND
SN 0144-8617
J9 CARBOHYD POLYM
JI Carbohydr. Polym.
PD JAN 5
PY 2009
VL 75
IS 1
BP 95
EP 103
DI 10.1016/j.carbpol.2008.07.001
PG 9
SC Chemistry, Applied; Chemistry, Organic; Polymer Science 26
GA 361SY
32. A p p lic a tio n A p p lic a tio n
P a te n t A s s ig n e e s T itle IP C -R
C o u n tr ie s D a te s
Top 5 T o p T e rm s T o p T e rm s T o p T e rm s T o p T e rm s
2 0 0 5 -1 1 -2 8
[2 ]; P h o t o s e n s it iz e r a n d m e th o d f o r p r o d u c tio n t h e r e o f [3 ]; A 6 1 K 3 6 /0 2
D a in ip p o n I n k a n d C h e m ic a ls , I n c . [ 2 ] ;
2 0 0 5 -0 3 -1 6 T o p ic a l m e d ic a m e n t [3 ]; [1 2 ];
O b s c h e s tv o s O g r a n ic h e n n o i O t v e ts t v e n n o s tiju
[2 ]; P r o c e s s f o r t r e a t in g s p ir u lin a [ 2 ] ; A 6 1 K 3 6 /1 8 5
& # 8 2 2 0 ;R a d a -P h a rm a & # 8 2 2 1 ; [2 ];
U S [5 2 ] 2 0 0 5 -0 6 -2 4 H e r b a l c o m p o s it io n f o r t r e a t m e n t o f im m u n o c o m p r o m is e d [1 2 ];
O c e a n N u tr itio n C a n a d a L im ite d [2 ];
[2 ]; c o n d it io n s [2 ]; A 6 1 K 3 6 /8 2 [7 ];
S a h a ja n a n d B io te c h P v t. L td . [2 ];
2 0 0 5 -0 6 -3 0 A L G A L A N D A L G A L E X T R A C T D IE T A R Y S U P P L E M E N T A 6 1 K 3 5 /6 6 [6 ];
B A S F C o r p o r a t io n [1 ]
[2 ]; C O M P O S IT IO N [2 ] A 6 1 K 3 6 /0 5 [6 ]
2 0 0 5 -0 9 -0 6 [2 ]
2 0 0 6 -0 3 -2 3 A N T IA L L E R G IC A G E N T O B T A IN E D B Y C U L T U R E O F
[3 ]; L A C T IC A C ID B A C T E R IU M [1 ];
A 2 3 L 1 /3 0 [1 1 ];
D A IN IP P O N IN K & C H E M IN C [5 ]; 2 0 0 7 -1 2 -2 0 C H E W IN G G U M [1 ];
A 6 1 K 3 6 /0 2
S P IR U L IN A B IO L O G IC A L L A B L T D [4 ]; [2 ]; F E E D F O R A Q U A C U L T U R E O B T A IN E D B Y
[1 0 ];
J P [2 6 ] S U E T S U N A K U N IO [3 ]; 2 0 0 5 -0 4 -1 5 H A R D E N I N G S P I R U L I N A W IT H D E V I L 'S T O N G U E [ 1 ] ;
A 6 1 K 3 6 /0 5 [6 ];
Y A M A D A Y A K K E N :K K [3 ]; [2 ]; N E W D IP E P T ID E , L -IS O L E U C Y L -L -T R Y P T O P H A N A N D
A 6 1 P 4 3 /0 0 [5 ];
N O D A S H O K U K IN K O G Y O K K [2 ] 2 0 0 4 -0 4 -0 8 P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ];
A 6 1 K 3 8 /0 0 [4 ]
[1 ]; N E W D IP E P T ID E , L -L E U C Y L -L -T R Y P T O P H A N A N D
2 0 0 5 -0 9 -2 1 [1 ] P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ]
2 0 0 7 -0 9 -1 0
H E A L T H S U P P L E M E N T [2 ];
[3 ];
T o p ic a l m e d ic a m e n t [2 ]; A 6 1 K 3 6 /0 2 [5 ];
S C H O C K J O E L [2 ]; 2 0 0 5 -0 9 -0 7
Im m u n o s tim u la to r y C o m p o s itio n c o m p r is in g L ip o p r o te in in A 6 1 K 3 6 /1 8 5
U n iv e r s it y o f M is s is s ip p i [2 ]; [2 ];
M ic r o a lg a e E x tr a c t [ 2 ]; [5 ];
W O [1 9 ] M O R G A N C L Y D E [2 ]; 2 0 0 5 -0 6 -2 4
F E E D S U P P L E M E N T A N D M E T H O D O F IT S A 2 3 L 1 /3 0 [3 ];
D E P A R T M E N T O F B IO T E C H N O L O G Y [1 ]; [2 ];
P R O D U C T IO N [1 ]; A 6 1 K 3 6 /8 8 [3 ];
H e n k e l A G & C o . K G a A [1 ] 2 0 0 7 -0 8 -0 2
C O M P O S IT IO N C O N T A IN IN G C A C A O A N D S P IR U L IN A A 6 1 K 3 6 /8 8 6 [3 ]
[1 ];
[1 ]
2 0 0 7 -1 1 -3 0 [1 ]
32
35. บรรณานุกรม
Zanasi A. 2005 Text mining and its applications to Intelligence ,
CRM and Knowledge Management
ชูชาติ หฤไชยะศักดิ เ์อกสารการบรรยายppt Text Minning : Techniques and
Application ศูนย์เทคโนโลยีอิเล็กทรอนิ กส์และคอมพิวเตอร์แห่งชาติ มีนาคม 2550.
Wikipedia Text Mining http://en.wikipedia.org as 13/11/2007
35