1. Information Extraction, Automatic
(Hamish Cunningham-2004)
Canan GİRGİN
Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 1
2. Program
Çıkarım ve Getirim Farkı
Anlamadan Dil İşleme
Uygulama Senaryoları
5 .IE Turu
MUC dan Sonra IE
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 2
3. Çıkarım ve Getirim Farkı
IR sistemi alakalı metinleri bulur bunları kullanıcıya sunar
IE uygulaması metinleri analiz eder ve kullanıcıya sadece
ilgisini çeken belirli bir bilgi sunar.
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 3
4. Anlamadan Dil İşleme
1990 Message Understanding Conferences (MUCs )
Standartlar
Yarışma
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 4
5. Uygulama Senaryoları
Finansal Analiz
Market Stratejileri
Halkla İlişkiler Çalışanları
Medya Analistleri
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 5
6. Finansal Analiz
“Şirketimizle aynı konuda çalışan guçlu bir
performansa sahip olacağı tahmin edilen kaç tane
şirket var?”
“Geçtiğimiz yıl bu şirket için
tahminlerin profilleri nasıl değişti?”
“Şirket için kaç tane olumlu/olumsuz duşunce
ifade edildi?”
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 6
7. Market Stratejileri
• “Bu sabah IT yazılarının %7 sinde şirketinizden
bahsetti. Sizin şirketinizle doğrudan ilgili olanlarının
avaraj oranı 33%. Sizin sektörünüzdeki diğer
şirketlerin özet olarak goruntusu ekteki tablodadır.”
• «Şirket Y Comdex de sergilendi. Bir sonraki hafta
Comdex sergisi ile ilgili yazıların %20 si Y şirketi ile
ilgiliydi.»
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 7
8. Halkla İlişkiler Çalışanları
„Aşağıdaki tablo IT haberlerinde ki
şirketiniz hakkında son 24 saatte
çıkan 12 negatif raporlanacak olayı
özetliyor.”
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 8
9. Medya Analistleri
“Sizin
şirketiniz ve XML konusundaki
medya uzaklığı 0.09; IBM için bu değer
0.2”
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 9
10. 5 IE Turu
Named Entity recognition (NE)
Coreference resolution (CO)
Template Element construction (TE)
Template Relation construction (TR)
Scenario Template production (ST)
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 10
11. Örnek:
Salı günü parlak kırmızı roket atıldı. Bu Dr. Big
Head „in parlak bir buluşu. Dr. Head We Build
Rockets şirketinde bilim adamı olarak çalışmakta.
NE “roket, Salı, Dr. Head ve We Build
Rockets Inc” varlıklarını bulur.
CO rokete başvuracağını bulur.
TE roketin parlak kırmızı olduğunu ve
Head‟in buluşu olduğunu bulur.
TR Dr. Head‟in “We Build Rockets Inc.” İçin
çalıştığını bulur.
ST birçok varlığı barındıran bir roket fırlatma
olayının olduğunu bulur.
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 11
12. Named Entity recognition (NE)
“Named Entity Extraction”
NE sistemi tum kişi isimlerini, yerleri, organizasyonları,
tarihleri, para miktarlarını vs. tanımlar
NE varlık tanıması 95% oranda başarılı olmuştur
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 12
13. Coreference resolution (CO)
Kimlik ilişkileri tanımları
“Ne yazık, zavallı Yorick, ben onu Horatio
olarak bilirdim.”
Yoric => onu
Problemler:
Zamir Çözumleme( anaphoric resolution)
Örneğin: „Ben‟ ile “Ahmet”.
Özel isim çözumleme(proper-noun resolution)
Örneğin: „IBM‟, „IBM Europe‟, „
International Business Machines Ltd.‟. .
Başarı: %50-60
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 13
14. Template Element construction (TE)
Açıklayıcı bilgiler ile
varlıkları ilişkilendirir.
En iyi başarı oranı %80
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 14
15. Template Relation construction (TR)
Template elemenler arasında ki az sayıdaki olası ilişkiyi tanımlar
Örneğin bir kişi ve şirket arasındaki çalışan ilişkisi iki kişi arasındaki
akrabalık ilişkisi, ya da iki şirket arasındaki ortaklık ilişkisi.
En iyi başarı oranı %75
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 15
16. Scenario Template production (ST)
Scenario templates (STs) IE sistemleri için prototip çıktılardır.
Başarı oranı %60
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 16
17. MUC dan Sonra IE
Taşınabilir IE
Otomatik İçerik Çıkarımı ( Automatic Content Extraction ACE)
Ontoloji Tabanlı IE
12/28/2011 Canan Girgin Yıldız Teknik Universitesi 17
NE tanımaları ve coreferenceresolution sonuçları üzerine kurulmuştur.Format kişiye özel tanımlanabilir; İnsanlar tarafından %90
TE varlıklarını TR ilişkileri ile birlikte olay tanımları içerisinde bağlar. ST zor bir IE görevidir; en iyi MUC sistemlerinin başarı oranı %60 civarındadırKişilerin başarı oranları %80 civarında ya da altında kalmaktadır.
Tamamen dinamik /Yarı dinamik/ Profesyonel• çekirdek sistem taşınabilir bir yapıda oldu;• bilgi çıkarımı yeteneği öğrenme algoritmaları ile kısıtlı kalmadı.;• çekirdek uygulama üzerinde tumaspect yaklaşımlar uygulanabildi.(Performans gibi)Dezavantajı:Kullanıcıya kullanım yeteneğini sağlamak zor.