SlideShare une entreprise Scribd logo
1  sur  18
Information Extraction, Automatic
                (Hamish Cunningham-2004)




               Canan GİRGİN
              Yıldız Teknik Üniversitesi
               Bilgisayar Mühendisliği




12/28/2011         Canan Girgin Yıldız Teknik Universitesi   1
Program

            Çıkarım ve Getirim Farkı
            Anlamadan Dil İşleme
            Uygulama Senaryoları
            5 .IE Turu
            MUC dan Sonra IE




12/28/2011                  Canan Girgin Yıldız Teknik Universitesi   2
Çıkarım ve Getirim Farkı



          IR sistemi alakalı metinleri bulur bunları kullanıcıya sunar

          IE uygulaması metinleri analiz eder ve kullanıcıya sadece
           ilgisini çeken belirli bir bilgi sunar.




12/28/2011                 Canan Girgin Yıldız Teknik Universitesi        3
Anlamadan Dil İşleme


              1990 Message Understanding Conferences (MUCs )

              Standartlar

              Yarışma




12/28/2011                   Canan Girgin Yıldız Teknik Universitesi   4
Uygulama Senaryoları


            Finansal Analiz
            Market Stratejileri
            Halkla İlişkiler Çalışanları
            Medya Analistleri




12/28/2011                   Canan Girgin Yıldız Teknik Universitesi   5
Finansal Analiz


              “Şirketimizle aynı konuda çalışan guçlu bir
               performansa sahip olacağı tahmin edilen kaç tane
               şirket var?”

              “Geçtiğimiz yıl bu şirket için
               tahminlerin profilleri nasıl değişti?”

              “Şirket için kaç tane olumlu/olumsuz duşunce
               ifade edildi?”




12/28/2011                    Canan Girgin Yıldız Teknik Universitesi   6
Market Stratejileri


             • “Bu sabah IT yazılarının %7 sinde şirketinizden
               bahsetti. Sizin şirketinizle doğrudan ilgili olanlarının
               avaraj oranı 33%. Sizin sektörünüzdeki diğer
               şirketlerin özet olarak goruntusu ekteki tablodadır.”

             • «Şirket Y Comdex de sergilendi. Bir sonraki hafta
               Comdex sergisi ile ilgili yazıların %20 si Y şirketi ile
               ilgiliydi.»




12/28/2011                    Canan Girgin Yıldız Teknik Universitesi     7
Halkla İlişkiler Çalışanları



              „Aşağıdaki tablo IT haberlerinde ki
               şirketiniz hakkında son 24 saatte
               çıkan 12 negatif raporlanacak olayı
               özetliyor.”




12/28/2011              Canan Girgin Yıldız Teknik Universitesi   8
Medya Analistleri



              “Sizin
                    şirketiniz ve XML konusundaki
               medya uzaklığı 0.09; IBM için bu değer
               0.2”




12/28/2011               Canan Girgin Yıldız Teknik Universitesi   9
5 IE Turu


            Named Entity recognition (NE)
            Coreference resolution (CO)
            Template Element construction (TE)
            Template Relation construction (TR)
            Scenario Template production (ST)




12/28/2011                 Canan Girgin Yıldız Teknik Universitesi   10
Örnek:
         Salı günü parlak kırmızı roket atıldı. Bu Dr. Big
         Head „in parlak bir buluşu. Dr. Head We Build
         Rockets şirketinde bilim adamı olarak çalışmakta.

          NE “roket, Salı, Dr. Head ve We Build
           Rockets Inc” varlıklarını bulur.

          CO rokete başvuracağını bulur.

          TE roketin parlak kırmızı olduğunu ve
           Head‟in buluşu olduğunu bulur.

          TR Dr. Head‟in “We Build Rockets Inc.” İçin
           çalıştığını bulur.

          ST birçok varlığı barındıran bir roket fırlatma
           olayının olduğunu bulur.
12/28/2011                 Canan Girgin Yıldız Teknik Universitesi   11
Named Entity recognition (NE)
          “Named Entity Extraction”
          NE sistemi tum kişi isimlerini, yerleri, organizasyonları,
          tarihleri, para miktarlarını vs. tanımlar

          NE varlık tanıması 95% oranda başarılı olmuştur




12/28/2011                   Canan Girgin Yıldız Teknik Universitesi    12
Coreference resolution (CO)
              Kimlik ilişkileri tanımları

              “Ne yazık, zavallı Yorick, ben onu Horatio
               olarak bilirdim.”

              Yoric => onu

              Problemler:
              Zamir Çözumleme( anaphoric resolution)
                     Örneğin: „Ben‟ ile “Ahmet”.
              Özel isim çözumleme(proper-noun resolution)
                     Örneğin: „IBM‟, „IBM Europe‟, „
                     International Business Machines Ltd.‟. .

              Başarı: %50-60



12/28/2011                      Canan Girgin Yıldız Teknik Universitesi   13
Template Element construction (TE)

                                                         Açıklayıcı bilgiler ile
                                                          varlıkları ilişkilendirir.

                                                         En iyi başarı oranı %80




12/28/2011         Canan Girgin Yıldız Teknik Universitesi                             14
Template Relation construction (TR)
        Template elemenler arasında ki az sayıdaki olası ilişkiyi tanımlar
        Örneğin bir kişi ve şirket arasındaki çalışan ilişkisi iki kişi arasındaki
         akrabalık ilişkisi, ya da iki şirket arasındaki ortaklık ilişkisi.

                                                       En iyi başarı oranı %75




12/28/2011                   Canan Girgin Yıldız Teknik Universitesi                  15
Scenario Template production (ST)

          Scenario templates (STs) IE sistemleri için prototip çıktılardır.

          Başarı oranı %60




12/28/2011                   Canan Girgin Yıldız Teknik Universitesi           16
MUC dan Sonra IE



         Taşınabilir IE
         Otomatik İçerik Çıkarımı ( Automatic Content Extraction ACE)
         Ontoloji Tabanlı IE




12/28/2011               Canan Girgin Yıldız Teknik Universitesi     17
Teşekurler




12/28/2011    Canan Girgin Yıldız Teknik Universitesi   18

Contenu connexe

En vedette

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

En vedette (20)

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 

Data extraction

  • 1. Information Extraction, Automatic (Hamish Cunningham-2004) Canan GİRGİN Yıldız Teknik Üniversitesi Bilgisayar Mühendisliği 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 1
  • 2. Program  Çıkarım ve Getirim Farkı  Anlamadan Dil İşleme  Uygulama Senaryoları  5 .IE Turu  MUC dan Sonra IE 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 2
  • 3. Çıkarım ve Getirim Farkı  IR sistemi alakalı metinleri bulur bunları kullanıcıya sunar  IE uygulaması metinleri analiz eder ve kullanıcıya sadece ilgisini çeken belirli bir bilgi sunar. 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 3
  • 4. Anlamadan Dil İşleme  1990 Message Understanding Conferences (MUCs )  Standartlar  Yarışma 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 4
  • 5. Uygulama Senaryoları  Finansal Analiz  Market Stratejileri  Halkla İlişkiler Çalışanları  Medya Analistleri 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 5
  • 6. Finansal Analiz  “Şirketimizle aynı konuda çalışan guçlu bir performansa sahip olacağı tahmin edilen kaç tane şirket var?”  “Geçtiğimiz yıl bu şirket için tahminlerin profilleri nasıl değişti?”  “Şirket için kaç tane olumlu/olumsuz duşunce ifade edildi?” 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 6
  • 7. Market Stratejileri • “Bu sabah IT yazılarının %7 sinde şirketinizden bahsetti. Sizin şirketinizle doğrudan ilgili olanlarının avaraj oranı 33%. Sizin sektörünüzdeki diğer şirketlerin özet olarak goruntusu ekteki tablodadır.” • «Şirket Y Comdex de sergilendi. Bir sonraki hafta Comdex sergisi ile ilgili yazıların %20 si Y şirketi ile ilgiliydi.» 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 7
  • 8. Halkla İlişkiler Çalışanları  „Aşağıdaki tablo IT haberlerinde ki şirketiniz hakkında son 24 saatte çıkan 12 negatif raporlanacak olayı özetliyor.” 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 8
  • 9. Medya Analistleri  “Sizin şirketiniz ve XML konusundaki medya uzaklığı 0.09; IBM için bu değer 0.2” 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 9
  • 10. 5 IE Turu  Named Entity recognition (NE)  Coreference resolution (CO)  Template Element construction (TE)  Template Relation construction (TR)  Scenario Template production (ST) 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 10
  • 11. Örnek: Salı günü parlak kırmızı roket atıldı. Bu Dr. Big Head „in parlak bir buluşu. Dr. Head We Build Rockets şirketinde bilim adamı olarak çalışmakta.  NE “roket, Salı, Dr. Head ve We Build Rockets Inc” varlıklarını bulur.  CO rokete başvuracağını bulur.  TE roketin parlak kırmızı olduğunu ve Head‟in buluşu olduğunu bulur.  TR Dr. Head‟in “We Build Rockets Inc.” İçin çalıştığını bulur.  ST birçok varlığı barındıran bir roket fırlatma olayının olduğunu bulur. 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 11
  • 12. Named Entity recognition (NE)  “Named Entity Extraction”  NE sistemi tum kişi isimlerini, yerleri, organizasyonları,  tarihleri, para miktarlarını vs. tanımlar  NE varlık tanıması 95% oranda başarılı olmuştur 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 12
  • 13. Coreference resolution (CO)  Kimlik ilişkileri tanımları  “Ne yazık, zavallı Yorick, ben onu Horatio olarak bilirdim.”  Yoric => onu  Problemler:  Zamir Çözumleme( anaphoric resolution) Örneğin: „Ben‟ ile “Ahmet”.  Özel isim çözumleme(proper-noun resolution) Örneğin: „IBM‟, „IBM Europe‟, „ International Business Machines Ltd.‟. .  Başarı: %50-60 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 13
  • 14. Template Element construction (TE)  Açıklayıcı bilgiler ile varlıkları ilişkilendirir.  En iyi başarı oranı %80 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 14
  • 15. Template Relation construction (TR)  Template elemenler arasında ki az sayıdaki olası ilişkiyi tanımlar  Örneğin bir kişi ve şirket arasındaki çalışan ilişkisi iki kişi arasındaki akrabalık ilişkisi, ya da iki şirket arasındaki ortaklık ilişkisi.  En iyi başarı oranı %75 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 15
  • 16. Scenario Template production (ST)  Scenario templates (STs) IE sistemleri için prototip çıktılardır.  Başarı oranı %60 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 16
  • 17. MUC dan Sonra IE  Taşınabilir IE  Otomatik İçerik Çıkarımı ( Automatic Content Extraction ACE)  Ontoloji Tabanlı IE 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 17
  • 18. Teşekurler 12/28/2011 Canan Girgin Yıldız Teknik Universitesi 18

Notes de l'éditeur

  1. NE tanımaları ve coreferenceresolution sonuçları üzerine kurulmuştur.Format kişiye özel tanımlanabilir; İnsanlar tarafından %90
  2. TE varlıklarını TR ilişkileri ile birlikte olay tanımları içerisinde bağlar. ST zor bir IE görevidir; en iyi MUC sistemlerinin başarı oranı %60 civarındadırKişilerin başarı oranları %80 civarında ya da altında kalmaktadır.
  3. Tamamen dinamik /Yarı dinamik/ Profesyonel• çekirdek sistem taşınabilir bir yapıda oldu;• bilgi çıkarımı yeteneği öğrenme algoritmaları ile kısıtlı kalmadı.;• çekirdek uygulama üzerinde tumaspect yaklaşımlar uygulanabildi.(Performans gibi)Dezavantajı:Kullanıcıya kullanım yeteneğini sağlamak zor.