Soumettre la recherche
Mettre en ligne
Serebryakov
•
0 j'aime
•
631 vues
NLPseminar
Suivre
Выступление HP labs на AINL. Сергей Серебряков
Lire moins
Lire la suite
Formation
Signaler
Partager
Signaler
Partager
1 sur 21
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
белканова
белканова
NLPseminar
клышинский
клышинский
NLPseminar
Khomitsevich
Khomitsevich
NLPseminar
потапов
потапов
NLPseminar
molchanov(promt)
molchanov(promt)
NLPseminar
веселов
веселов
NLPseminar
Ageev
Ageev
NLPseminar
Andreev
Andreev
NLPseminar
Recommandé
белканова
белканова
NLPseminar
клышинский
клышинский
NLPseminar
Khomitsevich
Khomitsevich
NLPseminar
потапов
потапов
NLPseminar
molchanov(promt)
molchanov(promt)
NLPseminar
веселов
веселов
NLPseminar
Ageev
Ageev
NLPseminar
Andreev
Andreev
NLPseminar
rubashkin
rubashkin
NLPseminar
гвоздикин
гвоздикин
NLPseminar
акинина осмоловская
акинина осмоловская
NLPseminar
кудрявцев V3
кудрявцев V3
NLPseminar
конф ии и ея гаврилова
конф ии и ея гаврилова
NLPseminar
Skatov
Skatov
NLPseminar
Events
Events
NLPseminar
бетин
бетин
NLPseminar
Tomita
Tomita
NLPseminar
Vlasova
Vlasova
NLPseminar
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
NLPseminar
Fact Extraction (ideograph)
Fact Extraction (ideograph)
NLPseminar
Information Extraction Overview
Information Extraction Overview
NLPseminar
Государственно-частное партнерство: серийное создание стартапов
Государственно-частное партнерство: серийное создание стартапов
Sergey Lourie
Тьюториал "Введение в системную инженерию" (15 января 2013)
Тьюториал "Введение в системную инженерию" (15 января 2013)
Anatoly Levenchuk
Бизнес весна 2014 лекция 2
Бизнес весна 2014 лекция 2
Technopark
Big data, Clouds & HPC
Big data, Clouds & HPC
Andzhey Arshavskiy
Стандарт OMG Essence и работа инициативы SEMAT
Стандарт OMG Essence и работа инициативы SEMAT
Andrey Bayda
12 10 11_!shareрoint
12 10 11_!shareрoint
ITMsupport
Александр Муравлев, Спортмастер - Искусство создания эффективных процессов
Александр Муравлев, Спортмастер - Искусство создания эффективных процессов
Michael Dobner
100930 Skolkovo executive summary rus
100930 Skolkovo executive summary rus
Ilya Ponomarev
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
queryhunter
Contenu connexe
En vedette
rubashkin
rubashkin
NLPseminar
гвоздикин
гвоздикин
NLPseminar
акинина осмоловская
акинина осмоловская
NLPseminar
кудрявцев V3
кудрявцев V3
NLPseminar
конф ии и ея гаврилова
конф ии и ея гаврилова
NLPseminar
Skatov
Skatov
NLPseminar
Events
Events
NLPseminar
бетин
бетин
NLPseminar
Tomita
Tomita
NLPseminar
Vlasova
Vlasova
NLPseminar
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
NLPseminar
En vedette
(11)
rubashkin
rubashkin
гвоздикин
гвоздикин
акинина осмоловская
акинина осмоловская
кудрявцев V3
кудрявцев V3
конф ии и ея гаврилова
конф ии и ея гаврилова
Skatov
Skatov
Events
Events
бетин
бетин
Tomita
Tomita
Vlasova
Vlasova
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
Similaire à Serebryakov
Fact Extraction (ideograph)
Fact Extraction (ideograph)
NLPseminar
Information Extraction Overview
Information Extraction Overview
NLPseminar
Государственно-частное партнерство: серийное создание стартапов
Государственно-частное партнерство: серийное создание стартапов
Sergey Lourie
Тьюториал "Введение в системную инженерию" (15 января 2013)
Тьюториал "Введение в системную инженерию" (15 января 2013)
Anatoly Levenchuk
Бизнес весна 2014 лекция 2
Бизнес весна 2014 лекция 2
Technopark
Big data, Clouds & HPC
Big data, Clouds & HPC
Andzhey Arshavskiy
Стандарт OMG Essence и работа инициативы SEMAT
Стандарт OMG Essence и работа инициативы SEMAT
Andrey Bayda
12 10 11_!shareрoint
12 10 11_!shareрoint
ITMsupport
Александр Муравлев, Спортмастер - Искусство создания эффективных процессов
Александр Муравлев, Спортмастер - Искусство создания эффективных процессов
Michael Dobner
100930 Skolkovo executive summary rus
100930 Skolkovo executive summary rus
Ilya Ponomarev
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
queryhunter
QueryHunter project overview for lenovo
QueryHunter project overview for lenovo
queryhunter
LETA_Мастер-класс_ПДн_АНХ_Бондаренко
LETA_Мастер-класс_ПДн_АНХ_Бондаренко
guestfa9aa
Мастер класс ПДн Бондаренко
Мастер класс ПДн Бондаренко
guest5a2f763
Similaire à Serebryakov
(14)
Fact Extraction (ideograph)
Fact Extraction (ideograph)
Information Extraction Overview
Information Extraction Overview
Государственно-частное партнерство: серийное создание стартапов
Государственно-частное партнерство: серийное создание стартапов
Тьюториал "Введение в системную инженерию" (15 января 2013)
Тьюториал "Введение в системную инженерию" (15 января 2013)
Бизнес весна 2014 лекция 2
Бизнес весна 2014 лекция 2
Big data, Clouds & HPC
Big data, Clouds & HPC
Стандарт OMG Essence и работа инициативы SEMAT
Стандарт OMG Essence и работа инициативы SEMAT
12 10 11_!shareрoint
12 10 11_!shareрoint
Александр Муравлев, Спортмастер - Искусство создания эффективных процессов
Александр Муравлев, Спортмастер - Искусство создания эффективных процессов
100930 Skolkovo executive summary rus
100930 Skolkovo executive summary rus
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
QueryHunter project overview for lenovo
QueryHunter project overview for lenovo
LETA_Мастер-класс_ПДн_АНХ_Бондаренко
LETA_Мастер-класс_ПДн_АНХ_Бондаренко
Мастер класс ПДн Бондаренко
Мастер класс ПДн Бондаренко
Plus de NLPseminar
Mitsov
Mitsov
NLPseminar
Maleev
Maleev
NLPseminar
Compreno_Starostin
Compreno_Starostin
NLPseminar
Kiseleva
Kiseleva
NLPseminar
News Articles Clustering
News Articles Clustering
NLPseminar
Lsa fca spb
Lsa fca spb
NLPseminar
shajkevich_2
shajkevich_2
NLPseminar
Shajkevich_1
Shajkevich_1
NLPseminar
Query expansion
Query expansion
NLPseminar
Ruwikt
Ruwikt
NLPseminar
Plus de NLPseminar
(10)
Mitsov
Mitsov
Maleev
Maleev
Compreno_Starostin
Compreno_Starostin
Kiseleva
Kiseleva
News Articles Clustering
News Articles Clustering
Lsa fca spb
Lsa fca spb
shajkevich_2
shajkevich_2
Shajkevich_1
Shajkevich_1
Query expansion
Query expansion
Ruwikt
Ruwikt
Serebryakov
1.
Извлечение событий из
текстовых документов Сергей Серебряков HP Labs Russia 26/05/2012 AINL, Санкт-Петербург © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
2.
События 1. В
Topic Detection and Tracking события представляют собой множества документов которые описывают “нечто уникальное, произошедшее в определённый момент времени”; 2. В Message Understanding Conference события представляют собой группы или фразы формирующие шаблон, связывающий участников, временные выражения и локации друг с другом; 3. Событие состоит из глагола и двух именованных сущностей появляющихся вместе достаточно часто в документах на определённую тематику; 2 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
3.
Постановка задачи События
включают сущности и отношения между ним и предполагают смену состояния: • В 1998 корпорация Exxon приобрела Mobil (поглощение); • Sportmart Inc заявил во вторник что Andrew Hochberg, президент, был назначен управляющим компанией (смена должностной позиции); Задача извлечения событий заключается в автоматическом определении событий в неструктурированных документах и извлечение детальной информации о них, в идеале, определяя “кто сделал что кому, когда, при помощи каких методов (инструментов), где и почему” (H. Tanev et al., 2009) 3 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
4.
Примеры 1. SRA сегодня
объявила о том что она прибрела Sentech, компанию, консультирующую в области управления электроэнергией и имеющую большой опыт в области возобновляемых источников энергии. 1. Объявление компании (Компания: SRA, Временное выражение: сегодня) 2. Поглощение(Покупатель: SRA, Приобретаемая компания: Sentech) 2. David Gyngell ушёл с позиции директора Crown Ltd в связи с тем что его новая должность в компании PBL Media не позволит ему эффективно исполнять обязанности в компании Crown. 1. Отставка(Человек: David Gyngell, Позиция: director, Компания: Crown Ltd) 3. Morrow Snowboards Inc объявил что David Calapp был назначен исполнительным директором компании. 1. Объявление компании (Компания: Morrow Snowbards) 2. Смена позиции (Человек: David Calapp, Новая позиция: исполнительный директор) 4 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
5.
Мотивация
Система извлечения событий Сложная обработка событий: Вход: неструктурированные данные Вход: атомарные события Выход: извлечённые события с атрибутами Выход: сложные события Поглощение: [HP, Palm, 28.04.2010] Событие A коррелирует с B. Банкротство: [LaunchTech, 14.01.2011] Событие C призойдёт с вероят. 0.8. Смена позиции: [Leo Apotheker, HP, SEO, 30.10.2010] Сложное событие D происходит. Природная катастрофа: [Earthquake, New Zeland, 04.10.2010] Сложное событие E не происходит. Большой объём неструктурированных данных Аналитика содержащих полезную информацию Вход: события, сложные события Выход: рекомендованные действия Покупка акций. Продажа акций. Изменение цепочки поставок. … 5 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
6.
Предыдущие работы • Академические
исследования –TimeML (J. Pustejovsky et al., 2003) –Automatic Content Extraction (G. Diddington et al., 2004) • Коммерческие системы –Thomson Reuters (T. Heinze et al., 2008) –European Media Monitor (C. Best et al., 2005) 6 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
7.
Требования Извлечение информации
в реальном времени; Извлечение полного набора аттрибутов и дополнительной информации с целью лучшего понимания контекста; Применимость к новым задачам и возможность к расширению множества извлекаемых событий; 7 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
8.
Предлагаемый подход
Извлечение событий с использованием: Словарного поиска; Извлекающих правил; Unstructured Information Management Architecture (UIMA); Отличия от предыдущих работ: Извлечение богатого набора аттрибутов и дополнительной информации с целью лучшего понимания контекста путём агрегации аннотаций Обоработка документа целиком Извлечение информации с минимальной задержкой 8 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
9.
Извлечение событий
Документ Разбивка на предложения CAS: (документ, аннотации) Разбивка по словам Словарный поиск Извлекающие События правила Система – Разбивка по предложения и словам: whitespace tokenizer (UIMA) – Словарный поиск: dictionary based concept mapper (UIMA) – Извлекающие правила: TextMARKER engine 9 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
10.
Словарный поиск
24 словаря для извлечения 5 типов событий города, компании, страны, имена, индикаторы событий, элементы временных выражений и т.п. Каждый элемент в словаре содержит ряд атрибутов которые копируются в аннотации 10 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
11.
Агрегация на основе
правил Правила объединяют аннотации Компания в более сложные структуры и/или модифицируют существующие аннотации. … ЗАО Новые Технологии… Индикатор Слово с Слово с компании заглавной буквы заглавной буквы CompanyIndicator CapitalizedWord+? -> MARK(Company{name(#2), type(#1)}) 11 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
12.
Извлечение информации с
использованием правил Resignation Event Person Company First Name CW Resignation Indicator Position CW CW Company Indicator T T T T T T T T T T T T Gene Isenberg is stepping down as chief executive of Nabors Industries Ltd. • FirstName CW • {->MARK(LastName), MARK(Person, 1, 2)}; • CW+? CompanyIndicator+ • {-> MARKONCE(Company, 1, 2)}; • Person ResignationIndicator "as" Position "of" "the"? Company • {->GATHER(ResignationEvent, 1, 2, 3, 4, 5, 6, 7, "person" = 1, "position" = 4, "company" = 7)}; 12 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
13.
Атрибуты
Событие Атрибуты Слияния & Поглощения покупатель, покупаемый, временное выражение, сумма сделки Смена должностной позиции человек, прошлая позиция, новая позиция, прошлая компания, новая компания, временное выражение Отставка человек, позиция, компания, временное выражение Объявления людей человек, временное выражение Объявления компаний компания, временное выражение 13 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
14.
Примеры
Текст Правило 3 миллиарда NUM+? WordNumber+ {-> MARKONCE(NUM, 1, 2)}; 2.3 млн долларов NUM CurrencyUnit {-> MARKONCE(PriceUnit, 1, 2)}; ЗАО Новые Технологии CompanyIndicator CW+? {-> MARKONCE(Company, 1, 2, 3)}; Redmond-based Microsoft City "-" "based" Company {-> MARKONCE(Company, 1, 2, 3, 4)}; 14 Февраля 08 DayNumber Month NUM{REGEXP("^([0-9]{2})$") ->MARKONCE(TE, 1, 2, 3, 4, 5)}; 14 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
15.
События Индикатор события
(триггер) – ключевое слово сигнализирующие о возможном наличии события Событие Пример индикатора Слияния & Поглощения приобрёл, была приобретена, была куплена, будет приобретена Смена должностной позиции был назначен, занял должность Отставка Покинул должность, ушёл с позиции Объявления компаний и объявил, проинформировала, сделала объявление людей 15 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
16.
Примеры правил
Text Rule HP acquired Palm. Company AcquisitionIndicator "the"? Company {-> GATHER(AcquisitionEvent, 1, 2, 3, 4,“comp1" = 1, “comp2" = 4)}; John Kimpbell has resigned Person ResignationIndicator "as" Position as vice president. {->GATHER(ResignationEvent, 1, 2, 3, 4, "person" = 1, "position" = 4)}; Andrew Hochberg was Person PositionChangeIndicator W? Position "of" "the"? Company TE? named as CEO of the {-> GATHER(PositionChange, 1, 2, 3, 4, 5, 7, 8,"person" = 1, "newPosition" = Sportmart Inc. couple of days 4, "newCompany" = 7)}; ago. 16 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
17.
Мотивация использования архитектуры
UIMA 1. Документы внутри UIMA обрабатываются аннотаторами – компонентами реализующими определённый метод извлечения информации (разбивка на предложения, разбивка по словам, определение частей речи и т.п.); 2. Существует большое количество репозиториев с UIMA аннотаторами реализующие различные алгоритмы обработки текстов; 3. Опыт компаний показывает что UIMA представляет собой удобную архитектуру для обработки больших объёмов неструктурированных данных; 4. Механизм UIMA AS позволяет разворачивать процессоры текстов на нескольких узлах сети тем самым масштабируя систему под возрастающие потоки информации; 17 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
18.
Архитектура 18 © Copyright
2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
19.
Average processing time
is 37 ms for articles containing one event and 45.72 ms in case if an article contains two events. Эксперимент Пять типов событий Выход 1. CA – объявления компаний CA PA M&A RES MPC 2. PA – объявления людей CA 163 21 0 0 0 3. M&A – слияния и поглощения PA 12 200 0 0 0 4. RES – отставка M&A 0 0 125 0 0 Вход 5. MPC – смена должностной позиции RES 0 0 0 217 0 MPC 0 0 0 0 15 Other 17 3 14 5 0 Среднее время обработки 37 мс для новости содержащей описание одного события и 45.72 мс в случае наличия в новостном документе двух событий. 19 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
20.
Извлечение событий из
текстов на русском языке Source #article Announce M&A MPC Res s ments RIA 2800 2382 744 58 28 mergers.ru 12500 6561 7494 163 74 maonline.ru 13000 ~10000 ~5000 ~200 • Workstation, 4 GB RAM, Windows 7 x64, 3 pipelines inside CPE; • Среднее количество символов в статье 2436; • Среднее время обработки одной статьи 57 мс. 20 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
21.
Спасибо! 21 © Copyright
2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Télécharger maintenant