SlideShare une entreprise Scribd logo
1  sur  12
ОБ АВТОМАТИЗИРОВАННОМ
ИЗВЛЕЧЕНИИ ОНТОЛОГИЧЕСКОЙ
ИНФОРМАЦИИ ИЗ ВЕРБАЛЬНОГО
ТЕРМИНОЛОГИЧЕСКОГО СЛОВАРЯ
Г. В. Лезин
Санкт-Петербургский экономико-математический институт РАН
Цели эксперимента
• “Онтологическая” информативность определений в
терминологическом словаре ?
• Уровень формальных знаний, достаточных для решения задачи ?
• Технология построения терминологического словаря как
источника информации для спецификации предметной области ?
• Продукционные правила как средство описания процесса
извлечения информации из текстов определений?
Ограничения
 Определение ограничено одним предложением. Из него
исключены анафорические отношения.
 Общий контекст терминологического словаря образован
исключительно списком определяемых терминов. Получаемый
формальный результат анализа не зависит от порядка обработки
определений.
 Термином всегда обозначен класс, причем никак не связанный
с общей системой понятий естественного языка.
 В качестве формального языка для представления целевой
онтологии использован OWL в упрощенном L-диалекте
Структура системы извлечения онтологической
информации из терминологического словаря
Текст определения
Сем.-синтаксич.
анализ определения
Интерпретатор
правил
Фрагменты онтологии
Семантический
словарь
(синтактика)
Семантический.
словарь
(онтология)
Дерево разбора
Правила
Функции и
предикаты
Этапы анализа
1. Синтаксический разбор
2. Общая постсинтаксическая обработка
3. Получение тезауруса
4. Преобразование тезауруса в онтологию
Галактическая широта - одна из двух галактических координат,
измеренная от плоскости галактики к объекту».
Галактическая широта
!ЭтоЕсть
одна_из
!Какой
измеренная
двух
от_плоскости
!Ото
!Род
галактических координат
!Род
галактики
к_объекту
!Род
!кДат
Результат трасформации дерева разбора
Галактический широта
Это
Class
Галактический координата
subClassOf
Объект
этоПараметр
OWL-результат анализа определения
<owl:Class rdf:about = "#ГАЛАКТИЧЕСКИЙ_ШИРОТА">
<rdfs:subClassOf><owl:Class rdf:about =
"#ГАЛАКТИЧЕСКИЙ_КООРДИНАТА"/> </rdfs:subClassOf>
</owl:Class>
<owl:Class rdf:about = "#ОБЪЕКТ">
<rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty> <owl:ObjectProperty rdf:about =
"#_галактический_широта"/> </owl:onProperty>
<owl:allValuesFrom>
<owl:Class rdf:about = "#ГАЛАКТИЧЕСКИЙ_ШИРОТА"/>
</owl:allValuesFrom>
</owl:Restriction>
</rdfs:subClassOf>
</owl:Class>
Виды правил
 T-правила, применяются к очередному не обработанному
исходящему триплету анализируемого узла дерева разбора;
 N-правила, применяются к анализируемому узлу только
после того, как все исходящие триплеты этого узла оказались
обработанными T-правилами.
Структура правил:
<имя_правила ТИП={T|N} >
решающая часть правила =>
исполнительная часть
</ имя_правила>
Пример правила
<ЧислРодРод ТИП = "T">
#W1 Род #W2 & #W3 Род #W1 &
ЧАСТЬРЕЧИ(#W1)= Числ &
ЧАСТЬРЕЧИ(#W3)= Сущ &
СЛОВО(#W3)=*_из &
ЗНАЧАЩИЙ(#W2) != 0 =>
ВСТАВИТЬ(#W3 Род #W2);
УДАЛИТЬ(#W1 Род #W2)
</ЧислРодРод>
Общие оценки
1. Оценка объема необходимой лексикографической
информации, поставляемой семантическим словарем
 Морфологическа информация – в полной мере
 Семантическая информация – в значительно меньшей
степени
2. Оценка объема и состава правил
 Ориентированность на общую задачу извлечения
онтологии из терминологического словаря
 Независимость от специализации предметой области
 Неполнота
Общий вывод
От разрабатываемого метода автоматизированного извлечения
онтологической информации из определений
терминологического словаря можно ожидать, по-видимому,
качественного изменения технологии разработки как
собственно словаря, так и сопутствующей ему онтологии.
Исходная версия онтологии может быть получена
полностью автоматически. Скорее всего, полученная версия
будет нуждаться в дальнейшей правке, но эта правка уже
будет осуществляться в режиме интерактивного
взаимодействия с программной системой. При этом правке
могут подвергаться в равной степени как исходные тексты,
так и выводимая из них онтология.

Contenu connexe

Tendances

2 методика изучения алгебраических выражений, тождеств и тождественных
2 методика изучения алгебраических выражений, тождеств и тождественных2 методика изучения алгебраических выражений, тождеств и тождественных
2 методика изучения алгебраических выражений, тождеств и тождественных
Вячеслав Пырков
 
Tests bogachkov last_version_120412
Tests bogachkov last_version_120412Tests bogachkov last_version_120412
Tests bogachkov last_version_120412
Vladimir Kukharenko
 
ШР1: домашнее задание О. Исакова
ШР1: домашнее задание О. ИсаковаШР1: домашнее задание О. Исакова
ШР1: домашнее задание О. Исакова
jivobutch
 
693.введение в анализ практикум по решению задач
693.введение в анализ практикум по решению задач693.введение в анализ практикум по решению задач
693.введение в анализ практикум по решению задач
efwd2ws2qws2qsdw
 
АиСД осень 2012 лекция 9
АиСД осень 2012 лекция 9АиСД осень 2012 лекция 9
АиСД осень 2012 лекция 9
Technopark
 
презентации лекций14 17
презентации лекций14 17презентации лекций14 17
презентации лекций14 17
student_kai
 

Tendances (14)

дисертацIя костьян
дисертацIя костьяндисертацIя костьян
дисертацIя костьян
 
2 методика изучения алгебраических выражений, тождеств и тождественных
2 методика изучения алгебраических выражений, тождеств и тождественных2 методика изучения алгебраических выражений, тождеств и тождественных
2 методика изучения алгебраических выражений, тождеств и тождественных
 
Tests bogachkov last_version_120412
Tests bogachkov last_version_120412Tests bogachkov last_version_120412
Tests bogachkov last_version_120412
 
Тема 2. Классификация систем
Тема 2. Классификация системТема 2. Классификация систем
Тема 2. Классификация систем
 
Kriticheskie tochki funkcii_tochki_jekstremumov
Kriticheskie tochki funkcii_tochki_jekstremumovKriticheskie tochki funkcii_tochki_jekstremumov
Kriticheskie tochki funkcii_tochki_jekstremumov
 
Матстатистика для HR
Матстатистика для HRМатстатистика для HR
Матстатистика для HR
 
ШР1: домашнее задание О. Исакова
ШР1: домашнее задание О. ИсаковаШР1: домашнее задание О. Исакова
ШР1: домашнее задание О. Исакова
 
матстатистика для Hr
матстатистика для Hrматстатистика для Hr
матстатистика для Hr
 
693.введение в анализ практикум по решению задач
693.введение в анализ практикум по решению задач693.введение в анализ практикум по решению задач
693.введение в анализ практикум по решению задач
 
Odnochleny
OdnochlenyOdnochleny
Odnochleny
 
АиСД осень 2012 лекция 9
АиСД осень 2012 лекция 9АиСД осень 2012 лекция 9
АиСД осень 2012 лекция 9
 
л 2 10
л 2 10л 2 10
л 2 10
 
презентации лекций14 17
презентации лекций14 17презентации лекций14 17
презентации лекций14 17
 
Domain-тестирование
Domain-тестированиеDomain-тестирование
Domain-тестирование
 

En vedette

May Day
May DayMay Day
May Day
CarCal
 
Quiz 2
Quiz 2Quiz 2
Quiz 2
jkohn2
 
みんなでコーヒーミーティング 20120418
みんなでコーヒーミーティング 20120418みんなでコーヒーミーティング 20120418
みんなでコーヒーミーティング 20120418
Daisaku Yamamoto
 
Pocket Philippines presentation
Pocket Philippines presentationPocket Philippines presentation
Pocket Philippines presentation
yocard
 
修心 青山無所爭.福田用心耕(Nx)
修心  青山無所爭.福田用心耕(Nx)修心  青山無所爭.福田用心耕(Nx)
修心 青山無所爭.福田用心耕(Nx)
nonnon
 

En vedette (13)

May Day
May DayMay Day
May Day
 
Over the air 2.5 - Adobe AIR for Android
Over the air 2.5 - Adobe AIR for AndroidOver the air 2.5 - Adobe AIR for Android
Over the air 2.5 - Adobe AIR for Android
 
Quiz 2
Quiz 2Quiz 2
Quiz 2
 
Roofing
Roofing Roofing
Roofing
 
Михаил Александров. Индуктивное моделирование.
Михаил Александров. Индуктивное моделирование.Михаил Александров. Индуктивное моделирование.
Михаил Александров. Индуктивное моделирование.
 
みんなでコーヒーミーティング 20120418
みんなでコーヒーミーティング 20120418みんなでコーヒーミーティング 20120418
みんなでコーヒーミーティング 20120418
 
Pocket Philippines presentation
Pocket Philippines presentationPocket Philippines presentation
Pocket Philippines presentation
 
Puls Russian
Puls RussianPuls Russian
Puls Russian
 
修心 青山無所爭.福田用心耕(Nx)
修心  青山無所爭.福田用心耕(Nx)修心  青山無所爭.福田用心耕(Nx)
修心 青山無所爭.福田用心耕(Nx)
 
Hello Australia Positive Vibrations BBQ - 22/09/07
Hello Australia Positive Vibrations BBQ - 22/09/07Hello Australia Positive Vibrations BBQ - 22/09/07
Hello Australia Positive Vibrations BBQ - 22/09/07
 
Django Introduction Osscamp Delhi September 08 09 2007 Mir Nazim
Django Introduction Osscamp Delhi September 08 09 2007 Mir NazimDjango Introduction Osscamp Delhi September 08 09 2007 Mir Nazim
Django Introduction Osscamp Delhi September 08 09 2007 Mir Nazim
 
la rappresentazione dei numeri
la rappresentazione dei numerila rappresentazione dei numeri
la rappresentazione dei numeri
 
Killarney
KillarneyKillarney
Killarney
 

Similaire à лезин

Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
Irene Pochinok
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
Yury Katkov
 

Similaire à лезин (10)

Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 
Некоторые трудности при обучении программированию: что нельзя обойти и умолч...
Некоторые трудности при обучении программированию:что нельзя обойти и умолч...Некоторые трудности при обучении программированию:что нельзя обойти и умолч...
Некоторые трудности при обучении программированию: что нельзя обойти и умолч...
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим Литвинов
 
В.А. Гомболевский «Стандартизация описания протоколов исследований»
В.А. Гомболевский «Стандартизация описания протоколов исследований»В.А. Гомболевский «Стандартизация описания протоколов исследований»
В.А. Гомболевский «Стандартизация описания протоколов исследований»
 
Онтологически-контролируемое обучение: имплицитное и эксплицитное знание
Онтологически-контролируемое обучение: имплицитное и эксплицитное знаниеОнтологически-контролируемое обучение: имплицитное и эксплицитное знание
Онтологически-контролируемое обучение: имплицитное и эксплицитное знание
 
Неотрефлексированный сдвиг парадигмы: от поколений языков программирования вы...
Неотрефлексированный сдвиг парадигмы: от поколений языков программирования вы...Неотрефлексированный сдвиг парадигмы: от поколений языков программирования вы...
Неотрефлексированный сдвиг парадигмы: от поколений языков программирования вы...
 
Lande, Jigalo
Lande, JigaloLande, Jigalo
Lande, Jigalo
 

Plus de Lidia Pivovarova

Plus de Lidia Pivovarova (20)

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
 
AINL 2016: Yagunova
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: Yagunova
 
AINL 2016: Kuznetsova
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: Kuznetsova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, Maksimov
 
AINL 2016: Boldyreva
AINL 2016: BoldyrevaAINL 2016: Boldyreva
AINL 2016: Boldyreva
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
 
AINL 2016: Kozerenko
AINL 2016: Kozerenko AINL 2016: Kozerenko
AINL 2016: Kozerenko
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, Selegey
 
AINL 2016: Khudobakhshov
AINL 2016: KhudobakhshovAINL 2016: Khudobakhshov
AINL 2016: Khudobakhshov
 
AINL 2016: Proncheva
AINL 2016: PronchevaAINL 2016: Proncheva
AINL 2016: Proncheva
 
AINL 2016:
AINL 2016: AINL 2016:
AINL 2016:
 
AINL 2016: Bugaychenko
AINL 2016: BugaychenkoAINL 2016: Bugaychenko
AINL 2016: Bugaychenko
 
AINL 2016: Grigorieva
AINL 2016: GrigorievaAINL 2016: Grigorieva
AINL 2016: Grigorieva
 
AINL 2016: Muravyov
AINL 2016: MuravyovAINL 2016: Muravyov
AINL 2016: Muravyov
 
AINL 2016: Just AI
AINL 2016: Just AIAINL 2016: Just AI
AINL 2016: Just AI
 
AINL 2016: Moskvichev
AINL 2016: MoskvichevAINL 2016: Moskvichev
AINL 2016: Moskvichev
 
AINL 2016: Goncharov
AINL 2016: GoncharovAINL 2016: Goncharov
AINL 2016: Goncharov
 

лезин

  • 1. ОБ АВТОМАТИЗИРОВАННОМ ИЗВЛЕЧЕНИИ ОНТОЛОГИЧЕСКОЙ ИНФОРМАЦИИ ИЗ ВЕРБАЛЬНОГО ТЕРМИНОЛОГИЧЕСКОГО СЛОВАРЯ Г. В. Лезин Санкт-Петербургский экономико-математический институт РАН
  • 2. Цели эксперимента • “Онтологическая” информативность определений в терминологическом словаре ? • Уровень формальных знаний, достаточных для решения задачи ? • Технология построения терминологического словаря как источника информации для спецификации предметной области ? • Продукционные правила как средство описания процесса извлечения информации из текстов определений?
  • 3. Ограничения  Определение ограничено одним предложением. Из него исключены анафорические отношения.  Общий контекст терминологического словаря образован исключительно списком определяемых терминов. Получаемый формальный результат анализа не зависит от порядка обработки определений.  Термином всегда обозначен класс, причем никак не связанный с общей системой понятий естественного языка.  В качестве формального языка для представления целевой онтологии использован OWL в упрощенном L-диалекте
  • 4. Структура системы извлечения онтологической информации из терминологического словаря Текст определения Сем.-синтаксич. анализ определения Интерпретатор правил Фрагменты онтологии Семантический словарь (синтактика) Семантический. словарь (онтология) Дерево разбора Правила Функции и предикаты
  • 5. Этапы анализа 1. Синтаксический разбор 2. Общая постсинтаксическая обработка 3. Получение тезауруса 4. Преобразование тезауруса в онтологию
  • 6. Галактическая широта - одна из двух галактических координат, измеренная от плоскости галактики к объекту». Галактическая широта !ЭтоЕсть одна_из !Какой измеренная двух от_плоскости !Ото !Род галактических координат !Род галактики к_объекту !Род !кДат
  • 7. Результат трасформации дерева разбора Галактический широта Это Class Галактический координата subClassOf Объект этоПараметр
  • 8. OWL-результат анализа определения <owl:Class rdf:about = "#ГАЛАКТИЧЕСКИЙ_ШИРОТА"> <rdfs:subClassOf><owl:Class rdf:about = "#ГАЛАКТИЧЕСКИЙ_КООРДИНАТА"/> </rdfs:subClassOf> </owl:Class> <owl:Class rdf:about = "#ОБЪЕКТ"> <rdfs:subClassOf> <owl:Restriction> <owl:onProperty> <owl:ObjectProperty rdf:about = "#_галактический_широта"/> </owl:onProperty> <owl:allValuesFrom> <owl:Class rdf:about = "#ГАЛАКТИЧЕСКИЙ_ШИРОТА"/> </owl:allValuesFrom> </owl:Restriction> </rdfs:subClassOf> </owl:Class>
  • 9. Виды правил  T-правила, применяются к очередному не обработанному исходящему триплету анализируемого узла дерева разбора;  N-правила, применяются к анализируемому узлу только после того, как все исходящие триплеты этого узла оказались обработанными T-правилами. Структура правил: <имя_правила ТИП={T|N} > решающая часть правила => исполнительная часть </ имя_правила>
  • 10. Пример правила <ЧислРодРод ТИП = "T"> #W1 Род #W2 & #W3 Род #W1 & ЧАСТЬРЕЧИ(#W1)= Числ & ЧАСТЬРЕЧИ(#W3)= Сущ & СЛОВО(#W3)=*_из & ЗНАЧАЩИЙ(#W2) != 0 => ВСТАВИТЬ(#W3 Род #W2); УДАЛИТЬ(#W1 Род #W2) </ЧислРодРод>
  • 11. Общие оценки 1. Оценка объема необходимой лексикографической информации, поставляемой семантическим словарем  Морфологическа информация – в полной мере  Семантическая информация – в значительно меньшей степени 2. Оценка объема и состава правил  Ориентированность на общую задачу извлечения онтологии из терминологического словаря  Независимость от специализации предметой области  Неполнота
  • 12. Общий вывод От разрабатываемого метода автоматизированного извлечения онтологической информации из определений терминологического словаря можно ожидать, по-видимому, качественного изменения технологии разработки как собственно словаря, так и сопутствующей ему онтологии. Исходная версия онтологии может быть получена полностью автоматически. Скорее всего, полученная версия будет нуждаться в дальнейшей правке, но эта правка уже будет осуществляться в режиме интерактивного взаимодействия с программной системой. При этом правке могут подвергаться в равной степени как исходные тексты, так и выводимая из них онтология.