Доклад Александра Костюченко "Технология анализа текстов и перевода Compreno фирмы ABBYY" на 58 заседании Русского отделения INCOSE, 8 февраля 2012 года
14. Вопросы ? Контактная информация : Александр Костюченко Менеджер проектов Департамент лингвистических технологий ABBYY Phone: +7 495 783 37 00 E-mail: [email_address] www.abbyy.com
Editor's Notes
Мы разделяем наши технологии на две большие группы: это распознавание, необходимое для трансформации данных отображенных на бумажном носителе, в электронный, editable формат, их трансформации в удобные пользователю форматы и Семантико-синтаксический Анализ, необходимый для корректного перевода текста, позволяющий с невероятной эффективностью искать нужные факты в массивах неструктурированных данных. Именно со второй технологи е й мы пришли в Сколково и на ней более детально остановимся.
Хотя все люди на земле говорят разными словами, но мыслят они очень похожими понятиями. Все люди ходят на работу, сидят дома, работают на компьютерах, составляют договоры, летают на самолетах, ведут переговоры. Для них строятся похожие бизнес-центры, они находятся в похожих помещениях и пользуются похожей мебелью. Все эти понятия и их взаимоотношения в разных развитых цивилизациях имеют гораздо больше общего, чем различного. Универсальная семантическая иерархия – это дерево понятий, универсальное для всех языков, толстые ветви которого являются более общими и универсальными понятиями (например, «движение»), а тонкие – более специфическими, но тоже универсальными понятиями (например, «плавать»). Древесная структура позволяет обеспечить наследование свойств от предков к потомкам, благодаря которому описание новых понятий происходит быстрее. Так, например, чтобы описать понятие «приказ», уже не надо перечислять все характеристики понятия «документ».
А вот пример, как Универсальный класс связан с Понятиями конкретного языка. К каждому универсальному понятию в дереве мы присоединяем конкретные слова и словосочетания. При синтаксическом анализе и построении семантического представления, мы переходим от Исходного языка к Универсальному языку, языку Понятий и Смыслов. Затем при Синтезе мы переходим от Универсального языка к целевому языку Перевода. Например, Русский-Универсальный-Английский.
При подключении нового языка, например, Французского, достаточно только описать переход от Французского к Универсальному и от Универсального к Французскому. И мы автоматом получаем пары переводов: RU <> EN , RU <> FR , EN <> FR . Добавляя Немецкий, мы получаем уже пары переводов: RU <> EN , RU <> FR , EN <> FR , RU <> DE , DE <> FR , EN <> DE .
При подключении нового языка, например, Французского, достаточно только описать переход от Французского к Универсальному и от Универсального к Французскому. И мы автоматом получаем пары переводов: RU <> EN , RU <> FR , EN <> FR . Добавляя Немецкий, мы получаем уже пары переводов: RU <> EN , RU <> FR , EN <> FR , RU <> DE , DE <> FR , EN <> DE .
Второй, но не менее важной частью технологии является полный синтаксический разбор текста. Синтаксис – это способ «кодирования» семантических отношений (или «слов», выражающих эти понятия) в конкретном языке. Сами семантические отношения универсальны, а способы их реализации в каждом языке – свои. В каких-то языках установлен линейный порядок, в других используются падежи, предлоги, специальные служебные слова, где-то используется все сразу. Для каждого языка синтаксическое описание делается заново, но сами средства, которые разные языки используют для кодирования смысла, перечислимы. При описывании нового языка, используется конструктор для его описания (тот же линейный порядок, различные типы синтаксических преобразований, грамматические значения, предлоги, специальные конструкции ). Используя семантическую иерархию, синтаксическое описание языка, а также статистику взаимоотношений между понятиями, технология Compreno производит полный анализ текста. Исходный текст разбирается с учетом синтаксиса, специфичного для данного конкретного языка, и с использованием информации о семантическом поведении слов в исходном тексте. В итоге текст преобразуется в универсальное для всех языков представление связанных между собой универсальных понятий, и это представление по сути выражает СМЫСЛ сказанного. Далее этот СМЫСЛ можно переводить на другие языки или использовать для индекса поисковой системы, которая сможет на его основе осуществлять смысловой (интеллектуальный) поиск.
Технология Compreno также успешно определяет такие сложные синтаксические связи, как замена слова «мальчик» на слово «он» в предложении: «Хоть мальчик и хотел поиграть, но он понимал, что у него мало времени». Или целые пропуски в сложносочиненных предложениях, например «он любит красное вино, а она – белое». Эти связи также выражаются в универсальной структуре СМЫСЛа и несут важную информацию для поиска или перевода. Таким образом, система стремится к определению смысла текста на обычном языке, позволяя машине «понять» этот текст и трансформировать его в универсальное представление, не зависящее от языка.
Получение универсального представления (смысла) дает возможность решать множество различных практических задач, в частности – перевод с одного языка на другой, а также интеллектуальный поиск по смыслу. Новая технология позволяет изменить сами принцип поиска, когда вместо ввода ключевых слов в запросе можно указать сам вопрос. Система проанализирует вопрос и подберет те результаты, которые отвечают его смыслу. В частности, ответы могут быть выражены словами, не присутствующими в вопросе. Таким образом технология позволяет существенно повысить качество поиска и анализа информации
Среди других возможных применений данной технологии можно назвать [ читает ]
Несколько фактов о проекте: технология основана на результатах лингвистических исследований многих ведущих ученых мира последних 50 лет и является для многих из них воплощением далёкой мечты, ставшей реальностью благодаря применению современных компьютерных инженерных подходов. В проекте на данный момент участвует около 300 человек, активно привлекаются студенты кафедры Аби в МФТИ и выпускники ведущих ВУЗов страны. Компания Аби ведет многолетнюю работу над данным проектом и для выполнения его в рамках Сколково передаёт все необходимые права на интеллектуальную собственность резиденту Сколково
Несколько слов о материнской компании. Компания была основана в 1989 году. Сейчас в компании работает более 1000 человек в 1 3 офисах по всему миру. Штаб-квартира и центр разработки всех продуктов и технологий находится в Москве. За это время продукты компании получили более 2 4 0 наград от лидирующих журналов и тестовых лабораторий за качество, удобство и лучшее соотношение цена/качество своих продуктов. Среди этих наград есть и государственная Премия Правительства РФ в области науки и техники. Ежегодно свыше 11 миллионов копий программы ABBYY FineReader распространяется по всему миру. А электронным словарём ABBYY Lingvo пользуются свыше 7 миллионов человек.
Это была короткая презентация инновационной лингвистической технологии ABBYY Compreno . Она работает уже сегодня и призвана помогать людям по всему миру.