4. Примеры
• цены и продукты
• названия и контакты организаций
• категории товаров
• …
• места дислокации батальонов в WWI
• энергопотребление вентиляторов
7. Сложные случаи
• 100000 сайтов, все разные
• сайт один, но информация - в обычном тексте
• объединение информации из разных источников
• хочется «накликать» мышкой, что извлекать, и не
писать код
13. Подход
• для каждой ссылки выделить признаки
• перевести признаки в цифры (получить вектор x)
• для каждой ссылки передать в библиотеку x и
метку (ссылка на веб-студию: да/нет)
• библиотека подберет веса
14. Подход (предсказание)
• для каждой ссылки выделить признаки
• перевести признаки в цифры (получить вектор x)
• для каждой ссылки передать в библиотеку x
• библиотека вернет метку (веб-студия/нет)
17. Поиск именованных сущностей (NER)
есть 100k сайтов, нужно узнать:
• название организации
• ее адреса
• телефоны
• факсы
• время работы
• URL-ы форм обратной связи
• размещенные вакансии
• способы подачи заявки на работу
• …
19. Правила - сложные и
работают не очень хорошо
• части необязательны
• встречаются в разных местах страницы
• сокращения
• перестановки
• названия организаций не проверишь по словарю
• …
23. CRF
• обычно 1 порядка
• максимизирует вероятность всей цепочки, а не
тегов для отдельных токенов
• реализации: Wapiti, CRFsuite
24. Подход
• Выделяем из HTML текст
• разбиваем его на токены
• тренировочные данные: каждому токену
сопоставляем тег в BIO кодировке
• для каждого токена определяем характерные
признаки
• передаем все в библиотеку для тренировки
25. Примеры признаков (фич)
• сам токен
• предыдущий токен
• с заглавной буквы?
• по регекспу похож на телефон
• часть названия города и GeoNames (начало, середина?)
• HTML-элемент, в котором лежит токен
• первый или последний токен в HTML элементе?
• word2vec