9. Данные
Данные — это множество векторов:
vi = (1, 0.5, 1.37, 2.8, -1, -0.1, …)
Разметка — что-то, известное для каждого вектора
обучающей выборки. Это то, что мы хотим научиться
вычислять для произвольного вектора.
12. Фичи
• Положение на странице
• Размер шрифта
• Жирность
• Расстояние до ключевых слов
• …и направление
• Положение гипотезы внутри блока текста (ячейки)
• Выравнивание
• На сколько далеко от Now?
13. Прагматичный взгляд
Машинное обучение — всего лишь способ объединения
большого количества слабых признаков в сильный
классификатор
Если фич мало — просто закодируйте эвристику.
14. Генеральный план
Ищем в документе поле, в котором Тип/Дата/Номер/…
Но постойте! Это же не задача классификации!
Двухходовка:
Простая эвристика находит все гипотезы
Классификатор выбирает из них правильную
21. ИКР
Распознаем всё, во всех форматах!
1. Новые типы документов, со своими полями
2. Новые форматы
3. Optical character recognition
22. Я тоже хочу так уметь!
Machine learning @ Stanford university (www.coursera.org)
Классическая книга:
Pattern Recognition and Machine Learning
Christopher M. Bishop
Книги попроще:
Machine Learning in Action, Peter Harrington
Machine learning for Hackers, Drew Conway, John Myles White
27. Данные — наше всё!
• «Повезло» — у нас уже есть 100К+ документов.
• Грубые фильтры:
Неинтересные нам документы (отчеты, расчеты, …)
Дубли и очень похожие документы
Тестовые, пустые, мусор
→ ~2К документов