Машинное обучение

Машинное обучение
Kontur Labs @xoposhiy
Павел Егоров
Михаил Самойленко pe@kontur.ru
Алексей Буславьев

Задача
Бухгалтерские документы:
акты, накладные, счета, договора, …

Excel

Установленных стандартных шаблонов — НЕТ!

Хотим извлекать «интересные» поля:
• Тип документа, Номер, Дата
• Сумма, НДС, Основание
• Покупатель, Продавец
• …

Машинное обучение

Куча хороших данных
→ PROFIT

Данные
Данные — это множество векторов:
vi = (1, 0.5, 1.37, 2.8, -1, -0.1, …)

Разметка — что-то, известное для каждого вектора
обучающей выборки. Это то, что мы хотим научиться
вычислять для произвольного вектора.

Классификаторы
…тренируются классифицировать на обучающей выборке

• Нейронные сети
• KNN (K nearest neighbors)
• Линейное разделение
• Дерево решений
• Рандомизированный лес
• SVM

Feature-engineering
Задача:
«Является ли данный кусок текста датой документа?»

Фичи, господа, фичи!

Фичи
• Положение на странице
• Размер шрифта
• Жирность
• Расстояние до ключевых слов
• …и направление
• Положение гипотезы внутри блока текста (ячейки)
• Выравнивание
• На сколько далеко от Now?

Прагматичный взгляд
Машинное обучение — всего лишь способ объединения
большого количества слабых признаков в сильный
классификатор

Если фич мало — просто закодируйте эвристику.

Генеральный план
Ищем в документе поле, в котором Тип/Дата/Номер/…

Но постойте! Это же не задача классификации!

Двухходовка:
Простая эвристика находит все гипотезы
Классификатор выбирает из них правильную

Разметка базы

Demo

Обучение
и тестирование
Размеченная база:
• Обучающая выборка
• Тестовая выборка

Метрики качества:
• Точность = truePositive / allPositive
• Полнота = truePositive / allTrue

Общая схема
Придумываем
Обучаем
фичи
Делаем Размечаем
генератор базу
гипотез документов

Изучаем
ошибки

Для каждого поля отдельно

ИКР
Распознаем всё, во всех форматах!

1. Новые типы документов, со своими полями
2. Новые форматы
3. Optical character recognition

Я тоже хочу так уметь!
Machine learning @ Stanford university (www.coursera.org)

Классическая книга:
Pattern Recognition and Machine Learning
Christopher M. Bishop

Книги попроще:
Machine Learning in Action, Peter Harrington
Machine learning for Hackers, Drew Conway, John Myles White

Q&A
Егоров Павел, Kontur Labs
@xoposhiy
pe@kontur.ru

Excel
• http://poi.apache.org (JAVA)
• https://code.google.com/p/npoi/ (.NET port)

Текст-блок:
X, Y, W, H, Font, VAlignment, HAllignment
Интерпретация формул

Игнорируем:
Картинки, объекты вне ячеек, границы, …

Фичи. Инвариантность
Инвариантность относительно некоторых трансформаций:

Шрифт, масштаб, положение, синонимы,
выравнивание текста, …

Данные — наше всё!
• «Повезло» — у нас уже есть 100К+ документов.
• Грубые фильтры:
Неинтересные нам документы (отчеты, расчеты, …)
Дубли и очень похожие документы
Тестовые, пустые, мусор
→ ~2К документов

Машинное обучение

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (11)

Similaire à Машинное обучение

Similaire à Машинное обучение (20)

Plus de Даниил Силантьев

Plus de Даниил Силантьев (20)

Машинное обучение