We'll consider standard and not very approaches to solving problems for NER and name resolution. Also, we'll see how we can use similarity queries for the name resolution and how the results depend on various types of similarity.
Oleksiy Shashlyuk "Named-entity recognition and name resolution using similarity queries"
1.
2. PitchBook - это все, что касается инвестиций. Основная цель компании - предоставить
исчерпывающую информацию о том, кто (компания или физическое лицо), когда, как и
на каких условиях инвестировал деньги в некоторые активы, и как они использовались
для получения дивидендов.
С самого начала PitchBook был сосредоточен на инвестициях в частный капитал (PE),
затем плавно распространился на венчурный капитал (VC / Startups), частично
раскрывая финансовые показатели публичных компаний.
PitchBook отслеживает все возможные инвестиционные действия (сделки, фонды) и
обеспечивает удобный для пользователя вид, позволяет искать, анализировать и
экспортировать данные наиболее удобным для клиентов способом.
О компании
4. Постановка проблемы
● 20 000+ новостей в день
● 8 000 000+ компаний в БД
● 20+ отслеживаемых событий (Revenue, EBITDA, Public offering etc.)
● 5+ типов имен (FORMAL, FAMILIAR, FORMER, LEGAL, PARENT etc.)
6. Предобученные модели
● 16 языков
● 3 модели для большинства языков (small, medium,
large)
● 18 типов
● натренирована на корпусе OntoNote 5
● есть возможность визуализации
7. Предобученные модели
● 5 языков
● 3 модели (3, 4, 7 классов)
● натренированы на CoNLL 2003
● требует установленной Java
8. Предобученные модели
● 8 языков
● 2 модели (4, 8 классов)
● натренированы на CoNLL 2003 и OntoNotes
● выполнена как надстройка над PyTorch
9. Тренировка собственной модели NER
Обычно задача NER сводится к задаче классификации на уровне токенов, т.е. каждый
токен относится к одному из нескольких возможных классов.
BIOES-схема. К метке сущности (например, ORG для организаций) добавить
некоторый префикс, который обозначает позицию токена в спане сущности:
1) B – beginning, первый токен в спане сущности
2) I – inside, токены в середине спана сущности
3) E – ending, последний токен в спане сущности
4) S – single, сущность состоит из одного слова.
10. Тренировка собственной модели NER
Добавление признаков:
1) word[:n]
2) word[-n:]
3) is_upper
4) is_lower
5) is_camelcase
6) postag (Part-of-speach)
7) lemma
8) stem
9) n_grams
10) ...
14. Entity resolution (entity linking)
Similarity queries (using gensim library)
gensim - это библиотека для тематического моделирования
Основные понятия:
1) Document
2) Corpus
3) Vector
4) Model
21. Entity resolution (entity linking)
Word Mover’s Distance
1. Obama speaks to the media in Illinois
2. The president greets the press in Chicago
22. Entity resolution (entity linking)
Query
Similar keywords by
Cosine similarity
Similar keywords by
Soft Cosine similarity
Similar keywords by
WMD similarity
000 squares foot car dealership
000 squares foot car dealership,
17000 squares foot,
16987 squares foot,
squares foot,
9631 squares foot complex,
buildable squares foot,
squares foot facility,
50599 squares foot stores,
820000 squares foot facility,
car dealership,
car dealership service,
used car dealership,
2 car dealership,
new car dealership,
squares,
78000 squares foot data center,
foot,
dealership information,
dealership service,
dealership
000 squares foot car dealership,
beds die cutter,
beds liners,
hot wedges welder,
indoor heated beds,
truck beds liners,
double beds rooms,
double beds occupancy,
brass beds restoration,
hot rolled billets,
hot rolled angles,
retractable truck beds,
fluid beds dryers,
beds shaker,
forged grinding balls,
medical beds wedge,
beds springs,
bed-spring distributor,
beds surfaces cleaners,
hot rolled rings
000 squares foot car dealership,
toyota car dealership, bmw car
dealership, honda car
dealership, ford car dealership,
chevrolet car dealership,
franchised car dealership,
citroen car dealership, rain
repellent car washing, car
shuttle train loaders, car carpet
& upholstery detailing,
car dealership showroom,
citroen car dealership franchise,
car seating dealership, car
washing brushes, convertible
car dealer, waterless car
washing, hopper car vibrators,
pre-owned cars dealership,
rearing trunk dealership
plaques
23. Entity resolution (entity linking)
Cosine similarity Soft Cosine similarity WMD similarity
Inference time 1.23 s 158 ms 59 ms
Query time 1.03 ms 24 ms 100 ms