SlideShare une entreprise Scribd logo
1  sur  23
Télécharger pour lire hors ligne
PitchBook - это все, что касается инвестиций. Основная цель компании - предоставить
исчерпывающую информацию о том, кто (компания или физическое лицо), когда, как и
на каких условиях инвестировал деньги в некоторые активы, и как они использовались
для получения дивидендов.
С самого начала PitchBook был сосредоточен на инвестициях в частный капитал (PE),
затем плавно распространился на венчурный капитал (VC / Startups), частично
раскрывая финансовые показатели публичных компаний.
PitchBook отслеживает все возможные инвестиционные действия (сделки, фонды) и
обеспечивает удобный для пользователя вид, позволяет искать, анализировать и
экспортировать данные наиболее удобным для клиентов способом.
О компании
Постановка проблемыПостановка проблемы
Постановка проблемы
● 20 000+ новостей в день
● 8 000 000+ компаний в БД
● 20+ отслеживаемых событий (Revenue, EBITDA, Public offering etc.)
● 5+ типов имен (FORMAL, FAMILIAR, FORMER, LEGAL, PARENT etc.)
Named-Entity Recognition (NER)
Предобученные модели
● 16 языков
● 3 модели для большинства языков (small, medium,
large)
● 18 типов
● натренирована на корпусе OntoNote 5
● есть возможность визуализации
Предобученные модели
● 5 языков
● 3 модели (3, 4, 7 классов)
● натренированы на CoNLL 2003
● требует установленной Java
Предобученные модели
● 8 языков
● 2 модели (4, 8 классов)
● натренированы на CoNLL 2003 и OntoNotes
● выполнена как надстройка над PyTorch
Тренировка собственной модели NER
Обычно задача NER сводится к задаче классификации на уровне токенов, т.е. каждый
токен относится к одному из нескольких возможных классов.
BIOES-схема. К метке сущности (например, ORG для организаций) добавить
некоторый префикс, который обозначает позицию токена в спане сущности:
1) B – beginning, первый токен в спане сущности
2) I – inside, токены в середине спана сущности
3) E – ending, последний токен в спане сущности
4) S – single, сущность состоит из одного слова.
Тренировка собственной модели NER
Добавление признаков:
1) word[:n]
2) word[-n:]
3) is_upper
4) is_lower
5) is_camelcase
6) postag (Part-of-speach)
7) lemma
8) stem
9) n_grams
10) ...
Используем CRF (conditional random fields)
Тренировка собственной модели NER
енировка собственной модели NER
Тренировка собственной модели NER
Используем нейронные сети, например CharCNN-BLSTM-CRF
Entity resolution (entity linking)
Trie (нагруженное префиксное дерево)
Entity resolution (entity linking)
Similarity queries (using gensim library)
gensim - это библиотека для тематического моделирования
Основные понятия:
1) Document
2) Corpus
3) Vector
4) Model
Entity resolution (entity linking)
Document
Corpus
Entity resolution (entity linking)
Vector
● TF-IDF
● word2vec
● doc2vec
● fastText
● GloVe
● BERT
● ...
Entity resolution (entity linking)
Model
1) TF-IDF
2) Latent Semantic Indexing, LSI
3) Latent Dirichlet Allocation, LDA
4) Random Projection, RP
5) Hierarchical Dirichlet Process, HDP
6) ...
Entity resolution (entity linking)
Entity resolution (entity linking)
Entity resolution (entity linking)
Soft Cosine Similarity
Entity resolution (entity linking)
Word Mover’s Distance
1. Obama speaks to the media in Illinois
2. The president greets the press in Chicago
Entity resolution (entity linking)
Query
Similar keywords by
Cosine similarity
Similar keywords by
Soft Cosine similarity
Similar keywords by
WMD similarity
000 squares foot car dealership
000 squares foot car dealership,
17000 squares foot,
16987 squares foot,
squares foot,
9631 squares foot complex,
buildable squares foot,
squares foot facility,
50599 squares foot stores,
820000 squares foot facility,
car dealership,
car dealership service,
used car dealership,
2 car dealership,
new car dealership,
squares,
78000 squares foot data center,
foot,
dealership information,
dealership service,
dealership
000 squares foot car dealership,
beds die cutter,
beds liners,
hot wedges welder,
indoor heated beds,
truck beds liners,
double beds rooms,
double beds occupancy,
brass beds restoration,
hot rolled billets,
hot rolled angles,
retractable truck beds,
fluid beds dryers,
beds shaker,
forged grinding balls,
medical beds wedge,
beds springs,
bed-spring distributor,
beds surfaces cleaners,
hot rolled rings
000 squares foot car dealership,
toyota car dealership, bmw car
dealership, honda car
dealership, ford car dealership,
chevrolet car dealership,
franchised car dealership,
citroen car dealership, rain
repellent car washing, car
shuttle train loaders, car carpet
& upholstery detailing,
car dealership showroom,
citroen car dealership franchise,
car seating dealership, car
washing brushes, convertible
car dealer, waterless car
washing, hopper car vibrators,
pre-owned cars dealership,
rearing trunk dealership
plaques
Entity resolution (entity linking)
Cosine similarity Soft Cosine similarity WMD similarity
Inference time 1.23 s 158 ms 59 ms
Query time 1.03 ms 24 ms 100 ms

Contenu connexe

Similaire à Oleksiy Shashlyuk "Named-entity recognition and name resolution using similarity queries"

Интернет-маркетинг для стартапа. Базовый уровень
Интернет-маркетинг для стартапа. Базовый уровеньИнтернет-маркетинг для стартапа. Базовый уровень
Интернет-маркетинг для стартапа. Базовый уровеньValentin Dombrovsky
 
BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)
BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)
BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)Iosif Itkin
 
Контекстная реклама, презентация
Контекстная реклама, презентацияКонтекстная реклама, презентация
Контекстная реклама, презентацияAraminta08
 
School IT recruiting
School IT recruiting School IT recruiting
School IT recruiting Olga Kotova
 
Шаблон инвестиционной презентации ver. 1.3 (ФРИИ edition)
Шаблон инвестиционной презентации ver. 1.3 (ФРИИ edition)Шаблон инвестиционной презентации ver. 1.3 (ФРИИ edition)
Шаблон инвестиционной презентации ver. 1.3 (ФРИИ edition)Ilya Korolev
 
Контекстная реклама на службе интернет-магазина
Контекстная реклама на службе интернет-магазинаКонтекстная реклама на службе интернет-магазина
Контекстная реклама на службе интернет-магазинаUAMASTER Digital Agency
 
(блиц-доклад) «IT-Мастерская» - пример эффективного инструмента рекрутинга​
(блиц-доклад) «IT-Мастерская» - пример эффективного инструмента рекрутинга​(блиц-доклад) «IT-Мастерская» - пример эффективного инструмента рекрутинга​
(блиц-доклад) «IT-Мастерская» - пример эффективного инструмента рекрутинга​IT-Доминанта
 
криптотрейдинг промежуточное обобщение
криптотрейдинг промежуточное обобщениекриптотрейдинг промежуточное обобщение
криптотрейдинг промежуточное обобщениеRica1703
 
проектирование, поддержка и контент интернет магазина
проектирование, поддержка и контент интернет магазинапроектирование, поддержка и контент интернет магазина
проектирование, поддержка и контент интернет магазинаТауруна
 
проектирование, поддержка и контент интернет магазина
проектирование, поддержка и контент интернет магазинапроектирование, поддержка и контент интернет магазина
проектирование, поддержка и контент интернет магазинаITMsupport
 
TCO, ROI & бизнес-кейс для CISO
TCO, ROI & бизнес-кейс для CISOTCO, ROI & бизнес-кейс для CISO
TCO, ROI & бизнес-кейс для CISOMichael Kozloff
 
Продвижение отраслевого сайта. Практикум
Продвижение отраслевого сайта. ПрактикумПродвижение отраслевого сайта. Практикум
Продвижение отраслевого сайта. Практикумimba_ru
 
1c bitrix-tor new-sidorenko
1c bitrix-tor new-sidorenko1c bitrix-tor new-sidorenko
1c bitrix-tor new-sidorenkoBurbon.ru
 
Интернет-реклама для оконного бизнеса (Новосибирск)
Интернет-реклама для оконного бизнеса (Новосибирск)Интернет-реклама для оконного бизнеса (Новосибирск)
Интернет-реклама для оконного бизнеса (Новосибирск)VEKA Rus
 
Information Extraction Overview
Information Extraction OverviewInformation Extraction Overview
Information Extraction OverviewNLPseminar
 
стратегическое планирование в интернет бизнесе
стратегическое планирование в интернет бизнесестратегическое планирование в интернет бизнесе
стратегическое планирование в интернет бизнесеDenis Zapirkin
 
Контекстная реклама на службе интернет-магазина
Контекстная реклама на службе интернет-магазинаКонтекстная реклама на службе интернет-магазина
Контекстная реклама на службе интернет-магазинаOWOX
 
Контекстная реклама для ресторанного бизнеса
Контекстная реклама для ресторанного бизнесаКонтекстная реклама для ресторанного бизнеса
Контекстная реклама для ресторанного бизнесаRestorania.com
 

Similaire à Oleksiy Shashlyuk "Named-entity recognition and name resolution using similarity queries" (20)

Интернет-маркетинг для стартапа. Базовый уровень
Интернет-маркетинг для стартапа. Базовый уровеньИнтернет-маркетинг для стартапа. Базовый уровень
Интернет-маркетинг для стартапа. Базовый уровень
 
BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)
BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)
BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)
 
Контекстная реклама, презентация
Контекстная реклама, презентацияКонтекстная реклама, презентация
Контекстная реклама, презентация
 
School IT recruiting
School IT recruiting School IT recruiting
School IT recruiting
 
Шаблон инвестиционной презентации ver. 1.3 (ФРИИ edition)
Шаблон инвестиционной презентации ver. 1.3 (ФРИИ edition)Шаблон инвестиционной презентации ver. 1.3 (ФРИИ edition)
Шаблон инвестиционной презентации ver. 1.3 (ФРИИ edition)
 
Be first
Be firstBe first
Be first
 
Контекстная реклама на службе интернет-магазина
Контекстная реклама на службе интернет-магазинаКонтекстная реклама на службе интернет-магазина
Контекстная реклама на службе интернет-магазина
 
(блиц-доклад) «IT-Мастерская» - пример эффективного инструмента рекрутинга​
(блиц-доклад) «IT-Мастерская» - пример эффективного инструмента рекрутинга​(блиц-доклад) «IT-Мастерская» - пример эффективного инструмента рекрутинга​
(блиц-доклад) «IT-Мастерская» - пример эффективного инструмента рекрутинга​
 
криптотрейдинг промежуточное обобщение
криптотрейдинг промежуточное обобщениекриптотрейдинг промежуточное обобщение
криптотрейдинг промежуточное обобщение
 
проектирование, поддержка и контент интернет магазина
проектирование, поддержка и контент интернет магазинапроектирование, поддержка и контент интернет магазина
проектирование, поддержка и контент интернет магазина
 
проектирование, поддержка и контент интернет магазина
проектирование, поддержка и контент интернет магазинапроектирование, поддержка и контент интернет магазина
проектирование, поддержка и контент интернет магазина
 
Вебинар WebPromoExperts по юзабилити. Александр Власов
Вебинар WebPromoExperts по юзабилити. Александр ВласовВебинар WebPromoExperts по юзабилити. Александр Власов
Вебинар WebPromoExperts по юзабилити. Александр Власов
 
TCO, ROI & бизнес-кейс для CISO
TCO, ROI & бизнес-кейс для CISOTCO, ROI & бизнес-кейс для CISO
TCO, ROI & бизнес-кейс для CISO
 
Продвижение отраслевого сайта. Практикум
Продвижение отраслевого сайта. ПрактикумПродвижение отраслевого сайта. Практикум
Продвижение отраслевого сайта. Практикум
 
1c bitrix-tor new-sidorenko
1c bitrix-tor new-sidorenko1c bitrix-tor new-sidorenko
1c bitrix-tor new-sidorenko
 
Интернет-реклама для оконного бизнеса (Новосибирск)
Интернет-реклама для оконного бизнеса (Новосибирск)Интернет-реклама для оконного бизнеса (Новосибирск)
Интернет-реклама для оконного бизнеса (Новосибирск)
 
Information Extraction Overview
Information Extraction OverviewInformation Extraction Overview
Information Extraction Overview
 
стратегическое планирование в интернет бизнесе
стратегическое планирование в интернет бизнесестратегическое планирование в интернет бизнесе
стратегическое планирование в интернет бизнесе
 
Контекстная реклама на службе интернет-магазина
Контекстная реклама на службе интернет-магазинаКонтекстная реклама на службе интернет-магазина
Контекстная реклама на службе интернет-магазина
 
Контекстная реклама для ресторанного бизнеса
Контекстная реклама для ресторанного бизнесаКонтекстная реклама для ресторанного бизнеса
Контекстная реклама для ресторанного бизнеса
 

Plus de Fwdays

"How Preply reduced ML model development time from 1 month to 1 day",Yevhen Y...
"How Preply reduced ML model development time from 1 month to 1 day",Yevhen Y..."How Preply reduced ML model development time from 1 month to 1 day",Yevhen Y...
"How Preply reduced ML model development time from 1 month to 1 day",Yevhen Y...Fwdays
 
"GenAI Apps: Our Journey from Ideas to Production Excellence",Danil Topchii
"GenAI Apps: Our Journey from Ideas to Production Excellence",Danil Topchii"GenAI Apps: Our Journey from Ideas to Production Excellence",Danil Topchii
"GenAI Apps: Our Journey from Ideas to Production Excellence",Danil TopchiiFwdays
 
"LLMs for Python Engineers: Advanced Data Analysis and Semantic Kernel",Oleks...
"LLMs for Python Engineers: Advanced Data Analysis and Semantic Kernel",Oleks..."LLMs for Python Engineers: Advanced Data Analysis and Semantic Kernel",Oleks...
"LLMs for Python Engineers: Advanced Data Analysis and Semantic Kernel",Oleks...Fwdays
 
"Federated learning: out of reach no matter how close",Oleksandr Lapshyn
"Federated learning: out of reach no matter how close",Oleksandr Lapshyn"Federated learning: out of reach no matter how close",Oleksandr Lapshyn
"Federated learning: out of reach no matter how close",Oleksandr LapshynFwdays
 
"What is a RAG system and how to build it",Dmytro Spodarets
"What is a RAG system and how to build it",Dmytro Spodarets"What is a RAG system and how to build it",Dmytro Spodarets
"What is a RAG system and how to build it",Dmytro SpodaretsFwdays
 
"Debugging python applications inside k8s environment", Andrii Soldatenko
"Debugging python applications inside k8s environment", Andrii Soldatenko"Debugging python applications inside k8s environment", Andrii Soldatenko
"Debugging python applications inside k8s environment", Andrii SoldatenkoFwdays
 
"ML in Production",Oleksandr Bagan
"ML in Production",Oleksandr Bagan"ML in Production",Oleksandr Bagan
"ML in Production",Oleksandr BaganFwdays
 
"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek Schlawack
"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek Schlawack"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek Schlawack
"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek SchlawackFwdays
 
"Distributed graphs and microservices in Prom.ua", Maksym Kindritskyi
"Distributed graphs and microservices in Prom.ua",  Maksym Kindritskyi"Distributed graphs and microservices in Prom.ua",  Maksym Kindritskyi
"Distributed graphs and microservices in Prom.ua", Maksym KindritskyiFwdays
 
"Rethinking the existing data loading and processing process as an ETL exampl...
"Rethinking the existing data loading and processing process as an ETL exampl..."Rethinking the existing data loading and processing process as an ETL exampl...
"Rethinking the existing data loading and processing process as an ETL exampl...Fwdays
 
"How Ukrainian IT specialist can go on vacation abroad without crossing the T...
"How Ukrainian IT specialist can go on vacation abroad without crossing the T..."How Ukrainian IT specialist can go on vacation abroad without crossing the T...
"How Ukrainian IT specialist can go on vacation abroad without crossing the T...Fwdays
 
"The Strength of Being Vulnerable: the experience from CIA, Tesla and Uber", ...
"The Strength of Being Vulnerable: the experience from CIA, Tesla and Uber", ..."The Strength of Being Vulnerable: the experience from CIA, Tesla and Uber", ...
"The Strength of Being Vulnerable: the experience from CIA, Tesla and Uber", ...Fwdays
 
"[QUICK TALK] Radical candor: how to achieve results faster thanks to a cultu...
"[QUICK TALK] Radical candor: how to achieve results faster thanks to a cultu..."[QUICK TALK] Radical candor: how to achieve results faster thanks to a cultu...
"[QUICK TALK] Radical candor: how to achieve results faster thanks to a cultu...Fwdays
 
"[QUICK TALK] PDP Plan, the only one door to raise your salary and boost care...
"[QUICK TALK] PDP Plan, the only one door to raise your salary and boost care..."[QUICK TALK] PDP Plan, the only one door to raise your salary and boost care...
"[QUICK TALK] PDP Plan, the only one door to raise your salary and boost care...Fwdays
 
"4 horsemen of the apocalypse of working relationships (+ antidotes to them)"...
"4 horsemen of the apocalypse of working relationships (+ antidotes to them)"..."4 horsemen of the apocalypse of working relationships (+ antidotes to them)"...
"4 horsemen of the apocalypse of working relationships (+ antidotes to them)"...Fwdays
 
"Reconnecting with Purpose: Rediscovering Job Interest after Burnout", Anast...
"Reconnecting with Purpose: Rediscovering Job Interest after Burnout",  Anast..."Reconnecting with Purpose: Rediscovering Job Interest after Burnout",  Anast...
"Reconnecting with Purpose: Rediscovering Job Interest after Burnout", Anast...Fwdays
 
"Mentoring 101: How to effectively invest experience in the success of others...
"Mentoring 101: How to effectively invest experience in the success of others..."Mentoring 101: How to effectively invest experience in the success of others...
"Mentoring 101: How to effectively invest experience in the success of others...Fwdays
 
"Mission (im) possible: How to get an offer in 2024?", Oleksandra Myronova
"Mission (im) possible: How to get an offer in 2024?",  Oleksandra Myronova"Mission (im) possible: How to get an offer in 2024?",  Oleksandra Myronova
"Mission (im) possible: How to get an offer in 2024?", Oleksandra MyronovaFwdays
 
"Why have we learned how to package products, but not how to 'package ourselv...
"Why have we learned how to package products, but not how to 'package ourselv..."Why have we learned how to package products, but not how to 'package ourselv...
"Why have we learned how to package products, but not how to 'package ourselv...Fwdays
 
"How to tame the dragon, or leadership with imposter syndrome", Oleksandr Zin...
"How to tame the dragon, or leadership with imposter syndrome", Oleksandr Zin..."How to tame the dragon, or leadership with imposter syndrome", Oleksandr Zin...
"How to tame the dragon, or leadership with imposter syndrome", Oleksandr Zin...Fwdays
 

Plus de Fwdays (20)

"How Preply reduced ML model development time from 1 month to 1 day",Yevhen Y...
"How Preply reduced ML model development time from 1 month to 1 day",Yevhen Y..."How Preply reduced ML model development time from 1 month to 1 day",Yevhen Y...
"How Preply reduced ML model development time from 1 month to 1 day",Yevhen Y...
 
"GenAI Apps: Our Journey from Ideas to Production Excellence",Danil Topchii
"GenAI Apps: Our Journey from Ideas to Production Excellence",Danil Topchii"GenAI Apps: Our Journey from Ideas to Production Excellence",Danil Topchii
"GenAI Apps: Our Journey from Ideas to Production Excellence",Danil Topchii
 
"LLMs for Python Engineers: Advanced Data Analysis and Semantic Kernel",Oleks...
"LLMs for Python Engineers: Advanced Data Analysis and Semantic Kernel",Oleks..."LLMs for Python Engineers: Advanced Data Analysis and Semantic Kernel",Oleks...
"LLMs for Python Engineers: Advanced Data Analysis and Semantic Kernel",Oleks...
 
"Federated learning: out of reach no matter how close",Oleksandr Lapshyn
"Federated learning: out of reach no matter how close",Oleksandr Lapshyn"Federated learning: out of reach no matter how close",Oleksandr Lapshyn
"Federated learning: out of reach no matter how close",Oleksandr Lapshyn
 
"What is a RAG system and how to build it",Dmytro Spodarets
"What is a RAG system and how to build it",Dmytro Spodarets"What is a RAG system and how to build it",Dmytro Spodarets
"What is a RAG system and how to build it",Dmytro Spodarets
 
"Debugging python applications inside k8s environment", Andrii Soldatenko
"Debugging python applications inside k8s environment", Andrii Soldatenko"Debugging python applications inside k8s environment", Andrii Soldatenko
"Debugging python applications inside k8s environment", Andrii Soldatenko
 
"ML in Production",Oleksandr Bagan
"ML in Production",Oleksandr Bagan"ML in Production",Oleksandr Bagan
"ML in Production",Oleksandr Bagan
 
"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek Schlawack
"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek Schlawack"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek Schlawack
"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek Schlawack
 
"Distributed graphs and microservices in Prom.ua", Maksym Kindritskyi
"Distributed graphs and microservices in Prom.ua",  Maksym Kindritskyi"Distributed graphs and microservices in Prom.ua",  Maksym Kindritskyi
"Distributed graphs and microservices in Prom.ua", Maksym Kindritskyi
 
"Rethinking the existing data loading and processing process as an ETL exampl...
"Rethinking the existing data loading and processing process as an ETL exampl..."Rethinking the existing data loading and processing process as an ETL exampl...
"Rethinking the existing data loading and processing process as an ETL exampl...
 
"How Ukrainian IT specialist can go on vacation abroad without crossing the T...
"How Ukrainian IT specialist can go on vacation abroad without crossing the T..."How Ukrainian IT specialist can go on vacation abroad without crossing the T...
"How Ukrainian IT specialist can go on vacation abroad without crossing the T...
 
"The Strength of Being Vulnerable: the experience from CIA, Tesla and Uber", ...
"The Strength of Being Vulnerable: the experience from CIA, Tesla and Uber", ..."The Strength of Being Vulnerable: the experience from CIA, Tesla and Uber", ...
"The Strength of Being Vulnerable: the experience from CIA, Tesla and Uber", ...
 
"[QUICK TALK] Radical candor: how to achieve results faster thanks to a cultu...
"[QUICK TALK] Radical candor: how to achieve results faster thanks to a cultu..."[QUICK TALK] Radical candor: how to achieve results faster thanks to a cultu...
"[QUICK TALK] Radical candor: how to achieve results faster thanks to a cultu...
 
"[QUICK TALK] PDP Plan, the only one door to raise your salary and boost care...
"[QUICK TALK] PDP Plan, the only one door to raise your salary and boost care..."[QUICK TALK] PDP Plan, the only one door to raise your salary and boost care...
"[QUICK TALK] PDP Plan, the only one door to raise your salary and boost care...
 
"4 horsemen of the apocalypse of working relationships (+ antidotes to them)"...
"4 horsemen of the apocalypse of working relationships (+ antidotes to them)"..."4 horsemen of the apocalypse of working relationships (+ antidotes to them)"...
"4 horsemen of the apocalypse of working relationships (+ antidotes to them)"...
 
"Reconnecting with Purpose: Rediscovering Job Interest after Burnout", Anast...
"Reconnecting with Purpose: Rediscovering Job Interest after Burnout",  Anast..."Reconnecting with Purpose: Rediscovering Job Interest after Burnout",  Anast...
"Reconnecting with Purpose: Rediscovering Job Interest after Burnout", Anast...
 
"Mentoring 101: How to effectively invest experience in the success of others...
"Mentoring 101: How to effectively invest experience in the success of others..."Mentoring 101: How to effectively invest experience in the success of others...
"Mentoring 101: How to effectively invest experience in the success of others...
 
"Mission (im) possible: How to get an offer in 2024?", Oleksandra Myronova
"Mission (im) possible: How to get an offer in 2024?",  Oleksandra Myronova"Mission (im) possible: How to get an offer in 2024?",  Oleksandra Myronova
"Mission (im) possible: How to get an offer in 2024?", Oleksandra Myronova
 
"Why have we learned how to package products, but not how to 'package ourselv...
"Why have we learned how to package products, but not how to 'package ourselv..."Why have we learned how to package products, but not how to 'package ourselv...
"Why have we learned how to package products, but not how to 'package ourselv...
 
"How to tame the dragon, or leadership with imposter syndrome", Oleksandr Zin...
"How to tame the dragon, or leadership with imposter syndrome", Oleksandr Zin..."How to tame the dragon, or leadership with imposter syndrome", Oleksandr Zin...
"How to tame the dragon, or leadership with imposter syndrome", Oleksandr Zin...
 

Dernier (9)

ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
 
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdfСИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
 
CVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdfCVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdf
 
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
 
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdfMalware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
 
2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf
 
MS Navigating Incident Response [RU].pdf
MS Navigating Incident Response [RU].pdfMS Navigating Incident Response [RU].pdf
MS Navigating Incident Response [RU].pdf
 
Ransomware_Q3 2023. The report [RU].pdf
Ransomware_Q3 2023.  The report [RU].pdfRansomware_Q3 2023.  The report [RU].pdf
Ransomware_Q3 2023. The report [RU].pdf
 
Cyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdfCyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdf
 

Oleksiy Shashlyuk "Named-entity recognition and name resolution using similarity queries"

  • 1.
  • 2. PitchBook - это все, что касается инвестиций. Основная цель компании - предоставить исчерпывающую информацию о том, кто (компания или физическое лицо), когда, как и на каких условиях инвестировал деньги в некоторые активы, и как они использовались для получения дивидендов. С самого начала PitchBook был сосредоточен на инвестициях в частный капитал (PE), затем плавно распространился на венчурный капитал (VC / Startups), частично раскрывая финансовые показатели публичных компаний. PitchBook отслеживает все возможные инвестиционные действия (сделки, фонды) и обеспечивает удобный для пользователя вид, позволяет искать, анализировать и экспортировать данные наиболее удобным для клиентов способом. О компании
  • 4. Постановка проблемы ● 20 000+ новостей в день ● 8 000 000+ компаний в БД ● 20+ отслеживаемых событий (Revenue, EBITDA, Public offering etc.) ● 5+ типов имен (FORMAL, FAMILIAR, FORMER, LEGAL, PARENT etc.)
  • 6. Предобученные модели ● 16 языков ● 3 модели для большинства языков (small, medium, large) ● 18 типов ● натренирована на корпусе OntoNote 5 ● есть возможность визуализации
  • 7. Предобученные модели ● 5 языков ● 3 модели (3, 4, 7 классов) ● натренированы на CoNLL 2003 ● требует установленной Java
  • 8. Предобученные модели ● 8 языков ● 2 модели (4, 8 классов) ● натренированы на CoNLL 2003 и OntoNotes ● выполнена как надстройка над PyTorch
  • 9. Тренировка собственной модели NER Обычно задача NER сводится к задаче классификации на уровне токенов, т.е. каждый токен относится к одному из нескольких возможных классов. BIOES-схема. К метке сущности (например, ORG для организаций) добавить некоторый префикс, который обозначает позицию токена в спане сущности: 1) B – beginning, первый токен в спане сущности 2) I – inside, токены в середине спана сущности 3) E – ending, последний токен в спане сущности 4) S – single, сущность состоит из одного слова.
  • 10. Тренировка собственной модели NER Добавление признаков: 1) word[:n] 2) word[-n:] 3) is_upper 4) is_lower 5) is_camelcase 6) postag (Part-of-speach) 7) lemma 8) stem 9) n_grams 10) ...
  • 11. Используем CRF (conditional random fields) Тренировка собственной модели NER
  • 12. енировка собственной модели NER Тренировка собственной модели NER Используем нейронные сети, например CharCNN-BLSTM-CRF
  • 13. Entity resolution (entity linking) Trie (нагруженное префиксное дерево)
  • 14. Entity resolution (entity linking) Similarity queries (using gensim library) gensim - это библиотека для тематического моделирования Основные понятия: 1) Document 2) Corpus 3) Vector 4) Model
  • 15. Entity resolution (entity linking) Document Corpus
  • 16. Entity resolution (entity linking) Vector ● TF-IDF ● word2vec ● doc2vec ● fastText ● GloVe ● BERT ● ...
  • 17. Entity resolution (entity linking) Model 1) TF-IDF 2) Latent Semantic Indexing, LSI 3) Latent Dirichlet Allocation, LDA 4) Random Projection, RP 5) Hierarchical Dirichlet Process, HDP 6) ...
  • 20. Entity resolution (entity linking) Soft Cosine Similarity
  • 21. Entity resolution (entity linking) Word Mover’s Distance 1. Obama speaks to the media in Illinois 2. The president greets the press in Chicago
  • 22. Entity resolution (entity linking) Query Similar keywords by Cosine similarity Similar keywords by Soft Cosine similarity Similar keywords by WMD similarity 000 squares foot car dealership 000 squares foot car dealership, 17000 squares foot, 16987 squares foot, squares foot, 9631 squares foot complex, buildable squares foot, squares foot facility, 50599 squares foot stores, 820000 squares foot facility, car dealership, car dealership service, used car dealership, 2 car dealership, new car dealership, squares, 78000 squares foot data center, foot, dealership information, dealership service, dealership 000 squares foot car dealership, beds die cutter, beds liners, hot wedges welder, indoor heated beds, truck beds liners, double beds rooms, double beds occupancy, brass beds restoration, hot rolled billets, hot rolled angles, retractable truck beds, fluid beds dryers, beds shaker, forged grinding balls, medical beds wedge, beds springs, bed-spring distributor, beds surfaces cleaners, hot rolled rings 000 squares foot car dealership, toyota car dealership, bmw car dealership, honda car dealership, ford car dealership, chevrolet car dealership, franchised car dealership, citroen car dealership, rain repellent car washing, car shuttle train loaders, car carpet & upholstery detailing, car dealership showroom, citroen car dealership franchise, car seating dealership, car washing brushes, convertible car dealer, waterless car washing, hopper car vibrators, pre-owned cars dealership, rearing trunk dealership plaques
  • 23. Entity resolution (entity linking) Cosine similarity Soft Cosine similarity WMD similarity Inference time 1.23 s 158 ms 59 ms Query time 1.03 ms 24 ms 100 ms