We'll consider standard and not very approaches to solving problems for NER and name resolution. Also, we'll see how we can use similarity queries for the name resolution and how the results depend on various types of similarity.
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
Лекция Сергея Царика и Антона Роменского в Школе вебмастеров: «Основные принципы ранжирования»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как работает поиск
При запросе пользователя к поисковой системе происходит множество процессов, которые позволяют дать наиболее релевантный ответ. Рассмотрим основные механизмы формирования выдачи: формулы, Матрикснет, персонализацию и обновления.
Что учитывается при ранжировании сайтов
Так как сайты разные и по-разному решают пользовательские задачи, при ранжировании поисковой системе нужно учитывать множество факторов. Поговорим о том, что обязательно должно быть на сайте для правильной индексации.
Ещё о факторах ранжирования
Какой контент действительно важен и как его правильно представить. Для правильного ранжирования сайта важно разобраться с его региональной привязкой. Разберёмся, какой регион присваивать сайту и как сделать это правильно.
Реальный кейс долгосрочной работы над позициями
Посмотрим на реальном примере, как изменялись основные жизненные характеристики (трафик, конверсии) сайта на пути в топ выдачи поисковых систем.
журба александр, Tex drive, презентация инвестору как «продать» себя и свой п...New Business Idea
В ходе лекции, совмещенного с практическим занятием, будут рассмотрены основные принципы составления презентационных материалов и проведения презентаций для инвестора. Будут рассмотрены реальные примеры презентаций, даны рекомендации по их составлению и процедуре контакта с инвесторами.
Продвижение интернет-проекта: о том, что сделать простоNetpeak
Простые в реализации рекомендации для продвижения интернет-проекта. Доклад был представлен в рамках VII Международного Фестиваля Маркетинга The marketing Jazz Fest 2011 Digital Experience
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
Лекция Сергея Царика и Антона Роменского в Школе вебмастеров: «Основные принципы ранжирования»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как работает поиск
При запросе пользователя к поисковой системе происходит множество процессов, которые позволяют дать наиболее релевантный ответ. Рассмотрим основные механизмы формирования выдачи: формулы, Матрикснет, персонализацию и обновления.
Что учитывается при ранжировании сайтов
Так как сайты разные и по-разному решают пользовательские задачи, при ранжировании поисковой системе нужно учитывать множество факторов. Поговорим о том, что обязательно должно быть на сайте для правильной индексации.
Ещё о факторах ранжирования
Какой контент действительно важен и как его правильно представить. Для правильного ранжирования сайта важно разобраться с его региональной привязкой. Разберёмся, какой регион присваивать сайту и как сделать это правильно.
Реальный кейс долгосрочной работы над позициями
Посмотрим на реальном примере, как изменялись основные жизненные характеристики (трафик, конверсии) сайта на пути в топ выдачи поисковых систем.
журба александр, Tex drive, презентация инвестору как «продать» себя и свой п...New Business Idea
В ходе лекции, совмещенного с практическим занятием, будут рассмотрены основные принципы составления презентационных материалов и проведения презентаций для инвестора. Будут рассмотрены реальные примеры презентаций, даны рекомендации по их составлению и процедуре контакта с инвесторами.
Продвижение интернет-проекта: о том, что сделать простоNetpeak
Простые в реализации рекомендации для продвижения интернет-проекта. Доклад был представлен в рамках VII Международного Фестиваля Маркетинга The marketing Jazz Fest 2011 Digital Experience
BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)Iosif Itkin
Exactpro is supporting the 3rd annual IT-conference YouCon to take place on 14th October in Saratov, Russia. Over 900 programmers, systems engineers and architects, software QA engineers, and marketing specialists will gather to discuss the latest trends in programming technology. It is the largest IT industry event in Saratov.
Iosif Itkin, CEO of Exactpro, part of London Stock Exchange Group, will deliver a "BDD. The Outer Limits" presentation named after Iosif's favorite Sci-Fi series.
The topics to be covered are:
Behavior Driven Development concepts
Applying BDD in trading and clearing systems
Specification by Example and using production data
Combining Model-based testing and BDD
The Outer Limits
There will be an opportunity to ask questions, share thoughts and expertise in BDD, or just chat with a representative at the Exactpro stand at any time during the event.
Don't miss out, stop by and ask how you can get your Exactpro souvenir :)
We look forward to meeting you there!
#Exactpro #Youconsaratov
Данный шаблон инвестиционной презентации был разработан на основе мировых практик, а также критериев и требований к материалам, которые мы применяем во ФРИИ.
Спасибо Максиму Штейгервальду и Инге Фокша за бесценные добавления и правки.
Все ссылки на источники вдохновения и благодарности внутри.
Примеры и совпадения случайны.
Если у вас есть вопросы и комментарии пишите на ikorolev (собака) iidf.ru
Keynote: http://bit.ly/1OwPiZi
PPT: http://bit.ly/1Kub5Ts
(блиц-доклад) «IT-Мастерская» - пример эффективного инструмента рекрутингаIT-Доминанта
(блиц-доклад)
«IT-Мастерская» - пример эффективного инструмента рекрутинга
Каланов Денис
Директор по развитию
IT-Доминанта
Айти-Событие
Россия, СПб
http://www.it-sobytie.ru/events/1889
проектирование, поддержка и контент интернет магазинаТауруна
Как правильно формировать требования к интернет-проекту, пример бизнес-модели интернет-магазина, детализация технического задания и подводные камни при оформлении договора на разработку, вопросы поддержки и развития интернет-магазина, риски аутсорса, и, конечно, грамотное управление контентом – об этом и многом другом в презентации "Проектирование, поддержка и контент интернет-магазина".
стратегическое планирование в интернет бизнесеDenis Zapirkin
2 из 3 презентаций Дениса Запиркина совместно с Нетологией о развитии бизнеса. Часть 2: стратегическое планирование и финансовые показатели в интернет бизнесе
"What does it really mean for your system to be available, or how to define w...Fwdays
We will talk about system monitoring from a few different angles. We will start by covering the basics, then discuss SLOs, how to define them, and why understanding the business well is crucial for success in this exercise.
"Microservices and multitenancy - how to serve thousands of databases in one ...Fwdays
Imagine you are designing a B2B service that will serve millions of businesses. This service will have dozens of different microservices with their own data, which can contain millions of records. How do you design such a database? Why is sharding not always the answer? What other options are there for such an architectural solution?
I'll tell you how we at Uspacy came to serve thousands of small databases instead of a few large ones, what we've encountered and what we plan to face)
Contenu connexe
Similaire à Oleksiy Shashlyuk "Named-entity recognition and name resolution using similarity queries"
BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)Iosif Itkin
Exactpro is supporting the 3rd annual IT-conference YouCon to take place on 14th October in Saratov, Russia. Over 900 programmers, systems engineers and architects, software QA engineers, and marketing specialists will gather to discuss the latest trends in programming technology. It is the largest IT industry event in Saratov.
Iosif Itkin, CEO of Exactpro, part of London Stock Exchange Group, will deliver a "BDD. The Outer Limits" presentation named after Iosif's favorite Sci-Fi series.
The topics to be covered are:
Behavior Driven Development concepts
Applying BDD in trading and clearing systems
Specification by Example and using production data
Combining Model-based testing and BDD
The Outer Limits
There will be an opportunity to ask questions, share thoughts and expertise in BDD, or just chat with a representative at the Exactpro stand at any time during the event.
Don't miss out, stop by and ask how you can get your Exactpro souvenir :)
We look forward to meeting you there!
#Exactpro #Youconsaratov
Данный шаблон инвестиционной презентации был разработан на основе мировых практик, а также критериев и требований к материалам, которые мы применяем во ФРИИ.
Спасибо Максиму Штейгервальду и Инге Фокша за бесценные добавления и правки.
Все ссылки на источники вдохновения и благодарности внутри.
Примеры и совпадения случайны.
Если у вас есть вопросы и комментарии пишите на ikorolev (собака) iidf.ru
Keynote: http://bit.ly/1OwPiZi
PPT: http://bit.ly/1Kub5Ts
(блиц-доклад) «IT-Мастерская» - пример эффективного инструмента рекрутингаIT-Доминанта
(блиц-доклад)
«IT-Мастерская» - пример эффективного инструмента рекрутинга
Каланов Денис
Директор по развитию
IT-Доминанта
Айти-Событие
Россия, СПб
http://www.it-sobytie.ru/events/1889
проектирование, поддержка и контент интернет магазинаТауруна
Как правильно формировать требования к интернет-проекту, пример бизнес-модели интернет-магазина, детализация технического задания и подводные камни при оформлении договора на разработку, вопросы поддержки и развития интернет-магазина, риски аутсорса, и, конечно, грамотное управление контентом – об этом и многом другом в презентации "Проектирование, поддержка и контент интернет-магазина".
стратегическое планирование в интернет бизнесеDenis Zapirkin
2 из 3 презентаций Дениса Запиркина совместно с Нетологией о развитии бизнеса. Часть 2: стратегическое планирование и финансовые показатели в интернет бизнесе
"What does it really mean for your system to be available, or how to define w...Fwdays
We will talk about system monitoring from a few different angles. We will start by covering the basics, then discuss SLOs, how to define them, and why understanding the business well is crucial for success in this exercise.
"Microservices and multitenancy - how to serve thousands of databases in one ...Fwdays
Imagine you are designing a B2B service that will serve millions of businesses. This service will have dozens of different microservices with their own data, which can contain millions of records. How do you design such a database? Why is sharding not always the answer? What other options are there for such an architectural solution?
I'll tell you how we at Uspacy came to serve thousands of small databases instead of a few large ones, what we've encountered and what we plan to face)
"Scaling RAG Applications to serve millions of users", Kevin GoedeckeFwdays
How we managed to grow and scale a RAG application from zero to thousands of users in 7 months. Lessons from technical challenges around managing high load for LLMs, RAGs and Vector databases.
"NATO Hackathon Winner: AI-Powered Drug Search", Taras KlobaFwdays
This is a session that details how PostgreSQL's features and Azure AI Services can be effectively used to significantly enhance the search functionality in any application.
In this session, we'll share insights on how we used PostgreSQL to facilitate precise searches across multiple fields in our mobile application. The techniques include using LIKE and ILIKE operators and integrating a trigram-based search to handle potential misspellings, thereby increasing the search accuracy.
We'll also discuss how the azure_ai extension on PostgreSQL databases in Azure and Azure AI Services were utilized to create vectors from user input, a feature beneficial when users wish to find specific items based on text prompts. While our application's case study involves a drug search, the techniques and principles shared in this session can be adapted to improve search functionality in a wide range of applications. Join us to learn how PostgreSQL and Azure AI can be harnessed to enhance your application's search capability.
"Frontline Battles with DDoS: Best practices and Lessons Learned", Igor IvaniukFwdays
At this talk we will discuss DDoS protection tools and best practices, discuss network architectures and what AWS has to offer. Also, we will look into one of the largest DDoS attacks on Ukrainian infrastructure that happened in February 2022. We'll see, what techniques helped to keep the web resources available for Ukrainians and how AWS improved DDoS protection for all customers based on Ukraine experience
"Black Monday: The Story of 5.5 Hours of Downtime", Dmytro DziubenkoFwdays
We will explore the most significant incident in our product's history. We'll discuss the causes that led to the failure, how our team responded, and the measures we took to prevent future incidents. Special attention will be paid to identifying the root cause of the incident and the role of the VACUUM mechanism in PostgreSQL.
"Reaching 3_000_000 HTTP requests per second — conclusions from participation...Fwdays
In this talk, we will get acquainted with TechEmpower Web Framework Benchmarks, consider generalized (programming language-independent) approaches to optimizing a web application and its environment to achieve extreme loads, and most importantly, how some of these things can be applied in practice in your projects.
"$10 thousand per minute of downtime: architecture, queues, streaming and fin...Fwdays
Direct losses from downtime in 1 minute = $5-$10 thousand dollars. Reputation is priceless.
As part of the talk, we will consider the architectural strategies necessary for the development of highly loaded fintech solutions. We will focus on using queues and streaming to efficiently work and manage large amounts of data in real-time and to minimize latency.
We will focus special attention on the architectural patterns used in the design of the fintech system, microservices and event-driven architecture, which ensure scalability, fault tolerance, and consistency of the entire system.
"Choosing proper type of scaling", Olena SyrotaFwdays
Imagine an IoT processing system that is already quite mature and production-ready and for which client coverage is growing and scaling and performance aspects are life and death questions. The system has Redis, MongoDB, and stream processing based on ksqldb. In this talk, firstly, we will analyze scaling approaches and then select the proper ones for our system.
"What I learned through reverse engineering", Yuri ArtiukhFwdays
In recent years, I have gained most of my knowledge through reverse engineering, how I did it and what I learned during this period, I decided to share. All this concerns graphic programming, performance, best practices in the frontend.
"Impact of front-end architecture on development cost", Viktor TurskyiFwdays
I have heard many times that architecture is not important for the front-end. Also, many times I have seen how developers implement features on the front-end just following the standard rules for a framework and think that this is enough to successfully launch the project, and then the project fails. How to prevent this and what approach to choose? I have launched dozens of complex projects and during the talk we will analyze which approaches have worked for me and which have not.
"Micro frontends: Unbelievably true life story", Dmytro PavlovFwdays
A real life story about the experience of using Micro frontends in an existing Enterprise product. Problems and their solutions on the way from the integration of a separate component to an extensible No-code platform.
"Objects validation and comparison using runtime types (io-ts)", Oleksandr SuhakFwdays
A common task in modern JS is parsing, validating and then comparing JSON objects. In this talk I will quickly go through most common ways to parse/validate and compare objects we use today and then focus more on how runtime types (based on io-ts) can help make such tasks easier and quicker to implement.
"JavaScript. Standard evolution, when nobody cares", Roman SavitskyiFwdays
Should we take a look at JavaScript when everyone is writing in TypeScript? What happens to the standard? What did we get last year? What new features can we expect this and next year? And most importantly, when will Observer be standardized?
Let's try to answer all these questions and even a little more, dream about the future, and enjoy that Observer is alive (or not).
"How Preply reduced ML model development time from 1 month to 1 day",Yevhen Y...Fwdays
Case study of how small team in Preply started with inheriting an existing ranking model to being able to produce a model per day. In this talk we'll cover steps to take if you find yourself in a similar situation: what kind of technology and processes can you introduce in order to achieve a great speedup in a development speed.
"GenAI Apps: Our Journey from Ideas to Production Excellence",Danil TopchiiFwdays
In my talk, I will tell about the world of GenAI services beyond GPT-wrappers and how we developed and scaled GenAI-centric applications. I'll share personal experiences about the obstacles, lessons, and strategic tools and methodologies that were key in taking GenAI applications from 0 to 1. I'll talk about the challenges we faced when launching LLM-based and image generative applications and delivering them to end users, and what conclusions and solutions were made.
"LLMs for Python Engineers: Advanced Data Analysis and Semantic Kernel",Oleks...Fwdays
Python engineers are introduced to the transformative potential of Large Language Models (LLMs) in the realm of advanced data analysis and the application of Semantic Kernel techniques. We will talk about how LLMs like ChatGPT can be integrated into Python environments to automate data processing, enhance predictive modeling, and unlock deeper insights from complex datasets. The session will delve into practical strategies for embedding Semantic Kernel methods within Python projects, illustrating how these advanced techniques can refine the accuracy of machine learning models by embedding domain-specific knowledge directly into the analysis process. Attendees will leave with a clear roadmap for leveraging the combined power of LLMs and Semantic Kernels, equipped with actionable knowledge to drive innovation in their data analysis projects and beyond, marking a significant leap forward in the evolution of Python engineering practices.
"Federated learning: out of reach no matter how close",Oleksandr LapshynFwdays
Federated learning. Algorithmic solution to the problem of privacy preserving ML. Pieces involved to support the training with NVIDIA Flare as example. How newest legislation affects federated learning.
"What is a RAG system and how to build it",Dmytro SpodaretsFwdays
Today, large language models are becoming an integral part of almost every IT solution. However, their use is often accompanied by certain limitations, such as the relevance of information or its depth and specificity. One of the ways to overcome these limitations is the method of working with LLMs - RAG (Retrieval Augmented Generation).
In an ideal world, you would write Python code and then it would work perfectly. But unfortunately, it doesn't work in this manner. In my talk, I'll cover how to efficiently debug your programs, especially in cloud environments or inside Kubernetes.
Oleksiy Shashlyuk "Named-entity recognition and name resolution using similarity queries"
1.
2. PitchBook - это все, что касается инвестиций. Основная цель компании - предоставить
исчерпывающую информацию о том, кто (компания или физическое лицо), когда, как и
на каких условиях инвестировал деньги в некоторые активы, и как они использовались
для получения дивидендов.
С самого начала PitchBook был сосредоточен на инвестициях в частный капитал (PE),
затем плавно распространился на венчурный капитал (VC / Startups), частично
раскрывая финансовые показатели публичных компаний.
PitchBook отслеживает все возможные инвестиционные действия (сделки, фонды) и
обеспечивает удобный для пользователя вид, позволяет искать, анализировать и
экспортировать данные наиболее удобным для клиентов способом.
О компании
4. Постановка проблемы
● 20 000+ новостей в день
● 8 000 000+ компаний в БД
● 20+ отслеживаемых событий (Revenue, EBITDA, Public offering etc.)
● 5+ типов имен (FORMAL, FAMILIAR, FORMER, LEGAL, PARENT etc.)
6. Предобученные модели
● 16 языков
● 3 модели для большинства языков (small, medium,
large)
● 18 типов
● натренирована на корпусе OntoNote 5
● есть возможность визуализации
7. Предобученные модели
● 5 языков
● 3 модели (3, 4, 7 классов)
● натренированы на CoNLL 2003
● требует установленной Java
8. Предобученные модели
● 8 языков
● 2 модели (4, 8 классов)
● натренированы на CoNLL 2003 и OntoNotes
● выполнена как надстройка над PyTorch
9. Тренировка собственной модели NER
Обычно задача NER сводится к задаче классификации на уровне токенов, т.е. каждый
токен относится к одному из нескольких возможных классов.
BIOES-схема. К метке сущности (например, ORG для организаций) добавить
некоторый префикс, который обозначает позицию токена в спане сущности:
1) B – beginning, первый токен в спане сущности
2) I – inside, токены в середине спана сущности
3) E – ending, последний токен в спане сущности
4) S – single, сущность состоит из одного слова.
10. Тренировка собственной модели NER
Добавление признаков:
1) word[:n]
2) word[-n:]
3) is_upper
4) is_lower
5) is_camelcase
6) postag (Part-of-speach)
7) lemma
8) stem
9) n_grams
10) ...
14. Entity resolution (entity linking)
Similarity queries (using gensim library)
gensim - это библиотека для тематического моделирования
Основные понятия:
1) Document
2) Corpus
3) Vector
4) Model
21. Entity resolution (entity linking)
Word Mover’s Distance
1. Obama speaks to the media in Illinois
2. The president greets the press in Chicago
22. Entity resolution (entity linking)
Query
Similar keywords by
Cosine similarity
Similar keywords by
Soft Cosine similarity
Similar keywords by
WMD similarity
000 squares foot car dealership
000 squares foot car dealership,
17000 squares foot,
16987 squares foot,
squares foot,
9631 squares foot complex,
buildable squares foot,
squares foot facility,
50599 squares foot stores,
820000 squares foot facility,
car dealership,
car dealership service,
used car dealership,
2 car dealership,
new car dealership,
squares,
78000 squares foot data center,
foot,
dealership information,
dealership service,
dealership
000 squares foot car dealership,
beds die cutter,
beds liners,
hot wedges welder,
indoor heated beds,
truck beds liners,
double beds rooms,
double beds occupancy,
brass beds restoration,
hot rolled billets,
hot rolled angles,
retractable truck beds,
fluid beds dryers,
beds shaker,
forged grinding balls,
medical beds wedge,
beds springs,
bed-spring distributor,
beds surfaces cleaners,
hot rolled rings
000 squares foot car dealership,
toyota car dealership, bmw car
dealership, honda car
dealership, ford car dealership,
chevrolet car dealership,
franchised car dealership,
citroen car dealership, rain
repellent car washing, car
shuttle train loaders, car carpet
& upholstery detailing,
car dealership showroom,
citroen car dealership franchise,
car seating dealership, car
washing brushes, convertible
car dealer, waterless car
washing, hopper car vibrators,
pre-owned cars dealership,
rearing trunk dealership
plaques
23. Entity resolution (entity linking)
Cosine similarity Soft Cosine similarity WMD similarity
Inference time 1.23 s 158 ms 59 ms
Query time 1.03 ms 24 ms 100 ms