SlideShare une entreprise Scribd logo
1  sur  35
Télécharger pour lire hors ligne
Насколько
уникально ФИО?
Жагорина Ксения, СКБ Контур
Все знают, что
ФИО не уникально…
Все знают, что
ФИО не уникально…
Иванов Иван Иванович 1.600 чел.
Предполагаемое
число людей с таким
ФИО в России
Все знают, что
ФИО не уникально…
Иванов Иван Иванович 1.600 чел.
Иванов Сергей Владимирович 6.200 чел.
Кузнецов Сергей Александрович 4.600 чел.
…
Предполагаемое
число людей с таким
ФИО в России
А на самом деле …
А на самом деле …
Статистика по базе данных ЕГРЮЛ
13.4 млн человек с ФИО и ИНН
0.999
0.96
0.68
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1 10 100 1 000 10 000 100 000 1 000 000 10 000 000
СуникальнымФИО
Количество людей в сообществе
Доля людей с уникальным ФИО
И какая же польза?
И какая же польза?
• Поиск «клонов»
И какая же польза?
• Поиск «клонов»
• Интеграция сервисов
База данных ЕГРЮЛ
13 М человек с ИНН
21 М упоминаний
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
13 М человек с ИНН
21 М упоминаний
База данных ЕГРЮЛ
с
13 М человек с ИНН
21 М упоминаний
11 М упоминаний
без ИНН
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
13 М человек с ИНН
21 М упоминаний
База данных ЕГРЮЛ
Семенов С.А.
Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
11 М упоминаний
без ИНН
13 М человек с ИНН
21 М упоминаний
База данных ЕГРЮЛ
Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
?
Семенов С.А.
11 М упоминаний
без ИНН
13 М человек с ИНН
21 М упоминаний
Как?
Постановка задачи
По двум упоминаниям с одинаковым ФИО
определить насколько вероятно, что они об
одном и том же человеке.
Методика тестирования
Тестирование – на упоминаниях с указанным ИНН
Оценка модели – точность и полнота
Точность =
|Найденные верные связи|
|Все найденные связи|
Полнота =
|Найденные верные связи|
|Все верные связи|
Модель на основе независимых
ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
Количество людей с данным ФИО – случайная величина:
𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝
𝑝 = 𝑃фио
n − количество людей в сообществе
Вероятность связи - вероятность того, что количество людей с
данным ФИО в сообществе меньше единицы
𝑃 = 𝑃 𝑁фио < 1
Модель на основе независимых
ФИО.
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
полнота,точностьв%
P(Nфио < 1)
точность
полнота
База данных ЕГРЮЛ
Семенов С.А.
Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
11 М упоминаний
без ИНН
13 М человек с ИНН
21 М упоминаний
с
База данных ЕГРЮЛ
Семенов С.А.
Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
ООО «Рога и Копыта»
Москва
ЗАО «ЗаМКАД»
Московская обл.
11 М упоминаний
без ИНН
13 М человек с ИНН
21 М упоминаний
Модель на основе зависимости ФИО и
региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃 О 𝑅Ф ≈ 𝑃 О Ф
𝑃 И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО ≈ 𝑃 𝑅 ∗ 𝑃 Ф 𝑅 ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 = 𝑅2
𝑃𝑅ФИО ≈ 𝑃 Ф ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 ≠ 𝑅2
Вероятность связи:
𝑃 = 𝑃 𝑁фио < 1 = 𝐹 𝑁фио
1
Модель на основе зависимости ФИО и
региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃 О 𝑅Ф ≈ 𝑃 О Ф
𝑃 И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО ≈ 𝑃 𝑅 ∗ 𝑃 Ф 𝑅 ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 = 𝑅2
𝑃𝑅ФИО ≈ 𝑃 Ф ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 ≠ 𝑅2
Вероятность связи:
𝑃 = 𝑃 𝑁фио < 1 = 𝐹 𝑁фио
1
Модель на основе зависимости
ФИО и региона.
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
Полнота,точностьв%
P(NRФИО < 1)
точность
полнота
Модель на основе независимых
ФИО.
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
полнота,точностьв%
P(Nфио < 1)
точность
полнота
Модель на основе зависимости
ФИО и региона. Результаты.
Рогов А.В.Рогов А.В.
?
ООО «Рога и Копыта»
Москва
R = Москва
ФИО = Рогов Александр Владимирович
P = P(NRФИО<1) = 0.684
P = 0.684
ЗАО «ЗаМКАД»
Москва
Модель на основе зависимости
ФИО и региона. Результаты.
Копытов Д.Е.Копытов Д.Е.
?
ООО «Рога и Копыта»
Москва
R = Москва
ФИО = Копытов Давид Ефремович
P = P(NRФИО<1) = 0.9857
P = 0.9857
ЗАО «ЗаМКАД»
Москва
Модель на основе зависимости
ФИО и региона. Результаты.
Семенов С.А.Семенов С.А.
?
ООО «Рога и Копыта»
Москва
R = Москва
ФИО = Семёнов Сергей Андреевич
P = P(NRФИО<1) = 0.396
P = 0.396
ЗАО «ЗаМКАД»
Москва
Вывод
Полнота 80% при точности 95%.
150 млн. новых связей.
Конец
Конец
ksenia.zhagorina@skbkontur.ru

Contenu connexe

Plus de it-people

«How I Learned to Stop Worrying and Love the BFG: нагрузочное тестирование со...
«How I Learned to Stop Worrying and Love the BFG: нагрузочное тестирование со...«How I Learned to Stop Worrying and Love the BFG: нагрузочное тестирование со...
«How I Learned to Stop Worrying and Love the BFG: нагрузочное тестирование со...
it-people
 
«Write once run anywhere — почём опиум для народа?» Игорь Новиков, Scalr
«Write once run anywhere — почём опиум для народа?» Игорь Новиков, Scalr«Write once run anywhere — почём опиум для народа?» Игорь Новиков, Scalr
«Write once run anywhere — почём опиум для народа?» Игорь Новиков, Scalr
it-people
 
«Gensim — тематическое моделирование для людей» Иван Меньших, Лев Константино...
«Gensim — тематическое моделирование для людей» Иван Меньших, Лев Константино...«Gensim — тематическое моделирование для людей» Иван Меньших, Лев Константино...
«Gensim — тематическое моделирование для людей» Иван Меньших, Лев Константино...
it-people
 
«Тотальный контроль производительности» Михаил Юматов, ЦИАН
«Тотальный контроль производительности» Михаил Юматов, ЦИАН«Тотальный контроль производительности» Михаил Юматов, ЦИАН
«Тотальный контроль производительности» Михаил Юматов, ЦИАН
it-people
 
«Детские болезни live-чата» Ольга Сентемова, Тинькофф Банк
«Детские болезни live-чата» Ольга Сентемова, Тинькофф Банк«Детские болезни live-чата» Ольга Сентемова, Тинькофф Банк
«Детские болезни live-чата» Ольга Сентемова, Тинькофф Банк
it-people
 
«Микросервисы наносят ответный удар!» Олег Чуркин, Rambler&Co
«Микросервисы наносят ответный удар!» Олег Чуркин, Rambler&Co«Микросервисы наносят ответный удар!» Олег Чуркин, Rambler&Co
«Микросервисы наносят ответный удар!» Олег Чуркин, Rambler&Co
it-people
 
«Память и Python. Что надо знать для счастья?» Алексей Кузьмин, ЦНС
«Память и Python. Что надо знать для счастья?» Алексей Кузьмин, ЦНС«Память и Python. Что надо знать для счастья?» Алексей Кузьмин, ЦНС
«Память и Python. Что надо знать для счастья?» Алексей Кузьмин, ЦНС
it-people
 
«Что такое serverless-архитектура и как с ней жить?» Николай Марков, Aligned ...
«Что такое serverless-архитектура и как с ней жить?» Николай Марков, Aligned ...«Что такое serverless-архитектура и как с ней жить?» Николай Марков, Aligned ...
«Что такое serverless-архитектура и как с ней жить?» Николай Марков, Aligned ...
it-people
 
«Python на острие бритвы: PyPy project» Александр Кошкин, Positive Technologies
«Python на острие бритвы: PyPy project» Александр Кошкин, Positive Technologies«Python на острие бритвы: PyPy project» Александр Кошкин, Positive Technologies
«Python на острие бритвы: PyPy project» Александр Кошкин, Positive Technologies
it-people
 
«Как сделать так, чтобы тесты на Swift не причиняли боль» Сычев Александр, Ra...
«Как сделать так, чтобы тесты на Swift не причиняли боль» Сычев Александр, Ra...«Как сделать так, чтобы тесты на Swift не причиняли боль» Сычев Александр, Ra...
«Как сделать так, чтобы тесты на Swift не причиняли боль» Сычев Александр, Ra...
it-people
 
«Кошелек или деньги: сложный выбор между памятью и процессором» Алексеенко Иг...
«Кошелек или деньги: сложный выбор между памятью и процессором» Алексеенко Иг...«Кошелек или деньги: сложный выбор между памятью и процессором» Алексеенко Иг...
«Кошелек или деньги: сложный выбор между памятью и процессором» Алексеенко Иг...
it-people
 
ЗАВИСИМОСТИ В КОМПОНЕНТНОМ ВЕБЕ, ПРИГОТОВЛЕННЫЕ ПРАВИЛЬНО, Гриненко Владимир,...
ЗАВИСИМОСТИ В КОМПОНЕНТНОМ ВЕБЕ, ПРИГОТОВЛЕННЫЕ ПРАВИЛЬНО, Гриненко Владимир,...ЗАВИСИМОСТИ В КОМПОНЕНТНОМ ВЕБЕ, ПРИГОТОВЛЕННЫЕ ПРАВИЛЬНО, Гриненко Владимир,...
ЗАВИСИМОСТИ В КОМПОНЕНТНОМ ВЕБЕ, ПРИГОТОВЛЕННЫЕ ПРАВИЛЬНО, Гриненко Владимир,...
it-people
 
"Как повысить мотивацию удаленных разработчиков и повысить значимость каждой ...
"Как повысить мотивацию удаленных разработчиков и повысить значимость каждой ..."Как повысить мотивацию удаленных разработчиков и повысить значимость каждой ...
"Как повысить мотивацию удаленных разработчиков и повысить значимость каждой ...
it-people
 

Plus de it-people (20)

«Gevent — быть или не быть?» Александр Мокров, Positive Technologies
«Gevent — быть или не быть?» Александр Мокров, Positive Technologies«Gevent — быть или не быть?» Александр Мокров, Positive Technologies
«Gevent — быть или не быть?» Александр Мокров, Positive Technologies
 
«Ещё один Поиск Яндекса» Александр Кошелев, Яндекс
«Ещё один Поиск Яндекса» Александр Кошелев, Яндекс«Ещё один Поиск Яндекса» Александр Кошелев, Яндекс
«Ещё один Поиск Яндекса» Александр Кошелев, Яндекс
 
«How I Learned to Stop Worrying and Love the BFG: нагрузочное тестирование со...
«How I Learned to Stop Worrying and Love the BFG: нагрузочное тестирование со...«How I Learned to Stop Worrying and Love the BFG: нагрузочное тестирование со...
«How I Learned to Stop Worrying and Love the BFG: нагрузочное тестирование со...
 
«Write once run anywhere — почём опиум для народа?» Игорь Новиков, Scalr
«Write once run anywhere — почём опиум для народа?» Игорь Новиков, Scalr«Write once run anywhere — почём опиум для народа?» Игорь Новиков, Scalr
«Write once run anywhere — почём опиум для народа?» Игорь Новиков, Scalr
 
«Gensim — тематическое моделирование для людей» Иван Меньших, Лев Константино...
«Gensim — тематическое моделирование для людей» Иван Меньших, Лев Константино...«Gensim — тематическое моделирование для людей» Иван Меньших, Лев Константино...
«Gensim — тематическое моделирование для людей» Иван Меньших, Лев Константино...
 
«Тотальный контроль производительности» Михаил Юматов, ЦИАН
«Тотальный контроль производительности» Михаил Юматов, ЦИАН«Тотальный контроль производительности» Михаил Юматов, ЦИАН
«Тотальный контроль производительности» Михаил Юматов, ЦИАН
 
«Детские болезни live-чата» Ольга Сентемова, Тинькофф Банк
«Детские болезни live-чата» Ольга Сентемова, Тинькофф Банк«Детские болезни live-чата» Ольга Сентемова, Тинькофф Банк
«Детские болезни live-чата» Ольга Сентемова, Тинькофф Банк
 
«Микросервисы наносят ответный удар!» Олег Чуркин, Rambler&Co
«Микросервисы наносят ответный удар!» Олег Чуркин, Rambler&Co«Микросервисы наносят ответный удар!» Олег Чуркин, Rambler&Co
«Микросервисы наносят ответный удар!» Олег Чуркин, Rambler&Co
 
«Память и Python. Что надо знать для счастья?» Алексей Кузьмин, ЦНС
«Память и Python. Что надо знать для счастья?» Алексей Кузьмин, ЦНС«Память и Python. Что надо знать для счастья?» Алексей Кузьмин, ЦНС
«Память и Python. Что надо знать для счастья?» Алексей Кузьмин, ЦНС
 
«Что такое serverless-архитектура и как с ней жить?» Николай Марков, Aligned ...
«Что такое serverless-архитектура и как с ней жить?» Николай Марков, Aligned ...«Что такое serverless-архитектура и как с ней жить?» Николай Марков, Aligned ...
«Что такое serverless-архитектура и как с ней жить?» Николай Марков, Aligned ...
 
«Python на острие бритвы: PyPy project» Александр Кошкин, Positive Technologies
«Python на острие бритвы: PyPy project» Александр Кошкин, Positive Technologies«Python на острие бритвы: PyPy project» Александр Кошкин, Positive Technologies
«Python на острие бритвы: PyPy project» Александр Кошкин, Positive Technologies
 
«PyWat. А хорошо ли вы знаете Python?» Александр Швец, Marilyn System
«PyWat. А хорошо ли вы знаете Python?» Александр Швец, Marilyn System«PyWat. А хорошо ли вы знаете Python?» Александр Швец, Marilyn System
«PyWat. А хорошо ли вы знаете Python?» Александр Швец, Marilyn System
 
«(Без)опасный Python», Иван Цыганов, Positive Technologies
«(Без)опасный Python», Иван Цыганов, Positive Technologies«(Без)опасный Python», Иван Цыганов, Positive Technologies
«(Без)опасный Python», Иван Цыганов, Positive Technologies
 
«Python of Things», Кирилл Борисов, Яндекс
«Python of Things», Кирилл Борисов, Яндекс«Python of Things», Кирилл Борисов, Яндекс
«Python of Things», Кирилл Борисов, Яндекс
 
«Как сделать так, чтобы тесты на Swift не причиняли боль» Сычев Александр, Ra...
«Как сделать так, чтобы тесты на Swift не причиняли боль» Сычев Александр, Ra...«Как сделать так, чтобы тесты на Swift не причиняли боль» Сычев Александр, Ra...
«Как сделать так, чтобы тесты на Swift не причиняли боль» Сычев Александр, Ra...
 
«Клиенту и серверу нужно поговорить» Прокопов Никита, Cognician
«Клиенту и серверу нужно поговорить» Прокопов Никита, Cognician«Клиенту и серверу нужно поговорить» Прокопов Никита, Cognician
«Клиенту и серверу нужно поговорить» Прокопов Никита, Cognician
 
«Кошелек или деньги: сложный выбор между памятью и процессором» Алексеенко Иг...
«Кошелек или деньги: сложный выбор между памятью и процессором» Алексеенко Иг...«Кошелек или деньги: сложный выбор между памятью и процессором» Алексеенко Иг...
«Кошелек или деньги: сложный выбор между памятью и процессором» Алексеенко Иг...
 
ЗАВИСИМОСТИ В КОМПОНЕНТНОМ ВЕБЕ, ПРИГОТОВЛЕННЫЕ ПРАВИЛЬНО, Гриненко Владимир,...
ЗАВИСИМОСТИ В КОМПОНЕНТНОМ ВЕБЕ, ПРИГОТОВЛЕННЫЕ ПРАВИЛЬНО, Гриненко Владимир,...ЗАВИСИМОСТИ В КОМПОНЕНТНОМ ВЕБЕ, ПРИГОТОВЛЕННЫЕ ПРАВИЛЬНО, Гриненко Владимир,...
ЗАВИСИМОСТИ В КОМПОНЕНТНОМ ВЕБЕ, ПРИГОТОВЛЕННЫЕ ПРАВИЛЬНО, Гриненко Владимир,...
 
ПРАКТИЧЕСКИЙ ОПЫТ ИСПОЛЬЗОВАНИЯ REACT NATIVE + REDUX, Краснояров Станислав, R...
ПРАКТИЧЕСКИЙ ОПЫТ ИСПОЛЬЗОВАНИЯ REACT NATIVE + REDUX, Краснояров Станислав, R...ПРАКТИЧЕСКИЙ ОПЫТ ИСПОЛЬЗОВАНИЯ REACT NATIVE + REDUX, Краснояров Станислав, R...
ПРАКТИЧЕСКИЙ ОПЫТ ИСПОЛЬЗОВАНИЯ REACT NATIVE + REDUX, Краснояров Станислав, R...
 
"Как повысить мотивацию удаленных разработчиков и повысить значимость каждой ...
"Как повысить мотивацию удаленных разработчиков и повысить значимость каждой ..."Как повысить мотивацию удаленных разработчиков и повысить значимость каждой ...
"Как повысить мотивацию удаленных разработчиков и повысить значимость каждой ...
 

К. Жагорина "Насколько уникально ФИО?" DUMP-2014

  • 2. Все знают, что ФИО не уникально…
  • 3. Все знают, что ФИО не уникально… Иванов Иван Иванович 1.600 чел. Предполагаемое число людей с таким ФИО в России
  • 4. Все знают, что ФИО не уникально… Иванов Иван Иванович 1.600 чел. Иванов Сергей Владимирович 6.200 чел. Кузнецов Сергей Александрович 4.600 чел. … Предполагаемое число людей с таким ФИО в России
  • 5. А на самом деле …
  • 6. А на самом деле … Статистика по базе данных ЕГРЮЛ 13.4 млн человек с ФИО и ИНН 0.999 0.96 0.68 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1 10 100 1 000 10 000 100 000 1 000 000 10 000 000 СуникальнымФИО Количество людей в сообществе Доля людей с уникальным ФИО
  • 7. И какая же польза?
  • 8. И какая же польза? • Поиск «клонов»
  • 9. И какая же польза? • Поиск «клонов» • Интеграция сервисов
  • 10. База данных ЕГРЮЛ 13 М человек с ИНН 21 М упоминаний
  • 11. База данных ЕГРЮЛ 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  • 12. База данных ЕГРЮЛ с 13 М человек с ИНН 21 М упоминаний 11 М упоминаний без ИНН
  • 13. База данных ЕГРЮЛ 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  • 14. База данных ЕГРЮЛ Семенов С.А. Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  • 15. База данных ЕГРЮЛ Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. ? Семенов С.А. 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  • 17.
  • 18. Постановка задачи По двум упоминаниям с одинаковым ФИО определить насколько вероятно, что они об одном и том же человеке.
  • 19. Методика тестирования Тестирование – на упоминаниях с указанным ИНН Оценка модели – точность и полнота Точность = |Найденные верные связи| |Все найденные связи| Полнота = |Найденные верные связи| |Все верные связи|
  • 20. Модель на основе независимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О Количество людей с данным ФИО – случайная величина: 𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝 𝑝 = 𝑃фио n − количество людей в сообществе Вероятность связи - вероятность того, что количество людей с данным ФИО в сообществе меньше единицы 𝑃 = 𝑃 𝑁фио < 1
  • 21. Модель на основе независимых ФИО. 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  • 22. База данных ЕГРЮЛ Семенов С.А. Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  • 23. с База данных ЕГРЮЛ Семенов С.А. Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. ООО «Рога и Копыта» Москва ЗАО «ЗаМКАД» Московская обл. 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  • 24. Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃 О 𝑅Ф ≈ 𝑃 О Ф 𝑃 И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО ≈ 𝑃 𝑅 ∗ 𝑃 Ф 𝑅 ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 = 𝑅2 𝑃𝑅ФИО ≈ 𝑃 Ф ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 ≠ 𝑅2 Вероятность связи: 𝑃 = 𝑃 𝑁фио < 1 = 𝐹 𝑁фио 1
  • 25. Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃 О 𝑅Ф ≈ 𝑃 О Ф 𝑃 И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО ≈ 𝑃 𝑅 ∗ 𝑃 Ф 𝑅 ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 = 𝑅2 𝑃𝑅ФИО ≈ 𝑃 Ф ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 ≠ 𝑅2 Вероятность связи: 𝑃 = 𝑃 𝑁фио < 1 = 𝐹 𝑁фио 1
  • 26. Модель на основе зависимости ФИО и региона. 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Полнота,точностьв% P(NRФИО < 1) точность полнота
  • 27. Модель на основе независимых ФИО. 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  • 28. Модель на основе зависимости ФИО и региона. Результаты. Рогов А.В.Рогов А.В. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Рогов Александр Владимирович P = P(NRФИО<1) = 0.684 P = 0.684 ЗАО «ЗаМКАД» Москва
  • 29. Модель на основе зависимости ФИО и региона. Результаты. Копытов Д.Е.Копытов Д.Е. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Копытов Давид Ефремович P = P(NRФИО<1) = 0.9857 P = 0.9857 ЗАО «ЗаМКАД» Москва
  • 30. Модель на основе зависимости ФИО и региона. Результаты. Семенов С.А.Семенов С.А. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Семёнов Сергей Андреевич P = P(NRФИО<1) = 0.396 P = 0.396 ЗАО «ЗаМКАД» Москва
  • 31. Вывод Полнота 80% при точности 95%. 150 млн. новых связей.
  • 32.
  • 33.