3. Все знают, что
ФИО не уникально…
Иванов Иван Иванович 1.600 чел.
Предполагаемое
число людей с таким
ФИО в России
4. Все знают, что
ФИО не уникально…
Иванов Иван Иванович 1.600 чел.
Иванов Сергей Владимирович 6.200 чел.
Кузнецов Сергей Александрович 4.600 чел.
…
Предполагаемое
число людей с таким
ФИО в России
6. А на самом деле …
Статистика по базе данных ЕГРЮЛ
13.4 млн человек с ФИО и ИНН
0.999
0.96
0.68
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1 10 100 1 000 10 000 100 000 1 000 000 10 000 000
СуникальнымФИО
Количество людей в сообществе
Доля людей с уникальным ФИО
18. Постановка задачи
По двум упоминаниям с одинаковым ФИО
определить насколько вероятно, что они об
одном и том же человеке.
19. Методика тестирования
Тестирование – на упоминаниях с указанным ИНН
Оценка модели – точность и полнота
Точность =
|Найденные верные связи|
|Все найденные связи|
Полнота =
|Найденные верные связи|
|Все верные связи|
20. Модель на основе независимых
ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
Количество людей с данным ФИО – случайная величина:
𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝
𝑝 = 𝑃фио
n − количество людей в сообществе
Вероятность связи - вероятность того, что количество людей с
данным ФИО в сообществе меньше единицы
𝑃 = 𝑃 𝑁фио < 1
22. База данных ЕГРЮЛ
Семенов С.А.
Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
11 М упоминаний
без ИНН
13 М человек с ИНН
21 М упоминаний
23. с
База данных ЕГРЮЛ
Семенов С.А.
Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
ООО «Рога и Копыта»
Москва
ЗАО «ЗаМКАД»
Московская обл.
11 М упоминаний
без ИНН
13 М человек с ИНН
21 М упоминаний
24. Модель на основе зависимости ФИО и
региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃 О 𝑅Ф ≈ 𝑃 О Ф
𝑃 И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО ≈ 𝑃 𝑅 ∗ 𝑃 Ф 𝑅 ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 = 𝑅2
𝑃𝑅ФИО ≈ 𝑃 Ф ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 ≠ 𝑅2
Вероятность связи:
𝑃 = 𝑃 𝑁фио < 1 = 𝐹 𝑁фио
1
25. Модель на основе зависимости ФИО и
региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃 О 𝑅Ф ≈ 𝑃 О Ф
𝑃 И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО ≈ 𝑃 𝑅 ∗ 𝑃 Ф 𝑅 ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 = 𝑅2
𝑃𝑅ФИО ≈ 𝑃 Ф ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 ≠ 𝑅2
Вероятность связи:
𝑃 = 𝑃 𝑁фио < 1 = 𝐹 𝑁фио
1
26. Модель на основе зависимости
ФИО и региона.
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
Полнота,точностьв%
P(NRФИО < 1)
точность
полнота
28. Модель на основе зависимости
ФИО и региона. Результаты.
Рогов А.В.Рогов А.В.
?
ООО «Рога и Копыта»
Москва
R = Москва
ФИО = Рогов Александр Владимирович
P = P(NRФИО<1) = 0.684
P = 0.684
ЗАО «ЗаМКАД»
Москва
29. Модель на основе зависимости
ФИО и региона. Результаты.
Копытов Д.Е.Копытов Д.Е.
?
ООО «Рога и Копыта»
Москва
R = Москва
ФИО = Копытов Давид Ефремович
P = P(NRФИО<1) = 0.9857
P = 0.9857
ЗАО «ЗаМКАД»
Москва
30. Модель на основе зависимости
ФИО и региона. Результаты.
Семенов С.А.Семенов С.А.
?
ООО «Рога и Копыта»
Москва
R = Москва
ФИО = Семёнов Сергей Андреевич
P = P(NRФИО<1) = 0.396
P = 0.396
ЗАО «ЗаМКАД»
Москва