03 кластеризация документов

Lidia Pivovarova
Lidia PivovarovaPostdoctoral Researcher, University of Helsinki à University of Helsinki
Кластеризация документов Лидия Михайловна Пивоварова Системы понимания текста
Введение ,[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Оценка качества кластеризации ,[object Object],[object Object],[object Object],[object Object]
Матрица несоответствий ,[object Object],8 0 0 c 0 2 2 b 0 2 2 a C B A К Л А С Т Е Р Ы КЛАССЫ
Метрики заимствованные из информационного поиска ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],tn fn Ненайденные fp tp Найденные Нерелевантные Релевантные
Применительно к кластеризации ,[object Object],[object Object],[object Object]
Чистота ,[object Object],[object Object],[object Object]
Энтропия ,[object Object],[object Object]
Взаимная информация ,[object Object],[object Object],n Класс n h n h,l   Кластер n l
Стабильность ,[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Векторная модель ,[object Object],[object Object],[object Object],[object Object],[object Object]
Предобработка  ,[object Object],[object Object],[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Иерархическая кластеризация ,[object Object],[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
«Разделяющая» кластеризация ,[object Object],[object Object],[object Object],[object Object]
Недостатки  kmeans ,[object Object],[object Object],[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Генеративные алгоритмы ,[object Object],[object Object]
Гауссова модель ,[object Object],[object Object],[object Object],[object Object],[object Object]
Гауссова модель ,[object Object],P(d|  θ ) -  вероятность того, что документ  d  принадлежит кластеру  θ , m –  размерность пространства,  μ  – центроид,  Σ  – матрица ковариации.  Общая вероятность (правдоподобие того, что данный документ описывается моделью): Задача кластеризации: максимизировать это число, максимизировав каждое из слагаемых (т.е. найдя наилучшее среднее и матрицу ковариации для каждого кластера).
Expectation maximization  ( EM -алгоритм) ,[object Object],[object Object],[object Object],[object Object]
EM -алгоритм ,[object Object],[object Object],[object Object],[object Object]
Модель фон Мисес-Фишера ,[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Спектральная кластеризация ,[object Object],[object Object],[object Object],[object Object]
Алгоритм  divide & merge ,[object Object],[object Object],[object Object],[object Object]
Алгоритм  divide & merge
Нечеткая совместная корреляция ,[object Object],[object Object],[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Снижение размерности ,[object Object],[object Object]
Метод главных компонентов ( PCA) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Метод главных компонентов ,[object Object],[object Object],[object Object],[object Object],[object Object]
Неотрицательная факторизация  (NMF) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Мягкая спектральная кластеризация ,[object Object],[object Object]
Мягкая спектральная кластеризация ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Lingo ,[object Object],[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Модели с учетом порядка слов ,[object Object],[object Object],[object Object]
Кластеризация на основе суффиксных деревьев ,[object Object],[object Object],[object Object],[object Object],dog chased cat ,  dog chased mailman
Кластеризация на основе суффиксных деревьев ,[object Object],[object Object],[object Object],[object Object],[object Object]
Граф документа ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Заключение ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Источники ,[object Object]
1 sur 46

Recommandé

clasification par
clasificationclasification
clasificationNLPseminar
750 vues28 diapositives
02 классификация документов par
02 классификация документов02 классификация документов
02 классификация документовLidia Pivovarova
1.6K vues14 diapositives
Sem01 naivebayes par
Sem01 naivebayesSem01 naivebayes
Sem01 naivebayesBulat Suleymanov
130 vues62 diapositives
Моделирование Гуманитарных процессов. Лекция 6 par
Моделирование Гуманитарных процессов. Лекция 6Моделирование Гуманитарных процессов. Лекция 6
Моделирование Гуманитарных процессов. Лекция 6Andrei V, Zhuravlev
3.6K vues21 diapositives
интелектуальный анализ экономических данных в системе каркас par
интелектуальный анализ экономических данных в системе каркасинтелектуальный анализ экономических данных в системе каркас
интелектуальный анализ экономических данных в системе каркасVladimir Burdaev
436 vues33 diapositives
Java. Наследование. par
Java. Наследование.Java. Наследование.
Java. Наследование.Unguryan Vitaliy
9.6K vues23 diapositives

Contenu connexe

Tendances

Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры" par
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"Anamezon
305 vues30 diapositives
20111202 machine learning_nikolenko_lecture08 par
20111202 machine learning_nikolenko_lecture0820111202 machine learning_nikolenko_lecture08
20111202 machine learning_nikolenko_lecture08Computer Science Club
307 vues49 diapositives
Java. Вложенные классы и интерфейсы. par
Java. Вложенные классы и интерфейсы.Java. Вложенные классы и интерфейсы.
Java. Вложенные классы и интерфейсы.Unguryan Vitaliy
10.3K vues39 diapositives
Рефлексия в java par
Рефлексия в javaРефлексия в java
Рефлексия в javaUnguryan Vitaliy
2.4K vues10 diapositives

Tendances(9)

Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры" par Anamezon
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Anamezon305 vues
Java. Вложенные классы и интерфейсы. par Unguryan Vitaliy
Java. Вложенные классы и интерфейсы.Java. Вложенные классы и интерфейсы.
Java. Вложенные классы и интерфейсы.
Unguryan Vitaliy10.3K vues
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про... par ЗПШ СПбГУ
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...

En vedette

עיר הטילים בצפון סוריה par
עיר הטילים בצפון סוריהעיר הטילים בצפון סוריה
עיר הטילים בצפון סוריהguestac9594
671 vues33 diapositives
Pecha Kucha Slideshow par
Pecha Kucha SlideshowPecha Kucha Slideshow
Pecha Kucha SlideshowPharuben
202 vues15 diapositives
Autopagerize on Firefox and Google Chrome par
Autopagerize on Firefox and Google ChromeAutopagerize on Firefox and Google Chrome
Autopagerize on Firefox and Google Chromeswdyh
1.4K vues41 diapositives
M1. sem web & ontology introd par
M1. sem web & ontology introdM1. sem web & ontology introd
M1. sem web & ontology introdMichele Missikoff
415 vues44 diapositives
PLC-Word Choice par
PLC-Word ChoicePLC-Word Choice
PLC-Word ChoiceHoly Trinity RCSSD #22
2.1K vues15 diapositives
1 par
11
1newprofitinc
557 vues10 diapositives

En vedette(20)

עיר הטילים בצפון סוריה par guestac9594
עיר הטילים בצפון סוריהעיר הטילים בצפון סוריה
עיר הטילים בצפון סוריה
guestac9594671 vues
Pecha Kucha Slideshow par Pharuben
Pecha Kucha SlideshowPecha Kucha Slideshow
Pecha Kucha Slideshow
Pharuben202 vues
Autopagerize on Firefox and Google Chrome par swdyh
Autopagerize on Firefox and Google ChromeAutopagerize on Firefox and Google Chrome
Autopagerize on Firefox and Google Chrome
swdyh1.4K vues
Challenging employeesmodernsamplefinal par Andrew Schwartz
Challenging employeesmodernsamplefinalChallenging employeesmodernsamplefinal
Challenging employeesmodernsamplefinal
Andrew Schwartz478 vues
Polovinka Lm Prezentaciya Vchitelya par LarisaMP
Polovinka Lm Prezentaciya VchitelyaPolovinka Lm Prezentaciya Vchitelya
Polovinka Lm Prezentaciya Vchitelya
LarisaMP199 vues
La5 Programming par Cma Mohd
La5 ProgrammingLa5 Programming
La5 Programming
Cma Mohd503 vues
孩子的心 par nonnon
孩子的心孩子的心
孩子的心
nonnon701 vues

Similaire à 03 кластеризация документов

Karkas интеллектуальный анализ par
Karkas интеллектуальный анализKarkas интеллектуальный анализ
Karkas интеллектуальный анализVladimir Burdaev
327 vues20 diapositives
Введение в машинное обучение par
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучениеGrigory Sapunov
2.4K vues111 diapositives
Практический курс «Основы Data Mining для всех» par
Практический курс «Основы Data Mining для всех»Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»ScienceHunter1
333 vues45 diapositives
Geo sib 2012 par
Geo sib 2012Geo sib 2012
Geo sib 2012InterExpo Geo-siberia
328 vues26 diapositives
Алгоритмы классификации в машинном обучении par
Алгоритмы классификации в машинном обученииАлгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обученииWitology
2.4K vues28 diapositives
Razinkov par
RazinkovRazinkov
Razinkovsirchaplin
163 vues32 diapositives

Similaire à 03 кластеризация документов(20)

Karkas интеллектуальный анализ par Vladimir Burdaev
Karkas интеллектуальный анализKarkas интеллектуальный анализ
Karkas интеллектуальный анализ
Vladimir Burdaev327 vues
Введение в машинное обучение par Grigory Sapunov
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучение
Grigory Sapunov2.4K vues
Практический курс «Основы Data Mining для всех» par ScienceHunter1
Практический курс «Основы Data Mining для всех»Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»
ScienceHunter1333 vues
Алгоритмы классификации в машинном обучении par Witology
Алгоритмы классификации в машинном обученииАлгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обучении
Witology2.4K vues
L7:Задача кластеризации. Метрики качества par Technosphere1
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качества
Technosphere11.7K vues
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами par Yandex
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиСергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
Yandex1.5K vues
Лекция 6_принципы ООП : инкапсуляция, наследование par metaform
Лекция 6_принципы ООП : инкапсуляция, наследованиеЛекция 6_принципы ООП : инкапсуляция, наследование
Лекция 6_принципы ООП : инкапсуляция, наследование
metaform6.9K vues
Типы данных par MonsterXX
Типы данныхТипы данных
Типы данных
MonsterXX167 vues
Конспект лекций по курсу "Шаблоны разработки ПО" par Sergey Nemchinsky
Конспект лекций по курсу "Шаблоны разработки ПО"Конспект лекций по курсу "Шаблоны разработки ПО"
Конспект лекций по курсу "Шаблоны разработки ПО"
Sergey Nemchinsky7.9K vues
Deep Learning and Convolutional Networks par AlignedResearch
Deep Learning and Convolutional NetworksDeep Learning and Convolutional Networks
Deep Learning and Convolutional Networks
AlignedResearch282 vues
Классификация текстовых документов на естественных языках par Сергей Пономарев
Классификация текстовых документов на естественных языкахКлассификация текстовых документов на естественных языках
Классификация текстовых документов на естественных языках
Технологический стек классификации текстов на естественных языках par Сергей Пономарев
Технологический стек классификации текстов на естественных языкахТехнологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языках

Plus de Lidia Pivovarova

Classification and clustering in media monitoring: from knowledge engineering... par
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Lidia Pivovarova
189 vues39 diapositives
Convolutional neural networks for text classification par
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classificationLidia Pivovarova
1.3K vues24 diapositives
Grouping business news stories based on salience of named entities par
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesLidia Pivovarova
204 vues27 diapositives
Интеллектуальный анализ текста par
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текстаLidia Pivovarova
986 vues52 diapositives
AINL 2016: Yagunova par
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: YagunovaLidia Pivovarova
549 vues29 diapositives
AINL 2016: Kuznetsova par
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: KuznetsovaLidia Pivovarova
407 vues29 diapositives

Plus de Lidia Pivovarova(20)

Classification and clustering in media monitoring: from knowledge engineering... par Lidia Pivovarova
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
Lidia Pivovarova189 vues
Convolutional neural networks for text classification par Lidia Pivovarova
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
Lidia Pivovarova1.3K vues
Grouping business news stories based on salience of named entities par Lidia Pivovarova
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
Lidia Pivovarova204 vues
Интеллектуальный анализ текста par Lidia Pivovarova
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
Lidia Pivovarova986 vues
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr... par Lidia Pivovarova
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
Lidia Pivovarova400 vues

03 кластеризация документов