Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
SUR L'INSTANT DE PREMIER PASSAGE DANS LES RISQUES DYNAMIQUES ACTUARIELSMohamed Amine KACEF
Dans cette thèse, nous avons étudié le problème de l’instant de premier passage dans la tarification des options qui sont des produits financiers permettant le transfert des risques liés à la dynamique stochastique des marchés financiers. Dans ce contexte, nous avons développé un nouveau produit dérivé appelé option géométrique d'Istanbul. Cette option est une extension des options asiatiques car son prix dépend du prix moyen de l'actif sous-jacent sur une période de temps aléatoire. De plus, comme dans le cas des options à barrière, le gain d'une option géométrique d'Istanbul dépend de l’instant de premier passage d'un mouvement brownien générique puisque nous supposons que le modèle économique choisi pour l'étude est celui de Black-Scholes(1973). Une formule d'approximation est donnée sous forme fermée pour une option géométrique d'Istanbul dans le cas d'une option d'achat (Call) et également pour une option de vente (Put). Dans nos approches numériques, nous adoptons la technique de Monte-Carlo avec réduction de la variance de l'estimateur obtenu par la méthode des variables de contrôle. Cette approche numérique nous a permis de valider l'efficacité de nos formules d'approximation analytiques puisque le prix de l'option obtenu numériquement est très proche de celui que nous proposons pour divers paramètres d'entrée tels que le taux d'intérêt, la volatilité, le prix initial, le prix d'exercice et la date d'échéance. Par ailleurs, nous avons montré, numériquement, que le prix de notre option est relativement moins cher que celui d'une option arithmétique d'Istanbul proposée pour la première fois par Michel Jacques en 1979.
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
SUR L'INSTANT DE PREMIER PASSAGE DANS LES RISQUES DYNAMIQUES ACTUARIELSMohamed Amine KACEF
Dans cette thèse, nous avons étudié le problème de l’instant de premier passage dans la tarification des options qui sont des produits financiers permettant le transfert des risques liés à la dynamique stochastique des marchés financiers. Dans ce contexte, nous avons développé un nouveau produit dérivé appelé option géométrique d'Istanbul. Cette option est une extension des options asiatiques car son prix dépend du prix moyen de l'actif sous-jacent sur une période de temps aléatoire. De plus, comme dans le cas des options à barrière, le gain d'une option géométrique d'Istanbul dépend de l’instant de premier passage d'un mouvement brownien générique puisque nous supposons que le modèle économique choisi pour l'étude est celui de Black-Scholes(1973). Une formule d'approximation est donnée sous forme fermée pour une option géométrique d'Istanbul dans le cas d'une option d'achat (Call) et également pour une option de vente (Put). Dans nos approches numériques, nous adoptons la technique de Monte-Carlo avec réduction de la variance de l'estimateur obtenu par la méthode des variables de contrôle. Cette approche numérique nous a permis de valider l'efficacité de nos formules d'approximation analytiques puisque le prix de l'option obtenu numériquement est très proche de celui que nous proposons pour divers paramètres d'entrée tels que le taux d'intérêt, la volatilité, le prix initial, le prix d'exercice et la date d'échéance. Par ailleurs, nous avons montré, numériquement, que le prix de notre option est relativement moins cher que celui d'une option arithmétique d'Istanbul proposée pour la première fois par Michel Jacques en 1979.
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
Une présentation très simple montre les 10 algorithmes d’apprentissage automatique les plus populaires, qui donnent leurs définitions, leurs avantages, leurs inconvénients.
1 hour to browse the algos stars of machine learning. No code, big concepts with a little math. Linear regression, classification (logistic regression / svm / tree), neural network, deep learning...
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
Une présentation très simple montre les 10 algorithmes d’apprentissage automatique les plus populaires, qui donnent leurs définitions, leurs avantages, leurs inconvénients.
1 hour to browse the algos stars of machine learning. No code, big concepts with a little math. Linear regression, classification (logistic regression / svm / tree), neural network, deep learning...
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
En informatique, Opinion Mining est l'analyse des sentiments à partir de sources textuelles dématérialisées sur de grandes quantité de données (Big Data). Ce procédé apparait au début des années 2000 et connait un succès grandissant dû à l'abondance de données fournie par le réseau social Twitter. L'objectif de l'Opinion Mining est de pouvoir analyser une grande quantité de données afin d'en déduire les différents sentiments qui y sont exprimés. Les sentiments extraits peuvent ensuite faire l'objet de statistiques sur le ressenti général d'une communauté.
Digital image classification is the process of sorting pixels into categories based on their spectral values. There are supervised and unsupervised classification methods. Supervised classification involves using training sites of known categories to define statistical signatures for each class. Unsupervised classification groups pixels into clusters without prior class definitions. Validation is needed to assess classification accuracy by comparing results to ground truth data. Factors like training site selection and signature separability impact classification performance.
The document discusses various clustering algorithms and their applications to large, high-dimensional datasets. It introduces hierarchical clustering, which repeatedly combines the two closest clusters, as well as k-means clustering, which assigns points to k clusters based on minimizing distances to cluster centroids. The document also describes the BFR algorithm, an extension of k-means that can handle large datasets by summarizing clusters of points that are close together.
Slides de ma présentation sur le thème du Machine Learning lors du SEO Camp'US Paris 2016, le 8 avril dernier.
Au programme : quelques explications sur le Machine Learning et ses principes, des exemples concrets d'utilisation, et quelques pistes pour aller plus loin.
Plus d'infos : http://blog.1-clic.info/referencement/machine-learning-seocampus-paris-2016/
Le Machine Learning, sous-ensemble de l'Intelligence Artificielle, est la discipline donnant à un ordinateur la capacité d'apprendre sans avoir été explicitement programmé, en se basant sur des données d'entrée.
Systèmes de recommandations, détection de fraude, prédiction de ventes, segmentation de clients: ses champs d'applications sont nombreux. Venez découvrir à travers cette présentation ce qui se cache derrière ces mots, quels algorithmes existent, comment ils fonctionnent, avec quels outils, dans quel cas et comment les utiliser.
Par Yoann Benoit & Alban Phelip, consultants Xebia
La vidéo de la conférence est à retrouver sur : http://www.xebicon.fr/programme.html
Social Web and Semantic Web: towards synergy between folksonomies and ontologiesFreddy Limpens
Web social et web sémantique : tagging et ontologies.
L’essor du tagging et des folksonomies pour l’organisation des ressources partagées au sein du Web social et collaboratif constitue une opportunité pour l’acquisition des connaissances par ceux-là même qui les manipulent. Cependant l’absence de liens sémantiques entre les tags, ou la variabilité d’écriture de certains tags appauvrissent les potentiels de navigation et de recherche d’information. Pour remédier à ces limitations, nous proposons d’exploiter l’interaction entre les utilisateurs et les systèmes à base de folksonomies pour valider ou invalider des traitements automatiques effectués sur les tags. Ces opérations se basent sur notre modèle pour l’assistance à la structuration des folksonomies qui autorise des vues conflictuelles portant sur les liens entre les tags, tout en permettant aux concepteurs des systèmes d’exploiter la diversité de ces descriptions sémantiques afin d’offrir des fonctionnalités de navigation enrichies.
Este documento es una declaración de la Comisión Permanente de la Conferencia Episcopal Española sobre un anteproyecto de ley que legalizaría el aborto en España. La declaración critica el anteproyecto por 1) considerar el aborto un derecho que anula el derecho a la vida del no nacido, 2) usar la salud como excusa para eliminar vidas, y 3) negar o devaluar la dignidad humana del no nacido para justificar su eliminación. La declaración concluye que la ley propuesta causaría un grave daño al derecho
El documento describe el Club de Innovación, una asociación creada en 2003 entre INNSPIRAL y la Universidad Adolfo Ibáñez para ayudar a las grandes empresas a innovar. Actualmente tiene más de 40 socios en Chile pertenecientes a diferentes industrias. El Club ofrece varias actividades como CEOMeetings, Innovation Meetings y Work & Talk para promover el aprendizaje e intercambio de experiencias en innovación entre sus miembros.
El documento proporciona instrucciones en 10 pasos para crear una línea de tiempo en la página web Tiki-Toki. Los pasos incluyen registrarse en el sitio web, crear una nueva línea de tiempo, agregar títulos, fechas, descripciones e imágenes a eventos clave, e hipervincular las imágenes. El objetivo es crear una línea de tiempo interactiva sobre los cambios estructurales en Chile entre 1940-1960.
Diapositivas De Equipo 1 Desarrollo De Tec Y SostenibleIsai Luna
El documento habla sobre el desarrollo sostenible. Define el desarrollo sostenible como aquel que satisface las necesidades del presente sin comprometer la capacidad de las futuras generaciones para satisfacer sus propias necesidades. También señala que el desarrollo sostenible requiere un equilibrio entre el medio ambiente, la sociedad y la economía, y que debe buscar mejorar las condiciones de vida de todas las personas de manera equitativa y solidaria.
L’objet des paramètres statistiques est de résumer, à l’aide de quelques valeurs
clés, l’information donnée par l’observation d’une variable quantitative.
La recherche approchée de motifs : théorie et applications Ibrahim Chegrane
The approximate string matching is a fundamental and recurrent problem that arises in most computer science fields. This problem can be defined as follows:
\begin{quote}
\textit{Let $D=\{x_1,x_2,\ldots x_d\}$ be a set of $d$ words defined on an alphabet $\Sigma$, let $q$ be a query defined also on $\Sigma$, and let $k$ be a positive integer.\\
We want to build a data structure on $D$ capable of answering the following query: find all words in $D$ that are at most different from the query word $q$ with $k$ errors.}
\end{quote}
In this thesis, we study the approximate string matching methods in dictionaries, texts, and indexes, to propose practical methods that solve this problem efficiently. We explore this problem in three complementary directions:
1) The approximate string matching in the dictionary. We propose two solutions to this problem, the first one uses hash tables for $k \geq 2$, the second uses the Trie and reverse Trie, and it is restricted to (k = 1). The two solutions are adaptable, without loss of performance, to the approximate string matching in a text.
2) The approximate string matching for \textit{autocompletion}, which is, find all suffixes of a given prefix that may contain errors. We give a new solution better in practice than all the previous proposed solutions.
3) The problem of the alignment of biological sequences can be interpreted as an approximate string matching problem. We propose a solution for peers and multiple sequences alignment.
\medskip
All the results obtained showed that our algorithms, give the best performance on sets of practical data (benchmark from the real world). All our methods are proposed as libraries, and they are published online.
Résolution numérique de l'équation de Black Scholes en pythonAli SIDIBE
Dans ce présent travail, nous allons appliquer la méthode numérique pour l'équation différentielle vérifiée par le prix d'une option en finance, communément appelé l'équation de Black-Scholes.
La formule de Black-Scholes lie le prix d'une option à ses caractéristique par une équation différentielle partielle non linéaire. Elle s'est imposée comme une référence en termes de valorisation des options.
L'intérêt de ce présent travail est de résoudre cette équation différentielle par la méthode des différences finies (bien que la solution analytique existe) et l'implémenter en python. Pour cela, nous commencerons par présenter la méthode des différences finies dans un premier temps. Ensuite dans la deuxième partie, nous discrétiserons l'équation de black-scholes à l'aide des différentes schéma et pour finir l'implémentation en python en troisième partie.
2. Qu’est ce qu’un bon regroupement ?
Une bonne méthode de regroupement permet de
garantir
Une grande similarité intra-groupe
Une faible similarité inter-groupe
La qualité d’un regroupement dépend donc de la
mesure de similarité utilisée par la méthode et
de son implémentation
3
4. Mesurer la qualité d’un clustering
Métrique pour la similarité: La similarité est
exprimée par le biais d’une mesure de distance
Une autre fonction est utilisée pour la mesure de
la qualité
Les définitions de distance sont très différentes
que les variables soient des intervalles
(continues), catégories, booléennes ou ordinales
En pratique, on utilise souvent une pondération
des variables
5
6. Intervalle (discrètes)
Standardiser les données
Calculer l’écart absolu moyen:
s f = 1 (| x1 f − m f | + | x2 f − m f | +...+ | xnf − m f |)
n
où
m f = 1 (x1 f + x2 f
n
+ ... +
xnf )
.
Calculer la mesure standardisée (z-score)
xif − m f
zif =
sf
7
8. Similarité entre objets
Les distances expriment une similarité
Ex: la distance de Minkowski :
d (i, j) = q (| x − x |q + | x − x |q +...+ | x − x |q )
i1
j1
i2
j2
ip
jp
où i = (xi1, xi2, …, xip) et j = (xj1, xj2, …, xjp) sont deux objets
p-dimensionnels et q un entier positif
Si q = 1, d est la distance de Manhattan
d (i, j) =| x − x | + | x − x | + ...+ | x − x |
i1 j1 i2 j 2
ip jp
9
9. Similarité entre objets(I)
Si q = 2, d est la distance Euclidienne :
d (i, j) = (| x − x |2 + | x − x |2 +...+ | x − x |2 )
i1
j1
i2
j2
ip
jp
Propriétés
d(i,j) ≥ 0
d(i,i) = 0
d(i,j) = d(j,i)
d(i,j) ≤ d(i,k) + d(k,j)
10
10. Exemple: distance de Manhattan
Personne1
Personne2
Personne3
Personne4
Age
50
70
60
60
Salaire
11000
11100
11122
11074
Personne1
Personne2
Personne3
Personne4
Age
-2
2
0
0
Salaire
-0,5
0,175
0,324
0
d(p1,p2)=120
d(p1,p3)=132
Conclusion: p1 ressemble plus
à p2 qu’à p3
d(p1,p2)=4,675
d(p1,p3)=2,324
Conclusion: p1 ressemble
plus à p3 qu’à p2
11
11. Variables binaires
Une table de contingence pour données binaires
Objet j
1
Objet i
1
a
0
b
0
c
d
sum a + c b + d
sum
a +b
a= nombre de positions
où i a 1 et j a 1
c+d
p
Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1)
a=1, b=2, c=1, d=2
12
12. Mesures de distances
Coefficient d’appariement (matching) simple
(invariant pour variables symétriques):
b +c
d (i, j) =
a +b +c +d
Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1)
d(oi, oj)=3/5
Coefficient de Jaccard
d (i, j) =
b +c
a +b +c
d(oi, oj)=3/4
13
13. Variables binaires (I)
Variable symétrique: Ex. le sexe d’une personne, i.e
coder masculin par 1 et féminin par 0 c’est pareil que le
codage inverse
Variable asymétrique: Ex. Test HIV. Le test peut être
positif ou négatif (0 ou 1) mais il y a une valeur qui sera
plus présente que l’autre. Généralement, on code par 1
la modalité la moins fréquente
2 personnes ayant la valeur 1 pour le test sont plus
similaires que 2 personnes ayant 0 pour le test
14
15. Variables Nominales
Une généralisation des variables binaires, ex: rouge, vert
et bleu
Méthode 1: Matching simple
m: # d’appariements, p: # total de variables
p −m
d (i, j) = p
Méthode 2: utiliser un grand nombre de variables binaires
Créer une variable binaire pour chaque modalité (ex:
variable rouge qui prend les valeurs vrai ou faux)
16
16. Variables Ordinales
Une variable ordinale peut être discrète ou continue
L’ordre peut être important, ex: classement
Peuvent être traitées comme les variables intervalles
rif ∈ 1,..., M f }
{
remplacer x par son rang
if
Remplacer le rang de chaque variable par une valeur
dans [0, 1] en remplaçant la variable f dans l’objet I par
rif −
1
zif =
Mf −
1
Utiliser une distance pour calculer la similarité
17
17. En Présence de Variables de différents
Types
Pour chaque type de variables utiliser une mesure
adéquate. Problèmes: les clusters obtenus peuvent être
différents
On utilise une formule pondérée pour faire la
combinaison
p
(
(
Σ =1δ f ) d ij f )
d (i, j ) = f p ij ( f )
Σ =1δ
f
ij
f est binaire ou nominale:
dij(f) = 0 si xif = xjf , sinon dij(f) = 1
f est de type intervalle: utiliser une distance
normalisée
f est ordinale
zif = r −1
M −1
calculer les rangs r et
if
Ensuite traiter z comme une variable de type
if
intervalle
if
f
18
18. Approches de Clustering
Algorithmes de Partitionnement: Construire plusieurs
partitions puis les évaluer selon certains critères
Algorithmes hiérarchiques: Créer une décomposition
hiérarchique des objets selon certains critères
Algorithmes basés sur la densité: basés sur des notions de
connectivité et de densité
Algorithmes de grille: basés sur un structure à multiniveaux de granularité
Algorithmes à modèles: Un modèle est supposé pour
chaque cluster ensuite vérifier chaque modèle sur chaque
groupe pour choisir le meilleur
19
19. Algorithmes à partionnement
Construire une partition à k clusters d’une base D de n
objets
Les k clusters doivent optimiser le critère choisi
Global optimal: Considérer toutes les k-partitions
Heuristic methods: Algorithmes k-means et k-medoids
k-means (MacQueen’67): Chaque cluster est
représenté par son centre
k-medoids or PAM (Partition around medoids)
(Kaufman & Rousseeuw’87): Chaque cluster est
représenté par un de ses objets
20
20. La méthode des k-moyennes (K-Means)
L’algorithme k-means est en 4 étapes :
1.
1.
1.
1.
Choisir k objets formant ainsi k clusters
(Ré)affecter chaque objet O au cluster Ci de
centre Mi tel que dist(O,Mi) est minimal
Recalculer Mi de chaque cluster (le barycentre)
Aller à l’étape 2 si on vient de faire une
affectation
21
22. K-Means :Exemple (suite)
dist(3,M2)<dist(3,M3)3 passe dans C2. Tous les autres objets ne bougent
pas. C1={1}, M1=1, C2={2,3}, M2=2.5,C3={6,7,8,13,15,17} et M3= 66/6=11
dist(6,M2)<dist(6,M3)6 passe dans C2. Tous les autres objets ne bougent
pas. C1={1}, M1=1, C2={2,3,6}, M2=11/3=3.67, C3={7,8,13,15,17}, M3= 12
dist(2,M1)<dist(2,M2)2 passe en C1. dist(7,M2)<dist(7,M3) 7 passe en
C2. Les autres ne bougent pas. C1={1,2}, M1=1.5, C2={3,6,7}, M2=5.34,
C3= {8,13,15,17}, M3=13.25
dist(3,M1)<dist(3,M2)3 passe en 1. dist(8,M2)<dist(8,M3)8 passe en 2
C1={1,2,3}, M1=2, C2={6,7,8}, M2=7, C3={13,15,17}, M3=15
Plus rien ne bouge
23
24. Commentaires sur la méthode des K-Means
Force
Relativement efficace: O(tkn), où n est # objets, k est #
clusters, et t est # itérations. Normalement, k, t << n.
Tend à réduire
k
E = ∑∑
p∈
Ci
p − mi
2
i =1
Faiblesses
N’est pas applicable en présence d’attributs qui ne sont
pas du type intervalle (moyenne=?)
On doit spécifier k (nombre de clusters)
Les clusters sont construits par rapports à des objets
inexistants (les milieux)
Ne peut pas découvrir les groupes non-convexes
25
25. La méthode des K-Medoids (PAM)
Trouver des objets représentatifs (medoïdes)
dans les clusters (au lieu de la moyenne)
Principe
Commencer avec un ensemble de medoïdes
puis itérativement remplacer un par un autre si
ça permet de réduire la distance globale
Efficace pour des données de petite taille
26
26. Algorithme des k-Medoides
Choisir arbitrairement k medoides
Répéter
affecter chaque objet restant au medoide le plus proche
Choisir aléatoirement un non-medoide Or
Pour chaque medoide Oj
Calculer le coût TC du remplacement de Oj par Or
Si TC < 0 alors
Remplacer Oj par Or
Calculer les nouveaux clusters
Finsi
FinPour
Jusqu’à ce ce qu’il n’y ait plus de changement
27
27. PAM (Partitioning Around Medoids) (1987)
Choisir arbitrairement k objets représentatifs
Pour toute paire (h,j) d’objets t.q h est choisi et
j non, calculer le coût TC jh du remplacement
de j par h
Si TCih < 0, j est remplacé par h
Puis affecter chaque objet non sélectionné
au medoïde qui lui est le plus similaire
Répéter jusqu’à ne plus avoir de changements
28
28. La méthode des K-Medoids
TCjh représente le gain en distance globale que
l’on va avoir en remplaçant h par j
Si TCjh est négatif alors on va perdre en distance.
Ca veut dire que les clusters seront plus
compacts.
TCjh=Σi dist(j,h)-dist(j,i)= Σi Cijh
29
29. La méthode des K-Medoids: Exemple
Soit A={1,3,4,5,8,9}, k=2 et M={1,8} ensemble des medoides
C1={1,3,4} et C2={5,8,9}
E{1,8}=dist(3,1)2+dist(4,1)2+dist(5,8)2+dist(5,9)2+dist(9,8)2=39
Comparons 1 et 3M={3,8}C1={1,3,4,5} et C2={8,9}
E{3,8} =dist(1,3)2+dist(4,3)2+dist(5,3)2+dist(9,8)2=10
E {3,8} - E{1,8}= -29 <0 donc le remplacement est fait.
Comparons 3 et 4 M={4,8} C1 et C2 inchangés et
E{4,8}=dist(1,4)2+dist(3,4)2+dist(5,4)2+dist(8,9)2= 12 3 n’est pas
remplacé par 4
Comparons 3 et 5M={5,8} C1 et C2 inchangés et E{5,8}>E{3,8}
30
31. Clustering Hiérarchique
Utiliser la matrice de distances comme critère de
regroupement. k n’a pas à être précisé, mais a besoin
d’une condition d’arrêt
Etape
0
a
b
Etap
e1
Etap
e2
Etap
e4
ab
agglomerative
(AGNES)
abcde
c
cde
d
de
e
Etap
e4
Etap
e3
Etap
e3
Etap
e2
Etap
e1
Etap
e0
divisive
(DIANA)
32
32. AGNES (Agglomerative Nesting)
Utilise la matrice de dissimilarité.
Fusionne les nœuds qui ont la plus faible dissimilarité
On peut se retrouver dans la situation où tous les nœuds
sont dans le même groupe
10
10
10
9
9
8
8
7
7
6
6
5
5
4
4
4
3
3
3
2
2
2
1
1
1
9
8
7
6
5
0
0
0
1
2
3
4
5
6
7
8
9
10
0
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
33
5
6
7
8
9
10
33. DIANA (Divisive Analysis)
L’ordre inverse de celui d’AGNES
Il se peut que chaque objet forme à lui seul un
groupe
10
10
9
9
8
8
7
7
6
6
5
5
10
4
4
9
8
3
3
2
7
6
2
1
5
4
1
3
0
0
1
2
3
4
5
6
7
8
9
10
0
2
0
1
2
3
4
5
6
7
8
9
10
1
0
0
1
2
3
4
5
6
7
34
8
9
10
34. Critères de fusion-éclatement
Exemple: pour les méthodes agglomératives,
C1 et C2 sont fusionnés si
il existe o1 ∈ C1 et o2∈ C2 tels que
Lien
unique dist(o1,o2) ≤ seuil, ou
il n’existe pas o1 ∈ C1 et o2∈ C2 tels que
dist(o1,o2) ≥ seuil, ou
distance entre C1 et C2 ≤ seuil avec
dist ( C , C
1
2
)
1
=
dist(o1, o2)
∑
n1 * n2 o1∈C1 o2∈C2
,
et n1=|C1|.
Ces techniques peuvent être adaptées pour les
méthodes divisives
35
35. BIRCH (1996)
Birch: Balanced Iterative Reducing and Clustering using
Hierarchies
Construit incrémentalement un arbre (CF-tree : Clustering
Feature), une structure hiérarchique où chaque niveau
représente une phase de clustering
Phase 1: scanner la base pour construire le CF-tree
dans la mémoire
Phase 2: utiliser n’importe quel algorithme de clustering
sur les feuilles du CF-tree
Avantage: trouve les clusters en une seule passe sur la BD
Inconvénient: ne considère que les données numériques et
est sensible à l’ordre des enregistrements
36
38. CURE (Clustering Using REpresentatives )
Les méthodes précédentes donnent les groupes
(b)
CURE: (1998)
Arrête la création de clusters dès qu’on en a k
Utilise plusieurs points représentatifs clusters
39
39. Cure: l’algorithme
Prendre un sous-ensemble s
Partitionner s en p partitions de taille s/p
Dans chaque partition, créer s/pq clusters
Eliminer les exceptions (points aberrants)
Regrouper les clusters partiels
40
41. Cure: Rapprochement des points représentatifs
y
y
x
x
Rapprocher les points représentatifs vers le centre de
gravité par un facteur α.
Plusieurs points représentatifs permettent de figurer la
forme du cluster
42
42. Clustering de données Catégorielles :
ROCK
ROCK: Robust Clustering using linKs
Utilise les liens pour mesurer la similarité/proximité
N’est pas basé sur la notion de distance
Idée :
Fonction de similarité et voisins:
Let T1 = {1,2,3}, T2={3,4,5}
T1 ∩ T2
Sim(T1 , T2 ) =
T1 ∪ T2
{3}
1
Sim( T 1, T 2) =
= = .2
0
{ ,2,3,4,5}
1
5
43
43. Rock
Considérons 4 transactions et 6 produits t.q
T1={1,2,3,5} T2={2,3,4,5}
T3={1,4} et T4={6}
T1 peut être représentée par {1,1,1,0,1,0}
dist(T1,T2)=2 qui est la plus petite distance entre 2 transactions T1
et T2 dans même cluster. La moyenne de C1=(0.5,1,1,0.5,1,0).
C2={T3,T4} car dist(T3,T4)=3. Or T3 et T4 n’ont aucun produit en
commun !
Idée : se baser sur le nombre d’éléments en commun
Ce n’est pas suffisant {1,2} est plus proche de {1,2,3} que de
{1,2,3,4,5,6}
44
44. Rock: l’algorithme
Liens: Le nombre de voisins communs de 2
points
{1,2,3}, {1,2,4}, {1,2,5}, {1,3,4}, {1,3,5}
{1,4,5}, {2,3,4}, {2,3,5}, {2,4,5}, {3,4,5}
3
{1,2,3}
{1,2,4}
Algorithme
Prendre un sous ensemble
Regrouper avec les liens
45
45. Clustering basé sur la densité
Voit les clusters comme des régions denses séparées par
des régions qui le sont moins (bruit)
Deux paramètres:
Eps : Rayon maximum du voisinage
MinPts : Nombre minimum de points dans le voisinageEps d’un point
Voisinage : V Eps (p) :
{q ∈ D | dist(p,q) <= Eps}
Un point p est directement densité-accessible à partir de q
resp. à Eps , MinPts si
1) p ∈V Eps (q)
2) | V Eps (q) | >= MinPts
q
p
MinPts = 5
Eps = 1 cm
46
46. Clustering basé sur la densité
Accessibilité:
Connexité
p
p est accessible à partir de q resp.
à Eps, MinPts si il existe p1, …, pn,
p1 = q, pn = p t.q pi+1 est directement
densité accessible à partir de pi
p est connecté à q resp. à Eps,
MinPts si il existe un point o t.q p
et q accessibles à partir de o resp.
à Eps et MinPts.
p1
q
p
q
o
47
47. DBSCAN: Density Based Spatial
Clustering of Applications with Noise
Un cluster est l’ensemble maximal de points connectés
Découvre des clusters non nécessairement convexes
Bruit
Limite
Centr
Eps = 1cm
MinPts = 5
48
48. DBSCAN: l’algorithme
Choisir p
Récupérer tous les points accessibles à partir de p
resp. Eps et MinPts .
Si p est un centre, un cluster est formé.
si p est une limite, alors il n’y a pas de points
accessibles de p : passer à un autre point
Répéter le processus jusqu’à épuiser tous les points.
49
49. Découverte d’exceptions
Ce sont les objets qui sont considérablement
différents du reste, exemple: ornithorynque, kiwi
Problème
Trouver n objets qui sont les plus éloignés du
reste
Applications:
fraude
Analyse médicale
…
50
50. Approache statistique
On suppose que les données suivent une loi de
distribution statistique (ex: loi normale)
Utiliser les tests de discordance
Proba(Xi=val)< β alors X est une exception
Problèmes
La plupart des tests sont sur un attribut
Dans beaucoup de cas, la loi de distribution
est inconnue
51
51. Approche Basée sur la Distance
Une (α, β)-exception est un object O dans T tel
qu’il y a au moins α objets O’ de T avec
dist(O,O’)> β