7. EXEMPLE:DATA.OPEN.AC.UK
Cours: 600 module de cours + nivaux, crédits, sujets, etc.
Publications: 30,000 articles de recherche + auteurs,
conférences, etc.
Podcasts: 2220 podcasts video et 1500 podcats audio +
liens vers les cours, etc.
Ressources éducationnelles ouvertes: 640 unités +
liens vers les cours, etc.
Videos Youtube: 900 videos + liens vers les cours et les
checheurs
Bâtiments: 100 Bâtiments + address et photos
Bibliothèque: 12,000 livres + liens vers les cours
Others...
24. (i.e. un chemin de relations, et une valeur) qui sont les plus
représentative du cluster (maximum F-Score).
Difficulté : On ne connaît pas le graphe à l'avance - il faut le
construire au fur et à mesure de l'exploration
EXEMPLEPLUSAVANCÉ:DEDALO( )LINKEDU.EU/DEDALO
Principe :
Un algorithme A* qui recherche les règles de la forme
X - p1 - p2-...- pn - valeur -> inCluster(X)
48. UNDERNIEREXEMPLEDE
RAISONNEMENTMETA
MESURERLEBIAISDANSLEDONNÉES
Selon WikiPedia (anglais): "A statistic is biased if it is
calculated in such a way that it is systematically different
from the population parameter of interest."
Hypothèse : Toute donnée sur le web est biaisée - avoir
conscience de ce biais est important.
Mais comment mesurer un biais sans connaître la
population de référence?
49. MESURERLEBIAISDANSLEDONNÉES
Compare les distributions de valeurs dans la projection du
jeu de données à tester sur un jeu de données lié avec les
distributions dans l'ensemble du jeu de données.
Utilise le test de Student (test t) pour tester la signification
des différences de distributions.
Tiddi et al. @ EKAW 2014
53. CONCLUSION/FUTUR
Le web sémantique avant:
La promesse d'un web intelligent, avec du sens et
des raisonnements
Le web sémantique maintenant:
Des données, des fois liées
Aller vers de nouvelles forme de raisonnement qui
s'adaptent aux caractéristiques des données liées
et qui font émerger le sens !