SlideShare une entreprise Scribd logo
1  sur  28
Télécharger pour lire hors ligne
L'intelligence augmentée
Aider les hommes à prendre des décisions plus éclairées
Livre blanc d'entreprise
Table des matières
3	 L'intelligence artificielle pour faciliter la prise de décision
4	 Le théorème de Bayes
6	 La théorie de l'information
7	 Analyse structurée
7	 Analyse des graphes
8	 Analyse prédictive
9	 Reconnaissance de formes
9	 Reconnaissance des formes textuelles
9	 Recherche de base
10	 Recherche conceptuelle
11	 Agents conceptuels
11	 Etablissement de liens hypertextes
11	 Profils d'utilisateur
12	 Catégories et clusters
12	 La correspondance polyvalente, l'atout de la stratégie d'IDOL
13	Classification
13	Catégorisation
14	Clustering
15	Eduction
16	 Analyse des sentiments
16	 Classification des contenus multimédias
17	 Reconnaissance des formes audio
17	 Conversion de la parole en texte
18	 Personnalisation linguistique et adaptation acoustique
18	 Analyse audio
19	 Reconnaissance sonore
19	 Recherche d'éléments phonétiques
20	 Reconnaissance des formes d'image
21	 Reconnaissance optique de caractères
21	 Reconnaissance des codes-barres
21	 Traitement des images humaines
22	 Reconnaissance faciale
23	 Reconnaissance d'objets
24	 Classification des images
25	 Vision artificielle géométrique
25	 Cartographie et localisation simultanées
27	 Reconstruction 3D
27	 Détection des changements
Livre blanc d'entreprise
L'intelligence artificielle pour faciliter la prise de décision
Lorsque nous avons compris que les ordinateurs pouvaient réaliser des calculs qui prendraient des
semaines aux humains, ou que nous serions incapables d'effectuer, nous avons réalisé que nous
pourrions faire faire aux machines tout ce que nous pouvons faire. Ce n'est pas une coïncidence
si l'heure de gloire de la science-fiction a débuté en même temps que les grandes avancées
informatiques et spatiales après la seconde guerre mondiale. La majorité des visions futuristes
intégraient des technologies non humaines dont les capacités dépassaient grandement celles de
leurs créateurs mortels.
L'intelligence artificielle est déjà partout autour de nous. Les capteurs qui nous aident à déterminer
le moment optimal pour changer nos feux de croisement, les machines à laver qui s'adaptent
automatiquement à la quantité de linge et la jouabilité de nos jeux favoris sur nos smartphones ne
sont que quelques exemples parmi tant d'autres. Même le système qui empêche un
micro-ondes de démarrer parce que la porte est ouverte est un exemple d'intelligence artificielle
en action. Les ordinateurs sont excellents pour prendre des décisions lorsqu'ils disposent de toutes
les informations pertinentes, et ne laissent rien au hasard. Ces système sont appelés systèmes
déterministes entièrement observables. Pour cette raison, les ordinateurs sont bien meilleurs que les
humains aux échecs, mais perdent au poker.
Mais pendant que nos machines entretiennent parfaitement nos jardins et nous disent la date
exacte à laquelle réserver nos vacances pour bénéficier d'une météo parfaite, la plupart des
observateurs du monde de l'intelligence artificielle ne remarquent pas un aspect essentiel : lorsque
l'on s'intéresse aux éléments les plus humains de notre existence, c'est-à-dire nos interactions, nos
décisions, et nos intérêts, les machines ont bien moins de choses à offrir. Nous ne voulons pas que
la machine choisisse quelle fleur planter, nous voulons qu'elle exécute nos souhaits rapidement
et efficacement. Nous souhaitons encore moins qu'un ordinateur choisisse notre destination de
vacances, même si nous lui demandons de l'aide pour prendre une décision intelligente et en toute
connaissance de cause.
Dès sa conception, HPE IDOL a proposé un nombre de techniques innovantes d'analyse des
données qui permettent d'automatiser et d'améliorer le traitement des informations humaines
de tous types. Notre but n'est pas que la solution prenne la décision à la place des hommes, mais
qu'elle leur fournisse les informations nécessaires au meilleur plan d'action. Cette approche s'appelle
l'intelligence augmentée.
Dans le domaine de l'intelligence augmentée, IDOL utilise un large éventail de théories et de
techniques pour traiter les informations humaines et en extraire du sens. Il est indispensable
de présenter ici les principales théories et leur utilisation qui permettent d'optimiser les solutions
de certaines des plus grandes entreprises du monde.
Les hommes cherchent à rendre les ordinateurs intelligents
depuis qu'ils les ont inventés. La notion d'intelligence
artificielle renvoie à un avenir contrôlé par les robots et dans
lequel les humains seront devenus obsolètes. Au contraire, la
plate-forme HPE IDOL, solution de pointe dans le domaine
de la recherche et de l'analyse des données d'entreprise,
s'appuie sur des techniques innovantes d'intelligence artificielle
pour automatiser et améliorer le traitement des informations
humaines. Elle aide les hommes à prendre de meilleures
décisions, au lieu de leur enlever ce pouvoir. Cette approche
s'appelle l'intelligence augmentée. Ce document décrit les
principales techniques d'analyse de ces informations.
Livre blanc d'entreprise Page 3
Le théorème de Bayes
Les bases théoriques de l'approche d'IDOL dans le domaine du traitement des informations
humaines datent de Thomas Bayes, pasteur anglais du XVIIIe
siècle, dont les travaux sur les
probabilités mathématiques ont été publiés de manière posthume (« Philosophical Transactions
of the Royal Society of London », 1763). Les théories de Bayes étaient centrées sur le calcul des
relations de probabilité entre plusieurs variables et sur la détermination de l'impact d'une variable
sur l'autre. Son théorème repose sur une simple équation reliant les probabilités conditionnelles de
plusieurs variables quelconques.
La puissance du théorème de Bayes réside dans son application, qui permet de gérer des ensembles
de données complexes. Il fournit un cadre mathématique décrivant la manière dont le modèle d'un
système doit être mis à jour en fonction des observations qui ont été faites de ce système. Cette
seule interprétation supprime le recours à des modèles a priori complexes, qui prétendent décrire la
manière dont un système fonctionne mais créent plutôt automatiquement un modèle personnalisé
qui s'adapte aux données en question.
Prenons par exemple un corpus de textes utilisés pour créer un système de récupération
de documents. Les modèles linguistiques complexes qui prétendent comprendre le français
fonctionneront correctement sur la plupart des données, mais échoueront à analyser le jargon
spécifique à un secteur, les néologismes ou les produits et usages spécifiques à un client.
Comparons maintenant avec le système de Bayes. Un modèle linguistique extrêmement basique
est d'abord utilisé, puis mis à jour à l'aide du théorème de Bayes pour former un modèle à la fois
spécifique au secteur et à ce corpus de documents. Non seulement cette approche ne dépend
pas de la langue, mais encore elle se met à jour automatiquement dès que de nouvelles données
contenant de nouveaux mots sont ajoutées ou que des mots existants sont utilisés d'une autre
manière, afin de garantir l'actualisation permanente du modèle.
P(A|B) =
P(A) P(B|A)
P(B)
Livre blanc d'entreprise Page 4
De même, dans le domaine de la sécurité et de la surveillance, le théorème de Bayes offre une
méthode d'interprétation polyvalente pour analyser la gamme étendue d'activités capturées par un
ensemble de caméras vidéo. Les caméras de sécurité se sont tellement multipliées que les hommes
ne sont plus capables de détecter les problèmes sur tous les écrans. Les logiciels de surveillance
intégrant des modèles prédéfinis permettant d'identifier les comportements inhabituels sont en
fait uniquement capables de détecter une activité qu'ils sont entraînés à reconnaître. Les modules
d'IDOL, au contraire, ne sont pas encombrés de modèles prédéfinis et peuvent utiliser les flux vidéo
pour déterminer les comportements normaux et ainsi détecter rapidement les comportements qui
sont hors cadre et déclencher l'envoi d'une alerte au personnel de sécurité.
L'une des raisons pour lesquelles le théorème de Bayes fonctionne si bien sur le traitement des
données humaines est que les hommes sont des créatures bayésiennes. Nous sommes nés sans
modèles préconçus et sans savoir comment le monde fonctionne. Chacune de nos observations
met à jour notre modèle du monde sur ce qui est normal ou non. Par conséquent, il est facile pour
une personne de regarder un flux vidéo et de déterminer un comportement normal dans une zone
spécifique, et un comportement inhabituel devient tout de suite évident.
Un argument statistique traditionnellement cité est celui de la pièce lancée 100 fois et qui tombe
toujours du côté face, mais qui a toujours la possibilité de tomber sur le côté pile au prochain
lancer. L'approche de Bayes consiste à dire que 100 lancers tombant du côté face sont la preuve
que la pièce est truquée ou qu'il y a deux côtés face. Une fois encore, l'approche humaine est
intrinsèquement celle décrite par Bayes. Seule une personne courageuse parierait sur un lancer pile
après avoir vu 100 lancers face consécutifs.
Dans le domaine de la récupération des données, il est souvent difficile de juger de la pertinence
d'un document par rapport à une requête ou à un profil d'agent donné. Le théorème de Bayes
permet d'associer ce jugement aux détails dont nous disposons déjà, par exemple le modèle
d'un agent. De manière plus formelle, la distribution a posteriori en découlant et applicable à la
pertinence du jugement peut être donnée en tant que fonction des modèles a priori connus et de
leur probabilité.
Nous pouvons utiliser les mêmes techniques d'analyse des données pour fournir des modèles
adaptatifs du comportement d'un utilisateur. Par exemple, nous pouvons utiliser les documents
écrits, lus ou considérés comme pertinents par un utilisateur pour juger de la pertinence de futurs
documents. La fonction APCM (modélisation adaptative du concept de probabilité) d'IDOL
permet à ces informations d'être propagées en retour. Les agents peuvent être optimisés via
un entraînement continu.
L'utilisation du théorème de Bayes par la solution IDOL va plus loin que le simple jugement de la
pertinence d'un document par rapport à une requête. La fonction APCM analyse la corrélation entre
les caractéristiques trouvées dans les documents jugés pertinents pour le profil d'agent afin de
trouver de nouveaux concepts et documents. Elle identifie ensuite les concepts significatifs au sein
des documents, afin que les nouveaux documents soient correctement classés.
Même si personne ne connaît l'objectif premier de Bayes, son théorème est devenu un pilier central
de la modélisation moderne des probabilités statistiques. En appliquant la puissance des calculs
informatiques actuels aux concepts découverts par Bayes, nous sommes désormais en mesure
de déterminer rapidement et efficacement les relations entre des ensembles de variables, tout en
permettant aux logiciels de manipuler les concepts.
Livre blanc d'entreprise Page 5
La théorie de l'information
La théorie de l'information est la base mathématique de tous les systèmes de communication
numériques. L'innovation de Claude Shannon, décrite dans son ouvrage « Mathematical Theory of
Communication » (1949), a été de découvrir que les informations pouvaient être traitées en tant que
valeur quantifiable dans le domaine de la communication. Cette théorie est incroyablement efficace
pour le traitement des flux de données complexes, car elle permet de déterminer automatiquement
les caractéristiques intéressantes et d'extraire les informations les plus utiles.
Prenons l'exemple de base, où les unités de communication (par exemple les mots ou les phrases)
sont indépendantes les unes des autres. Si p(x) est la probabilité de la xe
unité de communication,
alors la quantité moyenne d'informations transmise par une unité, connue sous le nom d'entropie de
Shannon, est donnée par :
L'entropie est maximale lorsque les possibilités sont équiprobables. Dans ce cas, le texte obtenu
serait aléatoire. Dans le cas contraire, si l'information véhiculée par le texte est inférieure à ce
maximum, cela signifie qu'il existe une certaine redondance. Ce résultat est ensuite étendu par
d'autres arguments mathématiques plus sophistiqués afin de décrire des interrelations plus
complexes entre les variables.
Les langues naturelles présentent un degré élevé de redondance. Vous pouvez comprendre une
conversation dans un environnement bruyant, même si vous ne pouvez pas entendre certains
mots. Vous pouvez comprendre l'essence d'un article de journal en survolant le texte. La théorie de
l'information offre un cadre pour l'extraction des concepts à partir de la redondance.
L'approche de la solution IDOL quant à la modélisation des concepts s'appuie sur la théorie de
Shannon. Selon cette dernière, moins une unité de communication est fréquente, plus elle véhicule
d'informations. Par conséquent, les concepts et les idées qui sont inhabituels ou distinctifs dans le
contexte d'une communication ont tendance à être plus significatifs. IDOL applique cette théorie
pour déterminer les concepts les plus importants (ou informatifs) au sein d'un document.
H = – p(x) log p(x)∑
Livre blanc d'entreprise Page 6
Analyse structurée
Analyse des graphes
Des bases de données de graphes offrent une nouvelle manière de modéliser le monde qui nous
entoure. Elles comprennent des nœuds et des bords. Un nœud est une entité, par exemple une
personne, un endroit, ou même un concept, et un bord est une connexion ou une relation entre deux
nœuds. Par exemple, le graphe d'un réseau social peut représenter les personnes sous forme de
nœuds et les communications entre elles sous forme de bords.
Les graphes offrent une nouvelle approche de l'analyse des données. En mettant en avant les
relations entre les entités, nous pouvons répondre à des questions telles que :
•	Notre réseau est-il dense ou non ?
•	Quelle est la personne la plus connectée du réseau ?
•	Quels amis deux personnes ont-elles en commun ?
Les graphes nous aident à identifier des formes complexes que nous aurions manquées sinon au
sein de données. Par exemple, nous pouvons utiliser des graphes pour concevoir des systèmes de
recommandations qui lient les clients et les produits en nous basant sur les similarités trouvées dans
l'historique d'achat des clients. Les graphes peuvent aussi nous permettre d'identifier les groupes
d'amis en détectant les cliques d'utilisateurs au sein d'un réseau social, reconnaissables par un plus
gros volume de communications entre eux.
Nous pouvons également utiliser des graphes pour détecter les relations cachées en recherchant
les chemins entre les nœuds qui ne sont pas directement connectés. Les algorithmes de chemin
le plus court permettent de trouver la meilleure route entre deux nœuds selon les critères choisis.
Dans le cas le plus simple, ce peut être le nombre de bords utilisés pour aller d'un point à un autre.
Le chemin le plus court sera alors celui où l'on compte le moins de bords.
Livre blanc d'entreprise Page 7
Il est également possible d'attribuer un poids ou un coût à chaque bord. Le coût total d'un chemin
est égal à la somme des coûts de tous les bords qu'il contient. Dans ce cas, un chemin comprenant
de nombreux bords peu onéreux est considéré comme étant plus court qu'un chemin contenant
moins de bords plus onéreux. Prenons le graphe d'un réseau de transport où les emplacements sont
des nœuds et les différents moyens de transport entre ces emplacements des bords (train, bus, ou
itinéraires piétons), avec le temps que prend chaque moyen de transport attribué en tant que coût
du bord. Si votre priorité est d'aller de A à B avec le moins de connexions possibles, vous devez alors
calculer le chemin le plus court en utilisant le nombre de bords. Cependant, si vous voulez voyager le
plus rapidement possible, vous devez utiliser les coûts pour calculer votre itinéraire.
Les serveurs de graphes IDOL proposent une fonctionnalité de graphes qui vient compléter les
fonctions d'analyse de texte existantes d'IDOL et permet aux utilisateurs d'explorer leurs données
d'une nouvelle manière. Une fois que les utilisateurs ont choisi les entités et les relations qu'ils
souhaitent modéliser sous la forme de nœuds et de bords, IDOL peut créer automatiquement un
graphe dans le cadre de son processus d'indexation. Le serveur de graphes permet de configurer
plusieurs types de bords et fournit un algorithme intégré pour calculer le poids des bords.
La représentation des données est ainsi beaucoup plus flexible. De plus, notre technologie existante
de mise en correspondance de formes peut être utilisée pour trouver des mesures plus complexes
entre les nœuds de graphes que ceux disponibles via des graphes autonomes.
Analyse prédictive
Les stratèges, directeurs commerciaux et responsables produit rêvent de prédire les résultats, pour
mieux planifier et résoudre proactivement les problèmes, saisir les opportunités, ou pour faire des
choix plus sûrs. Des prévisions plus sûres peuvent permettre de devancer la concurrence, d'offrir une
meilleure expérience aux clients et de réduire les coûts de l'entreprise.
Le principe de base est le suivant : il existe au sein d'une organisation des modèles qui se reflètent
dans les données. Ces modèles indiquent et influencent généralement l'orientation des projets,
actions, tâches ou opportunités. Nous pouvons souvent identifier ces modèles via des techniques
d'apprentissage automatique.
Néanmoins, l'apprentissage automatique nécessite généralement l'intervention d'un spécialiste des
données pour concevoir et optimiser un modèle de prévision efficace. Les spécialistes des données
expérimentés sont rares, d'autant plus que les techniques utilisées sont nombreuses. De plus, le coût
d'une équipe de spécialistes des données est souvent extrêmement élevé.
Les fonctionnalités prédictives d'IDOL permettent aux équipes non spécialisées de créer et
d'optimiser des modèles d'analyse à l'aide d'API. Ensuite, l'équipe n'a plus qu'à télécharger des
ensembles de données et saisir des questions que le système résoudra lui-même.
La plate-forme utilise un large éventail d'algorithmes : forêts aléatoires, régression logistique,
machines à vecteurs de support et modèle bayésien naïf pour analyser et créer un modèle
d'apprentissage automatique et réaliser des extrapolations. Plutôt que de se limiter à certaines
techniques, la plate-forme s'appuie sur toutes les techniques adaptées afin de déterminer la
meilleure, et utilise également une fonction d'optimisation de l'apprentissage automatique, qui
choisit automatiquement les meilleurs paramètres de chaque algorithme sans aucune intervention
de l'utilisateur. Une fois les modèles intégrés, IDOL choisit automatiquement le modèle le plus exact,
tout en évitant le surapprentissage.
Livre blanc d'entreprise Page 8
Reconnaissance de formes
La reconnaissance de formes, comme la théorie très proche de la correspondance des formes, utilise
plusieurs techniques pour déterminer des structures (ou formes) au sein d'ensembles de données
apparemment bruités. Cette tâche apparemment simple a donné naissance à un grand nombre de
technologies d'analyse des données, qui sont capables d'extraire des formes particulières et ont des
applications évidentes dans de nombreux domaines. Par exemple, la reconnaissance automatique
des plaques d'immatriculation est une méthode de reconnaissance de formes utilisée pour localiser
une ou plusieurs plaques d'immatriculation sur un flux vidéo ou image.
IDOL utilise des techniques de reconnaissance des formes sur tous types de données. En matière de
traitement de la parole, la reconnaissance des formes est utilisée dans les techniques d'identification
du locuteur, de reconnaissance musicale, ou de création de modèles audio plus larges, par exemple
pour détecter des coups de feu ou du verre brisé. Dans le domaine du traitement de l'image et vidéo,
le même cadre théorique est appliqué à la détection des scènes, à la reconnaissance faciale, à la
correspondance des similarités au sein d'une image ou à la détection des objets, parmi tant d'autres.
Pour l'analyse de texte, la reconnaissance des formes permet de "synthétiser" un ou plusieurs
documents, pour ensuite établir une correspondance entre les similarités conceptuelles, regrouper
les documents, ou pour d'autres applications. Nous étudierons chacun de ces domaines dans les
sections suivantes.
Reconnaissance des formes textuelles
Du point de vue de la reconnaissance des formes, les documents textuels non structurés
comprennent généralement des flux bruités de données contenant peu d'informations et sont
particulièrement adaptés aux théories de reconnaissance des formes. Suite à l'indexation dans IDOL,
plusieurs méthodes permettent de récupérer efficacement les informations des documents.
Recherche de base
Au moment de l'indexation, les champs d'index sont utilisés pour extraire les termes et concepts
pertinents qui seront stockés dans un index inversé. Un grand nombre de propriétés sont stockées
pour chaque occurrence d'un terme, notamment le document et le champ de l'occurrence,
sa position dans le champ, sa capitalisation, sa racine et toute pondération explicite appliquée
à ce terme, et même la phrase et le paragraphe au sein desquels le terme s'affiche. Toutes ces
informations sont stockées pour faciliter la récupération lors de la requête.
Livre blanc d'entreprise Page 9
Au moment de la requête, IDOL charge ces informations pour tous les termes figurant dans
la requête, et détermine les documents correspondants à la recherche, que cette dernière soit
booléenne, conceptuelle ou par mot-clé. IDOL enregistre les informations et affiche une liste de tous
les documents au sein desquels le terme a été trouvé, avec les informations sur les occurrences du
terme dans chaque document.
Ces informations supplémentaires sont utilisées pour calculer la pertinence. Les mesures de base,
telles que les occurrences dans les titres, les champs plus pondérés ou le nombre d'occurrences d'un
terme, sont utilisées pour attribuer plus de pertinence à certains documents. Tous les opérateurs
booléens ou indicateurs syntagmatiques ont également un impact sur les correspondances et
la pondération. Ainsi, une action plus complexe comme l'analyse de la proximité des termes de
la requête permet, par exemple pour une requête sur Hilary Clinton, de faire correspondre un
document sur la politicienne au lieu d'un document traitant de Hilary Benn et Bill Clinton.
De plus, les informations du moteur optimisent l'exactitude du processus de correspondance.
Les informations tirées des occurrences des termes et expressions sur l'ensemble du corpus
permettent de concevoir un modèle linguistique spécifique aux données qui est utilisé pour
optimiser la pertinence. Par exemple, une requête sur les prévisions météorologiques devrait
donner beaucoup plus d'importance aux documents traitant de la météo plutôt qu'à ceux
mentionnant le mot prévisions. Ce principe peut être étendu pour permettre une recherche
conceptuelle et linguistique complètement naturelle.
Recherche conceptuelle
L'approche probabiliste du processus d'indexation et de récupération d'IDOL permet l'exécution
naturelle d'opérations complexes. La récupération de base est optimisée et permet d'obtenir des
connexions plus subtiles et des résultats plus pertinents qu'aucun moteur de recherche par mot-clé.
Par exemple, imaginez que vous soyez intéressé par l'impact de la pollution sur les pingouins.
L'approche traditionnelle consiste à sélectionner un moteur de recherche par mot-clé et de saisir
le mot pingouin. Vous obtiendrez des contenus utiles, mais aussi une quantité d'informations non
pertinentes sur le biscuit au chocolat des années 80 ou sur Batman et Robin.
Dans notre cas, nous recherchons des documents sur les pingouins, c'est-à-dire sur les oiseaux.
Un document contenant le mot « mer » peut parler des pingouins, mais comme ce mot apparaît
dans de nombreux contextes, il est fort probable que le contenu traite d'un autre sujet. Cependant,
si le document contient les mots noir, blanc, ne vole pas, plume, nappe, et pétrole, alors la
probabilité que le document ne parle pas des pingouins et de la pollution devient très faible.
De plus, ici le mot pingouin n'a même pas été utilisé, au profit d'un nombre supérieur d'informations
de moindre importance, chaque information pouvant être retirée sans affecter de manière
significative la probabilité. La stratégie de la solution Autonomy est de comprendre le contexte
en fonction de concepts et de mots-clés forts ou d'un nombre supérieur d'informations de
moindre importance.
Pour cela, IDOL a besoin d'un cadre pour encapsuler les concepts tels que les pingouins, les oiseaux
ou les prévisions météorologiques. Des agents conceptuels sont alors utilisés.
Livre blanc d'entreprise Page 10
Agents conceptuels
Pour des raisons de clarté et d'extensibilité, les systèmes qui doivent analyser des flux de texte non
structurés doivent pouvoir réduire ces flux en vue de leur traitement. Au sein d'IDOL, cette fonction
est assurée par les agents conceptuels (ou tout simplement agents).
Les agents encapsulent un concept ou un sujet et sont générés à partir d'une ou plusieurs parties de
texte non structuré ou d'un ou plusieurs documents. En interne, ils sont stockés en tant qu'ensemble
de termes, avec leur pondération associée. Les termes et leur pondération ont été choisis de
manière à mieux représenter le concept pour une future utilisation. Ce choix repose sur plusieurs
informations, dont le nombre d'occurrences et la proximité de certains ensembles de termes, mais
aussi sur le modèle linguistique du moteur qu'IDOL a conçu pour déterminer quel terme contient
le plus d'informations ou d'entropie. Ces statistiques, récupérées grâce à l'analyse de l'ensemble
du corpus de documents, qui est constamment mis à jour à mesure que de nouveaux documents
sont indexés, permettent la sélection intelligente de termes et de concepts au sein d'un document.
L'analyse mathématique des textes au sein du corpus considère les termes comme des symboles
de sens abstraits avec une compréhension obtenue en contexte, sans grammaires
rigides. Généralement, entre 20 et 40 termes sont utilisés pour un agent, même si certains
concepts peuvent être résumés à l'aide d'un nombre inférieur de termes, alors que d'autres en
requièrent davantage.
Un agent est généralement enregistré en tant que recherche, afin que les critères puissent être
réutilisés pour trouver de nouveaux documents. Dans ce cas, un texte de requête en langue
naturelle est présenté à l'agent, et des documents sont ensuite choisis en fonction des résultats pour
décrire l'étendue exacte et précise de l'agent.
Les agents peuvent être aussi utilisés pour l'établissement de liens hypertextes, les profils
d'utilisateurs, les catégories et les clusters. Les sections suivantes décrivent plus en détails
ces utilisations.
Etablissement de liens hypertextes
L'établissement de liens hypertextes s'appuie sur un document ou un ensemble de documents pour
trouver d'autres documents aux concepts similaires. Cette fonction est spécifiquement utilisée pour
trouver davantage de documents similaires, notamment des informations pertinentes par rapport à
un courrier ou à une présentation que vous écrivez.
Pour y parvenir, IDOL utilise ces techniques d'appariement des formes pour créer un agent qui
représente le ou les documents, puis fait correspondre cet agent au corpus de documents pour
trouver les ressemblances conceptuelles.
Profils d'utilisateur
La sécurité est capitale pour les utilisateurs d'entreprise de la solution IDOL. Le système d'indexation
et de flux de travail d'IDOL répondent à cette attente. Ainsi, la plupart des interactions entre un
utilisateur et IDOL impliquent la fourniture des droits d'accès de l'individu. Si nécessaire, IDOL peut
ensuite utiliser ces informations pour enregistrer l'activité, les préférences et les formes d'utilisation
de chaque individu de manière sécurisée.
La création de profils d'utilisateur est un exemple typique d'utilisation. Les profils sont créés
automatiquement pour les utilisateurs, chaque fois qu'ils interagissent avec IDOL. Ce sont des
agents conçus pour regrouper les intérêts des utilisateurs et sont générés à partir des documents
qu'ils créent, modifient ou affichent. Par exemple, un utilisateur qui s'intéresse au secteur des
télécommunications en Amérique latine aura des profils qui reflèteront cet intérêt. Ainsi, les dernières
nouvelles sur les télécoms brésiliennes seront envoyées à l'utilisateur sans qu'il n'ait à appuyer sur
une touche. Le système est capable d'interpréter correctement des termes de recherche ambigus
en fonction de ces informations (hiérarchie basée sur les intentions). De plus, les profils peuvent être
utilisés par la communauté pour automatiquement créer des liens vers les utilisateurs ayant des
intérêts similaires (appelé réseau d'expertise).
Livre blanc d'entreprise Page 11
Tableau 1 : Combinaisons sources / cibles
CIBLE
CRITÈRES DOCUMENT PERSONNE AGENT
SOURCE
CRITÈRES Extension
de recherche
Recherche
de document
Recherche
d'expertise
Recherche d'agent
DOCUMENT Catégorisation
booléenne
Etablissement
de liens hypertextes
Profilage Catégorisation
conceptuelle
PERSONNE Catégorisation
de personnes
Recherche de profil Communauté Catégorisation
de personnes
AGENT Catégorisation
d'agent
Catégorisation pendant
la requête
Recherche
d'expertise
Suggestion
d'agent
De plus, les utilisateurs peuvent créer manuellement leurs propres agents conceptuels pour trouver
des documents sur des sujets spécifiques, à la demande, ou pour obtenir de nouveaux documents
sur un sujet qui leur a été envoyé automatiquement. Ils peuvent ensuite partager ces agents avec
leur communauté d'entreprise.
Catégories et clusters
La capacité d'IDOL à catégoriser le contenu non structuré est une application puissante de
l'apprentissage automatique. Il existe deux techniques principales. Pour la catégorisation, des
exemples de documents dans chaque catégorie sont fournis à IDOL, à partir d'un ensemble
prédéfini. Les bibliothèques de reconnaissance d'IDOL forment les agents de catégorie, qui peuvent
être ensuite utilisés pour catégoriser les documents non triés. Pour le clustering, IDOL crée des
agents de cluster à partir d'un corpus inconnu en identifiant les principaux sujets des données,
qui à leur tour peuvent être utilisés pour suivre ces clusters dans le temps ou catégoriser d'autres
documents. Nous discuterons de ces deux techniques plus en détail dans la section Classification.
La correspondance polyvalente, l'atout de la stratégie d'IDOL
La puissance des agents conceptuels d’IDOL réside dans leur capacité à interagir avec les
documents, les requêtes et entre eux. Par exemple, lorsqu'un document est utilisé en tant que
requête dans IDOL, la solution s'appuie sur l'établissement de liens hypertexte. De même, pour
classer les individus en catégories prédéfinies (catégorisation de personnes), une personne
(représentée par un profil utilisateur) est utilisée en tant que requête auprès des agents d'IDOL.
Sinon, les critères de recherche, tels que les mots-clés, le langage naturel ou la recherche booléenne,
peuvent être enregistrés dans IDOL. Ainsi, lorsqu'un document est analysé, seuls les critères qui
s'appliquent à ce document sont renvoyés, offrant une opportunité incroyablement évolutive
d'enregistrer les expressions booléennes pour évaluer de futurs documents. Le tableau suivant
montre toutes les combinaisons possibles.
Livre blanc d'entreprise Page 12
Classification
La classification couvre un large éventail d'activités dans le domaine de la récupération
d'informations, mais nous pouvons résumer ce processus à un regroupement ou à un balisage des
données destiné à simplifier le processus de récupération pour l'utilisateur.
IDOL exécute des classifications en natif dans le cadre du flux d'ingestion. Une fois les documents
classés, l'utilisateur peut en profiter via la récupération paramétrique, le tri et le routage, le filtrage
avancé ou des techniques de visualisation complexes.
La technologie de classification de base d'IDOL est centrée sur les mêmes techniques avancées
d'appariement des formes que ses algorithmes de récupération. Ses méthodes brevetées s'appuient
sur les principaux résultats de l'inférence bayésienne et de la théorie de l'information pour identifier
automatiquement les formes qui apparaissent naturellement dans les données textuelles. Grâce à
des méthodes de traitement des signaux numériques adaptatives non linéaires, l'analyse textuelle
met en évidence des statistiques pour faire correspondre les idées et les concepts. De cette manière,
les questions conceptuelles peuvent être rapidement réduites en équations de probabilité et
analysées mathématiquement.
Ces techniques extensibles et indépendantes de la langue peuvent être appliquées à quasiment
toutes les formes de contenu numérique. Les mêmes méthodes permettent aux ordinateurs
de comprendre automatiquement les flux audio et vidéo, par exemple les flux télévisés ou les
conversations téléphoniques, ainsi que toute forme de contenu textuel.
Catégorisation
La catégorisation est la forme la plus simple de classification et permet de trier les documents
textuels en catégories prédéfinies.
Avec la catégorisation conceptuelle, les catégories sont automatiquement créées à partir d'un
ensemble de documents pré-balisés via une étape « d'apprentissage » pendant laquelle des
exemples de document de chaque catégorie sont identifiés manuellement et transférés à IDOL
pour être intégrés. IDOL analyse ensuite les documents en référence à un corpus plus large de
documents non balisés et crée un agent conceptuel qui représente cette catégorie. Une fois toutes
les catégories apprises, le système est prêt à catégoriser les documents invisibles.
Livre blanc d'entreprise Page 13
En plus d'éviter la création de catégories manuelles coûteuses, l'utilisation d'agents conceptuels
renvoie une pondération probabiliste pour chaque correspondance de données. Au lieu de renvoyer
une simple réponse par oui ou non, la pondération simplifie le seuillage et nous permet de classer les
documents en plusieurs catégories.
De plus, IDOL prend en charge l'éventail complet de recherches par mot-clé, booléenne et
opérations de proximité, de la simple expression booléenne aux constructions de pondération
explicites et hautement complexes. Même ces systèmes hérités sont soumis à la pondération
conceptuelle et brevetée d'IDOL, redonnant vie aux expressions autrement statiques. Les
expressions peuvent être associées à des agents pour filtrer les résultats, en plus de la pondération
conceptuelle. Dans nombre de ces systèmes, la majeure partie du coût de prise en charge de la
taxonomie booléenne réside dans la main d'œuvre nécessaire à la création des expressions, car le
personnel doit ajouter et supprimer les termes pour respecter la règle souhaitée. IDOL peut même
réduire les coûts associés à la prise en charge de ces règles. La solution offre des outils interactifs
pour générer, tester et manipuler d'anciennes ou nouvelles expressions, et suggère des termes et
expressions à ajouter pour améliorer l'analyse.
Les techniques de base de catégorisation d'IDOL sont en majeure partie basées sur les méthodes
bayésiennes, qui offrent la polyvalence requise pour atteindre un niveau d'exactitude élevée sur
la large gamme de données reçues. En plus d'être indépendantes de la langue, ces techniques
d'analyse des données fonctionnent aussi sur les données financières ou pharmaceutiques, mais
également sur des petites catégories de même ou différentes tailles. Solution transparente, tous les
aspects de la méthode de classification peuvent être contrôlés et testés à l'aide des paramètres de
configuration et de formation.
De plus, les techniques bayésiennes sont optimisées pour répondre aux décisions binaires (par
exemple, « Cet e-mail est-il un spam ? » ou « Ce document est-il adapté aux enfants ? »). Dans ce
genre de situations, la plupart des techniques de classification échouent, car elles ont été conçues
pour identifier des documents qui contiennent uniquement des caractéristiques limitées et
s'appliquent donc uniquement à un petit sous-ensemble de corpus de documents. Les questions
larges qui divisent le corpus en deux telles que les questions citées ci-dessus ne sont pas faciles à
définir clairement via un petit ensemble d'exemples, et ne peuvent être décrites entièrement, même
par une longue expression booléenne. Le classifieur BinaryCat d'IDOL répond spécifiquement à
ces besoins. Il est capable d'effectuer une analyse détaillée sur deux ensembles de documents
d'apprentissage (l'un représentant une réponse positive et l'autre une réponse négative), puis
d'extrapoler grâce à ses connaissances statistiques du corpus afin de générer une catégorie qui peut
être utilisée pour classer tous les futurs documents.
IDOL offre également des techniques basées sur les forêts aléatoires qui sont optimisées pour
les courts extraits tels que la catégorisation des tweets. Ces techniques fonctionnent sur un
appariement des formes granulaire qui est également idéal pour les catégories définies par un
nombre réduit de caractéristiques positionnelles et structurelles, telles que le formatage ou le
positionnement d'une partie de texte au sein d'un document.
Clustering
La catégorisation est une technologie d'apprentissage supervisée, car elle apprend à imiter la
classification telle que démontrée par les documents d'apprentissage balisés par les humains.
Le clustering, au contraire, est un apprentissage non supervisé, car aucun conseil humain n'est
donné. Avec le clustering, un corpus ou un sous-ensemble défini d'un corpus est analysé pour
être divisé en ensembles de documents similaires. Résultat : le corpus est partitionné en plusieurs
clusters, chacun ayant un agent conceptuel que nous pouvons utiliser pour effectuer d'autres
analyses ou catégoriser d'autres documents dans le même ensemble de clusters.
Livre blanc d'entreprise Page 14
Lors de la première étape du clustering, IDOL analyse chaque document et détermine ses
principaux concepts en se basant sur la fréquence des termes et leurs relations avec le sens. IDOL
associe ensuite les mesures statistiques à chaque concept en fonction de la pondération fournie
par la modélisation adaptative du concept de probabilité (APCM). L'APCM est une technologie
propriétaire de base au sein d'IDOL. Les caractéristiques et concepts sont identifiés au sein des
documents à l'aide de techniques analogues à celles utilisées pour la création d'un agent conceptuel.
Ces techniques attribuent une importance aux concepts, ainsi qu'à leurs relations. Elles sont
notamment utilisées pour trouver des documents similaires ou des relations entre un profil et un
type de documents. L'une des idées fondamentales de la pondération par l'APCM est que le corpus
de connaissances analysé vous fournit une vision globale adéquate.
Les mesures de similarité entre les documents sont simplement dérivées des statistiques générées
pour chaque document. Une méthode de clustering agglomérative hiérarchique est appliquée pour
former des clusters naissants à mesure que les données s'accumulent. Ces clusters sont ensuite
analysés pour en déterminer la force et valider la couverture et la cohérence de l'ensemble.
Les clusters faibles, incohérents ou inutiles sont supprimés de l'ensemble.
Enfin, les informations supplémentaires sont extraites des clusters, telles que le titre du cluster, pour
permettre aux utilisateurs d'en identifier rapidement le contenu. L'ensemble terminé est ensuite
mis à disposition pour être examiné ou représenté sous la forme d'un graphique, notamment des
cartes de cluster en 2 ou 3 dimensions. De plus, vous pouvez analyser des ensembles de clusters
couvrant différentes périodes afin d'identifier les informations, par exemple les informations qui
persistent dans le temps (visualisation par spectrographe), ou les informations fortes (Qu'est-ce qui
est important ?), et les nouvelles de dernière minute (Quoi de neuf ?).
En plus de s'appuyer sur des techniques fondamentales d'appariement des formes et bayésiennes,
IDOL utilise une nouvelle approche du clustering basée sur les résultats des mécaniques quantiques.
Selon ces dernières, une fonction de vague quantique est générée autour de chaque document afin
qu'un clustering incrémentiel et extensible puisse être facilement exécuté, sans refaire de calcul lors
de l'ajout d'un nouveau document.
Eduction
IDOL propose une fonction de correspondance extensible et évolutive des entités prédéfinies
via ses fonctionnalités d'éduction. Le module d'éduction réalise la gamme complète de tâches
d'extraction intelligente d'entités au sein d'IDOL, et identifie automatiquement les métadonnées
des documents. Les algorithmes d'analyse des données propriétaires qui supportent le code sont
capables d'analyser à la fois le texte semi-structuré et non structuré afin d'extraire une large gamme
de métadonnées, peu importe le formatage du texte.
En plus des entités standard prédéfinies telles que les dates, noms de personne, lieux, adresses,
numéros de téléphone, adresses électroniques, numéro de sécurité social, etc., la fonction d'éduction
fournit un langage sophistiqué permettant de définir les entités personnalisées. La configuration
permet de faire correspondre toutes les expressions du dictionnaire et régulières pour obtenir une
fonction d'extraction complète.
De plus, la technologie d'appariement des formes et statistique d'IDOL permet à la fonction
d'éduction d'aller encore plus loin, car les règles de métadonnées peuvent également être intégrées.
Un utilisateur fournit quelques exemples de formats d'entité, à partir desquels IDOL est ensuite
capable de développer automatiquement des règles internes. La solution les utilisera ensuite pour
localiser les entités similaires dans le texte.
Livre blanc d'entreprise Page 15
Analyse des sentiments
La détection des sentiments d'un document, par exemple le caractère positif, négatif ou neutre
d'une critique, est une forme particulière de catégorisation. Les sentiments positifs et négatifs sont
identifiés au sein d'un texte via des méthodes linguistiques et statistiques. Les résultats de cette
analyse peuvent être utilisés pour souligner les extraits d'un document qui montrent les sentiments
et pour identifier le sujet d'un sentiment. Par exemple, dans une critique de restaurant, la fonction
permet d'identifier que la nourriture et le lieu sont critiqués positivement et que le service est
critiqué négativement.
La fonction d'analyse des sentiments s'appuie sur deux principales technologies d'IDOL.
La première est le module grammatical d'éduction qui permet la création de règles et de formes
linguistiques extensibles afin de définir des expressions positives et négatives. La seconde est le
module de catégorisation qui permet de classifier le texte en catégories positives, négatives et
neutres. La seconde méthode présente l'avantage d'exécuter un apprentissage automatique afin
d'identifier les caractéristiques qui définissent automatiquement les documents positifs et négatifs,
ce qui fonctionne correctement sur des documents inhabituels ou utilisant une langue particulière.
Les grammaires de sentiments standard sont disponibles pour plusieurs langues et d'autres sont
régulièrement créées.
Classification des contenus multimédias
Nous pouvons également appliquer les techniques d'analyse des sentiments aux données
multimédias telles que les fichiers image, son ou vidéo. Par exemple, nous pouvons classer le son en
tant que discours, musique, silence, etc. Nous pouvons identifier les sons en tant que coup de feu ou
alarme. Une voix peut être classée comme calme ou coléreuse, ce qui est particulièrement utile pour
les systèmes de surveillance des centres d'appel.
Nous reparlerons de la classification des fichiers audio, image et vidéo plus en détail dans les
sections traitant de la reconnaissance des formes.
Livre blanc d'entreprise Page 16
Reconnaissance des formes audio
IDOL utilise ses connaissances approfondies et ses réseaux de neurones artificiels pour offrir une
analyse audio de pointe.
Les réseaux de neurones artificiels ont été créés dans les années 1950, et leur utilisation pour
la reconnaissance vocale existe depuis les années 1980. En fait, IDOL utilise les réseaux de
neurones artificiels au sein de sa technologie vocale depuis ses débuts dans les années 1990. Plus
récemment néanmoins, les réseaux neuronaux sont à la pointe en termes de reconnaissance vocale.
D'importants investissements dans la recherche sur la reconnaissance vocale ont été réalisés ces
dernières années ainsi que des avancées matérielles. Ce n'est que très récemment que l'on a enfin
utilisé les réseaux de neurones artificiels pour la reconnaissance vocale grâce au matériel actuel.
Les réseaux de neurones artificiels semblent généraliser les sons de la parole bien plus efficacement
que les algorithmes statistiques. Les sons de la parole sont en effet un peu plus complexes que
les modèles statistiques utilisés auparavant et sont mieux appréhendés par les réseaux de
neurones artificiels.
Les progrès matériels ont été essentiels dans cette avancée. La puissance de traitement est
désormais beaucoup plus rapide. Plus important encore pour la parole, les unités de traitement
graphiques, développées à l'origine pour l'affichage graphique des jeux vidéo, ont permis d'optimiser
les tâches de multiplication de la matrice, qui constituent l'aspect le plus essentiel du processus
d'apprentissage du réseau de neurones artificiels. Dans un même temps, les extensions CPU,
grâce à leur parallélisme, ont amélioré la performance d'exécution.
Conversion de la parole en texte
La conversion de la parole en texte désigne le processus de traduction des mots prononcés en
texte écrit. Ce processus est utilisé dans de nombreux contextes pour analyser, rechercher et traiter
le contenu audio, par exemple les systèmes de commande et de contrôle, les logiciels de dictée,
les recherches audio et vidéo ou le sous-titrage.
La technologie de conversion de la parole en texte d'IDOL a intégré plusieurs heures de données
vocales et linguistiques pour apprendre les schémas vocaux. Ce processus d'apprentissage produit
des modèles linguistiques, qui forment nos packs linguistiques. Nous modélisons l'acoustique et
la linguistique de chaque langue. Le modèle acoustique identifie les sons vocaux (phonétiques)
probables dans le fichier vocal, puis est associé au modèle lexical et linguistique pour arriver à la
séquence de mots la plus probable.
Livre blanc d'entreprise Page 17
Personnalisation linguistique et adaptation acoustique
IDOL a besoin de packs linguistiques pour effectuer les tâches de traitement vocal. Un pack
linguistique comprend un modèle linguistique et un modèle acoustique. Les deux composants
clés du modèle linguistique sont les dictionnaires de vocabulaire et de prononciation, plus les
probabilités de mots N-gram de corpus.
Le modèle linguistique couvre un large vocabulaire reflétant le langage courant. Cependant, pour
un système couvrant des sujets spécifiques, tels que les domaines financiers ou médicaux, il peut
manquer au modèle linguistique standard des structures ou du vocabulaire spécialisés. Dans ce cas,
IDOL peut concevoir des modèles linguistiques personnalisés.
La conception d'un nouveau modèle linguistique implique une grande quantité de texte, de l'ordre
de millions ou de milliards de mots, et les packs linguistiques standard sont généralement formés
de plusieurs milliards de mots. Ainsi, la meilleure manière de personnaliser un modèle linguistique
consiste à concevoir un modèle personnalisé réduit utilisant du texte spécialisé, puis de l'associer au
modèle standard.
De plus, IDOL permet d'adapter les modèles acoustiques disponibles dès l'installation de la solution
pour qu'ils correspondent au plus près aux propriétés acoustiques des ensembles de données
audio spécifiques. L'adaptation du modèle à l'aide de données représentatives (en termes de qualité
d'enregistrement et d'accent) permet d'améliorer les résultats de la conversion de la parole en texte.
Analyse audio
IDOL s'appuie sur plusieurs techniques de traitement audio propriétaires pour permettre l'utilisation
d'autres techniques d'analyse sur les flux audio. Par exemple, la segmentation des locuteurs, qui
détermine les transitions entre deux locuteurs, et l'identification des locuteurs, qui identifie les
locuteurs en fonction de leurs caractéristiques vocales, utilisent des techniques de traitement
du signal pour extraire les principales caractéristiques du fichier audio. Elles utilisent ensuite
l'appariement des formes pour déterminer la probabilité d'un locuteur spécifique sur un segment
donné. Nous pouvons apprendre à ce système à utiliser les échantillons vocaux de chaque locuteur
pour créer des modèles de locuteur ou à utiliser des modèles préchargés qui permettent de
déterminer le genre du locuteur.
L'identification de la langue consiste à déterminer la langue parlée. Il n'est pas nécessaire d'identifier
les mots du contenu pour déterminer la langue. IDOL tente d'abord d'identifier les sons ou les
phonèmes dans le discours, puis choisit une langue qui a la distribution de phonèmes la plus proche.
En plus de détecter un grand nombre de langues dès l'installation de la solution, le système est
extensible grâce à la conception de classifieurs linguistiques définis par l'utilisateur. Ils sont formés à
l'aide d'échantillons de discours dans la langue concernée.
L'alignement de la transcription attribue des codes temporels à tous les mots d'une transcription
audio, même si elle comprend du bruit ou des sections manquantes. Les codes temporels générés
sont normalement exacts à une demi-seconde près. Cette technique est utilisée sur les systèmes
qui génèrent automatiquement des sous-titrages à partir de transcriptions manuelles ou qui offrent
la possibilité de changer de position à l'aide d'un mot. Cette fonction peut à son tour être utilisée
pour vérifier le respect du script et déterminer, par exemple, si l'opérateur du centre d'appel récite le
script établi.
Livre blanc d'entreprise Page 18
IDOL permet de classer automatiquement un son en tant que musique, bruit ou discours. Ceci peut
être utile lorsque vous voulez convertir des paroles en texte lorsqu'un fichier audio contient de la
musique. Vous pouvez associer ces opérations de sorte que la transcription de parole en texte soit
uniquement réalisée pour les segments audio classés en tant que discours. Les mêmes techniques
d'appariement des formes s'étendent pour permettre l'apprentissage d'autres catégories sonores.
Parmi les catégories disponibles, on distingue notamment la classification de sécurité, capable de
détecter les segments sonores contenant des sons tels que des alarmes, des alarmes de voiture,
du verre brisé, des cris et des coups de feu.
De plus, IDOL réalise plusieurs autres opérations sur le contenu audio, notamment le calcul du ratio
signal-bruit et l'identification du seuil d’écrêtement du signal audio afin d'en déterminer la qualité.
Reconnaissance sonore
Egalement connue sous le nom d'empreinte acoustique, l'identification de l'empreinte sonore génère
le résumé numérique d'un échantillon sonore pour l'identifier rapidement ou pour localiser des
échantillons similaires au sein d'une base de données. Cette technique présente de nombreuses
applications, notamment pour l'identification de chansons ou jingles, la détection de publicités ou le
balisage de pistes média, telles que le discours inaugural du président Obama. Dans tous les cas, le
système est capable d'utiliser un nombre illimité d'extraits sonores pour l'apprentissage de sa base
de données, et l'échantillon sonore à identifier n'a pas besoin d'être une copie exacte de l'original.
Recherche d'éléments phonétiques
La recherche phonétique désigne le processus de recherche de mots et de phrases en fonction de
leur prononciation.
Les phonèmes sont des unités fondamentales sonores qui composent la langue parlée. Par exemple,
le mot vache comprend trois phonèmes ou sons : v–a–che.
Le moteur d'identification des phonèmes analyse d'abord le fichier audio pour créer une piste
temporelle des phonèmes, qui rapporte le moment auquel chaque phonème apparait sur le fichier.
Il s'agit d'un processus unique. IDOL recherche ensuite les données de suivi temporel des phonèmes
pour les mots et expressions spécifiés. Sur un ordinateur de bureau typique, le processus de
recherche peut fonctionner 100 fois plus rapidement qu'en temps réel.
La recherche d'expressions phonétiques dépend de la langue.
Il est préférable d'effectuer une opération complète de conversion de la parole en texte plutôt qu'une
recherche phonétique, car la première ouvre l'ensemble des opérations IDOL, dont la recherche
conceptuelle. Cependant, il existe des cas où vous pouvez avoir des exigences spécifiques, et
notamment utiliser des mots-clés et l'identification d'expression ou encore limiter les ressources
matérielles. La recherche phonétique peut être utilisée dans ces cas spécifiques.
La recherche phonétique est particulièrement utile dans les cas où les inexactitudes inévitables
de la transcription ordinaire entraînent l'oubli de documents au moment de la recherche. Grâce
à la recherche phonétique, la recherche du mot fraude peut renvoyer des résultats où le mot a
été incorrectement transcrit en tant que Ford et les marquer d'un niveau de confiance inférieur,
permettant à l'utilisateur d'établir un seuil de recherche en fonction de ses exigences.
Livre blanc d'entreprise Page 19
Reconnaissance des formes d'image
Les humains reconnaissent les objets, les personnes ou les emplacements sans effort apparent.
Lorsque nous voyons un objet pour la première fois, nous l'étudions, mémorisons ses propriétés
visuelles uniques et en effectuons un modèle mental que nous conservons pendant une certaine
période. Lorsque nous revoyons cet objet, nous essayons de faire correspondre ses propriétés
visuelles avec les modèles enregistrés dans nos cerveaux. IDOL s'appuie sur une approche similaire
pour automatiser le processus de reconnaissance des objets à partir d'images. IDOL fournit des
algorithmes de vision artificielle pour reconnaître des formes répétitives ou inhabituelles dans les
images d'objets, de texte, de personnes et de scènes.
Généralement, les données d'entrée brutes varient en fonction d'une multitude de facteurs. Ainsi,
la dimensionnalité des données d'entrée est très large. Pour simplifier la tâche de détection des
formes dans une entrée hautement dimensionnelle, l'entrée est mappée sur un petit nombre
de nouvelles dimensions. Ce processus est appelé extraction des caractéristiques. Parfois, les
caractéristiques sont choisies pour compresser les données d'entrée plutôt que pour réduire leur
dimensionnalité. Par exemple, si nous voulons simplifier les images de texte en lignes, boucles ou
points. Dans d'autres cas, si la dimensionnalité d'entrée est assez basse et qu'il n'est pas possible
de diviser les données en formes, nous pouvons mapper l'entrée en dimensions supérieures pour
mieux distinguer les formes. Lorsque l'on assiste à une distorsion des perspectives, il faut regarder
les dérivés de deuxième et troisième ordres de l'image pour identifier correctement la distorsion.
Les caractéristiques sont choisies pour optimiser le contenu des informations des données d'entrée
pour la tâche à accomplir. L'approche d'ingénierie traditionnelle de reconnaissance des formes
s'appuie sur les connaissances heuristiques pour choisir les caractéristiques, alors que l'approche de
l'apprentissage automatique de la vision artificielle apprend automatiquement les caractéristiques à
partir d'un ensemble d'images d'apprentissage. Dans les deux cas, les caractéristiques sont choisies
en fonction de la compréhension du problème à résoudre et sont soumises aux mesures de qualité
et d'exactitude de sortie souhaitées.
Une fois que nous choisissons les caractéristiques, nous les encodons, ainsi que les relations qui les
lient, pour créer un modèle. Grâce à l'optimisation de la connectivité Internet et à la baisse du prix
des caméras, une grande quantité de données visuelles partiellement étiquetées sont disponibles.
Nous utilisons des techniques statistiques de reconnaissance des formes, dont les réseaux de
neurones, pour apprendre les modèles probabilistes de ces données. Dans d'autres cas, le problème
concerne l'estimation de quantités inconnues de données d'entrée souvent bruitées. Nous utilisons
alors les techniques d'inférence bayésiennes. Dans les cas où les données d'apprentissage sont
limitées, nous utilisons des approches d'ingénierie pour trouver le meilleur modèle global.
Livre blanc d'entreprise Page 20
Reconnaissance optique de caractères
L'un des premiers défis en termes de reconnaissance des formes a été la reconnaissance optique de
caractères, qui consiste à déchiffrer le texte à partir d'images de texte imprimés. Pour commencer,
nous segmentons l'image d'entrée afin de séparer le texte en premier plan de l'arrière-plan. A ce
stade, nous devons gérer les défauts liés à la numérisation ou les effets lumineux, tels que les
ombres ou les reflets spéculaires. Ensuite, nous regroupons les régions adjacentes au premier plan
pour former des mots potentiels et les transférons vers un classifieur de caractères. Les mots en
résultant sont ensuite vérifiés à l'aide d'un dictionnaire et de certaines règles linguistiques avant
toute validation du mot. Ce processus peut être répété, afin que plusieurs mots adjacents puissent
être associés pour former des mots plus longs ou que les mots composés soient divisés en mots
plus courts. La reconnaissance optique de caractères d'IDOL prend en charge un grand nombre de
scripts et de langues, et fournit également une fonction d'identification automatique des langues.
Cette fonction est fréquemment utilisée pour lire automatiquement les textes de documents ou de
photos, économisant de nombreuses heures de travail manuel laborieux.
Reconnaissance des codes-barres
La reconnaissance des codes-barres représente un autre défi. Les techniques utilisées pour la
reconnaissance des codes-barres sont similaires à celles utilisées pour la reconnaissance optique de
caractères, sauf que nous apprenons à l'algorithme à rechercher des lignes (codes-barres linéaires)
ou des carrés (codes QR) au lieu de caractères alphanumériques. Une fois les lignes ou les carrés
localisés, un décodage potentiel des codes-barres est déterminé. Tout comme la reconnaissance
optique de caractères, les éléments sont transférés vers un classifieur pour classer les groupes de
lignes ou de carrés. Le classifieur les vérifie par rapport aux normes de code-barres et corrige les
erreurs, si nécessaire. La simplicité de ses caractéristiques (lignes ou rectangles) et ses normes
limitées optimisent la robustesse du code-barres face aux données d'entrée bruitées. C'est la
raison pour laquelle la reconnaissance des codes-barres est utilisée quasi universellement dans les
supermarchés pour le suivi des inventaires, l'expédition et la logistique. Les codes QR sont composés
de carrés, organisés sur une matrice en deux dimensions. La forme inclut ainsi des informations
d'alignement et de taille. Ceci permet d'améliorer la capacité de stockage. Plus important encore,
les codes QR peuvent être lus par des caméras numériques. Ils sont donc les codes les plus
numérisés par les téléphones mobiles. IDOL propose des algorithmes de reconnaissance des
codes-barres robustes, capables d'identifier plusieurs codes-barres et codes QR au sein d'une image,
indépendamment de son orientation.
Traitement des images humaines
Le processus de localisation d'objets décrit par certaines caractéristiques au sein d'une image est
appelé détection d'objet. La reconnaissance faciale est l'exemple le plus connu de détection d'objet.
Son objectif est d'identifier tous les visages présents sur une image. D'abord, les caractéristiques
visuelles sont extraites pour rechercher certaines formes récurrentes pour les visages, telles que la
forme en T créée par les yeux et le nez. Après l'examen des formes au sein des différentes parties
de l'image, chaque partie est classée dans une catégorie, faciale ou non. Ensuite, les résultats sont
associés à l'aide d'un classifieur optimisé.
Le classifieur optimisé utilise la somme pondérée de plusieurs classifieurs inférieurs qui répondent
à de simples questions, menant à un classifieur supérieur capable de répondre à des questions
complexes. Pendant l'apprentissage, les pondérations de ces classifieurs inférieurs sont intégrées
et lors de la détection, un mécanisme en cascade est utilisé pour mettre rapidement de côté
les échantillons négatifs. Nous pouvons utiliser la détection faciale d'IDOL et la fonction de
reconnaissance faciale pour trouver et identifier des personnes dans une image ou une vidéo. Nous
pouvons détecter des visages sur des images de mauvaise qualité et des photos de groupe aux
arrière-plans bruités. La fonction de détection et de reconnaissance rapide d'IDOL est déjà utilisée
par plusieurs entités dans des applications de sécurité, de surveillance et de service clients.
Livre blanc d'entreprise Page 21
La détection des piétons est un problème plus complexe. Alors qu'un visage présente une forme et
une apparence bien définies, les piétons peuvent avoir l'air extrêmement différents selon ce qu'ils
portent, la distance entre eux et la caméra, qu'ils bougent ou qu'ils sont seuls ou en groupe. Pour les
applications de sécurité, il n'est pas possible de détecter de manière fiable le visage des piétons qui
se trouvent trop loin de la caméra. De plus, il est parfois nécessaire de détecter les piétons même
quand ils ont le dos tourné à la caméra. La détection faciale et la détection des piétons s'appuient
sur des techniques similaires, mais différentes caractéristiques sont utilisées. La forme en Ω
caractérisant la tête et les épaules est généralement recherchée.
La détection des piétons est très utilisée dans les applications de sécurité automobiles pour détecter
automatiquement les piétons sur la route et alerter le conducteur. Lorsque des données vidéo sont
disponibles, les informations de mouvement peuvent fournir des indices très utiles sur la localisation
des objets et faciliter la mise en évidence des objets au premier plan par rapport à ceux situés à
l'arrière-plan.
La détection des piétons peut être utilisée dans le comptage des personnes. Il est très courant
actuellement de recevoir des alertes sur la saturation ou la congestion des stations de métro,
de train, des festivals de musique ou des événements sportifs.
Le comptage de personnes s'appuie la plupart du temps sur plusieurs classifieurs pour déterminer
si chaque région de l'image comprend une ou deux personnes, un petit nombre de personnes, par
exemple une famille, ou un groupe important de personnes. Une fois le résultat de la classification
disponible, la fonction utilise les informations préalables et les données de post-traitement de la
scène pour obtenir le nombre total de personnes dans un cadre donné. Les indices de mouvement
obtenus à partir des données vidéo facilitent considérablement l'analyse.
Le comptage de personnes est fréquemment utilisé pour analyser un trafic normal par rapport à un
trafic saturé. Les systèmes sont entraînés à gérer les formes normales telles que le trafic des gares
ferroviaires pendant les heures de pointe, mais peuvent envoyer une alerte lorsqu'un trafic supérieur
est constaté en dehors des heures de pointe. Le comptage de personnes va au-delà de la détection
des piétons, car la fonction peut analyser non seulement le nombre de personnes, mais aussi leur
regroupement et leurs mouvements. La saturation des gares ferroviaires lors d'événements sportifs
est plus probablement due à l'entrée et aux mouvements de groupes de personnes plutôt qu'à
des voyageurs seuls qui se déplacent de manière plutôt prévisible. Nous utilisons également les
techniques d'inférence bayésiennes pour repérer les mouvements de personnes inhabituels en
fonction des connaissances dont nous disposons sur le lieu.
Les autres applications du traitement des images humaines sont l'analyse des propriétés telles que
l'âge, le genre, les expressions faciales et différents attributs, par exemple les lunettes, la pilosité
faciale ou la couleur des cheveux. Ces informations complémentaires peuvent être très utiles pour
réduire le nombre d'identités à étudier lorsque vous effectuez une recherche dans une grande base
de données, accélérant ainsi les résultats.
Reconnaissance faciale
Une fois un visage localisé et analysé au sein d'une image, l'étape suivante consiste à associer
ce visage à une personne. La reconnaissance faciale est l'une des applications quotidiennes les
plus populaires de la vision artificielle. Nous reconnaissons les visages si facilement que nous
ne réfléchissons pas à la complexité de l'analyse en arrière-plan. Les algorithmes informatiques
ne parvenaient pas à avoir d'aussi bons résultats que les humains, mais plusieurs décennies
de recherche dans ce domaine ont permis d'améliorer la performance des algorithmes de
reconnaissance faciale. En fait, la capacité des humains à distinguer les visages qu'ils ne connaissent
pas est assez faible, et les algorithmes de reconnaissance faciale actuels de pointe ont commencé à
surpasser les performances humaines pour les visages moins familiers.
Livre blanc d'entreprise Page 22
L'algorithme de reconnaissance faciale d'IDOL utilise des réseaux de neurones convolutifs
approfondis. Le réseau de neurones est entraîné sur un nombre important de visages afin d'intégrer
les caractéristiques faciales distinctives à partir de plusieurs photos d'une même personne, ainsi
que les différences de caractéristiques faciales distinctives à partir de photos de deux personnes
différentes. L'apparence d'une personne peut changer en fonction de la lumière, de l'angle de vue,
des expressions faciales ou du maquillage. De plus, les images test peuvent être en résolution
faible et présenter des défauts. Notre processus d'apprentissage prend en compte ces facteurs
pour produire des traits hautement distinctifs pour chaque visage. Une fois qu'IDOL traite ces
caractéristiques, la tâche d'identification d'une personne consiste tout simplement à rechercher la
meilleure correspondance dans la base de données. La reconnaissance faciale est le plus souvent
associée aux applications de sécurité, mais une large gamme d'applications grand public, telles que
la retouche photo, l'authentification visuelle, le suivi des patients et le contrôle parental utilisent la
reconnaissance faciale.
Reconnaissance d'objets
Il est parfois utile de détecter certains objets, par exemple la marque d'une société ou l'emballage
d'un produit spécifique. Même si l'objet est bien défini, la reconnaissance d'un objet peut être difficile,
car l'objet peut être vu d'un d'angle différent, sur un arrière-plan encombré, ou être partiellement
caché. IDOL fournit des algorithmes pour la reconnaissance des objets rigides en 2D et 3D.
La première étape du processus de reconnaissance des objets consiste à extraire les caractéristiques
distinctives de l'image. Les caractéristiques doivent être suffisamment descriptives pour permettre
l'identification, mais également compactes pour être stockées efficacement. Elles doivent aussi
s'adapter aux différents angles de vue et aux variations de lumière. Les caractéristiques et
les relations spatiales entre elles sont enregistrées dans un modèle dans la base de données.
Lorsqu'une image test est identifiée, les caractéristiques extraites de l'image sont comparées à celles
de la base de données.
Une structure arborescente peut d'abord être utilisée pour obtenir rapidement des correspondances
approximatives, qui seront affinées ultérieurement. Une fois les correspondances approximatives
trouvées, un algorithme de vote est utilisé pour déterminer le modèle correspondant le plus
probable. L'algorithme de vote rejette les ensembles de correspondances qui ne sont pas cohérents
avec la position géométrique attendue et les contraintes d'échelle. L'identification des objets 3D
pose un autre défi, car les relations géométriques entre les caractéristiques sont plus complexes, et
seule une fraction du nombre total de caractéristiques est visible d'un certain point de vue. IDOL
s'appuie sur des techniques avancées de vision artificielle géométrique pour résoudre les défis de la
reconnaissance des objets 3D.
La reconnaissance des objets IDOL est largement utilisée dans le commerce pour la gestion
des inventaires, le marketing ciblé et la publicité. Elle est également utilisée dans le domaine de
l'authentification visuelle pour contrôler les accès à certaines zones, et dans les jeux vidéo pour offrir
des contenus de jeux personnalisés.
Un autre exemple courant de reconnaissance des formes textuelles à partir de données visuelles
est celui de la reconnaissance automatique des plaques d'immatriculation. Ici encore, les principes
sont quasiment les mêmes que ceux de la reconnaissance optique de caractères, mais seule la
plaque d'immatriculation est localisée sur l'image du véhicule. Ceci peut être difficile si le véhicule
portant la plaque d'immatriculation se déplace rapidement, car l'image capturée peut être floue.
La plaque d'immatriculation peut être sale, ou insuffisamment contrastée. Les formats des plaques
d'immatriculation sont différents d'un pays à l'autre. La stabilisation de l'image et l'extraction des
plaques d'immatriculation sont les plus grands défis en matière de reconnaissance automatique des
plaques d'immatriculation.
IDOL utilise des algorithmes de stabilisation avancés pour fournir une image claire des plaques
d'immatriculation, puis demande à un classifieur basé sur un réseau de neurones d'identifier les
caractères de la plaque d'immatriculation. Nous pouvons également appliquer une reconnaissance
des objets avancée pour surveiller des véhicules et en identifier la marque et le fabricant. En
associant ces informations à la reconnaissance des plaques d'immatriculation, il est possible
d'identifier automatiquement les véhicules avec des plaques volées. De plus, la fonction de
reconnaissance des plaques d'immatriculation d'IDOL a été utilisée avec succès pour détecter les
véhicules non assurés, le non-respect des feux tricolores, ou pour surveiller les mouvements de
véhicules au sein d'une zone spécifique.
Livre blanc d'entreprise Page 23
La capacité d'IDOL à extraire les caractéristiques locales éparses mais invariablement fiables et
à appliquer les contraintes géométriques permet de mesurer les similitudes entre les différentes
parties d'image. Jusqu'à maintenant, les algorithmes de détection des similarités dans les images
s'appuient sur des statistiques grossières telles que des histogrammes en couleur, dégradés, ou
l'étalement en bloc. Cependant, ces approches échouent lorsque les images sont modifiées ou
délibérément détériorées. Par exemple, une image peut être rognée par rapport à l'image originale,
mise en miroir, contenir des balises textuelles, ou des objets similaires mais vus sous un autre angle.
En utilisant uniquement les statistiques globales, ces modifications rendraient l'image différente
de l'originale.
IDOL a la capacité de comparer les images en fonction de leur contenu. La solution utilise des
caractéristiques locales fiables pour extraire les parties similaires dans deux images afin que les
résultats ne soient pas affectés par le rognage, la mise en mémoire ou les balises textuelles. IDOL
peut reconnaître les similarités en dépit des différents angles de vue, des occlusions partielles ou des
dégradations. Elle peut également fournir des informations sur la transformation de l'image (mise à
l'échelle, translation et distorsion des perspectives) reliant les deux images. Cette fonction permet à
l'utilisateur d'envoyer une simple image en tant que requête plutôt que d'avoir à décrire le contenu
de l'image. Les requêtes textuelles pour la recherche d'images sont sujettes aux erreurs de balises et
de métadonnées associées aux images. En général, les recherches d'images renvoient des résultats
bien plus pertinents comparés à des requêtes uniquement textuelles. Les applications de cette
technologie incluent la recherche de similarités dans une image, la détection des faux, la détection
des films piratés et les achats basés sur la recherche visuelle.
Classification des images
La classification des images permet d'identifier des catégories d'objets plutôt que des instances
spécifiques, par exemple toutes les voitures au lieu d'une Ferrari 488 ou d'une Mercedes classe
S. La classification des images est essentiellement une fonction de reconnaissance au niveau des
catégories et est plus complexe que la reconnaissance d'objets spécifiques, car elle a besoin de gérer
les variations au sein de la catégorie ainsi qu'entre les catégories. Les catégories peuvent être larges
ou étroites selon les exigences de l'utilisateur. Plus la catégorie est large, plus le problème est difficile.
La classification des images permet aux utilisateurs de baliser automatiquement de grandes
quantités de données visuelles qui décrivent le contenu des images. Il est ainsi possible de comparer
les images sur la base du contenu visuel sémantique. Un large éventail d'applications s'ouvre ainsi
à l'utilisateur, notamment l'identification de formes ou de tendances au sein de groupes de photos,
la recherche de certains types de contenus et la recherche d'images correspondant à des critères
spécifiques, par exemple un "homme avec une voiture rouge et un chien noir".
L'algorithme de classification des images d'IDOL utilise des réseaux de neurones convolutifs
approfondis pour apprendre les caractéristiques qui décrivent le mieux les variations au sein des
catégories d'objets et entre elles. Nous offrons également une fonction prête à l'emploi pour les
utilisateurs souhaitant baliser un grand nombre d'images. Pour chaque image entrée, le classifieur
produit un ensemble d'étiquettes et de scores associés qui décrivent le contenu le plus important
de l'image. Les étiquettes correspondent aux centaines de catégories que le classifieur est entraîné
à reconnaître et incluent des étiquettes pour les objets quotidiens, les animaux courants ou les
emplacements. En plus des descriptions du contenu de l'image, nous fournissons également les
notes de probabilité correspondantes, afin que les catégories les plus importantes puissent être
automatiquement recherchées et enregistrées.
Les catégories utilisées pour la classification de l'image ne sont pas toujours connues au départ.
Par exemple, un conseil municipal peut accepter de recevoir les photos de ses habitants sur son site
Web. La plupart du temps, les photos sont ordinaires. Mais en cas de catastrophe naturelle, il peut y
avoir des photos de la zone sinistrée. L'algorithme de classification automatisée des images d'IDOL
analyse ces images et les trie en différentes catégories, par exemple "normal" ou "inondé", "normal"
ou "incendie". Comme les catégories peuvent uniquement être déterminées au cas par cas, nous
fournissons une fonction qui permet d'entraîner les classifieurs. Ceci permet aux utilisateurs d'IDOL
d'étiqueter les images en fonction des catégories qu'ils souhaitent utiliser, plutôt que d'être limités
aux catégories fournies par les classifieurs pré-entraînés.
Livre blanc d'entreprise Page 24
Vision artificielle géométrique
La vision artificielle géométrique est un champ important de la technologie d'IDOL. Elle associe
les connaissances de plusieurs domaines, notamment de la géométrie, des statistiques, de la
physique, de l'informatique et de la physiologie pour comprendre l'aspect et la forme du monde
en trois dimensions. Tout objet 3D, lorsqu'il est vu sous un angle différent, produit une autre image
2D. Le processus de projection du monde 3D sur un plan d'image en deux dimensions entraîne
une perte de qualité. Le but de la vision artificielle géométrique est de récupérer ces informations
en s'appuyant sur un nombre suffisant de vues de la scène. Une compréhension correcte de la
géométrie projective nous permet également de synthétiser l'aspect à partir de l'angle de vue, ou de
déterminer l'angle de vue à partir de l'aspect. Les deux fonctions peuvent être essentielles dans un
grand nombre d'applications.
Trois domaines théoriques spécifiques permettent de mettre en œuvre la vision artificielle de la
solution IDOL : la cartographie et la localisation simultanées (SLAM), la reconstruction 3D et la
détection des changements.
Cartographie et localisation simultanées
La plupart des smartphones disposent d'une caméra, et ces caméras sont de plus en plus petites
et performantes. La technologie de détection intelligente des scènes a donc été développée sur les
périphériques mobiles, avec une seule caméra et sans aucune lumière infrarouge supplémentaire.
Une catégorie d'algorithmes de cartographie et de localisation simultanées (SLAM) permet aux
utilisateurs de suivre et d'intégrer simultanément la forme et l'aspect d'une scène 3D. La technologie
SLAM fournit instantanément la position de la caméra et un nuage de points épars décrivant toutes
les positions 3D des objets les plus distinctifs de la scène.
Livre blanc d'entreprise Page 25
La technologie SLAM peut également être vue comme un problème d'optimisation du graphe.
Le graphe est composé de nœuds qui représentent les positions de la caméra (poses). Les
observations communes des objets de la scène forment les connexions entre les nœuds du graphe.
A partir des vues et de la position de la caméra sur différents points de la trajectoire, nous pouvons
prédire la position de la caméra sous un angle de vue inconnu. Ceci peut faire l'objet de deux
processus exécutés simultanément. Le suivi est un processus de construction du graphe de poses :
il fait correspondre les objets vus aux objets de la vue actuelle et estime la position de la caméra.
La cartographie désigne le processus d'optimisation du graphe de poses. Elle identifie les nouveaux
objets dans la scène, ajoute et met à jour leurs représentations et affine les positions et les distances
des objets vus précédemment. Le suivi s'appuie ensuite sur la carte mise à jour et obtenue à partir
du processus de cartographie pour trouver les objets correspondants dans le cadre actuel.
La technologie SLAM est initialisée avec deux cadres à partir d'une vidéo de la scène. Les objets
qui s'affichent dans les deux cadres sont mis en correspondance et la position 3D de l'objet est
estimée par triangulation. Les positions 3D des objets mis en correspondance et la position de
la caméra associée à chaque élément saillant donnent une carte initiale. Notre algorithme choisit
automatiquement ces deux cadres. Ainsi, le processus complexe d'initialisation de la technologie
SLAM est clair pour l'utilisateur. L'algorithme d'initialisation automatique est particulièrement
important dans les situations où l'algorithme SLAM exerce un contrôle limité sur les mouvements de
la caméra et la scène vue, ou en cas d'impossibilité d'interaction avec l'utilisateur, par exemple dans
le cas de séquences capturées par un véhicule aérien sans pilote (UAV).
Pour fiabiliser notre suivi sur les mouvements de caméra rapides et les occlusions occasionnelles,
nous utilisons la position, l'orientation et les contraintes de pose de la caméra pour limiter la zone
de recherche sur la carte. Notre système de suivi est donc non seulement rapide mais aussi très
précis, car nous ne faisons pas correspondre des zones non pertinentes de la carte. Le suivi peut
occasionnellement échouer à cause d'occlusions, de mouvements rapides ou d'un manque de
caractéristiques saillantes. Comme les contraintes de pose ne peuvent être utilisées en cas d'échec
du suivi, nous recourons à une recherche arborescente fortement optimisée du plus proche voisin
pour trouver les correspondances sur l'ensemble de la carte. Une fois les correspondances trouvées,
nous pouvons estimer la pose de la caméra et le suivi peut être relancé.
Les positions 3D des objets et les poses de la caméra (la carte) sont ajustées par le fil de
cartographie à l'aide d'un processus semblable à celui du gradient conjugué, appelé estimation
de pose. Généralement, ce processus représente la partie la plus coûteuse de l'implémentation
SLAM, car il est réalisé sur l'ensemble de la carte. Nous utilisons une technologie de propagation
des erreurs pour inclure des parties de la carte dans l'estimation de pose. Nous prenons la décision
d'inclure ou d'exclure des parties de la carte dans le processus d'estimation de pose sur la base de
leur connexion au graphe de poses par rapport à la partie actuellement visible de la carte. Notre
algorithme est ainsi efficace et extensible, ce qui nous permet de concevoir de grandes cartes
exécutées en permanence. Nous pouvons créer des cartes d'une exécution de plusieurs dizaines de
minutes à partir d'une scène filmée sur un smartphone. Sur les ordinateurs de bureau, nous pouvons
concevoir des cartes beaucoup plus grandes et sommes uniquement limités par la RAM.
Généralement, les algorithmes SLAM ont du mal à créer de grandes cartes, car le calcul s'adapte
de manière quadratique à la taille de la carte, mais notre solution offre une extensibilité linéaire et
permanente. L'algorithme suit et apprend à peu près à la même vitesse lors d'une exécution longue.
Notre système est exécuté en temps réel sur la plupart des ordinateurs personnels et périphériques
mobiles. La polyvalence de notre système permet une utilisation sur un large éventail d'applications.
Il peut être intégré à des caméras attachées au corps, à des téléphones portables ou à des clusters
d'ordinateurs de bureau. Notre système SLAM est une plate-forme fiable sur laquelle vous pouvez
concevoir un grand nombre d'applications 3D passionnantes. Les applications de la technologie
SLAM couvrent différents domaines tels que l'analyse de scènes 3D, l'impression 3D et l'analyse de
séquences UAV, la surveillance, la réalité augmentée et les systèmes d'assistance à la navigation.
Livre blanc d'entreprise Page 26
Reconstruction 3D
Notre logiciel de numérisation 3D vous permet de créer des avatars numériques des objets
quotidiens. Il vous suffit de filmer un objet sous tous les angles. Vous envoyez la vidéo dans SLAM,
qui génère des estimations précises de la position et de l'orientation de la caméra. Etant donné les
connaissances préalables de l'objet en premier plan, l'algorithme sépare l'objet de l'arrière-plan.
Ces informations de premier plan et d'arrière-plan, associées aux estimations de la position de la
caméra, permettent à SLAM de créer un modèle 3D de l'objet. La disponibilité du feedback interactif
vous permet de visualiser le modèle 3D quasiment instantanément. Ce logiciel s'exécute aisément
sur les smartphones ordinaires, s'appuie sur les données visuelles d'une seule caméra et ne dépend
pas de lasers ni de capteurs de profondeur à infrarouge. Notre logiciel est capable de numériser
tous les objets, quelle que soit leur taille. De plus, vous n'avez pas besoin de placer les objets sur une
plaque tournante pour créer une version digitalisée de l'objet.
Les modèles 3D créés à l'aide de notre logiciel interactif peuvent ensuite être utilisés pour différentes
applications, y compris l'impression 3D. Même si l'impression 3D devient de plus en plus rapide
et économique, et accessible aux particuliers, la numérisation 3D reste coûteuse et réservée aux
spécialistes. Notre technologie facilite la création de modèles 3D, disponible partout et à moindre
coût. La fonction est désormais accessible aux amateurs, aux particuliers et aux entreprises.
Détection des changements
De plus en plus de données sont capturées par différentes sources allant des caméras des
smartphones personnels aux équipements de surveillance sophistiqués. Les données vidéo peuvent
être hautement répétitives. Il est donc vital d'automatiser les processus qui réduisent le volume des
données requérant une inspection humaine. Exemples de recherche : recherche d'objets (personnes
ou véhicules) disparus, détection de nouveaux objets, ou identification d'objets qui ont été déplacés.
Vous pouvez également utiliser cette technologie pour révéler des défauts d'équipements ou des
mouvements suspicieux dans des applications de surveillance. La recherche automatique de tels
événements est appelée détection de changements.
Notre système de détection des changements permet d'identifier en temps réel des modifications
au sein de scènes 3D sur des périphériques mobiles, à l'aide d'une simple caméra. Pour offrir un
feedback immédiat, nous employons une technologie de suivi 3D et un algorithme de cartographie
(SLAM) plutôt que d'effectuer une reconstruction 3D complète de la scène, car dans certains cas
ceci peut être trop long.
Pour utiliser ce système, une scène 3D est numérisée par une seule caméra en mouvement.
Pendant ce temps, la technologie SLAM intègre l'environnement 3D en cours de numérisation et
enregistre les informations sur la position relative des objets ainsi que la position et l'orientation de
la caméra proprement dite au sein d'une carte. Lorsque la scène est numérisée une seconde fois, à
l'aide de la carte de référence enregistrée, SLAM estime la nouvelle position de la caméra, et toute
modification par rapport à la scène d'origine est détectée et présentée à l'utilisateur. Les prédictions
de modification d'une partie de la scène par rapport à la scène de référence peuvent être réalisées à
partir des connaissances de la géométrie 3D de la scène. Pour utiliser ces connaissances, nous nous
appuyons sur des statistiques avancées de correspondance des caractéristiques ainsi que sur une
correspondance des parties locales normalisées en fonction de l'angle de vue.
Livre blanc d'entreprise Page 27
Abonnez-vous sur
En absence de connaissance de la géométrie 3D de la scène, seule l'utilisation des méthodes
d'enregistrement d'image 2D est possible. Les méthodes d'enregistrement d'image 2D ne permettent
pas de détecter de manière satisfaisante les modifications au sein d'une scène 3D, car l'aspect d'un
objet change en fonction de l'angle de vue, et les objets figurant à différentes profondeur sont
déplacés différemment dans deux vues de la même scène. Une fois les régions modifiées identifiées,
le système montre à l'utilisateur la scène d'origine et la scène modifiée.
Les utilisations de cette technologie sont multiples et concernent la plupart de nos applications de
sécurité et de surveillance, du suivi et de la surveillance de véhicules au comptage et au suivi de
personnes pour diverses raisons (par exemple, pour identifier les zones d'un magasin visitées par
certains clients et détecter des comportements suspicieux ou dangereux sur une scène externe
ou interne). Des exemples encore plus complexes incluent l'analyse d'enregistrements de scènes
similaires mais à différents moments, parfois à des années d'écart, afin de déterminer une activité
spécifique, par exemple une détérioration, des fuites ou des failles de sécurité.
En savoir plus sur
hpe.com/software/idol
© Copyright 2016 Hewlett Packard Enterprise Development LP. Les informations présentées dans ce document peuvent être
modifiées à tout moment et sans préavis. Les seules garanties applicables aux produits et aux services Hewlett Packard Enterprise
sont stipulées dans les déclarations de garantie explicites qui accompagnent ces produits ou ces services. Aucune information
contenue dans le présent document ne saurait être considérée comme constituant une garantie complémentaire. Hewlett Packard
Enterprise décline toute responsabilité en cas d’erreurs ou d’omissions de nature technique ou rédactionnelle dans le présent
document.
4AA6-4478FRE, juillet 2016
Livre blanc d'entreprise

Contenu connexe

Similaire à [Livre Blanc] L'intelligence augmentée

Sécurité informatique : un marché dynamisé par le Big Data @ITrustBlog
Sécurité informatique : un marché dynamisé par le Big Data @ITrustBlogSécurité informatique : un marché dynamisé par le Big Data @ITrustBlog
Sécurité informatique : un marché dynamisé par le Big Data @ITrustBlogITrust - Cybersecurity as a Service
 
L'avent de la super intelligence artificielle et ses impacts
L'avent de la super intelligence artificielle et ses impactsL'avent de la super intelligence artificielle et ses impacts
L'avent de la super intelligence artificielle et ses impactsFernando Alcoforado
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
 
Le progrès de l'intelligence artificielle et ses conséquences
Le progrès de l'intelligence artificielle et ses conséquencesLe progrès de l'intelligence artificielle et ses conséquences
Le progrès de l'intelligence artificielle et ses conséquencesFernando Alcoforado
 
Expérience informationnelle et exploitation analytique des données : comment ...
Expérience informationnelle et exploitation analytique des données : comment ...Expérience informationnelle et exploitation analytique des données : comment ...
Expérience informationnelle et exploitation analytique des données : comment ...Le_GFII
 
De quels traitements sommes-nous les proies ?
De quels traitements sommes-nous les proies ?De quels traitements sommes-nous les proies ?
De quels traitements sommes-nous les proies ?Hubert Guillaud
 
Parlez-vous le langage IA ? 30 notions pour comprendre l'IA
Parlez-vous le langage IA ? 30 notions pour comprendre l'IAParlez-vous le langage IA ? 30 notions pour comprendre l'IA
Parlez-vous le langage IA ? 30 notions pour comprendre l'IABigBrain Evolution
 
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...aOS Community
 
L’analytique de données pour les PME : les mythes et les faits
L’analytique de données pour les PME : les mythes et les faitsL’analytique de données pour les PME : les mythes et les faits
L’analytique de données pour les PME : les mythes et les faitsDeloitte Canada
 
Livre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre IIILivre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre IIIAproged
 
Le Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’AssuranceLe Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’AssuranceAbdessatar Hammedi
 
dt_medecine_personalis.pptx
dt_medecine_personalis.pptxdt_medecine_personalis.pptx
dt_medecine_personalis.pptxnour91922
 
Lexpresse de la Banque Postale - Privacy et Big Data
Lexpresse de la Banque Postale - Privacy et Big DataLexpresse de la Banque Postale - Privacy et Big Data
Lexpresse de la Banque Postale - Privacy et Big DataAntoine Vigneron
 
Advanced persistent threat = émergence du simple vandalisme au cybercrimine...
Advanced persistent threat =  émergence du simple vandalisme au cybercrimine...Advanced persistent threat =  émergence du simple vandalisme au cybercrimine...
Advanced persistent threat = émergence du simple vandalisme au cybercrimine...ITrust - Cybersecurity as a Service
 
COURS INTELLIGENCE ARTIFICIELLE.pptx
COURS INTELLIGENCE ARTIFICIELLE.pptxCOURS INTELLIGENCE ARTIFICIELLE.pptx
COURS INTELLIGENCE ARTIFICIELLE.pptxPROF ALAIN NDEDI
 

Similaire à [Livre Blanc] L'intelligence augmentée (20)

Conférence big data
Conférence big dataConférence big data
Conférence big data
 
Sécurité informatique : un marché dynamisé par le Big Data @ITrustBlog
Sécurité informatique : un marché dynamisé par le Big Data @ITrustBlogSécurité informatique : un marché dynamisé par le Big Data @ITrustBlog
Sécurité informatique : un marché dynamisé par le Big Data @ITrustBlog
 
L'avent de la super intelligence artificielle et ses impacts
L'avent de la super intelligence artificielle et ses impactsL'avent de la super intelligence artificielle et ses impacts
L'avent de la super intelligence artificielle et ses impacts
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
 
Le progrès de l'intelligence artificielle et ses conséquences
Le progrès de l'intelligence artificielle et ses conséquencesLe progrès de l'intelligence artificielle et ses conséquences
Le progrès de l'intelligence artificielle et ses conséquences
 
Expérience informationnelle et exploitation analytique des données : comment ...
Expérience informationnelle et exploitation analytique des données : comment ...Expérience informationnelle et exploitation analytique des données : comment ...
Expérience informationnelle et exploitation analytique des données : comment ...
 
De quels traitements sommes-nous les proies ?
De quels traitements sommes-nous les proies ?De quels traitements sommes-nous les proies ?
De quels traitements sommes-nous les proies ?
 
Big data
Big dataBig data
Big data
 
Parlez-vous le langage IA ? 30 notions pour comprendre l'IA
Parlez-vous le langage IA ? 30 notions pour comprendre l'IAParlez-vous le langage IA ? 30 notions pour comprendre l'IA
Parlez-vous le langage IA ? 30 notions pour comprendre l'IA
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Mediatar Fr
Mediatar FrMediatar Fr
Mediatar Fr
 
Le Machine Learning... tous aux fourneaux !
Le Machine Learning... tous aux fourneaux !Le Machine Learning... tous aux fourneaux !
Le Machine Learning... tous aux fourneaux !
 
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...
 
L’analytique de données pour les PME : les mythes et les faits
L’analytique de données pour les PME : les mythes et les faitsL’analytique de données pour les PME : les mythes et les faits
L’analytique de données pour les PME : les mythes et les faits
 
Livre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre IIILivre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre III
 
Le Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’AssuranceLe Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’Assurance
 
dt_medecine_personalis.pptx
dt_medecine_personalis.pptxdt_medecine_personalis.pptx
dt_medecine_personalis.pptx
 
Lexpresse de la Banque Postale - Privacy et Big Data
Lexpresse de la Banque Postale - Privacy et Big DataLexpresse de la Banque Postale - Privacy et Big Data
Lexpresse de la Banque Postale - Privacy et Big Data
 
Advanced persistent threat = émergence du simple vandalisme au cybercrimine...
Advanced persistent threat =  émergence du simple vandalisme au cybercrimine...Advanced persistent threat =  émergence du simple vandalisme au cybercrimine...
Advanced persistent threat = émergence du simple vandalisme au cybercrimine...
 
COURS INTELLIGENCE ARTIFICIELLE.pptx
COURS INTELLIGENCE ARTIFICIELLE.pptxCOURS INTELLIGENCE ARTIFICIELLE.pptx
COURS INTELLIGENCE ARTIFICIELLE.pptx
 

Plus de Williams Ould-Bouzid

Gartner BVD newsletter analyst report - apr 2016
Gartner BVD newsletter analyst report - apr 2016Gartner BVD newsletter analyst report - apr 2016
Gartner BVD newsletter analyst report - apr 2016Williams Ould-Bouzid
 
12 conseils et meilleures pratiques pour la gestion des services informatiques
12 conseils et meilleures pratiques pour la gestion des services informatiques12 conseils et meilleures pratiques pour la gestion des services informatiques
12 conseils et meilleures pratiques pour la gestion des services informatiquesWilliams Ould-Bouzid
 
[Infographie] Les 3 étapes du Mobile Testing pour assurer l'expérience utilis...
[Infographie] Les 3 étapes du Mobile Testing pour assurer l'expérience utilis...[Infographie] Les 3 étapes du Mobile Testing pour assurer l'expérience utilis...
[Infographie] Les 3 étapes du Mobile Testing pour assurer l'expérience utilis...Williams Ould-Bouzid
 
[HPE Mobile Center] Maîtrisez la qualité de vos applications mobiles
[HPE Mobile Center] Maîtrisez la qualité de vos applications mobiles [HPE Mobile Center] Maîtrisez la qualité de vos applications mobiles
[HPE Mobile Center] Maîtrisez la qualité de vos applications mobiles Williams Ould-Bouzid
 

Plus de Williams Ould-Bouzid (6)

Ebook ops bridge 0317
Ebook ops bridge 0317Ebook ops bridge 0317
Ebook ops bridge 0317
 
e-Book HPE OpsBridge FR
e-Book HPE OpsBridge FRe-Book HPE OpsBridge FR
e-Book HPE OpsBridge FR
 
Gartner BVD newsletter analyst report - apr 2016
Gartner BVD newsletter analyst report - apr 2016Gartner BVD newsletter analyst report - apr 2016
Gartner BVD newsletter analyst report - apr 2016
 
12 conseils et meilleures pratiques pour la gestion des services informatiques
12 conseils et meilleures pratiques pour la gestion des services informatiques12 conseils et meilleures pratiques pour la gestion des services informatiques
12 conseils et meilleures pratiques pour la gestion des services informatiques
 
[Infographie] Les 3 étapes du Mobile Testing pour assurer l'expérience utilis...
[Infographie] Les 3 étapes du Mobile Testing pour assurer l'expérience utilis...[Infographie] Les 3 étapes du Mobile Testing pour assurer l'expérience utilis...
[Infographie] Les 3 étapes du Mobile Testing pour assurer l'expérience utilis...
 
[HPE Mobile Center] Maîtrisez la qualité de vos applications mobiles
[HPE Mobile Center] Maîtrisez la qualité de vos applications mobiles [HPE Mobile Center] Maîtrisez la qualité de vos applications mobiles
[HPE Mobile Center] Maîtrisez la qualité de vos applications mobiles
 

Dernier

Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxRayane619450
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne FontaineTxaruka
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfachrafbrahimi1
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxssuserbd075f
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film françaisTxaruka
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfabatanebureau
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprisesMajdaKtiri2
 

Dernier (10)

Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptx
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne Fontaine
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprises
 

[Livre Blanc] L'intelligence augmentée

  • 1. L'intelligence augmentée Aider les hommes à prendre des décisions plus éclairées Livre blanc d'entreprise
  • 2. Table des matières 3 L'intelligence artificielle pour faciliter la prise de décision 4 Le théorème de Bayes 6 La théorie de l'information 7 Analyse structurée 7 Analyse des graphes 8 Analyse prédictive 9 Reconnaissance de formes 9 Reconnaissance des formes textuelles 9 Recherche de base 10 Recherche conceptuelle 11 Agents conceptuels 11 Etablissement de liens hypertextes 11 Profils d'utilisateur 12 Catégories et clusters 12 La correspondance polyvalente, l'atout de la stratégie d'IDOL 13 Classification 13 Catégorisation 14 Clustering 15 Eduction 16 Analyse des sentiments 16 Classification des contenus multimédias 17 Reconnaissance des formes audio 17 Conversion de la parole en texte 18 Personnalisation linguistique et adaptation acoustique 18 Analyse audio 19 Reconnaissance sonore 19 Recherche d'éléments phonétiques 20 Reconnaissance des formes d'image 21 Reconnaissance optique de caractères 21 Reconnaissance des codes-barres 21 Traitement des images humaines 22 Reconnaissance faciale 23 Reconnaissance d'objets 24 Classification des images 25 Vision artificielle géométrique 25 Cartographie et localisation simultanées 27 Reconstruction 3D 27 Détection des changements Livre blanc d'entreprise
  • 3. L'intelligence artificielle pour faciliter la prise de décision Lorsque nous avons compris que les ordinateurs pouvaient réaliser des calculs qui prendraient des semaines aux humains, ou que nous serions incapables d'effectuer, nous avons réalisé que nous pourrions faire faire aux machines tout ce que nous pouvons faire. Ce n'est pas une coïncidence si l'heure de gloire de la science-fiction a débuté en même temps que les grandes avancées informatiques et spatiales après la seconde guerre mondiale. La majorité des visions futuristes intégraient des technologies non humaines dont les capacités dépassaient grandement celles de leurs créateurs mortels. L'intelligence artificielle est déjà partout autour de nous. Les capteurs qui nous aident à déterminer le moment optimal pour changer nos feux de croisement, les machines à laver qui s'adaptent automatiquement à la quantité de linge et la jouabilité de nos jeux favoris sur nos smartphones ne sont que quelques exemples parmi tant d'autres. Même le système qui empêche un micro-ondes de démarrer parce que la porte est ouverte est un exemple d'intelligence artificielle en action. Les ordinateurs sont excellents pour prendre des décisions lorsqu'ils disposent de toutes les informations pertinentes, et ne laissent rien au hasard. Ces système sont appelés systèmes déterministes entièrement observables. Pour cette raison, les ordinateurs sont bien meilleurs que les humains aux échecs, mais perdent au poker. Mais pendant que nos machines entretiennent parfaitement nos jardins et nous disent la date exacte à laquelle réserver nos vacances pour bénéficier d'une météo parfaite, la plupart des observateurs du monde de l'intelligence artificielle ne remarquent pas un aspect essentiel : lorsque l'on s'intéresse aux éléments les plus humains de notre existence, c'est-à-dire nos interactions, nos décisions, et nos intérêts, les machines ont bien moins de choses à offrir. Nous ne voulons pas que la machine choisisse quelle fleur planter, nous voulons qu'elle exécute nos souhaits rapidement et efficacement. Nous souhaitons encore moins qu'un ordinateur choisisse notre destination de vacances, même si nous lui demandons de l'aide pour prendre une décision intelligente et en toute connaissance de cause. Dès sa conception, HPE IDOL a proposé un nombre de techniques innovantes d'analyse des données qui permettent d'automatiser et d'améliorer le traitement des informations humaines de tous types. Notre but n'est pas que la solution prenne la décision à la place des hommes, mais qu'elle leur fournisse les informations nécessaires au meilleur plan d'action. Cette approche s'appelle l'intelligence augmentée. Dans le domaine de l'intelligence augmentée, IDOL utilise un large éventail de théories et de techniques pour traiter les informations humaines et en extraire du sens. Il est indispensable de présenter ici les principales théories et leur utilisation qui permettent d'optimiser les solutions de certaines des plus grandes entreprises du monde. Les hommes cherchent à rendre les ordinateurs intelligents depuis qu'ils les ont inventés. La notion d'intelligence artificielle renvoie à un avenir contrôlé par les robots et dans lequel les humains seront devenus obsolètes. Au contraire, la plate-forme HPE IDOL, solution de pointe dans le domaine de la recherche et de l'analyse des données d'entreprise, s'appuie sur des techniques innovantes d'intelligence artificielle pour automatiser et améliorer le traitement des informations humaines. Elle aide les hommes à prendre de meilleures décisions, au lieu de leur enlever ce pouvoir. Cette approche s'appelle l'intelligence augmentée. Ce document décrit les principales techniques d'analyse de ces informations. Livre blanc d'entreprise Page 3
  • 4. Le théorème de Bayes Les bases théoriques de l'approche d'IDOL dans le domaine du traitement des informations humaines datent de Thomas Bayes, pasteur anglais du XVIIIe siècle, dont les travaux sur les probabilités mathématiques ont été publiés de manière posthume (« Philosophical Transactions of the Royal Society of London », 1763). Les théories de Bayes étaient centrées sur le calcul des relations de probabilité entre plusieurs variables et sur la détermination de l'impact d'une variable sur l'autre. Son théorème repose sur une simple équation reliant les probabilités conditionnelles de plusieurs variables quelconques. La puissance du théorème de Bayes réside dans son application, qui permet de gérer des ensembles de données complexes. Il fournit un cadre mathématique décrivant la manière dont le modèle d'un système doit être mis à jour en fonction des observations qui ont été faites de ce système. Cette seule interprétation supprime le recours à des modèles a priori complexes, qui prétendent décrire la manière dont un système fonctionne mais créent plutôt automatiquement un modèle personnalisé qui s'adapte aux données en question. Prenons par exemple un corpus de textes utilisés pour créer un système de récupération de documents. Les modèles linguistiques complexes qui prétendent comprendre le français fonctionneront correctement sur la plupart des données, mais échoueront à analyser le jargon spécifique à un secteur, les néologismes ou les produits et usages spécifiques à un client. Comparons maintenant avec le système de Bayes. Un modèle linguistique extrêmement basique est d'abord utilisé, puis mis à jour à l'aide du théorème de Bayes pour former un modèle à la fois spécifique au secteur et à ce corpus de documents. Non seulement cette approche ne dépend pas de la langue, mais encore elle se met à jour automatiquement dès que de nouvelles données contenant de nouveaux mots sont ajoutées ou que des mots existants sont utilisés d'une autre manière, afin de garantir l'actualisation permanente du modèle. P(A|B) = P(A) P(B|A) P(B) Livre blanc d'entreprise Page 4
  • 5. De même, dans le domaine de la sécurité et de la surveillance, le théorème de Bayes offre une méthode d'interprétation polyvalente pour analyser la gamme étendue d'activités capturées par un ensemble de caméras vidéo. Les caméras de sécurité se sont tellement multipliées que les hommes ne sont plus capables de détecter les problèmes sur tous les écrans. Les logiciels de surveillance intégrant des modèles prédéfinis permettant d'identifier les comportements inhabituels sont en fait uniquement capables de détecter une activité qu'ils sont entraînés à reconnaître. Les modules d'IDOL, au contraire, ne sont pas encombrés de modèles prédéfinis et peuvent utiliser les flux vidéo pour déterminer les comportements normaux et ainsi détecter rapidement les comportements qui sont hors cadre et déclencher l'envoi d'une alerte au personnel de sécurité. L'une des raisons pour lesquelles le théorème de Bayes fonctionne si bien sur le traitement des données humaines est que les hommes sont des créatures bayésiennes. Nous sommes nés sans modèles préconçus et sans savoir comment le monde fonctionne. Chacune de nos observations met à jour notre modèle du monde sur ce qui est normal ou non. Par conséquent, il est facile pour une personne de regarder un flux vidéo et de déterminer un comportement normal dans une zone spécifique, et un comportement inhabituel devient tout de suite évident. Un argument statistique traditionnellement cité est celui de la pièce lancée 100 fois et qui tombe toujours du côté face, mais qui a toujours la possibilité de tomber sur le côté pile au prochain lancer. L'approche de Bayes consiste à dire que 100 lancers tombant du côté face sont la preuve que la pièce est truquée ou qu'il y a deux côtés face. Une fois encore, l'approche humaine est intrinsèquement celle décrite par Bayes. Seule une personne courageuse parierait sur un lancer pile après avoir vu 100 lancers face consécutifs. Dans le domaine de la récupération des données, il est souvent difficile de juger de la pertinence d'un document par rapport à une requête ou à un profil d'agent donné. Le théorème de Bayes permet d'associer ce jugement aux détails dont nous disposons déjà, par exemple le modèle d'un agent. De manière plus formelle, la distribution a posteriori en découlant et applicable à la pertinence du jugement peut être donnée en tant que fonction des modèles a priori connus et de leur probabilité. Nous pouvons utiliser les mêmes techniques d'analyse des données pour fournir des modèles adaptatifs du comportement d'un utilisateur. Par exemple, nous pouvons utiliser les documents écrits, lus ou considérés comme pertinents par un utilisateur pour juger de la pertinence de futurs documents. La fonction APCM (modélisation adaptative du concept de probabilité) d'IDOL permet à ces informations d'être propagées en retour. Les agents peuvent être optimisés via un entraînement continu. L'utilisation du théorème de Bayes par la solution IDOL va plus loin que le simple jugement de la pertinence d'un document par rapport à une requête. La fonction APCM analyse la corrélation entre les caractéristiques trouvées dans les documents jugés pertinents pour le profil d'agent afin de trouver de nouveaux concepts et documents. Elle identifie ensuite les concepts significatifs au sein des documents, afin que les nouveaux documents soient correctement classés. Même si personne ne connaît l'objectif premier de Bayes, son théorème est devenu un pilier central de la modélisation moderne des probabilités statistiques. En appliquant la puissance des calculs informatiques actuels aux concepts découverts par Bayes, nous sommes désormais en mesure de déterminer rapidement et efficacement les relations entre des ensembles de variables, tout en permettant aux logiciels de manipuler les concepts. Livre blanc d'entreprise Page 5
  • 6. La théorie de l'information La théorie de l'information est la base mathématique de tous les systèmes de communication numériques. L'innovation de Claude Shannon, décrite dans son ouvrage « Mathematical Theory of Communication » (1949), a été de découvrir que les informations pouvaient être traitées en tant que valeur quantifiable dans le domaine de la communication. Cette théorie est incroyablement efficace pour le traitement des flux de données complexes, car elle permet de déterminer automatiquement les caractéristiques intéressantes et d'extraire les informations les plus utiles. Prenons l'exemple de base, où les unités de communication (par exemple les mots ou les phrases) sont indépendantes les unes des autres. Si p(x) est la probabilité de la xe unité de communication, alors la quantité moyenne d'informations transmise par une unité, connue sous le nom d'entropie de Shannon, est donnée par : L'entropie est maximale lorsque les possibilités sont équiprobables. Dans ce cas, le texte obtenu serait aléatoire. Dans le cas contraire, si l'information véhiculée par le texte est inférieure à ce maximum, cela signifie qu'il existe une certaine redondance. Ce résultat est ensuite étendu par d'autres arguments mathématiques plus sophistiqués afin de décrire des interrelations plus complexes entre les variables. Les langues naturelles présentent un degré élevé de redondance. Vous pouvez comprendre une conversation dans un environnement bruyant, même si vous ne pouvez pas entendre certains mots. Vous pouvez comprendre l'essence d'un article de journal en survolant le texte. La théorie de l'information offre un cadre pour l'extraction des concepts à partir de la redondance. L'approche de la solution IDOL quant à la modélisation des concepts s'appuie sur la théorie de Shannon. Selon cette dernière, moins une unité de communication est fréquente, plus elle véhicule d'informations. Par conséquent, les concepts et les idées qui sont inhabituels ou distinctifs dans le contexte d'une communication ont tendance à être plus significatifs. IDOL applique cette théorie pour déterminer les concepts les plus importants (ou informatifs) au sein d'un document. H = – p(x) log p(x)∑ Livre blanc d'entreprise Page 6
  • 7. Analyse structurée Analyse des graphes Des bases de données de graphes offrent une nouvelle manière de modéliser le monde qui nous entoure. Elles comprennent des nœuds et des bords. Un nœud est une entité, par exemple une personne, un endroit, ou même un concept, et un bord est une connexion ou une relation entre deux nœuds. Par exemple, le graphe d'un réseau social peut représenter les personnes sous forme de nœuds et les communications entre elles sous forme de bords. Les graphes offrent une nouvelle approche de l'analyse des données. En mettant en avant les relations entre les entités, nous pouvons répondre à des questions telles que : • Notre réseau est-il dense ou non ? • Quelle est la personne la plus connectée du réseau ? • Quels amis deux personnes ont-elles en commun ? Les graphes nous aident à identifier des formes complexes que nous aurions manquées sinon au sein de données. Par exemple, nous pouvons utiliser des graphes pour concevoir des systèmes de recommandations qui lient les clients et les produits en nous basant sur les similarités trouvées dans l'historique d'achat des clients. Les graphes peuvent aussi nous permettre d'identifier les groupes d'amis en détectant les cliques d'utilisateurs au sein d'un réseau social, reconnaissables par un plus gros volume de communications entre eux. Nous pouvons également utiliser des graphes pour détecter les relations cachées en recherchant les chemins entre les nœuds qui ne sont pas directement connectés. Les algorithmes de chemin le plus court permettent de trouver la meilleure route entre deux nœuds selon les critères choisis. Dans le cas le plus simple, ce peut être le nombre de bords utilisés pour aller d'un point à un autre. Le chemin le plus court sera alors celui où l'on compte le moins de bords. Livre blanc d'entreprise Page 7
  • 8. Il est également possible d'attribuer un poids ou un coût à chaque bord. Le coût total d'un chemin est égal à la somme des coûts de tous les bords qu'il contient. Dans ce cas, un chemin comprenant de nombreux bords peu onéreux est considéré comme étant plus court qu'un chemin contenant moins de bords plus onéreux. Prenons le graphe d'un réseau de transport où les emplacements sont des nœuds et les différents moyens de transport entre ces emplacements des bords (train, bus, ou itinéraires piétons), avec le temps que prend chaque moyen de transport attribué en tant que coût du bord. Si votre priorité est d'aller de A à B avec le moins de connexions possibles, vous devez alors calculer le chemin le plus court en utilisant le nombre de bords. Cependant, si vous voulez voyager le plus rapidement possible, vous devez utiliser les coûts pour calculer votre itinéraire. Les serveurs de graphes IDOL proposent une fonctionnalité de graphes qui vient compléter les fonctions d'analyse de texte existantes d'IDOL et permet aux utilisateurs d'explorer leurs données d'une nouvelle manière. Une fois que les utilisateurs ont choisi les entités et les relations qu'ils souhaitent modéliser sous la forme de nœuds et de bords, IDOL peut créer automatiquement un graphe dans le cadre de son processus d'indexation. Le serveur de graphes permet de configurer plusieurs types de bords et fournit un algorithme intégré pour calculer le poids des bords. La représentation des données est ainsi beaucoup plus flexible. De plus, notre technologie existante de mise en correspondance de formes peut être utilisée pour trouver des mesures plus complexes entre les nœuds de graphes que ceux disponibles via des graphes autonomes. Analyse prédictive Les stratèges, directeurs commerciaux et responsables produit rêvent de prédire les résultats, pour mieux planifier et résoudre proactivement les problèmes, saisir les opportunités, ou pour faire des choix plus sûrs. Des prévisions plus sûres peuvent permettre de devancer la concurrence, d'offrir une meilleure expérience aux clients et de réduire les coûts de l'entreprise. Le principe de base est le suivant : il existe au sein d'une organisation des modèles qui se reflètent dans les données. Ces modèles indiquent et influencent généralement l'orientation des projets, actions, tâches ou opportunités. Nous pouvons souvent identifier ces modèles via des techniques d'apprentissage automatique. Néanmoins, l'apprentissage automatique nécessite généralement l'intervention d'un spécialiste des données pour concevoir et optimiser un modèle de prévision efficace. Les spécialistes des données expérimentés sont rares, d'autant plus que les techniques utilisées sont nombreuses. De plus, le coût d'une équipe de spécialistes des données est souvent extrêmement élevé. Les fonctionnalités prédictives d'IDOL permettent aux équipes non spécialisées de créer et d'optimiser des modèles d'analyse à l'aide d'API. Ensuite, l'équipe n'a plus qu'à télécharger des ensembles de données et saisir des questions que le système résoudra lui-même. La plate-forme utilise un large éventail d'algorithmes : forêts aléatoires, régression logistique, machines à vecteurs de support et modèle bayésien naïf pour analyser et créer un modèle d'apprentissage automatique et réaliser des extrapolations. Plutôt que de se limiter à certaines techniques, la plate-forme s'appuie sur toutes les techniques adaptées afin de déterminer la meilleure, et utilise également une fonction d'optimisation de l'apprentissage automatique, qui choisit automatiquement les meilleurs paramètres de chaque algorithme sans aucune intervention de l'utilisateur. Une fois les modèles intégrés, IDOL choisit automatiquement le modèle le plus exact, tout en évitant le surapprentissage. Livre blanc d'entreprise Page 8
  • 9. Reconnaissance de formes La reconnaissance de formes, comme la théorie très proche de la correspondance des formes, utilise plusieurs techniques pour déterminer des structures (ou formes) au sein d'ensembles de données apparemment bruités. Cette tâche apparemment simple a donné naissance à un grand nombre de technologies d'analyse des données, qui sont capables d'extraire des formes particulières et ont des applications évidentes dans de nombreux domaines. Par exemple, la reconnaissance automatique des plaques d'immatriculation est une méthode de reconnaissance de formes utilisée pour localiser une ou plusieurs plaques d'immatriculation sur un flux vidéo ou image. IDOL utilise des techniques de reconnaissance des formes sur tous types de données. En matière de traitement de la parole, la reconnaissance des formes est utilisée dans les techniques d'identification du locuteur, de reconnaissance musicale, ou de création de modèles audio plus larges, par exemple pour détecter des coups de feu ou du verre brisé. Dans le domaine du traitement de l'image et vidéo, le même cadre théorique est appliqué à la détection des scènes, à la reconnaissance faciale, à la correspondance des similarités au sein d'une image ou à la détection des objets, parmi tant d'autres. Pour l'analyse de texte, la reconnaissance des formes permet de "synthétiser" un ou plusieurs documents, pour ensuite établir une correspondance entre les similarités conceptuelles, regrouper les documents, ou pour d'autres applications. Nous étudierons chacun de ces domaines dans les sections suivantes. Reconnaissance des formes textuelles Du point de vue de la reconnaissance des formes, les documents textuels non structurés comprennent généralement des flux bruités de données contenant peu d'informations et sont particulièrement adaptés aux théories de reconnaissance des formes. Suite à l'indexation dans IDOL, plusieurs méthodes permettent de récupérer efficacement les informations des documents. Recherche de base Au moment de l'indexation, les champs d'index sont utilisés pour extraire les termes et concepts pertinents qui seront stockés dans un index inversé. Un grand nombre de propriétés sont stockées pour chaque occurrence d'un terme, notamment le document et le champ de l'occurrence, sa position dans le champ, sa capitalisation, sa racine et toute pondération explicite appliquée à ce terme, et même la phrase et le paragraphe au sein desquels le terme s'affiche. Toutes ces informations sont stockées pour faciliter la récupération lors de la requête. Livre blanc d'entreprise Page 9
  • 10. Au moment de la requête, IDOL charge ces informations pour tous les termes figurant dans la requête, et détermine les documents correspondants à la recherche, que cette dernière soit booléenne, conceptuelle ou par mot-clé. IDOL enregistre les informations et affiche une liste de tous les documents au sein desquels le terme a été trouvé, avec les informations sur les occurrences du terme dans chaque document. Ces informations supplémentaires sont utilisées pour calculer la pertinence. Les mesures de base, telles que les occurrences dans les titres, les champs plus pondérés ou le nombre d'occurrences d'un terme, sont utilisées pour attribuer plus de pertinence à certains documents. Tous les opérateurs booléens ou indicateurs syntagmatiques ont également un impact sur les correspondances et la pondération. Ainsi, une action plus complexe comme l'analyse de la proximité des termes de la requête permet, par exemple pour une requête sur Hilary Clinton, de faire correspondre un document sur la politicienne au lieu d'un document traitant de Hilary Benn et Bill Clinton. De plus, les informations du moteur optimisent l'exactitude du processus de correspondance. Les informations tirées des occurrences des termes et expressions sur l'ensemble du corpus permettent de concevoir un modèle linguistique spécifique aux données qui est utilisé pour optimiser la pertinence. Par exemple, une requête sur les prévisions météorologiques devrait donner beaucoup plus d'importance aux documents traitant de la météo plutôt qu'à ceux mentionnant le mot prévisions. Ce principe peut être étendu pour permettre une recherche conceptuelle et linguistique complètement naturelle. Recherche conceptuelle L'approche probabiliste du processus d'indexation et de récupération d'IDOL permet l'exécution naturelle d'opérations complexes. La récupération de base est optimisée et permet d'obtenir des connexions plus subtiles et des résultats plus pertinents qu'aucun moteur de recherche par mot-clé. Par exemple, imaginez que vous soyez intéressé par l'impact de la pollution sur les pingouins. L'approche traditionnelle consiste à sélectionner un moteur de recherche par mot-clé et de saisir le mot pingouin. Vous obtiendrez des contenus utiles, mais aussi une quantité d'informations non pertinentes sur le biscuit au chocolat des années 80 ou sur Batman et Robin. Dans notre cas, nous recherchons des documents sur les pingouins, c'est-à-dire sur les oiseaux. Un document contenant le mot « mer » peut parler des pingouins, mais comme ce mot apparaît dans de nombreux contextes, il est fort probable que le contenu traite d'un autre sujet. Cependant, si le document contient les mots noir, blanc, ne vole pas, plume, nappe, et pétrole, alors la probabilité que le document ne parle pas des pingouins et de la pollution devient très faible. De plus, ici le mot pingouin n'a même pas été utilisé, au profit d'un nombre supérieur d'informations de moindre importance, chaque information pouvant être retirée sans affecter de manière significative la probabilité. La stratégie de la solution Autonomy est de comprendre le contexte en fonction de concepts et de mots-clés forts ou d'un nombre supérieur d'informations de moindre importance. Pour cela, IDOL a besoin d'un cadre pour encapsuler les concepts tels que les pingouins, les oiseaux ou les prévisions météorologiques. Des agents conceptuels sont alors utilisés. Livre blanc d'entreprise Page 10
  • 11. Agents conceptuels Pour des raisons de clarté et d'extensibilité, les systèmes qui doivent analyser des flux de texte non structurés doivent pouvoir réduire ces flux en vue de leur traitement. Au sein d'IDOL, cette fonction est assurée par les agents conceptuels (ou tout simplement agents). Les agents encapsulent un concept ou un sujet et sont générés à partir d'une ou plusieurs parties de texte non structuré ou d'un ou plusieurs documents. En interne, ils sont stockés en tant qu'ensemble de termes, avec leur pondération associée. Les termes et leur pondération ont été choisis de manière à mieux représenter le concept pour une future utilisation. Ce choix repose sur plusieurs informations, dont le nombre d'occurrences et la proximité de certains ensembles de termes, mais aussi sur le modèle linguistique du moteur qu'IDOL a conçu pour déterminer quel terme contient le plus d'informations ou d'entropie. Ces statistiques, récupérées grâce à l'analyse de l'ensemble du corpus de documents, qui est constamment mis à jour à mesure que de nouveaux documents sont indexés, permettent la sélection intelligente de termes et de concepts au sein d'un document. L'analyse mathématique des textes au sein du corpus considère les termes comme des symboles de sens abstraits avec une compréhension obtenue en contexte, sans grammaires rigides. Généralement, entre 20 et 40 termes sont utilisés pour un agent, même si certains concepts peuvent être résumés à l'aide d'un nombre inférieur de termes, alors que d'autres en requièrent davantage. Un agent est généralement enregistré en tant que recherche, afin que les critères puissent être réutilisés pour trouver de nouveaux documents. Dans ce cas, un texte de requête en langue naturelle est présenté à l'agent, et des documents sont ensuite choisis en fonction des résultats pour décrire l'étendue exacte et précise de l'agent. Les agents peuvent être aussi utilisés pour l'établissement de liens hypertextes, les profils d'utilisateurs, les catégories et les clusters. Les sections suivantes décrivent plus en détails ces utilisations. Etablissement de liens hypertextes L'établissement de liens hypertextes s'appuie sur un document ou un ensemble de documents pour trouver d'autres documents aux concepts similaires. Cette fonction est spécifiquement utilisée pour trouver davantage de documents similaires, notamment des informations pertinentes par rapport à un courrier ou à une présentation que vous écrivez. Pour y parvenir, IDOL utilise ces techniques d'appariement des formes pour créer un agent qui représente le ou les documents, puis fait correspondre cet agent au corpus de documents pour trouver les ressemblances conceptuelles. Profils d'utilisateur La sécurité est capitale pour les utilisateurs d'entreprise de la solution IDOL. Le système d'indexation et de flux de travail d'IDOL répondent à cette attente. Ainsi, la plupart des interactions entre un utilisateur et IDOL impliquent la fourniture des droits d'accès de l'individu. Si nécessaire, IDOL peut ensuite utiliser ces informations pour enregistrer l'activité, les préférences et les formes d'utilisation de chaque individu de manière sécurisée. La création de profils d'utilisateur est un exemple typique d'utilisation. Les profils sont créés automatiquement pour les utilisateurs, chaque fois qu'ils interagissent avec IDOL. Ce sont des agents conçus pour regrouper les intérêts des utilisateurs et sont générés à partir des documents qu'ils créent, modifient ou affichent. Par exemple, un utilisateur qui s'intéresse au secteur des télécommunications en Amérique latine aura des profils qui reflèteront cet intérêt. Ainsi, les dernières nouvelles sur les télécoms brésiliennes seront envoyées à l'utilisateur sans qu'il n'ait à appuyer sur une touche. Le système est capable d'interpréter correctement des termes de recherche ambigus en fonction de ces informations (hiérarchie basée sur les intentions). De plus, les profils peuvent être utilisés par la communauté pour automatiquement créer des liens vers les utilisateurs ayant des intérêts similaires (appelé réseau d'expertise). Livre blanc d'entreprise Page 11
  • 12. Tableau 1 : Combinaisons sources / cibles CIBLE CRITÈRES DOCUMENT PERSONNE AGENT SOURCE CRITÈRES Extension de recherche Recherche de document Recherche d'expertise Recherche d'agent DOCUMENT Catégorisation booléenne Etablissement de liens hypertextes Profilage Catégorisation conceptuelle PERSONNE Catégorisation de personnes Recherche de profil Communauté Catégorisation de personnes AGENT Catégorisation d'agent Catégorisation pendant la requête Recherche d'expertise Suggestion d'agent De plus, les utilisateurs peuvent créer manuellement leurs propres agents conceptuels pour trouver des documents sur des sujets spécifiques, à la demande, ou pour obtenir de nouveaux documents sur un sujet qui leur a été envoyé automatiquement. Ils peuvent ensuite partager ces agents avec leur communauté d'entreprise. Catégories et clusters La capacité d'IDOL à catégoriser le contenu non structuré est une application puissante de l'apprentissage automatique. Il existe deux techniques principales. Pour la catégorisation, des exemples de documents dans chaque catégorie sont fournis à IDOL, à partir d'un ensemble prédéfini. Les bibliothèques de reconnaissance d'IDOL forment les agents de catégorie, qui peuvent être ensuite utilisés pour catégoriser les documents non triés. Pour le clustering, IDOL crée des agents de cluster à partir d'un corpus inconnu en identifiant les principaux sujets des données, qui à leur tour peuvent être utilisés pour suivre ces clusters dans le temps ou catégoriser d'autres documents. Nous discuterons de ces deux techniques plus en détail dans la section Classification. La correspondance polyvalente, l'atout de la stratégie d'IDOL La puissance des agents conceptuels d’IDOL réside dans leur capacité à interagir avec les documents, les requêtes et entre eux. Par exemple, lorsqu'un document est utilisé en tant que requête dans IDOL, la solution s'appuie sur l'établissement de liens hypertexte. De même, pour classer les individus en catégories prédéfinies (catégorisation de personnes), une personne (représentée par un profil utilisateur) est utilisée en tant que requête auprès des agents d'IDOL. Sinon, les critères de recherche, tels que les mots-clés, le langage naturel ou la recherche booléenne, peuvent être enregistrés dans IDOL. Ainsi, lorsqu'un document est analysé, seuls les critères qui s'appliquent à ce document sont renvoyés, offrant une opportunité incroyablement évolutive d'enregistrer les expressions booléennes pour évaluer de futurs documents. Le tableau suivant montre toutes les combinaisons possibles. Livre blanc d'entreprise Page 12
  • 13. Classification La classification couvre un large éventail d'activités dans le domaine de la récupération d'informations, mais nous pouvons résumer ce processus à un regroupement ou à un balisage des données destiné à simplifier le processus de récupération pour l'utilisateur. IDOL exécute des classifications en natif dans le cadre du flux d'ingestion. Une fois les documents classés, l'utilisateur peut en profiter via la récupération paramétrique, le tri et le routage, le filtrage avancé ou des techniques de visualisation complexes. La technologie de classification de base d'IDOL est centrée sur les mêmes techniques avancées d'appariement des formes que ses algorithmes de récupération. Ses méthodes brevetées s'appuient sur les principaux résultats de l'inférence bayésienne et de la théorie de l'information pour identifier automatiquement les formes qui apparaissent naturellement dans les données textuelles. Grâce à des méthodes de traitement des signaux numériques adaptatives non linéaires, l'analyse textuelle met en évidence des statistiques pour faire correspondre les idées et les concepts. De cette manière, les questions conceptuelles peuvent être rapidement réduites en équations de probabilité et analysées mathématiquement. Ces techniques extensibles et indépendantes de la langue peuvent être appliquées à quasiment toutes les formes de contenu numérique. Les mêmes méthodes permettent aux ordinateurs de comprendre automatiquement les flux audio et vidéo, par exemple les flux télévisés ou les conversations téléphoniques, ainsi que toute forme de contenu textuel. Catégorisation La catégorisation est la forme la plus simple de classification et permet de trier les documents textuels en catégories prédéfinies. Avec la catégorisation conceptuelle, les catégories sont automatiquement créées à partir d'un ensemble de documents pré-balisés via une étape « d'apprentissage » pendant laquelle des exemples de document de chaque catégorie sont identifiés manuellement et transférés à IDOL pour être intégrés. IDOL analyse ensuite les documents en référence à un corpus plus large de documents non balisés et crée un agent conceptuel qui représente cette catégorie. Une fois toutes les catégories apprises, le système est prêt à catégoriser les documents invisibles. Livre blanc d'entreprise Page 13
  • 14. En plus d'éviter la création de catégories manuelles coûteuses, l'utilisation d'agents conceptuels renvoie une pondération probabiliste pour chaque correspondance de données. Au lieu de renvoyer une simple réponse par oui ou non, la pondération simplifie le seuillage et nous permet de classer les documents en plusieurs catégories. De plus, IDOL prend en charge l'éventail complet de recherches par mot-clé, booléenne et opérations de proximité, de la simple expression booléenne aux constructions de pondération explicites et hautement complexes. Même ces systèmes hérités sont soumis à la pondération conceptuelle et brevetée d'IDOL, redonnant vie aux expressions autrement statiques. Les expressions peuvent être associées à des agents pour filtrer les résultats, en plus de la pondération conceptuelle. Dans nombre de ces systèmes, la majeure partie du coût de prise en charge de la taxonomie booléenne réside dans la main d'œuvre nécessaire à la création des expressions, car le personnel doit ajouter et supprimer les termes pour respecter la règle souhaitée. IDOL peut même réduire les coûts associés à la prise en charge de ces règles. La solution offre des outils interactifs pour générer, tester et manipuler d'anciennes ou nouvelles expressions, et suggère des termes et expressions à ajouter pour améliorer l'analyse. Les techniques de base de catégorisation d'IDOL sont en majeure partie basées sur les méthodes bayésiennes, qui offrent la polyvalence requise pour atteindre un niveau d'exactitude élevée sur la large gamme de données reçues. En plus d'être indépendantes de la langue, ces techniques d'analyse des données fonctionnent aussi sur les données financières ou pharmaceutiques, mais également sur des petites catégories de même ou différentes tailles. Solution transparente, tous les aspects de la méthode de classification peuvent être contrôlés et testés à l'aide des paramètres de configuration et de formation. De plus, les techniques bayésiennes sont optimisées pour répondre aux décisions binaires (par exemple, « Cet e-mail est-il un spam ? » ou « Ce document est-il adapté aux enfants ? »). Dans ce genre de situations, la plupart des techniques de classification échouent, car elles ont été conçues pour identifier des documents qui contiennent uniquement des caractéristiques limitées et s'appliquent donc uniquement à un petit sous-ensemble de corpus de documents. Les questions larges qui divisent le corpus en deux telles que les questions citées ci-dessus ne sont pas faciles à définir clairement via un petit ensemble d'exemples, et ne peuvent être décrites entièrement, même par une longue expression booléenne. Le classifieur BinaryCat d'IDOL répond spécifiquement à ces besoins. Il est capable d'effectuer une analyse détaillée sur deux ensembles de documents d'apprentissage (l'un représentant une réponse positive et l'autre une réponse négative), puis d'extrapoler grâce à ses connaissances statistiques du corpus afin de générer une catégorie qui peut être utilisée pour classer tous les futurs documents. IDOL offre également des techniques basées sur les forêts aléatoires qui sont optimisées pour les courts extraits tels que la catégorisation des tweets. Ces techniques fonctionnent sur un appariement des formes granulaire qui est également idéal pour les catégories définies par un nombre réduit de caractéristiques positionnelles et structurelles, telles que le formatage ou le positionnement d'une partie de texte au sein d'un document. Clustering La catégorisation est une technologie d'apprentissage supervisée, car elle apprend à imiter la classification telle que démontrée par les documents d'apprentissage balisés par les humains. Le clustering, au contraire, est un apprentissage non supervisé, car aucun conseil humain n'est donné. Avec le clustering, un corpus ou un sous-ensemble défini d'un corpus est analysé pour être divisé en ensembles de documents similaires. Résultat : le corpus est partitionné en plusieurs clusters, chacun ayant un agent conceptuel que nous pouvons utiliser pour effectuer d'autres analyses ou catégoriser d'autres documents dans le même ensemble de clusters. Livre blanc d'entreprise Page 14
  • 15. Lors de la première étape du clustering, IDOL analyse chaque document et détermine ses principaux concepts en se basant sur la fréquence des termes et leurs relations avec le sens. IDOL associe ensuite les mesures statistiques à chaque concept en fonction de la pondération fournie par la modélisation adaptative du concept de probabilité (APCM). L'APCM est une technologie propriétaire de base au sein d'IDOL. Les caractéristiques et concepts sont identifiés au sein des documents à l'aide de techniques analogues à celles utilisées pour la création d'un agent conceptuel. Ces techniques attribuent une importance aux concepts, ainsi qu'à leurs relations. Elles sont notamment utilisées pour trouver des documents similaires ou des relations entre un profil et un type de documents. L'une des idées fondamentales de la pondération par l'APCM est que le corpus de connaissances analysé vous fournit une vision globale adéquate. Les mesures de similarité entre les documents sont simplement dérivées des statistiques générées pour chaque document. Une méthode de clustering agglomérative hiérarchique est appliquée pour former des clusters naissants à mesure que les données s'accumulent. Ces clusters sont ensuite analysés pour en déterminer la force et valider la couverture et la cohérence de l'ensemble. Les clusters faibles, incohérents ou inutiles sont supprimés de l'ensemble. Enfin, les informations supplémentaires sont extraites des clusters, telles que le titre du cluster, pour permettre aux utilisateurs d'en identifier rapidement le contenu. L'ensemble terminé est ensuite mis à disposition pour être examiné ou représenté sous la forme d'un graphique, notamment des cartes de cluster en 2 ou 3 dimensions. De plus, vous pouvez analyser des ensembles de clusters couvrant différentes périodes afin d'identifier les informations, par exemple les informations qui persistent dans le temps (visualisation par spectrographe), ou les informations fortes (Qu'est-ce qui est important ?), et les nouvelles de dernière minute (Quoi de neuf ?). En plus de s'appuyer sur des techniques fondamentales d'appariement des formes et bayésiennes, IDOL utilise une nouvelle approche du clustering basée sur les résultats des mécaniques quantiques. Selon ces dernières, une fonction de vague quantique est générée autour de chaque document afin qu'un clustering incrémentiel et extensible puisse être facilement exécuté, sans refaire de calcul lors de l'ajout d'un nouveau document. Eduction IDOL propose une fonction de correspondance extensible et évolutive des entités prédéfinies via ses fonctionnalités d'éduction. Le module d'éduction réalise la gamme complète de tâches d'extraction intelligente d'entités au sein d'IDOL, et identifie automatiquement les métadonnées des documents. Les algorithmes d'analyse des données propriétaires qui supportent le code sont capables d'analyser à la fois le texte semi-structuré et non structuré afin d'extraire une large gamme de métadonnées, peu importe le formatage du texte. En plus des entités standard prédéfinies telles que les dates, noms de personne, lieux, adresses, numéros de téléphone, adresses électroniques, numéro de sécurité social, etc., la fonction d'éduction fournit un langage sophistiqué permettant de définir les entités personnalisées. La configuration permet de faire correspondre toutes les expressions du dictionnaire et régulières pour obtenir une fonction d'extraction complète. De plus, la technologie d'appariement des formes et statistique d'IDOL permet à la fonction d'éduction d'aller encore plus loin, car les règles de métadonnées peuvent également être intégrées. Un utilisateur fournit quelques exemples de formats d'entité, à partir desquels IDOL est ensuite capable de développer automatiquement des règles internes. La solution les utilisera ensuite pour localiser les entités similaires dans le texte. Livre blanc d'entreprise Page 15
  • 16. Analyse des sentiments La détection des sentiments d'un document, par exemple le caractère positif, négatif ou neutre d'une critique, est une forme particulière de catégorisation. Les sentiments positifs et négatifs sont identifiés au sein d'un texte via des méthodes linguistiques et statistiques. Les résultats de cette analyse peuvent être utilisés pour souligner les extraits d'un document qui montrent les sentiments et pour identifier le sujet d'un sentiment. Par exemple, dans une critique de restaurant, la fonction permet d'identifier que la nourriture et le lieu sont critiqués positivement et que le service est critiqué négativement. La fonction d'analyse des sentiments s'appuie sur deux principales technologies d'IDOL. La première est le module grammatical d'éduction qui permet la création de règles et de formes linguistiques extensibles afin de définir des expressions positives et négatives. La seconde est le module de catégorisation qui permet de classifier le texte en catégories positives, négatives et neutres. La seconde méthode présente l'avantage d'exécuter un apprentissage automatique afin d'identifier les caractéristiques qui définissent automatiquement les documents positifs et négatifs, ce qui fonctionne correctement sur des documents inhabituels ou utilisant une langue particulière. Les grammaires de sentiments standard sont disponibles pour plusieurs langues et d'autres sont régulièrement créées. Classification des contenus multimédias Nous pouvons également appliquer les techniques d'analyse des sentiments aux données multimédias telles que les fichiers image, son ou vidéo. Par exemple, nous pouvons classer le son en tant que discours, musique, silence, etc. Nous pouvons identifier les sons en tant que coup de feu ou alarme. Une voix peut être classée comme calme ou coléreuse, ce qui est particulièrement utile pour les systèmes de surveillance des centres d'appel. Nous reparlerons de la classification des fichiers audio, image et vidéo plus en détail dans les sections traitant de la reconnaissance des formes. Livre blanc d'entreprise Page 16
  • 17. Reconnaissance des formes audio IDOL utilise ses connaissances approfondies et ses réseaux de neurones artificiels pour offrir une analyse audio de pointe. Les réseaux de neurones artificiels ont été créés dans les années 1950, et leur utilisation pour la reconnaissance vocale existe depuis les années 1980. En fait, IDOL utilise les réseaux de neurones artificiels au sein de sa technologie vocale depuis ses débuts dans les années 1990. Plus récemment néanmoins, les réseaux neuronaux sont à la pointe en termes de reconnaissance vocale. D'importants investissements dans la recherche sur la reconnaissance vocale ont été réalisés ces dernières années ainsi que des avancées matérielles. Ce n'est que très récemment que l'on a enfin utilisé les réseaux de neurones artificiels pour la reconnaissance vocale grâce au matériel actuel. Les réseaux de neurones artificiels semblent généraliser les sons de la parole bien plus efficacement que les algorithmes statistiques. Les sons de la parole sont en effet un peu plus complexes que les modèles statistiques utilisés auparavant et sont mieux appréhendés par les réseaux de neurones artificiels. Les progrès matériels ont été essentiels dans cette avancée. La puissance de traitement est désormais beaucoup plus rapide. Plus important encore pour la parole, les unités de traitement graphiques, développées à l'origine pour l'affichage graphique des jeux vidéo, ont permis d'optimiser les tâches de multiplication de la matrice, qui constituent l'aspect le plus essentiel du processus d'apprentissage du réseau de neurones artificiels. Dans un même temps, les extensions CPU, grâce à leur parallélisme, ont amélioré la performance d'exécution. Conversion de la parole en texte La conversion de la parole en texte désigne le processus de traduction des mots prononcés en texte écrit. Ce processus est utilisé dans de nombreux contextes pour analyser, rechercher et traiter le contenu audio, par exemple les systèmes de commande et de contrôle, les logiciels de dictée, les recherches audio et vidéo ou le sous-titrage. La technologie de conversion de la parole en texte d'IDOL a intégré plusieurs heures de données vocales et linguistiques pour apprendre les schémas vocaux. Ce processus d'apprentissage produit des modèles linguistiques, qui forment nos packs linguistiques. Nous modélisons l'acoustique et la linguistique de chaque langue. Le modèle acoustique identifie les sons vocaux (phonétiques) probables dans le fichier vocal, puis est associé au modèle lexical et linguistique pour arriver à la séquence de mots la plus probable. Livre blanc d'entreprise Page 17
  • 18. Personnalisation linguistique et adaptation acoustique IDOL a besoin de packs linguistiques pour effectuer les tâches de traitement vocal. Un pack linguistique comprend un modèle linguistique et un modèle acoustique. Les deux composants clés du modèle linguistique sont les dictionnaires de vocabulaire et de prononciation, plus les probabilités de mots N-gram de corpus. Le modèle linguistique couvre un large vocabulaire reflétant le langage courant. Cependant, pour un système couvrant des sujets spécifiques, tels que les domaines financiers ou médicaux, il peut manquer au modèle linguistique standard des structures ou du vocabulaire spécialisés. Dans ce cas, IDOL peut concevoir des modèles linguistiques personnalisés. La conception d'un nouveau modèle linguistique implique une grande quantité de texte, de l'ordre de millions ou de milliards de mots, et les packs linguistiques standard sont généralement formés de plusieurs milliards de mots. Ainsi, la meilleure manière de personnaliser un modèle linguistique consiste à concevoir un modèle personnalisé réduit utilisant du texte spécialisé, puis de l'associer au modèle standard. De plus, IDOL permet d'adapter les modèles acoustiques disponibles dès l'installation de la solution pour qu'ils correspondent au plus près aux propriétés acoustiques des ensembles de données audio spécifiques. L'adaptation du modèle à l'aide de données représentatives (en termes de qualité d'enregistrement et d'accent) permet d'améliorer les résultats de la conversion de la parole en texte. Analyse audio IDOL s'appuie sur plusieurs techniques de traitement audio propriétaires pour permettre l'utilisation d'autres techniques d'analyse sur les flux audio. Par exemple, la segmentation des locuteurs, qui détermine les transitions entre deux locuteurs, et l'identification des locuteurs, qui identifie les locuteurs en fonction de leurs caractéristiques vocales, utilisent des techniques de traitement du signal pour extraire les principales caractéristiques du fichier audio. Elles utilisent ensuite l'appariement des formes pour déterminer la probabilité d'un locuteur spécifique sur un segment donné. Nous pouvons apprendre à ce système à utiliser les échantillons vocaux de chaque locuteur pour créer des modèles de locuteur ou à utiliser des modèles préchargés qui permettent de déterminer le genre du locuteur. L'identification de la langue consiste à déterminer la langue parlée. Il n'est pas nécessaire d'identifier les mots du contenu pour déterminer la langue. IDOL tente d'abord d'identifier les sons ou les phonèmes dans le discours, puis choisit une langue qui a la distribution de phonèmes la plus proche. En plus de détecter un grand nombre de langues dès l'installation de la solution, le système est extensible grâce à la conception de classifieurs linguistiques définis par l'utilisateur. Ils sont formés à l'aide d'échantillons de discours dans la langue concernée. L'alignement de la transcription attribue des codes temporels à tous les mots d'une transcription audio, même si elle comprend du bruit ou des sections manquantes. Les codes temporels générés sont normalement exacts à une demi-seconde près. Cette technique est utilisée sur les systèmes qui génèrent automatiquement des sous-titrages à partir de transcriptions manuelles ou qui offrent la possibilité de changer de position à l'aide d'un mot. Cette fonction peut à son tour être utilisée pour vérifier le respect du script et déterminer, par exemple, si l'opérateur du centre d'appel récite le script établi. Livre blanc d'entreprise Page 18
  • 19. IDOL permet de classer automatiquement un son en tant que musique, bruit ou discours. Ceci peut être utile lorsque vous voulez convertir des paroles en texte lorsqu'un fichier audio contient de la musique. Vous pouvez associer ces opérations de sorte que la transcription de parole en texte soit uniquement réalisée pour les segments audio classés en tant que discours. Les mêmes techniques d'appariement des formes s'étendent pour permettre l'apprentissage d'autres catégories sonores. Parmi les catégories disponibles, on distingue notamment la classification de sécurité, capable de détecter les segments sonores contenant des sons tels que des alarmes, des alarmes de voiture, du verre brisé, des cris et des coups de feu. De plus, IDOL réalise plusieurs autres opérations sur le contenu audio, notamment le calcul du ratio signal-bruit et l'identification du seuil d’écrêtement du signal audio afin d'en déterminer la qualité. Reconnaissance sonore Egalement connue sous le nom d'empreinte acoustique, l'identification de l'empreinte sonore génère le résumé numérique d'un échantillon sonore pour l'identifier rapidement ou pour localiser des échantillons similaires au sein d'une base de données. Cette technique présente de nombreuses applications, notamment pour l'identification de chansons ou jingles, la détection de publicités ou le balisage de pistes média, telles que le discours inaugural du président Obama. Dans tous les cas, le système est capable d'utiliser un nombre illimité d'extraits sonores pour l'apprentissage de sa base de données, et l'échantillon sonore à identifier n'a pas besoin d'être une copie exacte de l'original. Recherche d'éléments phonétiques La recherche phonétique désigne le processus de recherche de mots et de phrases en fonction de leur prononciation. Les phonèmes sont des unités fondamentales sonores qui composent la langue parlée. Par exemple, le mot vache comprend trois phonèmes ou sons : v–a–che. Le moteur d'identification des phonèmes analyse d'abord le fichier audio pour créer une piste temporelle des phonèmes, qui rapporte le moment auquel chaque phonème apparait sur le fichier. Il s'agit d'un processus unique. IDOL recherche ensuite les données de suivi temporel des phonèmes pour les mots et expressions spécifiés. Sur un ordinateur de bureau typique, le processus de recherche peut fonctionner 100 fois plus rapidement qu'en temps réel. La recherche d'expressions phonétiques dépend de la langue. Il est préférable d'effectuer une opération complète de conversion de la parole en texte plutôt qu'une recherche phonétique, car la première ouvre l'ensemble des opérations IDOL, dont la recherche conceptuelle. Cependant, il existe des cas où vous pouvez avoir des exigences spécifiques, et notamment utiliser des mots-clés et l'identification d'expression ou encore limiter les ressources matérielles. La recherche phonétique peut être utilisée dans ces cas spécifiques. La recherche phonétique est particulièrement utile dans les cas où les inexactitudes inévitables de la transcription ordinaire entraînent l'oubli de documents au moment de la recherche. Grâce à la recherche phonétique, la recherche du mot fraude peut renvoyer des résultats où le mot a été incorrectement transcrit en tant que Ford et les marquer d'un niveau de confiance inférieur, permettant à l'utilisateur d'établir un seuil de recherche en fonction de ses exigences. Livre blanc d'entreprise Page 19
  • 20. Reconnaissance des formes d'image Les humains reconnaissent les objets, les personnes ou les emplacements sans effort apparent. Lorsque nous voyons un objet pour la première fois, nous l'étudions, mémorisons ses propriétés visuelles uniques et en effectuons un modèle mental que nous conservons pendant une certaine période. Lorsque nous revoyons cet objet, nous essayons de faire correspondre ses propriétés visuelles avec les modèles enregistrés dans nos cerveaux. IDOL s'appuie sur une approche similaire pour automatiser le processus de reconnaissance des objets à partir d'images. IDOL fournit des algorithmes de vision artificielle pour reconnaître des formes répétitives ou inhabituelles dans les images d'objets, de texte, de personnes et de scènes. Généralement, les données d'entrée brutes varient en fonction d'une multitude de facteurs. Ainsi, la dimensionnalité des données d'entrée est très large. Pour simplifier la tâche de détection des formes dans une entrée hautement dimensionnelle, l'entrée est mappée sur un petit nombre de nouvelles dimensions. Ce processus est appelé extraction des caractéristiques. Parfois, les caractéristiques sont choisies pour compresser les données d'entrée plutôt que pour réduire leur dimensionnalité. Par exemple, si nous voulons simplifier les images de texte en lignes, boucles ou points. Dans d'autres cas, si la dimensionnalité d'entrée est assez basse et qu'il n'est pas possible de diviser les données en formes, nous pouvons mapper l'entrée en dimensions supérieures pour mieux distinguer les formes. Lorsque l'on assiste à une distorsion des perspectives, il faut regarder les dérivés de deuxième et troisième ordres de l'image pour identifier correctement la distorsion. Les caractéristiques sont choisies pour optimiser le contenu des informations des données d'entrée pour la tâche à accomplir. L'approche d'ingénierie traditionnelle de reconnaissance des formes s'appuie sur les connaissances heuristiques pour choisir les caractéristiques, alors que l'approche de l'apprentissage automatique de la vision artificielle apprend automatiquement les caractéristiques à partir d'un ensemble d'images d'apprentissage. Dans les deux cas, les caractéristiques sont choisies en fonction de la compréhension du problème à résoudre et sont soumises aux mesures de qualité et d'exactitude de sortie souhaitées. Une fois que nous choisissons les caractéristiques, nous les encodons, ainsi que les relations qui les lient, pour créer un modèle. Grâce à l'optimisation de la connectivité Internet et à la baisse du prix des caméras, une grande quantité de données visuelles partiellement étiquetées sont disponibles. Nous utilisons des techniques statistiques de reconnaissance des formes, dont les réseaux de neurones, pour apprendre les modèles probabilistes de ces données. Dans d'autres cas, le problème concerne l'estimation de quantités inconnues de données d'entrée souvent bruitées. Nous utilisons alors les techniques d'inférence bayésiennes. Dans les cas où les données d'apprentissage sont limitées, nous utilisons des approches d'ingénierie pour trouver le meilleur modèle global. Livre blanc d'entreprise Page 20
  • 21. Reconnaissance optique de caractères L'un des premiers défis en termes de reconnaissance des formes a été la reconnaissance optique de caractères, qui consiste à déchiffrer le texte à partir d'images de texte imprimés. Pour commencer, nous segmentons l'image d'entrée afin de séparer le texte en premier plan de l'arrière-plan. A ce stade, nous devons gérer les défauts liés à la numérisation ou les effets lumineux, tels que les ombres ou les reflets spéculaires. Ensuite, nous regroupons les régions adjacentes au premier plan pour former des mots potentiels et les transférons vers un classifieur de caractères. Les mots en résultant sont ensuite vérifiés à l'aide d'un dictionnaire et de certaines règles linguistiques avant toute validation du mot. Ce processus peut être répété, afin que plusieurs mots adjacents puissent être associés pour former des mots plus longs ou que les mots composés soient divisés en mots plus courts. La reconnaissance optique de caractères d'IDOL prend en charge un grand nombre de scripts et de langues, et fournit également une fonction d'identification automatique des langues. Cette fonction est fréquemment utilisée pour lire automatiquement les textes de documents ou de photos, économisant de nombreuses heures de travail manuel laborieux. Reconnaissance des codes-barres La reconnaissance des codes-barres représente un autre défi. Les techniques utilisées pour la reconnaissance des codes-barres sont similaires à celles utilisées pour la reconnaissance optique de caractères, sauf que nous apprenons à l'algorithme à rechercher des lignes (codes-barres linéaires) ou des carrés (codes QR) au lieu de caractères alphanumériques. Une fois les lignes ou les carrés localisés, un décodage potentiel des codes-barres est déterminé. Tout comme la reconnaissance optique de caractères, les éléments sont transférés vers un classifieur pour classer les groupes de lignes ou de carrés. Le classifieur les vérifie par rapport aux normes de code-barres et corrige les erreurs, si nécessaire. La simplicité de ses caractéristiques (lignes ou rectangles) et ses normes limitées optimisent la robustesse du code-barres face aux données d'entrée bruitées. C'est la raison pour laquelle la reconnaissance des codes-barres est utilisée quasi universellement dans les supermarchés pour le suivi des inventaires, l'expédition et la logistique. Les codes QR sont composés de carrés, organisés sur une matrice en deux dimensions. La forme inclut ainsi des informations d'alignement et de taille. Ceci permet d'améliorer la capacité de stockage. Plus important encore, les codes QR peuvent être lus par des caméras numériques. Ils sont donc les codes les plus numérisés par les téléphones mobiles. IDOL propose des algorithmes de reconnaissance des codes-barres robustes, capables d'identifier plusieurs codes-barres et codes QR au sein d'une image, indépendamment de son orientation. Traitement des images humaines Le processus de localisation d'objets décrit par certaines caractéristiques au sein d'une image est appelé détection d'objet. La reconnaissance faciale est l'exemple le plus connu de détection d'objet. Son objectif est d'identifier tous les visages présents sur une image. D'abord, les caractéristiques visuelles sont extraites pour rechercher certaines formes récurrentes pour les visages, telles que la forme en T créée par les yeux et le nez. Après l'examen des formes au sein des différentes parties de l'image, chaque partie est classée dans une catégorie, faciale ou non. Ensuite, les résultats sont associés à l'aide d'un classifieur optimisé. Le classifieur optimisé utilise la somme pondérée de plusieurs classifieurs inférieurs qui répondent à de simples questions, menant à un classifieur supérieur capable de répondre à des questions complexes. Pendant l'apprentissage, les pondérations de ces classifieurs inférieurs sont intégrées et lors de la détection, un mécanisme en cascade est utilisé pour mettre rapidement de côté les échantillons négatifs. Nous pouvons utiliser la détection faciale d'IDOL et la fonction de reconnaissance faciale pour trouver et identifier des personnes dans une image ou une vidéo. Nous pouvons détecter des visages sur des images de mauvaise qualité et des photos de groupe aux arrière-plans bruités. La fonction de détection et de reconnaissance rapide d'IDOL est déjà utilisée par plusieurs entités dans des applications de sécurité, de surveillance et de service clients. Livre blanc d'entreprise Page 21
  • 22. La détection des piétons est un problème plus complexe. Alors qu'un visage présente une forme et une apparence bien définies, les piétons peuvent avoir l'air extrêmement différents selon ce qu'ils portent, la distance entre eux et la caméra, qu'ils bougent ou qu'ils sont seuls ou en groupe. Pour les applications de sécurité, il n'est pas possible de détecter de manière fiable le visage des piétons qui se trouvent trop loin de la caméra. De plus, il est parfois nécessaire de détecter les piétons même quand ils ont le dos tourné à la caméra. La détection faciale et la détection des piétons s'appuient sur des techniques similaires, mais différentes caractéristiques sont utilisées. La forme en Ω caractérisant la tête et les épaules est généralement recherchée. La détection des piétons est très utilisée dans les applications de sécurité automobiles pour détecter automatiquement les piétons sur la route et alerter le conducteur. Lorsque des données vidéo sont disponibles, les informations de mouvement peuvent fournir des indices très utiles sur la localisation des objets et faciliter la mise en évidence des objets au premier plan par rapport à ceux situés à l'arrière-plan. La détection des piétons peut être utilisée dans le comptage des personnes. Il est très courant actuellement de recevoir des alertes sur la saturation ou la congestion des stations de métro, de train, des festivals de musique ou des événements sportifs. Le comptage de personnes s'appuie la plupart du temps sur plusieurs classifieurs pour déterminer si chaque région de l'image comprend une ou deux personnes, un petit nombre de personnes, par exemple une famille, ou un groupe important de personnes. Une fois le résultat de la classification disponible, la fonction utilise les informations préalables et les données de post-traitement de la scène pour obtenir le nombre total de personnes dans un cadre donné. Les indices de mouvement obtenus à partir des données vidéo facilitent considérablement l'analyse. Le comptage de personnes est fréquemment utilisé pour analyser un trafic normal par rapport à un trafic saturé. Les systèmes sont entraînés à gérer les formes normales telles que le trafic des gares ferroviaires pendant les heures de pointe, mais peuvent envoyer une alerte lorsqu'un trafic supérieur est constaté en dehors des heures de pointe. Le comptage de personnes va au-delà de la détection des piétons, car la fonction peut analyser non seulement le nombre de personnes, mais aussi leur regroupement et leurs mouvements. La saturation des gares ferroviaires lors d'événements sportifs est plus probablement due à l'entrée et aux mouvements de groupes de personnes plutôt qu'à des voyageurs seuls qui se déplacent de manière plutôt prévisible. Nous utilisons également les techniques d'inférence bayésiennes pour repérer les mouvements de personnes inhabituels en fonction des connaissances dont nous disposons sur le lieu. Les autres applications du traitement des images humaines sont l'analyse des propriétés telles que l'âge, le genre, les expressions faciales et différents attributs, par exemple les lunettes, la pilosité faciale ou la couleur des cheveux. Ces informations complémentaires peuvent être très utiles pour réduire le nombre d'identités à étudier lorsque vous effectuez une recherche dans une grande base de données, accélérant ainsi les résultats. Reconnaissance faciale Une fois un visage localisé et analysé au sein d'une image, l'étape suivante consiste à associer ce visage à une personne. La reconnaissance faciale est l'une des applications quotidiennes les plus populaires de la vision artificielle. Nous reconnaissons les visages si facilement que nous ne réfléchissons pas à la complexité de l'analyse en arrière-plan. Les algorithmes informatiques ne parvenaient pas à avoir d'aussi bons résultats que les humains, mais plusieurs décennies de recherche dans ce domaine ont permis d'améliorer la performance des algorithmes de reconnaissance faciale. En fait, la capacité des humains à distinguer les visages qu'ils ne connaissent pas est assez faible, et les algorithmes de reconnaissance faciale actuels de pointe ont commencé à surpasser les performances humaines pour les visages moins familiers. Livre blanc d'entreprise Page 22
  • 23. L'algorithme de reconnaissance faciale d'IDOL utilise des réseaux de neurones convolutifs approfondis. Le réseau de neurones est entraîné sur un nombre important de visages afin d'intégrer les caractéristiques faciales distinctives à partir de plusieurs photos d'une même personne, ainsi que les différences de caractéristiques faciales distinctives à partir de photos de deux personnes différentes. L'apparence d'une personne peut changer en fonction de la lumière, de l'angle de vue, des expressions faciales ou du maquillage. De plus, les images test peuvent être en résolution faible et présenter des défauts. Notre processus d'apprentissage prend en compte ces facteurs pour produire des traits hautement distinctifs pour chaque visage. Une fois qu'IDOL traite ces caractéristiques, la tâche d'identification d'une personne consiste tout simplement à rechercher la meilleure correspondance dans la base de données. La reconnaissance faciale est le plus souvent associée aux applications de sécurité, mais une large gamme d'applications grand public, telles que la retouche photo, l'authentification visuelle, le suivi des patients et le contrôle parental utilisent la reconnaissance faciale. Reconnaissance d'objets Il est parfois utile de détecter certains objets, par exemple la marque d'une société ou l'emballage d'un produit spécifique. Même si l'objet est bien défini, la reconnaissance d'un objet peut être difficile, car l'objet peut être vu d'un d'angle différent, sur un arrière-plan encombré, ou être partiellement caché. IDOL fournit des algorithmes pour la reconnaissance des objets rigides en 2D et 3D. La première étape du processus de reconnaissance des objets consiste à extraire les caractéristiques distinctives de l'image. Les caractéristiques doivent être suffisamment descriptives pour permettre l'identification, mais également compactes pour être stockées efficacement. Elles doivent aussi s'adapter aux différents angles de vue et aux variations de lumière. Les caractéristiques et les relations spatiales entre elles sont enregistrées dans un modèle dans la base de données. Lorsqu'une image test est identifiée, les caractéristiques extraites de l'image sont comparées à celles de la base de données. Une structure arborescente peut d'abord être utilisée pour obtenir rapidement des correspondances approximatives, qui seront affinées ultérieurement. Une fois les correspondances approximatives trouvées, un algorithme de vote est utilisé pour déterminer le modèle correspondant le plus probable. L'algorithme de vote rejette les ensembles de correspondances qui ne sont pas cohérents avec la position géométrique attendue et les contraintes d'échelle. L'identification des objets 3D pose un autre défi, car les relations géométriques entre les caractéristiques sont plus complexes, et seule une fraction du nombre total de caractéristiques est visible d'un certain point de vue. IDOL s'appuie sur des techniques avancées de vision artificielle géométrique pour résoudre les défis de la reconnaissance des objets 3D. La reconnaissance des objets IDOL est largement utilisée dans le commerce pour la gestion des inventaires, le marketing ciblé et la publicité. Elle est également utilisée dans le domaine de l'authentification visuelle pour contrôler les accès à certaines zones, et dans les jeux vidéo pour offrir des contenus de jeux personnalisés. Un autre exemple courant de reconnaissance des formes textuelles à partir de données visuelles est celui de la reconnaissance automatique des plaques d'immatriculation. Ici encore, les principes sont quasiment les mêmes que ceux de la reconnaissance optique de caractères, mais seule la plaque d'immatriculation est localisée sur l'image du véhicule. Ceci peut être difficile si le véhicule portant la plaque d'immatriculation se déplace rapidement, car l'image capturée peut être floue. La plaque d'immatriculation peut être sale, ou insuffisamment contrastée. Les formats des plaques d'immatriculation sont différents d'un pays à l'autre. La stabilisation de l'image et l'extraction des plaques d'immatriculation sont les plus grands défis en matière de reconnaissance automatique des plaques d'immatriculation. IDOL utilise des algorithmes de stabilisation avancés pour fournir une image claire des plaques d'immatriculation, puis demande à un classifieur basé sur un réseau de neurones d'identifier les caractères de la plaque d'immatriculation. Nous pouvons également appliquer une reconnaissance des objets avancée pour surveiller des véhicules et en identifier la marque et le fabricant. En associant ces informations à la reconnaissance des plaques d'immatriculation, il est possible d'identifier automatiquement les véhicules avec des plaques volées. De plus, la fonction de reconnaissance des plaques d'immatriculation d'IDOL a été utilisée avec succès pour détecter les véhicules non assurés, le non-respect des feux tricolores, ou pour surveiller les mouvements de véhicules au sein d'une zone spécifique. Livre blanc d'entreprise Page 23
  • 24. La capacité d'IDOL à extraire les caractéristiques locales éparses mais invariablement fiables et à appliquer les contraintes géométriques permet de mesurer les similitudes entre les différentes parties d'image. Jusqu'à maintenant, les algorithmes de détection des similarités dans les images s'appuient sur des statistiques grossières telles que des histogrammes en couleur, dégradés, ou l'étalement en bloc. Cependant, ces approches échouent lorsque les images sont modifiées ou délibérément détériorées. Par exemple, une image peut être rognée par rapport à l'image originale, mise en miroir, contenir des balises textuelles, ou des objets similaires mais vus sous un autre angle. En utilisant uniquement les statistiques globales, ces modifications rendraient l'image différente de l'originale. IDOL a la capacité de comparer les images en fonction de leur contenu. La solution utilise des caractéristiques locales fiables pour extraire les parties similaires dans deux images afin que les résultats ne soient pas affectés par le rognage, la mise en mémoire ou les balises textuelles. IDOL peut reconnaître les similarités en dépit des différents angles de vue, des occlusions partielles ou des dégradations. Elle peut également fournir des informations sur la transformation de l'image (mise à l'échelle, translation et distorsion des perspectives) reliant les deux images. Cette fonction permet à l'utilisateur d'envoyer une simple image en tant que requête plutôt que d'avoir à décrire le contenu de l'image. Les requêtes textuelles pour la recherche d'images sont sujettes aux erreurs de balises et de métadonnées associées aux images. En général, les recherches d'images renvoient des résultats bien plus pertinents comparés à des requêtes uniquement textuelles. Les applications de cette technologie incluent la recherche de similarités dans une image, la détection des faux, la détection des films piratés et les achats basés sur la recherche visuelle. Classification des images La classification des images permet d'identifier des catégories d'objets plutôt que des instances spécifiques, par exemple toutes les voitures au lieu d'une Ferrari 488 ou d'une Mercedes classe S. La classification des images est essentiellement une fonction de reconnaissance au niveau des catégories et est plus complexe que la reconnaissance d'objets spécifiques, car elle a besoin de gérer les variations au sein de la catégorie ainsi qu'entre les catégories. Les catégories peuvent être larges ou étroites selon les exigences de l'utilisateur. Plus la catégorie est large, plus le problème est difficile. La classification des images permet aux utilisateurs de baliser automatiquement de grandes quantités de données visuelles qui décrivent le contenu des images. Il est ainsi possible de comparer les images sur la base du contenu visuel sémantique. Un large éventail d'applications s'ouvre ainsi à l'utilisateur, notamment l'identification de formes ou de tendances au sein de groupes de photos, la recherche de certains types de contenus et la recherche d'images correspondant à des critères spécifiques, par exemple un "homme avec une voiture rouge et un chien noir". L'algorithme de classification des images d'IDOL utilise des réseaux de neurones convolutifs approfondis pour apprendre les caractéristiques qui décrivent le mieux les variations au sein des catégories d'objets et entre elles. Nous offrons également une fonction prête à l'emploi pour les utilisateurs souhaitant baliser un grand nombre d'images. Pour chaque image entrée, le classifieur produit un ensemble d'étiquettes et de scores associés qui décrivent le contenu le plus important de l'image. Les étiquettes correspondent aux centaines de catégories que le classifieur est entraîné à reconnaître et incluent des étiquettes pour les objets quotidiens, les animaux courants ou les emplacements. En plus des descriptions du contenu de l'image, nous fournissons également les notes de probabilité correspondantes, afin que les catégories les plus importantes puissent être automatiquement recherchées et enregistrées. Les catégories utilisées pour la classification de l'image ne sont pas toujours connues au départ. Par exemple, un conseil municipal peut accepter de recevoir les photos de ses habitants sur son site Web. La plupart du temps, les photos sont ordinaires. Mais en cas de catastrophe naturelle, il peut y avoir des photos de la zone sinistrée. L'algorithme de classification automatisée des images d'IDOL analyse ces images et les trie en différentes catégories, par exemple "normal" ou "inondé", "normal" ou "incendie". Comme les catégories peuvent uniquement être déterminées au cas par cas, nous fournissons une fonction qui permet d'entraîner les classifieurs. Ceci permet aux utilisateurs d'IDOL d'étiqueter les images en fonction des catégories qu'ils souhaitent utiliser, plutôt que d'être limités aux catégories fournies par les classifieurs pré-entraînés. Livre blanc d'entreprise Page 24
  • 25. Vision artificielle géométrique La vision artificielle géométrique est un champ important de la technologie d'IDOL. Elle associe les connaissances de plusieurs domaines, notamment de la géométrie, des statistiques, de la physique, de l'informatique et de la physiologie pour comprendre l'aspect et la forme du monde en trois dimensions. Tout objet 3D, lorsqu'il est vu sous un angle différent, produit une autre image 2D. Le processus de projection du monde 3D sur un plan d'image en deux dimensions entraîne une perte de qualité. Le but de la vision artificielle géométrique est de récupérer ces informations en s'appuyant sur un nombre suffisant de vues de la scène. Une compréhension correcte de la géométrie projective nous permet également de synthétiser l'aspect à partir de l'angle de vue, ou de déterminer l'angle de vue à partir de l'aspect. Les deux fonctions peuvent être essentielles dans un grand nombre d'applications. Trois domaines théoriques spécifiques permettent de mettre en œuvre la vision artificielle de la solution IDOL : la cartographie et la localisation simultanées (SLAM), la reconstruction 3D et la détection des changements. Cartographie et localisation simultanées La plupart des smartphones disposent d'une caméra, et ces caméras sont de plus en plus petites et performantes. La technologie de détection intelligente des scènes a donc été développée sur les périphériques mobiles, avec une seule caméra et sans aucune lumière infrarouge supplémentaire. Une catégorie d'algorithmes de cartographie et de localisation simultanées (SLAM) permet aux utilisateurs de suivre et d'intégrer simultanément la forme et l'aspect d'une scène 3D. La technologie SLAM fournit instantanément la position de la caméra et un nuage de points épars décrivant toutes les positions 3D des objets les plus distinctifs de la scène. Livre blanc d'entreprise Page 25
  • 26. La technologie SLAM peut également être vue comme un problème d'optimisation du graphe. Le graphe est composé de nœuds qui représentent les positions de la caméra (poses). Les observations communes des objets de la scène forment les connexions entre les nœuds du graphe. A partir des vues et de la position de la caméra sur différents points de la trajectoire, nous pouvons prédire la position de la caméra sous un angle de vue inconnu. Ceci peut faire l'objet de deux processus exécutés simultanément. Le suivi est un processus de construction du graphe de poses : il fait correspondre les objets vus aux objets de la vue actuelle et estime la position de la caméra. La cartographie désigne le processus d'optimisation du graphe de poses. Elle identifie les nouveaux objets dans la scène, ajoute et met à jour leurs représentations et affine les positions et les distances des objets vus précédemment. Le suivi s'appuie ensuite sur la carte mise à jour et obtenue à partir du processus de cartographie pour trouver les objets correspondants dans le cadre actuel. La technologie SLAM est initialisée avec deux cadres à partir d'une vidéo de la scène. Les objets qui s'affichent dans les deux cadres sont mis en correspondance et la position 3D de l'objet est estimée par triangulation. Les positions 3D des objets mis en correspondance et la position de la caméra associée à chaque élément saillant donnent une carte initiale. Notre algorithme choisit automatiquement ces deux cadres. Ainsi, le processus complexe d'initialisation de la technologie SLAM est clair pour l'utilisateur. L'algorithme d'initialisation automatique est particulièrement important dans les situations où l'algorithme SLAM exerce un contrôle limité sur les mouvements de la caméra et la scène vue, ou en cas d'impossibilité d'interaction avec l'utilisateur, par exemple dans le cas de séquences capturées par un véhicule aérien sans pilote (UAV). Pour fiabiliser notre suivi sur les mouvements de caméra rapides et les occlusions occasionnelles, nous utilisons la position, l'orientation et les contraintes de pose de la caméra pour limiter la zone de recherche sur la carte. Notre système de suivi est donc non seulement rapide mais aussi très précis, car nous ne faisons pas correspondre des zones non pertinentes de la carte. Le suivi peut occasionnellement échouer à cause d'occlusions, de mouvements rapides ou d'un manque de caractéristiques saillantes. Comme les contraintes de pose ne peuvent être utilisées en cas d'échec du suivi, nous recourons à une recherche arborescente fortement optimisée du plus proche voisin pour trouver les correspondances sur l'ensemble de la carte. Une fois les correspondances trouvées, nous pouvons estimer la pose de la caméra et le suivi peut être relancé. Les positions 3D des objets et les poses de la caméra (la carte) sont ajustées par le fil de cartographie à l'aide d'un processus semblable à celui du gradient conjugué, appelé estimation de pose. Généralement, ce processus représente la partie la plus coûteuse de l'implémentation SLAM, car il est réalisé sur l'ensemble de la carte. Nous utilisons une technologie de propagation des erreurs pour inclure des parties de la carte dans l'estimation de pose. Nous prenons la décision d'inclure ou d'exclure des parties de la carte dans le processus d'estimation de pose sur la base de leur connexion au graphe de poses par rapport à la partie actuellement visible de la carte. Notre algorithme est ainsi efficace et extensible, ce qui nous permet de concevoir de grandes cartes exécutées en permanence. Nous pouvons créer des cartes d'une exécution de plusieurs dizaines de minutes à partir d'une scène filmée sur un smartphone. Sur les ordinateurs de bureau, nous pouvons concevoir des cartes beaucoup plus grandes et sommes uniquement limités par la RAM. Généralement, les algorithmes SLAM ont du mal à créer de grandes cartes, car le calcul s'adapte de manière quadratique à la taille de la carte, mais notre solution offre une extensibilité linéaire et permanente. L'algorithme suit et apprend à peu près à la même vitesse lors d'une exécution longue. Notre système est exécuté en temps réel sur la plupart des ordinateurs personnels et périphériques mobiles. La polyvalence de notre système permet une utilisation sur un large éventail d'applications. Il peut être intégré à des caméras attachées au corps, à des téléphones portables ou à des clusters d'ordinateurs de bureau. Notre système SLAM est une plate-forme fiable sur laquelle vous pouvez concevoir un grand nombre d'applications 3D passionnantes. Les applications de la technologie SLAM couvrent différents domaines tels que l'analyse de scènes 3D, l'impression 3D et l'analyse de séquences UAV, la surveillance, la réalité augmentée et les systèmes d'assistance à la navigation. Livre blanc d'entreprise Page 26
  • 27. Reconstruction 3D Notre logiciel de numérisation 3D vous permet de créer des avatars numériques des objets quotidiens. Il vous suffit de filmer un objet sous tous les angles. Vous envoyez la vidéo dans SLAM, qui génère des estimations précises de la position et de l'orientation de la caméra. Etant donné les connaissances préalables de l'objet en premier plan, l'algorithme sépare l'objet de l'arrière-plan. Ces informations de premier plan et d'arrière-plan, associées aux estimations de la position de la caméra, permettent à SLAM de créer un modèle 3D de l'objet. La disponibilité du feedback interactif vous permet de visualiser le modèle 3D quasiment instantanément. Ce logiciel s'exécute aisément sur les smartphones ordinaires, s'appuie sur les données visuelles d'une seule caméra et ne dépend pas de lasers ni de capteurs de profondeur à infrarouge. Notre logiciel est capable de numériser tous les objets, quelle que soit leur taille. De plus, vous n'avez pas besoin de placer les objets sur une plaque tournante pour créer une version digitalisée de l'objet. Les modèles 3D créés à l'aide de notre logiciel interactif peuvent ensuite être utilisés pour différentes applications, y compris l'impression 3D. Même si l'impression 3D devient de plus en plus rapide et économique, et accessible aux particuliers, la numérisation 3D reste coûteuse et réservée aux spécialistes. Notre technologie facilite la création de modèles 3D, disponible partout et à moindre coût. La fonction est désormais accessible aux amateurs, aux particuliers et aux entreprises. Détection des changements De plus en plus de données sont capturées par différentes sources allant des caméras des smartphones personnels aux équipements de surveillance sophistiqués. Les données vidéo peuvent être hautement répétitives. Il est donc vital d'automatiser les processus qui réduisent le volume des données requérant une inspection humaine. Exemples de recherche : recherche d'objets (personnes ou véhicules) disparus, détection de nouveaux objets, ou identification d'objets qui ont été déplacés. Vous pouvez également utiliser cette technologie pour révéler des défauts d'équipements ou des mouvements suspicieux dans des applications de surveillance. La recherche automatique de tels événements est appelée détection de changements. Notre système de détection des changements permet d'identifier en temps réel des modifications au sein de scènes 3D sur des périphériques mobiles, à l'aide d'une simple caméra. Pour offrir un feedback immédiat, nous employons une technologie de suivi 3D et un algorithme de cartographie (SLAM) plutôt que d'effectuer une reconstruction 3D complète de la scène, car dans certains cas ceci peut être trop long. Pour utiliser ce système, une scène 3D est numérisée par une seule caméra en mouvement. Pendant ce temps, la technologie SLAM intègre l'environnement 3D en cours de numérisation et enregistre les informations sur la position relative des objets ainsi que la position et l'orientation de la caméra proprement dite au sein d'une carte. Lorsque la scène est numérisée une seconde fois, à l'aide de la carte de référence enregistrée, SLAM estime la nouvelle position de la caméra, et toute modification par rapport à la scène d'origine est détectée et présentée à l'utilisateur. Les prédictions de modification d'une partie de la scène par rapport à la scène de référence peuvent être réalisées à partir des connaissances de la géométrie 3D de la scène. Pour utiliser ces connaissances, nous nous appuyons sur des statistiques avancées de correspondance des caractéristiques ainsi que sur une correspondance des parties locales normalisées en fonction de l'angle de vue. Livre blanc d'entreprise Page 27
  • 28. Abonnez-vous sur En absence de connaissance de la géométrie 3D de la scène, seule l'utilisation des méthodes d'enregistrement d'image 2D est possible. Les méthodes d'enregistrement d'image 2D ne permettent pas de détecter de manière satisfaisante les modifications au sein d'une scène 3D, car l'aspect d'un objet change en fonction de l'angle de vue, et les objets figurant à différentes profondeur sont déplacés différemment dans deux vues de la même scène. Une fois les régions modifiées identifiées, le système montre à l'utilisateur la scène d'origine et la scène modifiée. Les utilisations de cette technologie sont multiples et concernent la plupart de nos applications de sécurité et de surveillance, du suivi et de la surveillance de véhicules au comptage et au suivi de personnes pour diverses raisons (par exemple, pour identifier les zones d'un magasin visitées par certains clients et détecter des comportements suspicieux ou dangereux sur une scène externe ou interne). Des exemples encore plus complexes incluent l'analyse d'enregistrements de scènes similaires mais à différents moments, parfois à des années d'écart, afin de déterminer une activité spécifique, par exemple une détérioration, des fuites ou des failles de sécurité. En savoir plus sur hpe.com/software/idol © Copyright 2016 Hewlett Packard Enterprise Development LP. Les informations présentées dans ce document peuvent être modifiées à tout moment et sans préavis. Les seules garanties applicables aux produits et aux services Hewlett Packard Enterprise sont stipulées dans les déclarations de garantie explicites qui accompagnent ces produits ou ces services. Aucune information contenue dans le présent document ne saurait être considérée comme constituant une garantie complémentaire. Hewlett Packard Enterprise décline toute responsabilité en cas d’erreurs ou d’omissions de nature technique ou rédactionnelle dans le présent document. 4AA6-4478FRE, juillet 2016 Livre blanc d'entreprise