Découvrez en une image infographie toutes les phases de la dsn au sein de votre entreprise et les solutions de paie SAGE pour passer en toute sérénité cette échéance en partenariat avec PROJECT SI intégrateur de référence PAIE et RH SAGE Informations au 01 40 96 21 19 n'hésitez pas contactez nous
Big Data effet de mode ou vrai utilité? On entend de plus en plus parler de Big Data, qui devrai bouleverser notre vie de tous les jours. On génere, avec internet, de plus en plus de quantités extraordinaires de données, qu'en fait-on? Forbes le classe parmi les 10 "technologies" qui devront marquer 2014! Mais qu'est-ce que c'est? Comment le mettre en oeuvre?
Comment l'intelligence artificielle améliore la recherche documentaireAntidot
Présentation faite par Pierre Col au Meetup Lyon Data Science du 9 juin 2016 : l'intelligence artificielle et le machine learning, appliqués au texte mining (classification automatique, extraction d'entités nommées) permettent d'enrichir des corpus documentaires avec des métadonnées qui vont faciliter la recherche d'information et la navigation dans les documents, qui peuvent être liés selon l'approche du linked data.
La toolkit OpenSource Scikit-learn s'impose comme comme un standard d'outil pour réaliser des applications d'apprentissage statistique. Nous invitons l'un de ses auteurs et contributeurs, Gaël Varoquaux, chercheur à l'Inria, à venir nous présenter cette toolkit mais également nous proposer une réflexion sur le big data, sur les stratégies et techniques adaptées ou pas selon les contextes et sur les bonnes pratiques issues de son expérience de chercheur en informatique dans un contexte de recherche scientifique en neurosciences ou les données sont réellement BIG et les problèmes de passage à l'echelle particulièrement sévères. Au delà des aspects techniques liés à la toolkit scikit-learn c'est à une session interactive d'échanges avec Gaël Varoquaux que nous vous invitons, et ce autour du thème des techniques d'apprentissage statistique qui introduisent un nouveau paradigme dans le développement d'application sur de grosses masses de données et sur "l'intelligence des données". Car comme aime à le citer Gaël Varoquaux, selon Steve Jurvetson, VC dans la Silicon Valley, "Big Data isn't actually interesting without Machine Learning". Pour en savoir plus: http://scikit-learn.org/stable/index.html http://gael-varoquaux.info/
Speakers : Gaël Varoquaux (Inria), Pierre-Louis Xech (Microsoft France)
Investigation de cybersécurité avec SplunkIbrahimous
Démonstration d'investigation sur des cyberattaques, dans le contexte d’un SOC, avec l’outil « Splunk ».
Présentation réalisée pour le Security Tuesday de l'ISSA France le 19 mai 2015.
Mix it2014 - Machine Learning et Régulation NumériqueDidier Girard
Le machine learning est la science qui permet à un algorithme d’apprendre sans avoir été explicitement programmé pour cela. Elle est utilisée par les acteurs de la nouvelle économie pour le traitement de gros volumes de données, dans la traduction automatique, la reconnaissance de la parole, la classification de consommateur, la construction de réputation, ou la prévision des trafics. C’est la “régulation numérique”.
Nous parlerons des champs d’application du machine learning par les gros acteurs du numérique, de ses fondements mathématiques, des grands familles d’algorithmes et des outils disponibles pour mettre en pratique.
Découvrez les bases pour comprendre cette science et mesurer le potentiel des possibilités de son utilisation.
Autour d'exemples simples, découvrons ensemble les concepts sous-jacents et les possibilités offertes par le Machine Learning. Si sans complexe vous voulez savoir ce qui se cache derrière ce « buzz word », cette session est pour vous! Vous vous demandez ce qu'il y a exactement derrière des termes tels que: apprentissage supervisé, classification, régression, clustering, série temporelle… Venez, aucun pré-requis n'est nécessaire!
[Infographie] Comprendre la Déclaration Sociale NominativeDivalto
Mesure phare du choc de simplification annoncé en 2013,
la déclaration sociale nominative (ou DSN) sera effective
en 2016 pour l’ensemble des entreprises françaises.
Modélisation du signal et photométrie : application à l'astrophotographieLaurent Devineau
L’objectif de ce support est de présenter à travers un cas pratique les notions clés de photométrie et de modélisation du signal appliquées à l’astrophotographie
L'impact des incriments des séquences de tri Shell. Expérimentation des séque...Soumia Elyakote HERMA
L'impact des incriments des séquences de tri Shell. Expérimentation des séquences
Le TP expérimente des séquences du tri de Shell utilisé depuis la séquence introduit par Shell 1959 arrivant au l’implémentation supposé par Sedgewick 1956,Pour remarqué l’impact de chaque séquence en choisissant les quatres (4) séquences :01) Shell : 1, 2, 4, 8, 16, 32,…..02) Hibbard : 1, 3, 7, 15, 32,…..03) Knuth : 1, 4, 13, 40, 121,…..04) Sedgewick : 1, 5, 19, 41, 109, 209, 505, 929,….
Un réseau de neurones artificiels ou Neural Network est un système informatique s’inspirant du fonctionnement du cerveau humain pour apprendre. Découvrez tout ce que vous devez savoir sur cette technologie d’intelligence artificielle de la famille du Deep Learning.
ELE2611 Classe 6 - Sensibilité, Amplificateurs opérationnels non idéauxJerome LE NY
Slides for the class 6 of ELE2611 (Circuits II) at Polytechnique Montreal - in French.
Slides for the class 1 of the course ELE2611 (Circuits II) at Polytechnique Montreal, in French. Videos here: https://www.youtube.com/playlist?list=PLDKmox2v5e7tKNXeRBaLjCLIdv6d3X-82
Racines en haut et feuilles en bas : les arbres en mathstuxette
1. The document discusses methods for clustering and differential analysis of Hi-C matrices, which represent the 3D organization of DNA.
2. It proposes extending Ward's hierarchical clustering to directly use Hi-C similarity matrices while enforcing adjacency constraints. A fast algorithm was also developed.
3. A new method called "treediff" was created to perform differential analysis of Hi-C matrices based on the Wasserstein distance between hierarchical clusterings. Software implementations of these methods were also developed.
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
The document discusses a presentation about multi-omics data integration methods using kernel methods. The presentation introduces kernel methods, how they can be used to integrate heterogeneous omics data, and examples of applications. Specifically, it discusses using kernel methods to perform unsupervised transformation-based integration of multi-omics data. It also presents an application of constrained kernel hierarchical clustering to analyze Hi-C data by directly using Hi-C matrices as kernels.
Méthodologies d'intégration de données omiquestuxette
This document presents a presentation on multi-omics data integration methods given by Nathalie Vialaneix on December 13, 2023. The presentation discusses different types of omics data that can be integrated, both vertically across different levels of omics data on the same samples and horizontally across similar types of omics data on different samples. It also discusses different analysis approaches that can be taken, including supervised and unsupervised methods. The rest of the presentation focuses on unsupervised transformation-based integration methods using kernels.
The document discusses current and future work on analyzing Hi-C data and differential analysis of Hi-C matrices. It describes a clustering method developed to partition chromosomes based on Hi-C matrix similarity. It also introduces a new method called treediff for differential analysis of Hi-C data that calculates the distance between hierarchical clusterings. Current work includes reviewing differential analysis methods, investigating differential subtrees with multiple testing control, and inferring chromatin interaction networks.
Can deep learning learn chromatin structure from sequence?tuxette
This document discusses a deep learning model called ORCA that can predict chromatin structure from DNA sequence. The model uses a neural network with an encoder to extract features from sequence and a decoder to predict Hi-C matrices. It was trained on Hi-C data from multiple cell types and can predict interactions between regions at various resolutions. The model accurately captures features like CTCF-mediated loops and can predict effects of structural variants on chromatin structure. It allows for in silico mutagenesis to study how mutations may alter 3D genome organization.
Multi-omics data integration methods: kernel and other machine learning appro...tuxette
The document discusses multi-omics data integration methods, particularly kernel methods. It describes how kernel methods transform data into similarity matrices between samples rather than relying on variable space. Multiple kernel integration approaches are presented that combine multiple similarity matrices into a consensus kernel in an unsupervised manner, such as through a STATIS-like framework that maximizes the similarity between kernels. Examples of applications to datasets from the TARA Oceans expedition are given.
This document provides an overview of the MetaboWean and Idefics projects. MetaboWean aims to study the co-evolution of gut microbiota and epithelium during suckling-to-weaning transition in rabbits, using metabolomics, metagenomics, and single-cell RNA sequencing data. Idefics integrates multiple omics datasets from human skin samples to understand relationships between microorganisms and molecules and how they are structured in patient groups. The datasets include metagenomics, metabolomics, and proteomics from host and microbiota.
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...tuxette
ASTERICS is an interactive and integrative data analysis tool for omics data. It uses Rserve and PyRserve with Flask and Vue.js in a Docker container to integrate omics data. The backend uses Rserve and PyRserve with Flask on the server side, while the frontend uses Vue.js. This architecture was chosen for its open source and light design. Data communication between Rserve and PyRserve is limited, requiring an object database. ASTERICS is deployed using three Docker containers for R, Python, and
Apprentissage pour la biologie moléculaire et l’analyse de données omiquestuxette
This document summarizes a scientific presentation about molecular biology and omics data analysis. The presentation covers topics related to analyzing large omics datasets using methods like kernel methods, graphical models, and neural networks to learn gene regulation networks and predict phenotypes. Key challenges addressed are handling big data, missing values, non-Gaussian data types like counts and compositional data. The goal is to better understand complex biological systems from multi-omics data.
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...tuxette
The document summarizes preliminary results from evaluating methods for inferring gene regulatory networks from expression data in Bacillus subtilis. It finds that recall of the known network is generally poor (<20% for random forest), but inferred clusters still retain biological information about common regulators. It plans to confirm results, test restricting edges to sigma factors, and explore other inference methods like Bayesian networks and ARACNE.
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...tuxette
The document discusses methods for integrating multi-scale omics data using kernel and machine learning approaches. It describes how omics data is large, heterogeneous, and multi-scaled, creating bottlenecks for analysis. Methods discussed for data integration include multiple kernel learning to combine different relational datasets in an unsupervised way. The methods are applied to integrate different datasets from the TARA Oceans expedition to identify patterns in ocean microbial communities. Improving interpretability of the methods and making them more accessible to biological users is discussed.
Journal club: Validation of cluster analysis results on validation datatuxette
This document presents a framework for validating cluster analysis results on validation data. It describes situations where clustering is inferential versus descriptive and recommends using validation data separate from the data used for clustering. A typology of validation methods is provided, including validation based on the clustering method or results, and evaluation using internal validation, external validation, visual properties, or stability measures.
The document discusses the differences between overfitting and overparametrization in machine learning models. It explores how random forests may exhibit a phenomenon known as "double descent" where test error initially decreases then increases with more parameters before decreasing again. While double descent has been observed in other models, the document questions whether it is directly due to model complexity in random forests since very large trees may be unable to fully interpolate extremely large datasets.
Selective inference and single-cell differential analysistuxette
This document discusses selective inference and single-cell differential analysis. It introduces the problem of "double dipping" in the standard single-cell analysis pipeline where the same dataset is used for clustering and differential analysis. Two approaches for addressing this are presented: 1) A method that perturbs clusters before testing for differences, and 2) A test based on a truncated distribution that assumes clusters and genes are given separately. Experiments applying these methods to real single-cell datasets are described. The document outlines challenges in extending these approaches to more complex analyses.
SOMbrero : un package R pour les cartes auto-organisatricestuxette
SOMbrero is an R package that implements self-organizing map (SOM) algorithms. It can handle numeric, non-numeric, and relational data. The package contains functions for training SOMs, diagnosing results, and plotting maps. It also includes tools like a shiny app and vignettes to aid users without programming experience. SOMbrero supports missing data imputation and extends SOM to relational datasets through non-Euclidean distance measures.
Graph Neural Network for Phenotype Predictiontuxette
This document describes a study on using graph neural networks (GNNs) for phenotype prediction from gene expression data. The objectives are to determine if including network information can improve predictions, which network types work best, and if GNNs can learn network inferences. It provides background on GNNs and how they generalize convolutional layers to graph data. The authors implemented a GNN model from previous work as a starting point and tested it on different network types to see which network information is most useful for predictions. Their methodology involves comparing GNN performance to other methods like random forests using 10-fold cross validation.
A short and naive introduction to using network in prediction modelstuxette
The document provides an introduction to using network information in prediction models. It discusses representing a network as a graph with a Laplacian matrix. The Laplacian captures properties like random walks on the graph and heat diffusion. Eigenvectors of the Laplacian related to small eigenvalues are strongly tied to graph structure. The document discusses using the Laplacian in prediction models by working in the feature space defined by the Laplacian eigenvectors or directly regularizing a linear model with the Laplacian. This introduces network information and encourages similar contributions from connected nodes. The approaches are applied to problems like predicting phenotypes from gene expression using a known gene network.
1. RRééseaux de neuronesseaux de neurones àà
entrentréées fonctionnelleses fonctionnelles
Nathalie Villa (GRIMM - SMASH)
Université Toulouse Le Mirail
Séminaire SMASH
8 octobre 2004
2. Séminaire SMASH
8 octobre 2004
BUT DU TRAVAILBUT DU TRAVAIL
Ou comment utiliser des réseaux de
neurones en statistique fonctionnelle
???
3. Réseaux fonctionnels :
Mode d’emploi
But :
Discrimination
Perceptron
multi-couches
1
C1
1
CK
Y =
Régression
Perceptron
multi-couches
Y réel
Séminaire SMASH
8 octobre 2004
6. Séminaire SMASH
8 octobre 2004
Le programme…
••Etat des lieux en réseaux de neuronesEtat des lieux en réseaux de neurones
fonctionnelsfonctionnels
••SIRSIR
••SIRSIR--NNNN
7. Séminaire SMASH
8 octobre 2004
ETAT DES LIEUX ENETAT DES LIEUX EN
RESEAUX DE NEURONESRESEAUX DE NEURONES
FONCTIONNELSFONCTIONNELS
8. 1) Approche directe
discrétisée
en t1…tD
X w ≈ <X,w> + b Ya
∑j
jj
)t(w)t(X
m
1
biais
g
SORTIESORTIE
Séminaire SMASH
8 octobre 2004
Rossi, Conan-Guez (2002)
9. Représentation des fonctions de poids w :
•Représentation linéaire des poids par rapport à une
base de B-Splines, d’ondelettes, de fonctions
trigonométriques… :
•Représentation non linéaire des poids par un
perceptron multicouche multidimentionnel.
∑=
i
ii
)t(w)t(w φ
Séminaire SMASH
8 octobre 2004
10. 2) Approche par projection
X w <PX ,w> + b Ya
∑ ><
j,i
jiij
,w ψφα
biais
g
SORTIESORTIE
projection
∑=
j
jjX
)X(P ψα
Séminaire SMASH
8 octobre 2004
11. Résultats
•Approximation universelle : il existe un perceptron
fonctionnel qui approche avec la précision voulue
n’importe quelle application allant d’un compact de
l’espace L² dans R.
•Consistance : les paramètres (w) et (a) qui minimisent
l’erreur empirique construite à partir d’un nombre fini
d’observations discrétisées en un nombre fini de points
convergent ps vers les paramètres optimaux
théoriques lorsque le nombre d’observations et le
nombre de points de discrétisation tendent vers l’infini.
Séminaire SMASH
8 octobre 2004
12. Limites
•Approche directe : la détermination des minima locaux
peut devenir lourde lorsque le nombre de points de
discrétisation augmente, particulièrement si la fonction
de poids est représentée par un perceptron multicouche.
•Approche par projection : trouver une base de projection
adaptée au problème ; le choix du type de la base ainsi
que du nombre de fonctions à y introduire n’est pas
évident à priori.
Risque de perte d’informations pertinentes.
Séminaire SMASH
8 octobre 2004
13. Base de projection qui dépend des données
(méthode mise en œuvre sur le jeu de
données de spectrométrie)
X
ACP
X kn
(Projection des
données sur les kn
premiers vecteurs
propres)
Perceptron
multi-couches
classique
Y
Séminaire SMASH
8 octobre 2004
Thodberg (1996)
14. Avantages
•Le jeu de données est simplifié ;
•La base de projection dépend des données
(procédure automatique de détermination).
Inconvénients
•La base de projection ne dépend pas de la cible mais
uniquement des variables explicatives (base de
projection non optimisée).
Risque de perte d’informations pertinentes.
•Pas de résultat de convergence démontré (méthode
empirique).
Séminaire SMASH
8 octobre 2004
16. Sliced Inverse Regression :
Le modèle
Li (1991)
),X'a,...X'a(fY q1
ε=
Pour X multidimentionnel •ε centrée et
indépendante de X
•f inconnue
•(aj)j linéairement
indépendants
Idée : Estimer par des méthodes d’algèbre linéaire
l’espace EDR (Vect{aj} ) : SIR ;
Estimer la fonction f (méthodes non paramètriques,
réseaux de neurones…).
Séminaire SMASH
8 octobre 2004
17. Ferré, Yao (2003)
Dauxois, Ferré, Yao (2003)
Pour X fonctionnel, ),X,a,...,X,a(fY q1
ε><><=
Théorème : (Condition de Li)
Notons A = (<a1 ,X>,…,<aq ,X>)T ; si
∀u ∈ L2, ∃ v ∈ Rq : E(<u,X> / A) = vT A
alors, E(X / Y) appartient à Vect { ΓX aj } où ΓX = E(X⊗X).
L’espace EDR s’obtient par décomposition spectrale
de l’opérateur ΓX
-1 ΓE(X / Y) .
Séminaire SMASH
8 octobre 2004
SIR Fonctionnelle (FIR)
18. Problème
ΓX n’est pas un opérateur borné !
ΓX
N est mal conditionné ;
Les vecteurs propres de (ΓX
N) -1 ΓN
E(X / Y) ne
convergent pas vers les vecteurs propres de ΓX
-1 ΓE(X / Y).
Solution
X
ACP
X kN
Sous certaines hypothèses techniques, les
vecteurs propres de (ΓX
kN) -1 ΓN
E(X / Y) convergent
vers (aj).
Séminaire SMASH
8 octobre 2004
19. Idée : On part de l’hypothèse que X fait partie d’un
ensemble de fonctions « lisses » (S) et on contraint les
vecteurs propres à appartenir également à cet espace en
pénalisant ΓX par une fonctionnelle de régularisation.
On estime ∀ f ,g∈ S,
<ΓX f,g> par Qα
N (f,g) = < ΓX
N f,g> + α [f , g]
où [f , g] =
∫τ
dt)t(gD)t(fD
22
Concrètement
Séminaire SMASH
8 octobre 2004
FIR régularisée
D’après les travaux de
Tihonov (1963) ; Leurgans, Moyeed et Silverman (1993)
20. Théorème : (Consistance)
Sous l’hypothèse de Li et des hypothèses techniques,
atteint son maximum sur S avec une probabilité qui tend
vers 1 lorsque N tend vers +∞.
De plus, si a1
N est le maximum de cette fonction sur S
alors
)a,a(Q
a,a
N
N
)Y/X(E
α
Γ ><
0aa),aa( N,P
1
N
11
N
1X
→>−−< +∞→
Γ
Séminaire SMASH
8 octobre 2004
Ferré, Villa (2004)
21. Remarques
•Condition de Li : Li démontre que cette condition est
peu restrictive pour des vecteurs X de grande
dimension ;
•Pénalisation : L’hypothèse de régularité sur X est faite
au travers du choix de [ , ] : d’autres choix conduiraient
au même résultat de consistance ;
•Estimation de ΓE(X/Y) : L’estimateur de ΓE(X/Y) doit
converger à une vitesse . Plusieurs choix sont
possibles suivant les buts poursuivis…
N
Séminaire SMASH
8 octobre 2004
22. Estimation de ΓE(X/Y)
But : Régression
Estimateur par tranchage du support : pour une partition
(Ih)h du support de Y,
où et
h
h
h
h
N
)Y/X(E N
N
µµΓ ∑ ⊗=
∑
∈
=
n IY
h
h
n
IN ∑
∈
=
n IY
n
h
h
h
n
IX
N
1µ
Séminaire SMASH
8 octobre 2004
23. Estimateur à noyau :
où
∑ =⊗==
n
^
n
^
nN
)Y/X(E
)YY/X(E)YY/X(E
N
1Γ
∑
∑
−
−
==
n
m
m
n
n
^
h
yY
K
h
yY
KX
)yY/X(E
Séminaire SMASH
8 octobre 2004
26. Méthodes comparées :
SIR régularisée + Noyau
SIR projetée + Noyau
SIR inverse généralisé (Ferré, Yao 2004) + Noyau
Ridge-PDA (Hastie, Buja, Tibschirani)
NPCD – PCA (Ferraty, Vieu)
Protocole expérimental : Sur 50 échantillons aléatoires, on
effectue la discrimination sur un échantillon
d’apprentissage et on calcule le taux d’erreur sur un
échantillon de test.
Séminaire SMASH
8 octobre 2004
30. Projection sur les deux
premiers vecteurs
propres SIR
régularisée
Projection sur les deux
premiers vecteurs
propres SIR projetée
Séminaire SMASH
8 octobre 2004
31. 50 100 150 200 250
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
50 100 150 200 250
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
Espace EDR pour SIR
régularisée
Espace EDR pour SIR
projetée
33. X
SIR
{< X,aj
N >}
(Projection des
données sur
l’espace EDR
estimé)
Perceptron
multi-couches Y
Séminaire SMASH
8 octobre 2004
SIR-NN :
Le principe
34. Théorème : (Consistance)
Sous les hypothèses du théorème précédent et un
certain nombre d’hypothèses techniques
(qui sont, par exemple, vérifiées par un perceptron avec
comme fonction de transfert sur la couche cachée la
fonction sigmoïde et comme fonction d’erreur, l’erreur
quadratique moyenne),
les poids permettant d’obtenir l’erreur empirique
minimum convergent en probabilité vers les poids
théoriques optimaux lorsque le nombre d’observations
tend vers +∞.
Séminaire SMASH
8 octobre 2004
Ferré, Villa (2004)
35. Avantages
•Le jeu de données est simplifié ;
•La base de projection dépend des données
(procédure automatique de détermination) ;
•La base de projection tient compte de la cible : c’est la
projection optimale des données pour le problème de
discrimination ;
•Un résultat de convergence est démontré pour
l’estimation de la base (FIR) et pour l’estimation des
poids du réseau.
Séminaire SMASH
8 octobre 2004
36. Simulations et exemples
1) Données de phonèmes
Séminaire SMASH
8 octobre 2004
Méthodes comparées :
SIR régularisée + NN
SIR régularisée + Noyau
SIR projetée + NN
Ridge-PDA (Hastie, Buja, Tibschirani)
NPCD – PCA (Ferraty, Vieu)
Protocole expérimental : Idem.
38. 2) Données de spectrométrie
Séminaire SMASH
8 octobre 2004
Méthodes comparées :
SIR régularisée + NN
SIR pseudo-inverse + NN
ACP + NN (≈ Thodberg)
NNf (Rossi, méthode projection sur Spline)
SIR + Linéaire
Protocole expérimental : Idem.