PROJET DE DATA SCIENCE
JUILLET 2019 – Emmanuelle Guyot
QUELLES STARTUPS
RECOMMANDER AUX
GRANDS GROUPES ?
CONSTAT
LES GRANDS GROUPES DÉPENSENT DES
MILLIONS POUR INNOVER…
…SANS FORCÉMENT Y ARRIVER
CONSTAT
CONSTAT
PROBLÈME
Comment recommander plus facilement aux grands groupes
des startups innovantes qui pourraient les intéresser ?
Vous allez surement aimer…
Ces recommandations sont inspirées de votre historique de startups consultées et suivies.
SIMPLIFICATION DU PROBLÈME POUR LE PROJET
• Problème de timing pour avoir les données sur les grands groupes à temps
(uniquement celles sur les startups)
• Transformation de l’objectif : pour une startup donnée, recommander des clients
(grands groupes)
DONNÉES DISPONIBLES :  800 startups
1 ligne = 1 startup avec 6 attributs, dont ses clients
DONNÉES DISPONIBLES :  800 startups
1 ligne = 1 startup avec 6 attributs, dont ses clients
DÉMARCHE
Objectif : pour des tags donnés, trouver des startups similaires et recommander leurs clients
Démarche :
• Créer un tableau avec en ligne les startups, et en colonnes les tags
• Mettre des 0 et des 1 aux intersections selon que la startup possède ou nonce tag
• Pour une nouvelle liste de tags donnée, faire le produit scalaire avec chaque ligne de ce tableau
pour en ressortir les startups semblables
• Retourner les clients de ces startups
Etape 1 : cleaner les tags
Créer une fonction qui :
• clean les tags
• les sépare
• les mets en minuscule
• les ajoute à une liste
col_tags devient la colonne « propre » des tags
Etape 1 : cleaner les tags
Avant Après
Etape 2 : supprimer les startups qui n’ont pas de clients
Créer une autre colonne de tags où les startups
qui n’ont pas de clients sont supprimées
Créer une liste des tags (uniques) que l’on
utilisera pour créer les colonnes du tableau
Etape 3 : supprimer les tags en doublon
Etape 3 : supprimer les tags en doublon
s : l :
Etape 4 : populer le tableau colonne par colonne
• Créer chaque colonne en prenant un par un
les tags de la liste
• Ligne par ligne, ajouter un 0 si la startup ne
possède pas ce tag, ou un 1 si elle le possède
• Créer le tableau
Etape 4 : populer le tableau colonne par colonne
(Plus de 400 colonnes)
Etape 5 : comparer des tags aux startups de la base et retourner les clients
les plus pertinents
• Créer une fonction qui prend en argument
une liste de tags
• Traduire ces tags en liste de 0 et 1
• Faire le produit scalaire entre cette liste et
chaque ligne du tableau des startups
• Créer une colonne « Similarity » qui
enregistre le résultat du produit scalaire
• Retourner les 10 startups qui ont le plus grand
produit scalaire avec les tags d’entrée,
accompagnées de la liste de leurs clients
Etape 5 : comparer des tags aux startups de la base et retourner les clients
des startups similaires
Recommandation de clients : Vérification de la similarité :
Etape 5 : comparer des tags aux startups de la base et retourner les clients
des startups similaires
Recommandation de clients : Vérification de la similarité :
PROCHAINES ÉTAPES
• Faire le même travail « dans l’autre sens » pour recommander des
startups aux grands groupes
• Ajouter au système de recommandation les autres informations
disponibles (secteur, intérêt, technologie, fonds levés…)
• Intégrer les recos au site de Forinov et les automatiser pour proposer
des résultats exploitables directement par leurs clients
Quelles start-ups recommander aux grands groupes ?

Quelles start-ups recommander aux grands groupes ?

  • 1.
    PROJET DE DATASCIENCE JUILLET 2019 – Emmanuelle Guyot QUELLES STARTUPS RECOMMANDER AUX GRANDS GROUPES ?
  • 2.
    CONSTAT LES GRANDS GROUPESDÉPENSENT DES MILLIONS POUR INNOVER… …SANS FORCÉMENT Y ARRIVER
  • 3.
  • 4.
  • 5.
    PROBLÈME Comment recommander plusfacilement aux grands groupes des startups innovantes qui pourraient les intéresser ? Vous allez surement aimer… Ces recommandations sont inspirées de votre historique de startups consultées et suivies.
  • 6.
    SIMPLIFICATION DU PROBLÈMEPOUR LE PROJET • Problème de timing pour avoir les données sur les grands groupes à temps (uniquement celles sur les startups) • Transformation de l’objectif : pour une startup donnée, recommander des clients (grands groupes)
  • 7.
    DONNÉES DISPONIBLES : 800 startups 1 ligne = 1 startup avec 6 attributs, dont ses clients
  • 8.
    DONNÉES DISPONIBLES : 800 startups 1 ligne = 1 startup avec 6 attributs, dont ses clients DÉMARCHE Objectif : pour des tags donnés, trouver des startups similaires et recommander leurs clients Démarche : • Créer un tableau avec en ligne les startups, et en colonnes les tags • Mettre des 0 et des 1 aux intersections selon que la startup possède ou nonce tag • Pour une nouvelle liste de tags donnée, faire le produit scalaire avec chaque ligne de ce tableau pour en ressortir les startups semblables • Retourner les clients de ces startups
  • 9.
    Etape 1 :cleaner les tags Créer une fonction qui : • clean les tags • les sépare • les mets en minuscule • les ajoute à une liste col_tags devient la colonne « propre » des tags
  • 10.
    Etape 1 :cleaner les tags Avant Après
  • 11.
    Etape 2 :supprimer les startups qui n’ont pas de clients Créer une autre colonne de tags où les startups qui n’ont pas de clients sont supprimées Créer une liste des tags (uniques) que l’on utilisera pour créer les colonnes du tableau Etape 3 : supprimer les tags en doublon
  • 12.
    Etape 3 :supprimer les tags en doublon s : l :
  • 13.
    Etape 4 :populer le tableau colonne par colonne • Créer chaque colonne en prenant un par un les tags de la liste • Ligne par ligne, ajouter un 0 si la startup ne possède pas ce tag, ou un 1 si elle le possède • Créer le tableau
  • 14.
    Etape 4 :populer le tableau colonne par colonne (Plus de 400 colonnes)
  • 15.
    Etape 5 :comparer des tags aux startups de la base et retourner les clients les plus pertinents • Créer une fonction qui prend en argument une liste de tags • Traduire ces tags en liste de 0 et 1 • Faire le produit scalaire entre cette liste et chaque ligne du tableau des startups • Créer une colonne « Similarity » qui enregistre le résultat du produit scalaire • Retourner les 10 startups qui ont le plus grand produit scalaire avec les tags d’entrée, accompagnées de la liste de leurs clients
  • 16.
    Etape 5 :comparer des tags aux startups de la base et retourner les clients des startups similaires Recommandation de clients : Vérification de la similarité :
  • 17.
    Etape 5 :comparer des tags aux startups de la base et retourner les clients des startups similaires Recommandation de clients : Vérification de la similarité :
  • 18.
    PROCHAINES ÉTAPES • Fairele même travail « dans l’autre sens » pour recommander des startups aux grands groupes • Ajouter au système de recommandation les autres informations disponibles (secteur, intérêt, technologie, fonds levés…) • Intégrer les recos au site de Forinov et les automatiser pour proposer des résultats exploitables directement par leurs clients