Aller au contenu principal

DOCAPOSTE INSTITUTE : 20. Machine learning, l'état de l'art

Organisme

DOCAPOSTE INSTITUTE
45 BD PAUL VAILLANT COUTURIER
94200 IVRY-SUR-SEINE

Durée

14 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Tout au long et/ou à l’issue de la formation : évaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
808.5€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
3318€ HT / groupe
4 stagiaires minimum

Public

Toute personne souhaitant comprendre les mécanismes et les bénéfices du Machine Learning : dirigeants d'entreprise, DSI, responsables informatiques, consultants, responsables de projets Big Data…

Pré-requis

Avoir une culture informatique générale. Posséder des notions de probabilités et statistiques est recommandé.  

Objectifs pédagogiques

Comprendre les concepts d’apprentissage automatique et l’évolution du Big Data vers le Machine Learning

Appréhender les enjeux de l'utilisation du Machine Learning, incluant les bénéfices attendus et des exemples d’usage

Identifier le positionnement du Machine Learning dans la chaîne de traitement de la donnée 

Connaitre les outils et les acteurs leaders du marché 

Découvrir les principaux algorithmes et la démarche projet à appliquer selon les cas d'usages en entreprise

Identifier les clés de réussite d'un projet intégrant du Machine Learning

Programme détaillé

Introduction et historique

  • Processus complet d'élaboration d'un modèle prédictif
  • Prétraitement des données (données manquantes, aberrantes, sélection de variables pertinentes…)
  • Introduction à l'apprentissage supervisé et non supervisé
  • Introduction à la classification et la régression
  • Le principe du partitionnement des données en données d'apprentissage et données de test
  • Évaluation de l'apprentissage, matrice de confusion et métrique

 

Arbres de décision

  • L'apprentissage par partitionnement
  • Construction d'un arbre de décision sur un jeu de données synthétique
  • Principaux points à considérer lors de l'induction d'un arbre de décision à partir de données
  • CHAID, C4.5 et CART : Les trois principales méthodes d'induction d'arbres proposés dans les logiciels
  • Les différences et les points communs

 

Arbres de régression

  • La régression par arbres
  • Une méthode non-linéaire de régression
  • Rapprochement avec les arbres de décision

 

Analyse discriminante prédictive

  • Un modèle paramétrique de discrimination
  • Analyse discriminante de Fisher
  • Évaluation globale du modèle
  • Évaluation individuelle des variables

 

Régression logistique

  • Le modèle LOGIT
  • Estimation, évaluation globale et évaluation individuelle des variables
  • Régression logistique polytomique
  • Régression logistique lorsque la variable dépendante Y prend plus de 2 valeurs
  • Régression logistique multinomiale lorsque Y est nominale
  • Régression logistique polytomique ordinale lorsque Y est ordinale (odds adjacents, odds cumulatifs proportionnels)

 

Classifieur bayesien naïf (modèle d'indépendance conditionnelle)

  • Principe de l'indépendance conditionnelle
  • Cas des prédicteurs continus
  • Cas des prédicteurs discrets
  • Construction d'un modèle explicite linéaire
  • Sélection de variables

 

Bagging, random forest, boosting

  • Méthodes ensemblistes basées sur des apprentissages répétés
  • Boosting : principe et variantes
  • Principe du Bagging
  • Random Forst : principe et variantes
  • Mesures d'importance des variables – Impact sur le biais et la variance des classifieurs

 

Gradient boosting

  • Généralisation du boosting avec l'introduction explicite de fonctions de coûts
  • Importance du paramétrage

 

Support Vector Machine (SVM)

  • Principe de Machines à vecteurs de support ou Séparateur à Vaste Marge
  • Principe de la maximisation de la marge
  • Marge souple (soft margin)
  • Classifieurs linéaires et classifieurs non-linéaires avec l'astuce du noyau (kernel trick)
  • Fonction Noyau

 

Réseaux de neurones – perceptron simple et multi-couches

  • Introduction aux réseaux de neurones artificiels pour l'apprentissage supervisé
  • La Perceptron
  • Passage du modèle linéaire au modèle non-linéaire : le perceptron multicouches

 

Apprentissage non supervisé

  • Principe du clustering (K moyennes ou k means)
  • Principe de la Classification Ascendante Hiérarchique (CAH)
  • Règles d'association

 

Discrétisation des variables quantitatives

  • Découpage en classe d'une variable quantitative
  • Méthodes non-supervisées et supervisées (chi-merge, mdlpc)

 

Filtrage des variables

  • Approche FILTRE préalable à l'apprentissage supervisé
  • Techniques de classement (ranking)
  • Techniques de sélection basées sur la corrélation
  • Information mutuelle, entropie de Shannon, rapport de corrélation, lambda de Wilks

 

Introduction de règles prédictives

  • Construction de bases de règles en analyse prédictive
  • Conversion des arbres en règles et algorithmes génétiques pour l'induction de règles

 

Scoring – le ciblage marketing

  • Le ciblage clientèle
  • Construction et lecture de la courbe LIFT (GAIN CHART)

 

Analyse RFM (récence – fréquence – montant)

  • Segmentation RFM (récence-fréquence-montant)
  • Finalité, démarche, usage, variantes, limites

 

Grille de score

  • Élaboration de la grille de score à partir des résultats de la régression logistique
  • Méthode Disqual et scoring

 

Intégration des coûts de mauvais classement en apprentissage supervisé

  • Prise en compte des coûts pour l'évaluation et la construction des modèles prédictifs
  • Correction des règles d'affectation, techniques intégrées, bagging, la méthode MetaCost
  • Courbe ROC
  • Évaluation d'un classifieur à l'aide de la courbe ROC
  • Le critère AUC

 

Quelques méthodes non-paramétriques de discrimination

  • Deux méthodes non-paramétriques de classement dérivés du schéma Bayesien la méthode des K-plus proches voisins et le modèle d'indépendance conditionnelle

 

Tirage rétrospectif et redressement des résultats échantillonnage non-représentatif

  • Modification du seuil d'affectation basé sur le score
  • Utilisation de la courbe ROC à cet effet

 

Normalisation des scores

  • Rendre comparable des scores fournis par des méthodes différentes
  • Ramener dans l'intervalle [0 ; 1] et harmonisation des distributions
  • Diagramme de fiabilité

 

Méthodes de ré-échantillonnage pour l'évaluation des performances

  • Inadéquation de l'évaluation en re-substitution
  • Le schéma apprentissage-test
  • Les techniques de ré-échantillonnage : validation croisée, leave-one-out, bootstrap
  • Comparaison des performances des techniques supervisées
  • Diagramme de fiabilité

Sessions

Filtrer les résultats

21 résultats

Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.

0 résultat