DOCAPOSTE INSTITUTE : 20. Machine learning, l'état de l'art
Organisme
94200 IVRY-SUR-SEINEVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Tout au long et/ou à l’issue de la formation : évaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.
Prix
Public
Toute personne souhaitant comprendre les mécanismes et les bénéfices du Machine Learning : dirigeants d'entreprise, DSI, responsables informatiques, consultants, responsables de projets Big Data…
Pré-requis
Avoir une culture informatique générale. Posséder des notions de probabilités et statistiques est recommandé.
Objectifs pédagogiques
Comprendre les concepts d’apprentissage automatique et l’évolution du Big Data vers le Machine Learning
Appréhender les enjeux de l'utilisation du Machine Learning, incluant les bénéfices attendus et des exemples d’usage
Identifier le positionnement du Machine Learning dans la chaîne de traitement de la donnée
Connaitre les outils et les acteurs leaders du marché
Découvrir les principaux algorithmes et la démarche projet à appliquer selon les cas d'usages en entreprise
Identifier les clés de réussite d'un projet intégrant du Machine Learning
Programme détaillé
Introduction et historique
- Processus complet d'élaboration d'un modèle prédictif
- Prétraitement des données (données manquantes, aberrantes, sélection de variables pertinentes…)
- Introduction à l'apprentissage supervisé et non supervisé
- Introduction à la classification et la régression
- Le principe du partitionnement des données en données d'apprentissage et données de test
- Évaluation de l'apprentissage, matrice de confusion et métrique
Arbres de décision
- L'apprentissage par partitionnement
- Construction d'un arbre de décision sur un jeu de données synthétique
- Principaux points à considérer lors de l'induction d'un arbre de décision à partir de données
- CHAID, C4.5 et CART : Les trois principales méthodes d'induction d'arbres proposés dans les logiciels
- Les différences et les points communs
Arbres de régression
- La régression par arbres
- Une méthode non-linéaire de régression
- Rapprochement avec les arbres de décision
Analyse discriminante prédictive
- Un modèle paramétrique de discrimination
- Analyse discriminante de Fisher
- Évaluation globale du modèle
- Évaluation individuelle des variables
Régression logistique
- Le modèle LOGIT
- Estimation, évaluation globale et évaluation individuelle des variables
- Régression logistique polytomique
- Régression logistique lorsque la variable dépendante Y prend plus de 2 valeurs
- Régression logistique multinomiale lorsque Y est nominale
- Régression logistique polytomique ordinale lorsque Y est ordinale (odds adjacents, odds cumulatifs proportionnels)
Classifieur bayesien naïf (modèle d'indépendance conditionnelle)
- Principe de l'indépendance conditionnelle
- Cas des prédicteurs continus
- Cas des prédicteurs discrets
- Construction d'un modèle explicite linéaire
- Sélection de variables
Bagging, random forest, boosting
- Méthodes ensemblistes basées sur des apprentissages répétés
- Boosting : principe et variantes
- Principe du Bagging
- Random Forst : principe et variantes
- Mesures d'importance des variables – Impact sur le biais et la variance des classifieurs
Gradient boosting
- Généralisation du boosting avec l'introduction explicite de fonctions de coûts
- Importance du paramétrage
Support Vector Machine (SVM)
- Principe de Machines à vecteurs de support ou Séparateur à Vaste Marge
- Principe de la maximisation de la marge
- Marge souple (soft margin)
- Classifieurs linéaires et classifieurs non-linéaires avec l'astuce du noyau (kernel trick)
- Fonction Noyau
Réseaux de neurones – perceptron simple et multi-couches
- Introduction aux réseaux de neurones artificiels pour l'apprentissage supervisé
- La Perceptron
- Passage du modèle linéaire au modèle non-linéaire : le perceptron multicouches
Apprentissage non supervisé
- Principe du clustering (K moyennes ou k means)
- Principe de la Classification Ascendante Hiérarchique (CAH)
- Règles d'association
Discrétisation des variables quantitatives
- Découpage en classe d'une variable quantitative
- Méthodes non-supervisées et supervisées (chi-merge, mdlpc)
Filtrage des variables
- Approche FILTRE préalable à l'apprentissage supervisé
- Techniques de classement (ranking)
- Techniques de sélection basées sur la corrélation
- Information mutuelle, entropie de Shannon, rapport de corrélation, lambda de Wilks
Introduction de règles prédictives
- Construction de bases de règles en analyse prédictive
- Conversion des arbres en règles et algorithmes génétiques pour l'induction de règles
Scoring – le ciblage marketing
- Le ciblage clientèle
- Construction et lecture de la courbe LIFT (GAIN CHART)
Analyse RFM (récence – fréquence – montant)
- Segmentation RFM (récence-fréquence-montant)
- Finalité, démarche, usage, variantes, limites
Grille de score
- Élaboration de la grille de score à partir des résultats de la régression logistique
- Méthode Disqual et scoring
Intégration des coûts de mauvais classement en apprentissage supervisé
- Prise en compte des coûts pour l'évaluation et la construction des modèles prédictifs
- Correction des règles d'affectation, techniques intégrées, bagging, la méthode MetaCost
- Courbe ROC
- Évaluation d'un classifieur à l'aide de la courbe ROC
- Le critère AUC
Quelques méthodes non-paramétriques de discrimination
- Deux méthodes non-paramétriques de classement dérivés du schéma Bayesien la méthode des K-plus proches voisins et le modèle d'indépendance conditionnelle
Tirage rétrospectif et redressement des résultats échantillonnage non-représentatif
- Modification du seuil d'affectation basé sur le score
- Utilisation de la courbe ROC à cet effet
Normalisation des scores
- Rendre comparable des scores fournis par des méthodes différentes
- Ramener dans l'intervalle [0 ; 1] et harmonisation des distributions
- Diagramme de fiabilité
Méthodes de ré-échantillonnage pour l'évaluation des performances
- Inadéquation de l'évaluation en re-substitution
- Le schéma apprentissage-test
- Les techniques de ré-échantillonnage : validation croisée, leave-one-out, bootstrap
- Comparaison des performances des techniques supervisées
- Diagramme de fiabilité