DOCAPOSTE INSTITUTE : 02. Etat de l'art du Big Data
Organisme
94200 IVRY-SUR-SEINEVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Tout au long et/ou à l’issue de la formation : évaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.
Prix
Public
Directeurs SI, Responsables SI, Chefs de projets, Architectes, Consultants ou toute personne amenée à participer à un projet Big Data …
Pré-requis
Avoir des connaissances de base des architectures techniques et du fonctionnement d’un système de gestion de base de données (SGBD).
Objectifs pédagogiques
Découvrir les principaux concepts du Big Data
Appréhender les avantages et les contraintes du Big Data
Comprendre les enjeux économiques du Big Data
Connaître l’écosystème du Big Data et appréhender les technologies associées
Savoir anticiper son intégration dans les activités informatiques de l’entreprise
Prendre en compte la sécurité et la confidentialité des données dans l’exploitation du Big Data
Programme détaillé
Présentation de l'Ecosystème Big Data
- Définition, enjeux et perspectives
- Qu'est-ce-que le Big Data et ses quatre dimensions : volume, vélocité, variété, véracité
- Quels sont les enjeux sociétaux et économiques : exemples d'amélioration de la performance et des résultats de l'entreprise grâce au Big Data
- Mesurer l'importance du Big Data au sein d'une entreprise : les enjeux, la place du Big data dans le-commerce, le-marketing et le-réputation
- Réussir à extraire des données utiles
- Intégrer le Big Data aux données traditionnelles
- Intégrer les critères légaux et éthiques : que peut-on collecter, stocker et analyser
- Intégrer les impacts organisationnels : apparition de nouveaux rôles /métiers
Panorama des techniques liées au Big Data
- Acquisition de la donnée
- L'enchaînement des opérations.
- Le recueil des données : crawling, scraping
- La gestion de flux événementiel (Complex Event Processing, CEP)
- L'indexation du flux entrant
- L'intégration avec les anciennes données
- La qualité des données : un cinquième V ?
- Les différents types de traitement : recherche, apprentissage (machine learning, transactionnel, data mining)
- D'autres modèles d'enchaînement : Amazon, e-Santé
- Un ou plusieurs gisements de données ? De Hadoop à l'in-memory
- De l'analyse de tonalité à la découverte de connaissances.
Stockage de donnée du Big Data
- Analyser les caractéristiques de vos données
- Sélectionner les sources de données à analyser
- Définir le rôle et les caractéristiques des bases NoSQL
- Présenter un entrepôt Big Data
- Modèles de données : valeur clé, graph, document, famille de colonnes
- Système de fichiers distribués Hadoop (HDFS)
- Un éventail de bases de données : HBase, Cassandra, BigTable, DynamoDB, MongoDB, Redis, Riak, Neo4J
- Solution de recherche : Elastic Search
- Comment bien choisir un entrepot de données
- Choisir un entrepôt de données en fonction des caractéristiques de vos données
- Injecter du code dans les données, mettre en œuvre des solutions de stockage des données multilingues
- Choisir un entrepôt de données capable de s'aligner sur les objectifs de l'entreprise
Traitement du Big Data
- Intégrer différents entrepôts de données digitales
- Mapper les données avec le framework de programmation, se connecter aux données et les extraire de l'entrepôt de stockage, transformer les données à traiter
- Fractionner les données pour Hadoop MapReduce
Présentation d'autres Framework
- SPARK: l'alternative à Hadoop MapReduce
- KAFKA: le middleware de message distribué
Mise en œuvre et élaboration d'une stratégie dédiée au Big Data
- Définir les besoins en matière de Big Data
- Atteindre les objectifs grâce à la pertinence des données
- Évaluer les différents outils du marché dédiés au Big Data
- Répondre aux attentes du personnel de l'entreprise
Une méthode analytique innovante
- Identifier l'importance des traitements métier
- Cerner le problème
- Choisir les bons outils
- Obtenir des résultats exploitables
Mettre en œuvre une solution Big Data
- Bien choisir les fournisseurs et options d'hébergement
- Trouver le juste équilibre entre les coûts engendrés et la valeur apportée à l'entreprise
- Garder une longueur d'avance
Mesurer les enjeux de la protection des données
- Intégrer le droit comme outil de valorisation des bases de données
- Gérer la paternité des fichiers et des données
- Assurer la sécurité informatique des fichiers de données
- Assurer la sécurité juridique des fichiers de données : Cloud Computing
- Étude de cas : analyse de la protection des données de l'entreprise
- Mesurer les intérêts du big data et ses interactions avec le droit
- Les données issues de l'open data : droit sur les données, obligations et coût
- La réutilisation des données de l'open data : la licence
- Étude de cas : analyse de la licence proposée par ETATLAB
- Identifier les spécificités des données à caractère personnel
- Concevoir des systèmes d'information et des traitements conformes (privacy by design) via l'identification des critères d'une collecte et d'un traitement légal des données
- Appliquer les exigences de la qualité Informatique et libertés : proportionnalité, conservation, interconnexion, archivage
- L'information des personnes et les limites du détournement de finalité
- Assurer le droit des personnes sur leurs données
- Mesurer les risques posés par une exploitation non conforme à la loi Informatique et libertés
- Étude de cas : analyse des dernières sanctions de la CNIL