AMBIENT IT : 05. ElasticSearch : indexation de contenu
Organisme
93500 PANTINVoir toutes ses formationsAutres organismes proposant cette formation
Durée
Modalités
- Classe virtuelle
- Présentiel
Travaux pratiques, QCM de validation des acquis, évaluation à chaud et à froid.
Prix
Public
Administrateur système, Architectes, Développeurs, Data Analysts et/ou Data Engineers…
Pré-requis
Disposer de solides bases en administration système Unix/Linux
Objectifs pédagogiques
Situer Elasticsearch dans un écosystème Big Data
Identifier les enjeux et les cas d'utilisation d'un moteur de recherche
Appréhender le fonctionnement d'ElasticSearch
Savoir installer et configurer ElasticSearch
Indexer des volumes importants de données
Comprendre comment administrer le système et le surveiller afin de garantir sa disponibilité
Programme détaillé
INTRODUCTION AUX MOTEURS DE RECHERCHE
- Généralités
- Panorama des solutions de recherche Open Source
- Intégrer un moteur de recherche dans une application
- Enjeux et clés de succès
- Présentation des nouveautés de la version 6, 7 & 8
INTRODUCTION À ELASTICSEARCH
- Historique du projet
- Apache Lucene
- Ce qu’apporte Elastisearch par rapport à Lucene
LES BASES D’ELASTICSEARCH
- Principes de fonctionnement en cluster
- Installation
- Configuration
- Notion de Node, d’Index et de Type
- Partitionnement de données
- Vue générale de l’API Rest
OBSERVABILITY CHEZ ELASTIC
- Les piliers de l’observabilité
- Monitoring
- Logs
- Metrics
- Traces API
- Expédier des données depuis le serveur Elastic
- Données métriques d’expédition
- Données de journal d’expédition
- Surveillance de la performance des applications (APM)
- Applications d’observabilité
INDEXATION DE DOCUMENTS
- Conception de l’index et de ses documents
- Indexer ou supprimer des documents avec l’API Rest
- Indexation en masse
- Version
- Pondération
- Autres fonctionnalités (routing, consistency, document enfant, …)
MAPPING
- Définition et rôle du mapping
- Type de champs
- Les champs prédéfinis
- Méta données d’un Index
ANALYSE ET EXTRACTION DE TEXTE
- Base de l’extraction et analyse de texte
- Analysers
- Char filters
- Tokenizers
- Token Filters
- Cas d’utilisation
- Configuration et utilisation des Analyzers prédéfinis ou customisés
- Analyse de texte en plusieurs langues
- Suppresion de mots
- Extraction d’adresses email et d’urls
- Suppression de balises HTML dans du texte
- Mise en place de la correction orthographique
- Indexation de fichiers binaires (utilisation d’Apache Tika)
RECHERCHE DE DOCUMENTS
- Rechercher des documents avec l’API Rest
- Gestion des résultats
- Types de requêtes
- Requête de type match_all
- Requête de type query_string/simple_query_string
- Requête de type match (et dérivées)
- Requête de type term et terms
- Requête de type wildcard
- Requête de type range
- Requête de type fuzzy
- Requête de type bool
- Requête de type exist/missing
- Requête de type and, or et not
- Requête de type type et id
- Différentier requêtes et filtres
- Types de filtres
- Combiner efficacement les filtres
- Pertinence
FONCTIONNALITÉS AVANCÉES DE RECHERCHE
- Gestion de la pertinence et du score
- Suggestions
- Autocomplétion
- Highlighting
- Recherche Objets / Nested / Parent-Enfant
- More Like This
- Recherche géospatiale
ELASTICSEARCH ET API JAVA
- Types de clients disponibles
- Intégrer elasticsearch dans une application Java
- Embarqué
- Noeud client
- Transport client
- Utilisation de l’API Java
- Indexer et rechercher des documents
- Gérer les index
- Gérer les mappings
CLOUD ET CLUSTERISATION
- Principe de fonctionnement d’un cluster elasticsearch
- Prévenir les split brains
- Configurer un cluster elasticsearch
- Scalabilité et volumétrie de données
- Sauvegarder et restaurer un cluster elasticsearch
- Supervision d’un cluster elasticsearch :
- l’API health
- l’API state
- l’API stats
- l’API pending_task
- l’API _nodes alias node info
- l’API hot_threads
- l’API _cat
- Plugins de supervision
- Logs
FONCTIONNALITÉS AVANCÉES
- Autres types de plugins elasticsearch
- River: définition
- Scripting
- Pré-chauffer son cluster
- La percolation
- Maintenance des nodes
- Répartition des indexes sur différents nodes
- Requêtes et statistiques