SOFTEAM : 05. ElasticSearch : indexation de contenu
Organisme
94200 IVRY SUR SEINEVoir toutes ses formationsAutres organismes proposant cette formation
Durée
14 heuresModalités
Formation
- Classe virtuelle
- Présentiel
Évaluation
Tout au long et/ou à l’issue de la formation : évaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.
Prix
Public
Administrateur système, Architectes, Développeurs, Data Analysts et/ou Data Engineers…
Pré-requis
Disposer de solides bases en administration système Unix/Linux
Objectifs pédagogiques
Situer Elasticsearch dans un écosystème Big Data
Identifier les enjeux et les cas d'utilisation d'un moteur de recherche
Appréhender le fonctionnement d'ElasticSearch
Savoir installer et configurer ElasticSearch
Indexer des volumes importants de données
Comprendre comment administrer le système et le surveiller afin de garantir sa disponibilité
Programme détaillé
Concepts de base
- Concept du moteur de recherche
- Introduction à Elasticsearch
- Concepts basics d'Elasticsearch
- Installation et configuration
Indexation de documents
- Vue générale de l'API REST
- CRUD API : Index, Get, Exist, Delete, Update, Multi Get, Bulk
- Le versionage des documents
Elasticsearch vs Lucene : les valeurs ajoutées
- Index inversé
- Trace de transaction
- Segment
Analyse de texte
- Le besoin d'une analyse de texte
- Anatomie d'un Analyzer
- Analyze API
- Configuration d'un Analyzer
- Les Tokenizers (Parseurs en Token)
- Filtre de Tokens
- Filtre de Synonyme
- ICU Tokenizers & FiltersSQL avec Spark
Mapping
- Les fondamentaux du Mapping
- Mapping API
- Les différents attributs et types de champs
Recherche de documents
- Recherche de documents
Spark – SQL découverte
- Les dataframes
- Chargement de données avec un schéma
- Agrégation
- Jointure
- SQL avec Spark
Spark – streaming, recherche avancée
- Agrégation : Scope
- Agrégation métrique
- Agrégation bucket
- Pertinence
- Modèle d'espace vectoriel
- TF/IDF
- Booster la requête
- Scoring personalisé
- Highlighting
- Suggestion
- Relation des documents
- Problématique
- Dénormalisation
- Nested Object :
- Mapping
- Requête, Filtre, Agrégations
- Parent / Child :
- Mapping
- Requête, Filtre, Agrégations
- Fonctionnalités avancées
- Percolator
- Geolocation
Vers la production
- Configuration d'un cluster
- Scalabilité et volumétrie de données
- Bonnes pratiques matérielles
- Supervision
Java et Elasticsearch
- Requête DSL
- Requête full-text
- Requête aux termes
- Requête composée
- BitSet, Filtre et Lucene
- Pagination
- Ordonnancement
- Types de recherche
- Warmer Api