Aller au contenu principal

AMBIENT IT : 05. ElasticSearch : indexation de contenu

Durée

14 heures

Modalités

Formation
  • Classe virtuelle
  • Présentiel
Évaluation

Travaux pratiques, QCM de validation des acquis, évaluation à chaud et à froid.

Prix

Inter
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
588€ HT / personne
Intra
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
2352€ HT / groupe
4 stagiaires minimum

Public

Administrateur système, Architectes, Développeurs, Data Analysts et/ou Data Engineers…

Pré-requis

Disposer de solides bases en administration système Unix/Linux

Objectifs pédagogiques

Situer Elasticsearch dans un écosystème Big Data

Identifier les enjeux et les cas d'utilisation d'un moteur de recherche

Appréhender le fonctionnement d'ElasticSearch

Savoir installer et configurer ElasticSearch 

Indexer des volumes importants de données 

Comprendre comment administrer le système et le surveiller afin de garantir sa disponibilité

Programme détaillé

INTRODUCTION AUX MOTEURS DE RECHERCHE

  • Généralités
  • Panorama des solutions de recherche Open Source
  • Intégrer un moteur de recherche dans une application
  • Enjeux et clés de succès
  • Présentation des nouveautés de la version 6, 7 & 8

 

INTRODUCTION À ELASTICSEARCH

  • Historique du projet
  • Apache Lucene
  • Ce qu’apporte Elastisearch par rapport à Lucene

 

LES BASES D’ELASTICSEARCH

  • Principes de fonctionnement en cluster
  • Installation
  • Configuration
  • Notion de Node, d’Index et de Type
  • Partitionnement de données
  • Vue générale de l’API Rest

 

OBSERVABILITY CHEZ ELASTIC

  • Les piliers de l’observabilité
    • Monitoring
    • Logs
    • Metrics
    • Traces API
  • Expédier des données depuis le serveur Elastic
  • Données métriques d’expédition
  • Données de journal d’expédition
  • Surveillance de la performance des applications (APM)
  • Applications d’observabilité

 

INDEXATION DE DOCUMENTS

  • Conception de l’index et de ses documents
  • Indexer ou supprimer des documents avec l’API Rest
  • Indexation en masse
  • Version
  • Pondération
  • Autres fonctionnalités (routing, consistency, document enfant, …)

 

MAPPING

  • Définition et rôle du mapping
  • Type de champs
  • Les champs prédéfinis
  • Méta données d’un Index

 

ANALYSE ET EXTRACTION DE TEXTE

  • Base de l’extraction et analyse de texte
    • Analysers
    • Char filters
    • Tokenizers
    • Token Filters
  • Cas d’utilisation
  • Configuration et utilisation des Analyzers prédéfinis ou customisés
  • Analyse de texte en plusieurs langues
  • Suppresion de mots
  • Extraction d’adresses email et d’urls
  • Suppression de balises HTML dans du texte
  • Mise en place de la correction orthographique
  • Indexation de fichiers binaires (utilisation d’Apache Tika)

 

RECHERCHE DE DOCUMENTS

  • Rechercher des documents avec l’API Rest
  • Gestion des résultats
  • Types de requêtes
    • Requête de type match_all
    • Requête de type query_string/simple_query_string
    • Requête de type match (et dérivées)
    • Requête de type term et terms
    • Requête de type wildcard
    • Requête de type range
    • Requête de type fuzzy
    • Requête de type bool
    • Requête de type exist/missing
    • Requête de type and, or et not
    • Requête de type type et id
  • Différentier requêtes et filtres
  • Types de filtres
  • Combiner efficacement les filtres
  • Pertinence

 

FONCTIONNALITÉS AVANCÉES DE RECHERCHE

  • Gestion de la pertinence et du score
  • Suggestions
  • Autocomplétion
  • Highlighting
  • Recherche Objets / Nested / Parent-Enfant
  • More Like This
  • Recherche géospatiale

 

ELASTICSEARCH ET API JAVA

  • Types de clients disponibles
  • Intégrer elasticsearch dans une application Java
    • Embarqué
    • Noeud client
    • Transport client
  • Utilisation de l’API Java
  • Indexer et rechercher des documents
  • Gérer les index
  • Gérer les mappings

 

CLOUD ET CLUSTERISATION

  • Principe de fonctionnement d’un cluster elasticsearch
  • Prévenir les split brains
  • Configurer un cluster elasticsearch
  • Scalabilité et volumétrie de données
  • Sauvegarder et restaurer un cluster elasticsearch
  • Supervision d’un cluster elasticsearch :
    • l’API health
    • l’API state
    • l’API stats
    • l’API pending_task
    • l’API _nodes alias node info
    • l’API hot_threads
    • l’API _cat
    • Plugins de supervision
    • Logs

 

FONCTIONNALITÉS AVANCÉES

  • Autres types de plugins elasticsearch
  • River: définition
  • Scripting
  • Pré-chauffer son cluster
  • La percolation
  • Maintenance des nodes
  • Répartition des indexes sur différents nodes
  • Requêtes et statistiques

Sessions

Filtrer les résultats
Modalités pédagogiques
Formation synchrone se déroulant avec la présence physique du (des) formateur(s) et du (des) apprenant(s) réunis dans un même lieu de formation.
Formation combinant des séquences en présentiel et des séquences à distance synchrones ou asynchrones.
Formation à distance, asynchrone, s’appuyant sur une plateforme d’apprentissage, pouvant être complétée par d’autres modalités de formation à distance (visio-conférence…)
Formation à distance, synchrone, s’appuyant sur un dispositif de visio-conférence. La classe virtuelle recrée à distance les conditions d’une formation en salle traditionnelle.
Type de formation
La formation en Inter est dispensée pour un groupe de salariés d’entreprises différentes.
La formation en Intra est dispensée pour un groupe de salariés d’une seule et même entreprise.
Options
Les compétences professionnelles visées par la formation sont validées via un test permettant d’obtenir une certification officielle.
Ces sessions ne peuvent être ni annulées ni reportées par l’organisme de formation.