MISE EN PLACE D'UN DATA LAKE

Formation certifiante - Code CPF 93 835 - 2 jours (14 heures)

Formations en présentiel

Formations Blended - Learning

Formations E-learning Tutoré

Présentiel

Blended - Learning

E-learning tutoré

Accueil  >  Les métiers du numérique  >   Big Data  > Mise en place d’un Data Lake

A l'issue de la formation, les stagiaires seront capables de :

  • Concevoir un Data Lake
  • Connaître de plus prêt l’Architecture et les concepts du Data Lake
  • Utiliser l’architecture Lambda avec un Data Lake
  • Procéder à l’acquisition de données de données par lots avec Apache Sqoop
  • Procéder à l’acquisition de données de flux de données à l’aide d’Apache Flume
  • Utiliser Apache Kafka dans la couche de messagerie
  • Traiter des données à l’aide d’Apache Flink
  • Stocker les donnée avec Apache Hadoop (HDFS)
  • Indexer les données à l’aide d’Elasticsearch

La formation Mise en place d'un Data Lake est accessible à toute personne ayant des connaissances en Big Data , de solides connaissances de l’écosystème Hadoop ainsi que des connaissances élémentaires en réseaux.

Des exercices, des études de cas, des QCM et des tours de table permettent au formateur d’évaluer l’atteinte des objectifs ainsi que la progression du stagiaire à différents moments de la formation.
La validation de toutes les compétences requises est obligatoire pour l’obtention d’un BADGE ou d’un Certificat. L'obtention du Certificat est validé par la réalisation et la présentation d'un projet devant un jury.

  • Directeurs/chefs de projet ou responsable métier
  • Responsable système d’informations
  • Développeurs informatiques
  • Consultants en business intelligence
  • Ingénieurs d’étude, de recherche et développement
  • Architecte système et logiciel
  • Consultants techniques
  • Consultants business
  • Statisticiens et Mathématiciens
  • Data scientist (analyse de données) ou Data miner (fouilleur des données)
  • Tout développeur ou informaticien souhaitant développer des compétences en analyse de données et BIG DATA

PROGRAMME DE FORMATION

MISE EN PLACE D'UN DATA LAKE

Introduction aux données d’entreprise

  • Données d’entreprise
  • Importance de la qualité de la donnée
  • Données du Big data
  • Architectures Big Data

Atelier pratique

Introduction aux Data Lake

  • Présentation
  • Pertinence du Data Lake dans une entreprise
  • Avantage du Data Lake
  • Fonctionnement d’un Data Lake
  • Différence entre le Data Lake et de Data Warehouse
  • Défis du Data Lake
  • Approches pour créer un Data Lake

Atelier pratique

Architecture du Data Lake

  • Architecture du Data Lake
  • Concepts clés du Data Lake
  • Étapes de maturité du Data Lake
  • Meilleures pratiques de l’architecture Data Lake

Atelier pratique

L’architecture Lambda basée sur Data Lake

  • Introduction
  • Couche d’ingestion de données
  • Speed layer – traitement des données en temps quasi réel
  • Couche de stockage de données – stocker toutes les données
  • Serving layer – livraison et exportation de données
  • Acquisition layer – Couche d’acquisition de données
  • Messaging Layer – Couche de livraison de données
  • Ingestion layer – Couche d’ingestion de données
  • Exploration de la couche Lambda
  • Magasins de données relationnelles

Atelier pratique

Écosystème Hadoop pour la mise en œuvre d’un Data Lake

  • Introduction
  • Distributions Hadoop
  • Facteurs de sélection d’un stack Big Data pour les entreprises
  • Écosystème Hadoop pour un Data Lake

Acquisition de données de données par lots avec Apache Sqoop

  • Introduction
  • Contexte dans Data Lake – Acquisition de données
  • Fonctionnement de Sqoop
  • Importation de données à l’aide de Sqoop
  • Exportation de données à l’aide de Sqoop
  • Connecteurs Sqoop

Atelier pratique

Acquisition de données de flux de données à l’aide d’Apache Flume

  • Introduction
  • Contexte dans Data Lake: acquisition de données
  • Initiation à la Stream Data (Flux de données)
  • Données Batch Vs données stream
  • Acquisition de données de flux – cartographie technologique
  • Fonctionnement de Flume
  • Sqoop Vs Flume

Atelier pratique

Couche de messagerie utilisant Apache Kafka

  • Introduction
  • Contexte dans Data Lake – couche de messagerie
  • Couche de messagerie
  • Couche de messagerie – cartographie technologique
  • Cycle de vie du flux de données

Atelier pratique

Traitement des données à l’aide d’Apache Flink

  • Introduction
  • Contexte dans un lac de données – couche d’ingestion de données
  • Couche d’ingestion de données
  • Data Ingestion Layer – cartographie technologique
  • Fonctionnement de Flink
  • Architecture Flink

Atelier pratique

Magasin de données à l’aide d’Apache Hadoop

  • Introduction
  • Contexte pour Data Lake – Stockage de données et lambda Batch Layer
  • Stockage de données et Lambda Batch Layer
  • Stockage de données et couche Lambda Batch – cartographie technologique
  • Fonctionnement de Hadoop
  • Architecture Hadoop

Atelier pratique

Magasin de données indexé à l’aide d’Elasticsearch

  • Introduction
  • Contexte dans Data Lake: stockage de données et lambda Speed layer
  • Data Storage et Lambda Speed Layer
  • Data Storage et Lambda Speed Layer: cartographie technologique
  • Définition d’Elasticsearch
  • Fonctionnement d’Elasticsearch
  • Principes de l’architecture de base d’Elasticsearch

Atelier pratique

POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS