MISE EN PLACE D'UN DATA LAKE
Formation certifiante - Code CPF 93 835 - 2 jours (14 heures)
Formations en présentiel
Formations Blended - Learning
Formations E-learning Tutoré
Présentiel
Blended - Learning
E-learning tutoré
A l'issue de la formation, les stagiaires seront capables de :
- Concevoir un Data Lake
- Connaître de plus prêt l’Architecture et les concepts du Data Lake
- Utiliser l’architecture Lambda avec un Data Lake
- Procéder à l’acquisition de données de données par lots avec Apache Sqoop
- Procéder à l’acquisition de données de flux de données à l’aide d’Apache Flume
- Utiliser Apache Kafka dans la couche de messagerie
- Traiter des données à l’aide d’Apache Flink
- Stocker les donnée avec Apache Hadoop (HDFS)
- Indexer les données à l’aide d’Elasticsearch
La formation Mise en place d'un Data Lake est accessible à toute personne ayant des connaissances en Big Data , de solides connaissances de l’écosystème Hadoop ainsi que des connaissances élémentaires en réseaux.
Des exercices, des études de cas, des QCM et des tours de table permettent au formateur d’évaluer l’atteinte des objectifs ainsi que la progression du stagiaire à différents moments de la formation.
La validation de toutes les compétences requises est obligatoire pour l’obtention d’un BADGE ou d’un Certificat. L'obtention du Certificat est validé par la réalisation et la présentation d'un projet devant un jury.
- Directeurs/chefs de projet ou responsable métier
- Responsable système d’informations
- Développeurs informatiques
- Consultants en business intelligence
- Ingénieurs d’étude, de recherche et développement
- Architecte système et logiciel
- Consultants techniques
- Consultants business
- Statisticiens et Mathématiciens
- Data scientist (analyse de données) ou Data miner (fouilleur des données)
- Tout développeur ou informaticien souhaitant développer des compétences en analyse de données et BIG DATA
PROGRAMME DE FORMATION
MISE EN PLACE D'UN DATA LAKE
Introduction aux données d’entreprise
- Données d’entreprise
- Importance de la qualité de la donnée
- Données du Big data
- Architectures Big Data
Atelier pratique
Introduction aux Data Lake
- Présentation
- Pertinence du Data Lake dans une entreprise
- Avantage du Data Lake
- Fonctionnement d’un Data Lake
- Différence entre le Data Lake et de Data Warehouse
- Défis du Data Lake
- Approches pour créer un Data Lake
Atelier pratique
Architecture du Data Lake
- Architecture du Data Lake
- Concepts clés du Data Lake
- Étapes de maturité du Data Lake
- Meilleures pratiques de l’architecture Data Lake
Atelier pratique
L’architecture Lambda basée sur Data Lake
- Introduction
- Couche d’ingestion de données
- Speed layer – traitement des données en temps quasi réel
- Couche de stockage de données – stocker toutes les données
- Serving layer – livraison et exportation de données
- Acquisition layer – Couche d’acquisition de données
- Messaging Layer – Couche de livraison de données
- Ingestion layer – Couche d’ingestion de données
- Exploration de la couche Lambda
- Magasins de données relationnelles
Atelier pratique
Écosystème Hadoop pour la mise en œuvre d’un Data Lake
- Introduction
- Distributions Hadoop
- Facteurs de sélection d’un stack Big Data pour les entreprises
- Écosystème Hadoop pour un Data Lake
Acquisition de données de données par lots avec Apache Sqoop
- Introduction
- Contexte dans Data Lake – Acquisition de données
- Fonctionnement de Sqoop
- Importation de données à l’aide de Sqoop
- Exportation de données à l’aide de Sqoop
- Connecteurs Sqoop
Atelier pratique
Acquisition de données de flux de données à l’aide d’Apache Flume
- Introduction
- Contexte dans Data Lake: acquisition de données
- Initiation à la Stream Data (Flux de données)
- Données Batch Vs données stream
- Acquisition de données de flux – cartographie technologique
- Fonctionnement de Flume
- Sqoop Vs Flume
Atelier pratique
Couche de messagerie utilisant Apache Kafka
- Introduction
- Contexte dans Data Lake – couche de messagerie
- Couche de messagerie
- Couche de messagerie – cartographie technologique
- Cycle de vie du flux de données
Atelier pratique
Traitement des données à l’aide d’Apache Flink
- Introduction
- Contexte dans un lac de données – couche d’ingestion de données
- Couche d’ingestion de données
- Data Ingestion Layer – cartographie technologique
- Fonctionnement de Flink
- Architecture Flink
Atelier pratique
Magasin de données à l’aide d’Apache Hadoop
- Introduction
- Contexte pour Data Lake – Stockage de données et lambda Batch Layer
- Stockage de données et Lambda Batch Layer
- Stockage de données et couche Lambda Batch – cartographie technologique
- Fonctionnement de Hadoop
- Architecture Hadoop
Atelier pratique
Magasin de données indexé à l’aide d’Elasticsearch
- Introduction
- Contexte dans Data Lake: stockage de données et lambda Speed layer
- Data Storage et Lambda Speed Layer
- Data Storage et Lambda Speed Layer: cartographie technologique
- Définition d’Elasticsearch
- Fonctionnement d’Elasticsearch
- Principes de l’architecture de base d’Elasticsearch
Atelier pratique

Allez plus loin
Développez vos compétences
Financement avec le CPF via
le site MonCompteFormation

POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS