APACHE HADOOP
Formation certifiante - Code CPF 93 835 - 4 jours (28 heures)
Formations en présentiel
Formations Blended - Learning
Formations E-learning Tutoré
Présentiel
Blended - Learning
E-learning tutoré
A l'issue de la formation, les stagiaires seront capables de :
- Connaître toutes les notions liées à Apache Hadoop et de ses principaux composants
- Comprendre l’architecture Hadoop (HDFS et MapReduce)
- Avoir une vue d’ensemble des possibilités de développement offerts par les composants Hadoop.
- Maîtriser l’installation de Hadoop
- Comprendre le rôle de chacun des composants et leurs interactions
- Connaître HDFS, YARN, MapReduce, Oozie, Flume, Zookeeper,Pig, Hive, HBase
- Comprendre les principes de l’informatique parallèle
- Avoir une vue d’ensemble de la mise en œuvre d’une infrastructure Hadoop et de son administration et exploitation
- Utiliser des outils Big Data supplémentaires (Pig, Hive, HBase, etc.)
La formation Apache Hadoop est accessible à toute personne ayant des connaissances de base des commandes Unix/Linux, une connaissance de Java (ou avoir suivi la formation Java : les fondamentaux) et de bonnes connaissances sur Hbase (ou avoir suivi la formation NoSQL : Hbase).
Des exercices, des études de cas, des QCM et des tours de table permettent au formateur d’évaluer l’atteinte des objectifs ainsi que la progression du stagiaire à différents moments de la formation.
La validation de toutes les compétences requises est obligatoire pour l’obtention d’un BADGE ou d’un Certificat. L'obtention du Certificat est validé par la réalisation et la présentation d'un projet devant un jury.
- Directeurs/chefs de projet ou responsable métier
- Responsable système d’informations
- Développeurs informatiques
- Consultants en business intelligence
- Ingénieurs d’étude, de recherche et développement
- Architecte système et logiciel
- Consultants techniques
- Consultants business
- Statisticiens et Mathématiciens
- Data scientist (analyse de données) ou Data miner (fouilleur des données)
- Tout développeur ou informaticien souhaitant développer des compétences en analyse de données et BIG DATA
PROGRAMME DE FORMATION
APACHE HADOOP
Introduction à l’écosystème Hadoop
- Définition du Big Data
- Comprendre le NoSQL
- Architecture de Hadoop
- L’Écosystème de Hadoop
- Rôle des différents composants de l’écosystème Hadoop
- Rôle des collecteurs de données
- Distributions d’Hadoop
- Atelier pratique
Installation de l’environnement Hadoop
- Choix de la version
- Installation de Java
- Téléchargement de Hadoop
- Installation de Hadoop
- Test de Hadoop
Atelier pratique : Installation Hadoop
HDFS – La couche de stockage
- Caractéristiques de HDFS
- Architecture de HDFS
- Services HDFS
- Opérations HDFS
- Administration du cluster HDFS
- Gestion des services HDFS
- Manipulation des fichiers en ligne de commande
- Exécution des opérations en Java
- Utilisation des InputStream Java
- Accès à HDFS avec WebHDFS
- Configuration de HDFS
- Démarrage et arrêt de HDFS
Atelier pratique : Manipulation sur HDFS
Fonctionnement de MapReduce
- Principes de base de MapReduce
- Architecture MapReduce
- Fonction map()
- Fonction reduce()
- Conception d’un MapReduce
- Développer le mapper
- Développer le reducer
- Création d’un jeu de données
- Création d’un driver
- Lancement d’un MapReduce en Java
- Suivi de l’évolution du MapReduce
- Développement d’un MapReduce en PHP
- Lancement des MapReduce avec Hadoop Streaming
Atelier pratique : Fonctionnement de MapReduce
Hadoop YARN – Gestion de CLuster Hadoop
- Définition de Hadoop YARN
- Limitation MapReduce1 (MR1)
- Naissance de YARN
- Concept général de YARN
- Architecture de Hadoop YARN
- Application de YARN
- Workflow d’application dans Hadoop YARN
- Anatomie de l’exécution d’une application YARN
Atelier pratique
Hive – Outil d’analyse de données
- Comprendre Hive
- Architecture de Hive
- Modèle de données
- Installation de Hive
- Configuration de Hive
- Démarrage de Hive
- Vérification du processus
- Langage Hive QL
- Insérer des données complexes
- Extraire des types complexes dans le SELECT
- Écrire des jointures
- Utiliser les sous-requêtes et le LIKE
- Créer des index
Atelier pratique : Installation et Manipulation de Hive
Apache Sqoop – Collecte de données
- Définition de Sqoop
- Cible des imports dans le cluster
- Architecture de Sqoop
- Fonctionnement de Sqoop
- Exemple d’import vers HDFS
- Exemples d’import vers Hive
- Exemple d‘exports
Atelier pratique
Base de données NoSQL – HBase
- Définition de Hbase
- Hbase avec Hadoop
- Cas d’utilisation de HBase
- Comprendre le modèle Hbase
- Installation de Hbase
- Architecture de Hbase
- Composants Hbase (Region, Region Server, Region Split)
- Lecture et écriture dans Hbase
- API Shell
- API Java
Atelier pratique : Base de données NoSQL – HBase
Apache Pig – Plateforme de création de programme MapReduce
- Présentation de Pig
- Fonctionnement Pig
- Architecture de Pig
- Apache Pig Environment
- Pig Latin
Atelier pratique
Apache Oozie -Ordonnanceur de WorkFlow
- Définition de Oozie
- Caractéristiques Oozie
- Fonctionnement de Oozie
- Actions Oozie
- Oozie Job
- Oozie workflow
- Coordinateur Oozie
- Paramètre Oozie
- Monitoring Oozie
- Packaging et déploiement d’une application de workflow Oozie
Atelier pratique : Apache Oozie
Apache Flume- Collecte de donnée
- Flume dans Hadoop
- Architecture de Flume
- Caractéristiques de Flume
- Atelier pratique
Apache Zookeeper- Gestion et monitoring de l’écosystème Hadoop
- Définition de Zookeeper
- Architecture de Zookeeper
- fonctionnement de Zookeeper
- Vidéo: Coordination des workflows avec ZooKeeper
Atelier pratique

Allez plus loin
Développez vos compétences
Financement avec le CPF via
le site MonCompteFormation

POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS