DÉPLOIEMENT D'UNE SOLUTION AWS DANS UN ÉCOSYSTÈME DE BIG DATA

Formation certifiante - Code CPF 93 835 - 3 jours (21 heures)

Formations en présentiel

Formations Blended - Learning

Formations E-learning Tutoré

Présentiel

Blended - Learning

E-learning tutoré

Accueil  >  Les métiers du numérique  >   Big Data  >  Déploiement d’une solution AWS

A l'issue de la formation, les stagiaires seront capables de :

  • Déterminer les caractéristiques opérationnelles du système de collecte
  • Sélectionner un système de collecte qui gère la fréquence, le volume et la source des données
  • Sélectionner un système de collecte qui traite des propriétés clés des données, telles que l’ordre, le format et compression
  • Déterminer les caractéristiques opérationnelles d’une solution de stockage pour l’analyse
  • Déterminer les modèles d’accès et de récupération des données
  • Sélectionnez une disposition, un schéma, une structure et un format de données appropriés
  • Définir un cycle de vie des données en fonction des modèles d’utilisation et des exigences métier
  • Déterminer un système approprié pour cataloguer les données et gérer les métadonnées
  • Déterminer les exigences de solution de traitement de données appropriées
  • Concevoir une solution pour transformer et préparer les données à analyser
  • Automatiser et opérationnaliser une solution de traitement de données
  • Déterminer les caractéristiques opérationnelles d’une solution d’analyse et de visualisation
  • Sélectionner la solution d’analyse de données appropriée pour un scénario donné
  • Sélectionner la solution de visualisation de données appropriée pour un scénario donné
  • Identifier l’architecture Big Data dans AWS
  • Comprendre la démarche de mise en place et de pilotage d’un projet Big Data dans AWS

La formation Déploiement d’une solution AWS dans un écosystème de Big Data est accessible à toute personne :

  • Ayant des connaissances de base sur les technologies Big Data, y compris Apache Hadoop et HDFS. Il peut également être utile d’avoir des connaissances préalables concernant Pig, Hive et MapReduce, mais ce n’est pas une obligation
  • Sachant utiliser les principaux services AWS et l’implémentation de cloud public
  • Ayant suivi le cours “Intégration d’une solution AWS dans un écosystème de Big Data” ou posséder un niveau d’expérience équivalent
  • Ayant une bonne compréhension des concepts d’entrepôt de données, de système de base de données relationnelle et de conception de base de données
  • Ayant des connaissances de base en programmation python

Des exercices, des études de cas, des QCM et des tours de table permettent au formateur d’évaluer l’atteinte des objectifs ainsi que la progression du stagiaire à différents moments de la formation.
La validation de toutes les compétences requises est obligatoire pour l’obtention d’un BADGE ou d’un Certificat. L'obtention du Certificat est validé par la réalisation et la présentation d'un projet devant un jury.

  • Architectes de solutions d’entreprise
  • Architectes de solutions Big Data
  • Experts en science des données
  • Analystes de données

PROGRAMME DE FORMATION

DÉPLOIEMENT D'UNE SOLUTION AWS DANS UN ÉCOSYSTÈME DE BIG DATA

Big Data avec AWS

  • Besoin croissant des pipelines de données
  • Les données dans le pipeline
  • Aws Data Pipeline
  • Étapes de déploiement d’une solution Big data AWS

Atelier pratique

Introduction à la collecte des données

  • Outils de collect dans AWS
  • Amazon SQS
  • AWS IOT
  • AWS Data Pipeline
  •  Kinesis
  • Comparaison entre les Outils
  • Présentation d’Amazon Kinesis

Amazon Kinesis Data Stream

  • Avantages d’Amazon Kinesis Stream
  • Chargement de données dans Kinesis Stream
  • Architecture de haut niveau de Kinesis Data Stream
  • Concepts de base de Kinesis Stream
  • Producteurs de données (Data producers)
  • Consommateurs de données (Data consumers)
  • Bibliothèques de connecteurs kinesis (Kinesis Connector Library KCL)

Amazon kinesis Firehose

  • Concepts clés
  • Le transfert de données à l’aide de Lambda
  • Présentation des transformations de données Firehose

Démo 1: Exécution d’opérations de flux de données Kinesis

Démo 2: Traitement en temps réel des données avec KCL

Démo 3: Flux de livraison de Kinesis Data Firehose

Atelier pratique

Amazon Glacier

  • Présentation de Amazon Glacier
  • Glacier et Big Data

DynamoDB

  • Présentation de DynamoDB
  • L’architecture de la table DynamoDB
  • DynamoDB dans AWS Eco-System
  • Partitions DynamoDB
  • Distribution des données
  • Concepts clés
  • DynamoDB GSI / LSI
  • Indice secondaire local (LSI)
  • Indice secondaire mondial (GSI)
  • Flux et réplication DynamoDB
  • DynamoDB Stream
  • Réplication entre régions
  • Sélection de la clé de partition

Démo : Créer et interroger une table NoSQL avec Amazon DynamoDB

Atelier pratique

Amazon Elastic MapReduce (EMR)

  • Présentation d’Amazon Elastic MapReduce (EMR)
  • Cas d’utilisation
  • Apache Hadoop
  • Modules d’architecture
  • Architecture Hadoop
  • Architecture EMR
  • Noeud maître
  • Nœud central
  • Noeud de tâche

HDFS (système de fichiers distribué Hadoop)

  • Options de stockage
  • Concepts
  • Opérations EMR

Lancement d’un cluster EMR

  • Option de réglage rapide et avancée
  • Cluster de longue durée
  • Cluster transitoire
  • Choix du type d’instance
  • Nombre d’instances
  • Surveillance EMR

Utilisation de Hue avec EMR

  • Hue sur EMR
  • Cas d’utilisation
  • Architecture

HBase avec EMR

  • Cas d’utilisation
  • Où utiliser HBase
  • Où ne pas utiliser HBase
  • HBase vs DynamoDB
  • HBase vs Redshift
  • Architecture HBase

Spark avec EMR

  • Cas d’utilisatio
  • Composants Spark
  • Intégration Spark avec EMR
  • Spark streaming et stream

Atelier pratique

 

Analyse des données avec Aws 

  • Introduction
  • Présentation RedShift
  • Cas d’utilisation de RedShift
  • Architecture RedShift
  • RedShift dans l’écosystème AWS
  • Bases de données en colonnes
  • avantages des bases de données en colonnes
  • Où ne pas utiliser les bases de données en colonnes
  • Conception de table et architecture RedShift
  • Conception de table RedShift – Introduction
  • Conception de table RedShift – Styles de distribution
  • Conception de table RedShift – Clés de tri
  • Conception de table RedShift – Types de données
  • Conception de table RedShift – Compression
  • Conception de table RedShift – Contraintes
  • Gestion  de la charge de travail RedShift

Atelier pratique

Visualisation des données avec AWS

  • Introduction
  • Définition de la data visualisation
  • Introduction à Amazon QuickSight
  • Visualisation avec QuickSight
  • Types de visuels
  • Autres outils de visualisation

Atelier pratique

Allez plus loin

Développez vos compétences

Financement avec le CPF via

le site MonCompteFormation

POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS