APACHE SPARK
Formation certifiante - Code CPF 93 835 - 3 jours (21 heures)
Formations en présentiel
Formations Blended - Learning
Formations E-learning Tutoré
Présentiel
Blended - Learning
E-learning tutoré
A l'issue de la formation, les stagiaires seront capables de :
- Comprendre le besoin de Spark dans le traitement des données.
- Comprendre l’architecture Spark et comment elle distribue des calculs aux nœuds du cluster.
- Se familiariser avec l’installation / configuration / mise en page de Spark.
- Utiliser Spark pour des opérations interactives et ponctuelles.
- Utiliser Dataset / DataFrame / Spark SQL pour traiter efficacement les données structurées.
- Comprendre les notions de base des RDD (Resilient Distributed Datasets) et le partitionnement, le pipelining et les calculs de données
- Comprendre la mise en cache des données de Spark et son utilisation
- Comprendre les implications et les optimisations de performance lors de l’utilisation de Spark
- Connaître Spark Graph Processing et l’apprentissage par machine Spark ML
La formation Apache Spark est accessible à toute personne ayant des connaissance des langages Scala, Python et SQL.
Des exercices, des études de cas, des QCM et des tours de table permettent au formateur d’évaluer l’atteinte des objectifs ainsi que la progression du stagiaire à différents moments de la formation.
La validation de toutes les compétences requises est obligatoire pour l’obtention d’un BADGE ou d’un Certificat. L'obtention du Certificat est validé par la réalisation et la présentation d'un projet devant un jury.
- Directeurs/chefs de projet ou responsable métier
- Responsable système d’informations
- Développeurs informatiques
- Consultants en business intelligence
- Ingénieurs d’étude, de recherche et développement
- Architecte système et logiciel
- Consultants techniques
- Consultants business
- Statisticiens et Mathématiciens
- Data scientist (analyse de données) ou Data miner (fouilleur des données)
- Tout développeur ou informaticien souhaitant développer des compétences en analyse de données et BIG DATA
PROGRAMME DE FORMATION
APACHE SPARK
Introduction à Apache Spark
- Apache Spark
- MapReduce VS Spark
- Caractéristiques d’Apache Spark
- Architecture d’Apache Spark
- Anatomie d’une application Spark
- Interaction avec Spark
- Spark sur Hadoop
- Composants de Spark
Atelier pratique
Installation de Spark
- Préparation d’une VM Linux
- Télécharger Apache Spark
- Installation d’Apache Spark : redhat /CentOS
- Installation d’Apache Spark : Windows
- Installation d’Apache Spark : Mac OS
- Installation d’Apache Spark : Ubuntu /Debian
Atelier pratique : Installation Spark
Resilient Distributed Datasets ( RDDs )
- Introduction aux RDDs (Resilient Distributed Datasets)
- Exemple d’un RDD
- Caractéristiques des RDDs
- Liaison avec Spark (Scala/Java/Python)
- Création d’un RDD
- Opérations RDD
- Actions RDD
- Transformation RDD
Atelier pratique
Spark streaming
- Définition
- Exemple Scala, Java et Python
- Concepts de base
- Initialisation de StreamingContext
- Flux discrétisés (DStreams)
Atelier pratique
Spark SQL
- Caractéristiques de Spark SQL
- Architecture Spark SQL
- Appréhender les abstractions de données de Spark
- Exploiter la Spark Session
- Créer un Data Frame
- Manipuler le DataFrame
- Comprendre les formats de stockage
- Construire un jeu de données
- Importer un fichier Avro
- Joindre des DataFrames
- Sauvegarder au format Parquet
- Employer la syntaxe select
- Utiliser un Dataset
- Exécuter un programme avec spark-submit
- Choisir une distribution Spark
- Conclure sur Apache Spark
Atelier pratique

Allez plus loin
Développez vos compétences
Financement avec le CPF via
le site MonCompteFormation

POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS