Apache Spark

3 jours II Code CNCP : 2234 II Certif info : 93835

/Apache Spark

Spark est le Framework de référence de Big Data. Il fournit une interface de programmation d’applications centrée sur une structure de données appelée l’ensemble de données distribué RDD.

C’est aussi une solution efficace pour le traitement de tout type de données non structurées.

Les objectifs de la formation Apache Spark

A l’issue de la formation « Apache Spark », les apprenants auront les capacités de :

  • Comprendre le besoin de Spark dans le traitement des données.
  • Comprendre l’architecture Spark et comment elle distribue des calculs aux nœuds du cluster.
  • Se familiariser avec l’installation / configuration / mise en page de Spark.
  • Utiliser Spark pour des opérations interactives et ponctuelles.
  • Utiliser Dataset / DataFrame / Spark SQL pour traiter efficacement les données structurées.
  • Comprendre les notions de base des RDD (Resilient Distributed Datasets) et le partitionnement, le pipelining et les calculs de données
  • Comprendre la mise en cache des données de Spark et son utilisation
  • Comprendre les implications et les optimisations de performance lors de l’utilisation de Spark
  • Connaître Spark Graph Processing et l’apprentissage par machine Spark ML.
Lien vers site CPF

Les prérequis de la formation Apache Spark

  • Connaissance des langages Scala et Python est un plus et également des connaissances en SQL.

Vous n’avez pas les prérequis nécessaires pour la formation Apache Spark? Contactez-nous pour étudier ensemble un parcours sur mesure et garantir ainsi la réussite de votre projet.

Lien vers site CPF

Le public de la formation Apache Spark

La formation certifiante « Apache Spark », s’adresse à tout public salarié, demandeur d’emploi ou en
reconversion professionnelle et souhaitant acquérir des compétences en BIG DATA, notamment:

  • Directeurs/chefs de projet ou responsable métier
  • Responsable système d’informations
  • Développeurs informatiques
  • Consultants en business intelligence
  • Ingénieurs d’étude, de recherche et développement
  • Architecte système et logiciel
  • Consultants techniques
  • Consultants business
  • Statisticiens et Mathématiciens
  • Data scientist (analyse de données) ou Data miner (fouilleur des données)
  • Tout développeur ou informaticien souhaitant développer des compétences en analyse de données et BIG DATA
Lien vers site CPF

0

Certif Info

0

Code CNCP

0

Jours

0

Heures

Contenu de la formation
Apache Spark

Introduction à Apache Spark

  • Apache Spark
  • MapReduce VS Spark
  • Caractéristiques d’Apache Spark
  • Architecture d’Apache Spark
  • Anatomie d’une application Spark
  • Interaction avec Spark
  • Spark sur Hadoop
  • Composants de Spark

Atelier pratique

Installation de Spark

  • Préparation d’une VM Linux
  • Télécharger Apache Spark
  • Installation d’Apache Spark : redhat /CentOS
  • Installation d’Apache Spark : Windows
  • Installation d’Apache Spark : Mac OS
  • Installation d’Apache Spark : Ubuntu /Debian

Atelier pratique : Installation Spark

Resilient Distributed Datasets ( RDDs )

  • Introduction aux RDDs (Resilient Distributed Datasets)
  • Exemple d’un RDD
  • Caractéristiques des RDDs
  • Liaison avec Spark (Scala/Java/Python)
  • Création d’un RDD
  • Opérations RDD
  • Actions RDD
  • Transformation RDD

Atelier pratique

Spark streaming

  • Définition
  • Exemple Scala, Java et Python
  • Concepts de base
  • Initialisation de StreamingContext
  • Flux discrétisés (DStreams)

Atelier pratique

Spark SQL

  • Caractéristiques de Spark SQL
  • Architecture Spark SQL
  • Appréhender les abstractions de données de Spark
  • Exploiter la Spark Session
  • Créer un Data Frame
  • Manipuler le DataFrame
  • Comprendre les formats de stockage
  • Construire un jeu de données
  • Importer un fichier Avro
  • Joindre des DataFrames
  • Sauvegarder au format Parquet
  • Employer la syntaxe select
  • Utiliser un Dataset
  • Exécuter un programme avec spark-submit
  • Choisir une distribution Spark
  • Conclure sur Apache Spark

Atelier pratique

Une attestation d’assiduité sera délivrée après la validation de toutes les compétences du module Apache Spark.

Modalités De Formations

Apache Spark

La formation certifiante Apache Spark est disponible en 3 modalités : E-learning tutoré, Blended Learning et en présentiel.

FOAD / E-Learning tutoré

La formation certifiante Apache Spark est disponible en e-learning tutoré. Vous serez accompagné par un formateur / tuteur tout au long de la formation.

Blended-Learning

La formation Apache Spark est disponible en Blended learning. La partie apprentissage se déroule en e-learning et les projets fil rouge en présentiel.

Présentiel

Le module de formation Apache Spark est disponible en présentiel ou en distanciel. La formation sera animée par un formateur à distance ou en classe.

Financement et Éligibilité

de la formation Apache Spark

CPF

CPF « Compte Personnel de Formation.

VAE

VAE: Validation des Acquis de l’Expérience.

AIF

AIF : Aide Individuelle à la Formation par Pôle Emploi.

CPF de transition

CPF de transition pour une Reconversion Professionnelle.

Contrat PRO

Contrat d’alternance ou de Professionnalisation.

POEc

Préparation Opérationnelle Emploi Collective.

PDC

Plan de Développement de Compétences de l’entreprise.

AFPR

Action de Formation Préalable à l’Embauche.

POEi

Préparation Opérationnelle Emploi Individuelle.

Besoin d'un