Formation Pig, Développement de scripts

Dispositif intégré à la suite Hadoop, Pig offre la possibilité de produire des scripts de traitement de données s’exécutant particulièrement rapidement. Cet outil est généralement utilisé pour gérer les échanges de données entre applications tierces, pour charger des données vers des fichiers HDFS et pour transformer des fichiers afin de faciliter leur analyse. Pour découvrir les possibilités et atouts de Pig, il convient de s’approprier son langage et ses méthodes d’accès et de transformation de données. En suivant cette formation de 2 jours, les participants pourront disposer des compétences nécessaires à l’utilisation de cet outil pour préparer l’intégration et le traitement de données de différents formats et sources.

PROGRAMME DE FORMATION

 

Introduction

  • Le projet Apache Pig, fonctionnalités, versions
  • Présentation de Pig dans l’écosystème Hadoop
  • Chaîne de fonctionnement
  • Comparatif avec l’approche Hive ou Spark

Mise en oeuvre

  • Rappels sur les commandes HDFS
  • Pré-requis techniques, configuration de Pig
  • Exécution : les différents modes : interactif ou batch
  • Principe de l’exécution de scripts Pig Latin avec Grunt

Base latin

  • Modèles de données avec Pig
  • Intégration Pig avec MapReduce
  • Les requêtes Latin : chargement de données, instructions
  • Ordres de bases : LOAD, FOREACH, FILTER, STORE
  • Création d’un ETL de base
  • Contrôle d’exécution

Transformations

  • Groupements, jointures, tris, produits cartésiens
  • Transformation de base de la donnée
  • Découpages
  • Découpages sur filtres

Analyse de la donnée

  • Échantillonnages
  • Filtres
  • Rangements avec rank et dense
  • Calculs : min/max, sommes, moyennes, …
  • Traitements de chaînes de caractères
  • Traitement de dates

Intégration

  • Formats d’entrées/sorties
  • Interfaçage avro, json
  • Chargement de données depuis HDFS vers HBase, analyse de données Pig/HBase et restitution Json

Extensions

  • Extension du Pig Latin
  • Création de fonctions UDF en Java
  • Intégration dans les scripts Pig
  • Utilisation de Pig Latin depuis des programmes Python
  • Exécution de programmes externes, streaming

Objectifs pédagogiques

  • Comprendre le fonctionnement de Pig
  • Savoir développer des requêtes en latin pour effectuer des transformations sur des données
  • Disposer des compétences nécessaires à la réalisation d’analyses de données
  • Savoir intégrer des données de différents formats

Participants

  • Chefs de projet, data scientists, développeurs souhaitant utiliser pig pour l’analyse de données

Prérequis

  • Connaissance de Java ou Python, des bases Hadoop et avoir des notions de calculs statistiques
Les cours ont lieu de 9h à 12h30 et de 14h à 17h30
Les participants sont accueillis à partir de 8h45
 
Durée : 2 jours
Réf : FPDS
Prix  2020 : 1080 € H.T.
Pauses et déjeuners offerts

Cette formation vous intéresse

Notre équipe est à votre écoute pour étudier vos besoins en formation et vous proposer les meilleures solutions.
Contactez-nous pour fixer un rendez-vous ou décrivez-nous votre projet. Nous prendrons contact avec vous rapidement.