Dispositif intégré à la suite Hadoop, Pig offre la possibilité de produire des scripts de traitement de données s’exécutant particulièrement rapidement. Cet outil est généralement utilisé pour gérer les échanges de données entre applications tierces, pour charger des données vers des fichiers HDFS et pour transformer des fichiers afin de faciliter leur analyse. Pour découvrir les possibilités et atouts de Pig, il convient de s’approprier son langage et ses méthodes d’accès et de transformation de données. En suivant cette formation de 2 jours, les participants pourront disposer des compétences nécessaires à l’utilisation de cet outil pour préparer l’intégration et le traitement de données de différents formats et sources.
PROGRAMME PEDAGOGIQUE
OBJECTIFS
PUBLIC CONCERNE
HORAIRES
TARIFS
PROGRAMME PEDAGOGIQUE
PROGRAMME DE FORMATION
Introduction
- Le projet Apache Pig, fonctionnalités, versions
- Présentation de Pig dans l’écosystème Hadoop
- Chaîne de fonctionnement
- Comparatif avec l’approche Hive ou Spark
Mise en oeuvre
- Rappels sur les commandes HDFS
- Pré-requis techniques, configuration de Pig
- Exécution : les différents modes : interactif ou batch
- Principe de l’exécution de scripts Pig Latin avec Grunt
Base latin
- Modèles de données avec Pig
- Intégration Pig avec MapReduce
- Les requêtes Latin : chargement de données, instructions
- Ordres de bases : LOAD, FOREACH, FILTER, STORE
- Création d’un ETL de base
- Contrôle d’exécution
Transformations
- Groupements, jointures, tris, produits cartésiens
- Transformation de base de la donnée
- Découpages
- Découpages sur filtres
Analyse de la donnée
- Échantillonnages
- Filtres
- Rangements avec rank et dense
- Calculs : min/max, sommes, moyennes, …
- Traitements de chaînes de caractères
- Traitement de dates
Intégration
- Formats d’entrées/sorties
- Interfaçage avro, json
- Chargement de données depuis HDFS vers HBase, analyse de données Pig/HBase et restitution Json
Extensions
- Extension du Pig Latin
- Création de fonctions UDF en Java
- Intégration dans les scripts Pig
- Utilisation de Pig Latin depuis des programmes Python
- Exécution de programmes externes, streaming
OBJECTIFS
Objectifs pédagogiques
- Comprendre le fonctionnement de Pig
- Savoir développer des requêtes en latin pour effectuer des transformations sur des données
- Disposer des compétences nécessaires à la réalisation d’analyses de données
- Savoir intégrer des données de différents formats
PUBLIC CONCERNE
Participants
- Chefs de projet, data scientists, développeurs souhaitant utiliser pig pour l’analyse de données
Prérequis
- Connaissance de Java ou Python, des bases Hadoop et avoir des notions de calculs statistiques
HORAIRES
Les cours ont lieu de 9h à 12h30 et de 14h à 17h30
Les participants sont accueillis à partir de 8h45
TARIFS
Durée : 2 jours
Réf : FPDS
Prix 2020 : 1080 € H.T.
Pauses et déjeuners offerts
Cette formation vous intéresse
Notre équipe est à votre écoute pour étudier vos besoins en formation et vous proposer les meilleures solutions.
Contactez-nous pour fixer un rendez-vous ou décrivez-nous votre projet. Nous prendrons contact avec vous rapidement.