Formation Hadoop, Cloudera pour architectes et administrateurs

S’imposant peu à peu comme la solution standard pour les projets Big Data, Hadoop est un framework composé de divers outils permettant de traiter des volumes de données considérables. Base de tout projet de Big Data, le stockage des données revêt une dimension stratégique puisque de son organisation initiale et de sa qualité dépendront la pertinence et l’efficacité de leur exploitation. A l’issue de cette formation, les architectes et administrateurs en charge de la mise en oeuvre et de la gestion d’une solution Big Data seront à même d’utiliser les différents outils fournis par la distribution Cloudera de Hadoop pour mener à bien leur mission.

PROGRAMME DE FORMATION

 

Introduction

  • Présentation générale d’Hadoop
  • Exemples d’utilisation dans différents secteurs
  • Historique et chiffres clés : Quand parle-t-on de Big Data ?
  • Les possibilités d’implantation de l’infrastructure et les coûts associés

L’écosystème d’Hadoop

  • Le système de fichier HDFS
  • Le paradigme MapReduce et l’utilisation à travers YARN
  • Le garant des informations : Zookeeper
  • Le système de stockage de la donnée basé sur le socle : HBase
  • La présentation de l’architecture globale : où installer les services ?
  • La définition du dimensionnement pour un cluster Hadoop
  • Les particularités de MapR

Installation du socle d’Hadoop

  • Installation et configuration manuelle pas-à-pas sur plusieurs machines de : HDFS, YARN, Zookeeper, HBase

Manipulation des données dans un cluster Hadoop

  • Architecture, Objectif et fonctionnement de : Hue, Hive, Pig, Oozie, Sqoop, Flume, Spark
  • Mise en pratique sur les différents outils

Exploitation d’architecture complexe

  • Architecture en rack : les avantages et fonctionnement et paramétrage du rack awareness
  • Scalabilité et performances : le Namenode Federation
  • High Availability des serveurs maitres
  • Utilisation des snapshots : sauvegarde et restauration

Objectifs pédagogiques

  • Acquérir les meilleurs pratiques pour l’administration d’Apache Hadoop 2.0
  • Savoir définir la taille d’un cluster et comment le déployer
  • Apprendre à installer et configurer Hadoop Cloudera
  • Comprendre comment gérer en permanence et maintenir des noeuds dans le cluster
  • Être capable d’optimiser la performance d’un cluster
  • Savoir déplacer et gérer les données dans le cluster ou encore ajouter et enlever des noeuds de données
  • Être en mesure de surveiller les statuts et l’état de santé du cluster dans un outil de monitoring
  • Comprendre comment mettre en place une haute solution de disponibilité
  • Connaître les meilleures pratiques pour déployer un cluster Hadoop Cloudera

Participants

  • Administrateurs systèmes et personnes qui gèrent et maintiennent les clusters Apache Hadoop en production ou qui évoluent dans un environnement de développement

Prérequis

  • La plate-forme reposant sur une architecture Linux, il est demandé aux participants de savoir naviguer et modifier des fichiers dans cet environnement
  • Une connaissance préliminaire d’Hadoop n’est pas exigée
Les cours ont lieu de 9h à 12h30 et de 14h à 17h30
Les participants sont accueillis à partir de 8h45
 
Durée : 3 jours
Réf : HCAA
Prix  2020 : 1600 € H.T.
Pauses et déjeuners offerts

Cette formation vous intéresse

Notre équipe est à votre écoute pour étudier vos besoins en formation et vous proposer les meilleures solutions.
Contactez-nous pour fixer un rendez-vous ou décrivez-nous votre projet. Nous prendrons contact avec vous rapidement.