v1.18.2 (1656)

Enseignement scientifique & technique - INF729 : Introduction au framework HADOOP

Descriptif

L'objectif de cet enseignement très pratique est de présenter comment installer et configurer Hadoop, d’initier au modèle de programmation MapReduce et à l’utilisation de technologies NoSQL, dans la perspective du projet Fil Rouge démarrant en P2. Parmi les points abordés : aspects théoriques du calcul distribué (verrous distribués, algorithmes d'élection, paradigmes de calcul distribué, problème de consensus, tolérance à la panne, etc.), utilisation des machines virtuelles AWS, installation du framework Hadoop (Zookeeper + HDFS + MapReduce), administration du framework Hadoop (taux de réplication HDFS, copie distribuée inter-cluster), utilisation du framework Hadoop pour la mise en œuvre d'opérations MapReduce, utilisation de la bibliothèque Hadoop streaming, installation de la base de données orientée documents MongoDB.

nombre d'heure en présentiel

20

nombre de blocs

20

effectifs minimal / maximal

2/60

Diplôme(s) concerné(s)

Format des notes

Numérique sur 20

Littérale/grade européen

Pour les étudiants du diplôme Big Data : gestion et analyse des données massives

Vos modalités d'acquisition :

Rentre dans la moyenne de la période

Le rattrapage est autorisé (Max entre les deux notes)
  • le rattrapage est obligatoire si :
    Note initiale < 6
  • le rattrapage peut être demandé par l'étudiant si :
    6 ≤ note initiale < 10
L'UE est acquise si Note finale >= 10

    Le coefficient de l'UE est : 2.5

    La note obtenue rentre dans le calcul de votre GPA.

    Programme détaillé

    Partie I Spark:

     

    Leçon  - Introduction par un use case de l'industrie : le RTB
             - Généralités sur les Systèmes distribués et l'écosystème Big Data

             - Généralités sur Spark

    TP spark 1: Setup et spark-shell 
    TP spark 1: Setup et spark-shell 
    TP spark 2: Début du projet (prédiction de completion de campagnes Kickstarter), preprocessings      
    TP spark 2: Début du projet (prédiction de completion de campagnes Kickstarter), preprocessings      

    Leçon - Composants de Spark : Librairies, APIs
            - Infrastructure de Spark : Ecosystème, Cluster, Fault-Tolerance

            - Spark Internals : Partitionment, Actions/Transformations, Shuffling, Persistence, ...

    TP spark 3: Suite du projet, machine learning avec Spark

    Partie II : Hadoop

    -Introduction:

    Présentation du besoin de système d'information décisionnel en entreprise

    DataWarehouse VS Datalake

    Qu'est-ce que Hadoop

    HDFS

    YARN

    MapReduce

    TP: Manipulation de HDFS et Yarn

    Utilisation des interfaces web et ligne de commande pour intéragir avec HDFS.

    Lancement d'un job MapReduce

     

    -Hive:

    Les distributions Hadoop

    Hadoop pour la DataScience

    HBase

    Introduction puis focus sur Hive.

    TP: Création de tables, intégration de données, réconciliation et requêtes sur Hive

     

    -Hive et Oozie:

    UDF Hive

    Hive ACID, Hive LLAP

    Hadoop 3

    Présentation d'un flux batch d'intégration complet.

    Oozie, qu'est-ce qu'un workflow.

    TP: Implémenter un workflow d'intégration complet avec Oozie

     

    -Stream Processing:

    Qu'est-ce que le stream processing, exemple d'implémentation en entreprise.

    Kafka

    Nifi

    TP: Monter un petit cluster Kafka, l'interfacer avec nifi (HDF?) depuis des données provenant d'API (Twitter?).

     

    - Interventions externes

     

    Mots clés

    hadoop - spark - hive

    Méthodes pédagogiques

    Projet - use cases
    Veuillez patienter