35 HEE, 21 HPE
Code : 3IF2080
Contact
Francesca Bugiotti francesca.bugiotti@centralesupelec.fr
Prérequis
Pas de prérequis autres que ceux de la dominante.
Présentation générale
De nombreuses applications traitent et stockent des masses de données pour produire des analyses efficaces et pertinentes. Pour exploiter ces données et utiliser efficacement les systèmes de stockage et d'analyse il faut comprendre comment développer de façon efficace sur des systèmes distribues.
Dans ce contexte ce cours a comme objectif de décrire comment traiter des données, hétérogènes, volumineuses, et complexes en utilisant des méthodes, algorithmes et surtout des systèmes distribués.
Acquis d’apprentissage visés dans le cours
A l’issue de ce cours, l’élève aura enrichi ses connaissances concernant :
- Distribution des données
- Algorithmes distribués
- Optimisation du calcul distribué
- Outils pour l'analyse distribuée
- Analyse de modèles de distribution
De plus l'élève prendra part au développement d'un projet pour l'optimisation d'une application distribuée en collaboration avec une entreprise de référence.
Moyens
Description des compétences acquises à l'issue du cours :
C2 Développer une compétence approfondie dans un domaine scientifique ou sectoriel et une famille de métiers.
C6 Être à l'aise et innovant dans le monde numérique.
- C6.3 Spécifier, concevoir, réaliser et valider un logiciel
- C6.5 Exploiter tout type de données, structurées ou pas, y compris massives.
C8 Mener un projet, une équipe.
- C8.1 Travailler en équipe/en collaboration.
Contenu :
Chapitre 1. Introduction
- Concepts de distribution
- Modèles de distribution
Chapitre 2. Distribution des données
- Algorithmes distribués et parallèles sur les données
- Architectures à services
Chapitre 3. Les environnements de programmation parallèle
- Spark
- Docker
- Kubernetes
Chapitre 4. Comparaison et discussion Microsoft Azure cloud architecture
- Analyser deux plateformes
Chapitre 5. Réalisation du projet d'optimisation des performances en collaboration avec l'entreprise de référence.
- Sujet 2022 : climat
Méthodes pédagogiques
Introduction. Cours magistral : 1,5h
Distribution des données . Cours magistral : 1,5h
Les environnements de programmation parallèle. Cours magistral : 3h
Techniques avancées pour l'analyse distribuée. Cours magistral : 3h
14 créneaux d'1h30 : 6 cours, 1 présentation des projets, 6 suivi projet, 1 discussion du projet.
Méthodes d'évaluation
L'évaluation se fera sur la qualité du travail personnel fait sur le projet, sur l'investissement pendant les séances de suivi de projet, ainsi que sur la soutenance.