Ingénierie de la fouille et de la visualisation de données massives
Code UE : RCP216-LIB
- Cours + travaux pratiques
- 6 crédits
Responsable national
Michel CRUCIANU
Responsable opérationnel
Michel CRUCIANU
Public et conditions d'accès
Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Capacité à utiliser le système d'exploitation Linux, connaissance d'au moins un langage de programmation.
Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur http://cedric.cnam.fr/vertigo/Cours/RCP216/preambule.html#ouverture. Vous pouvez répondre sans vous identifier, les réponses vous sont données immédiatement et les résultats ne sont pas enregistrés.
Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur http://cedric.cnam.fr/vertigo/Cours/RCP216/preambule.html#ouverture. Vous pouvez répondre sans vous identifier, les réponses vous sont données immédiatement et les résultats ne sont pas enregistrés.
Objectifs pédagogiques
Cet enseignement s'intéresse à l'impact des caractéristiques des données massives (volume, variété, vélocité) sur les méthodes de fouille de données. Sont examinées les approches actuelles qui permettent de faire passer à l'échelle les méthodes de fouille, en insistant sur les spécificités des opérations de fouille en environnement distribué.
Les caractéristiques mentionnées sont ensuite considérées de façon plus spécifique pour certains problèmes fréquents dans le traitement des données massives. Sont ainsi abordés les systèmes de recommandation et la recherche efficace par similarité, la classification automatique et l'apprentissage supervisé sur une plate-forme distribuée, les opérations spécifiques au traitement des données textuelles souvent hétérogènes, les implications de la vélocité sur la fouille de flux de données, l'analyse de grands graphes et de réseaux sociaux.
L'UE s'intéresse également au rôle de la visualisation et de l'interaction, non seulement dans la présentation des résultats mais aussi dans les opérations de fouille de données.
Les caractéristiques mentionnées sont ensuite considérées de façon plus spécifique pour certains problèmes fréquents dans le traitement des données massives. Sont ainsi abordés les systèmes de recommandation et la recherche efficace par similarité, la classification automatique et l'apprentissage supervisé sur une plate-forme distribuée, les opérations spécifiques au traitement des données textuelles souvent hétérogènes, les implications de la vélocité sur la fouille de flux de données, l'analyse de grands graphes et de réseaux sociaux.
L'UE s'intéresse également au rôle de la visualisation et de l'interaction, non seulement dans la présentation des résultats mais aussi dans les opérations de fouille de données.
Compétences visées
Capacité à mettre en oeuvre des techniques de fouille de données, de modélisation décisionnelle et de visualisation sur des données massives. Maîtrise de techniques adaptées à quelques problèmes fréquents.
1. Introduction : applications, typologie des données, typologie des problèmes
2. Approches : réduction de la complexité, distribution
3. Passage à l'échelle de quelques problèmes fréquents
a. Recherche par similarité, systèmes de recommandation
b. Classification automatique
c. Fouille de données textuelles
d. Fouille de flux de données
e. Apprentissage supervisé à large échelle
f. Fouille de graphes et réseaux sociaux
4. Visualisation d'information : historique, applications, outils
5. Enjeux perceptifs de la visualisation d'information : couleurs, formes, immersion, lecture
6. Techniques de représentations : graphes, hiérarchies, lignes de temps
7. Techniques d'interaction : association focus/contexte, distorsion, filtrage
Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques présentées. Pour la partie fouille de données, les TP seront réalisés à l'aide de Apache Spark. Pour le travail sur le projet, l'auditeur devra installer le logiciel Spark (gratuit) sur un ordinateur personnel de capacité suffisante, suivant les instructions disponibles en ligne.
Les supports de cours et de TP, ainsi que d'autres explications concernant le déroulement de l'UE sont accessibles à partir de http://cedric.cnam.fr/vertigo/Cours/RCP216/
2. Approches : réduction de la complexité, distribution
3. Passage à l'échelle de quelques problèmes fréquents
a. Recherche par similarité, systèmes de recommandation
b. Classification automatique
c. Fouille de données textuelles
d. Fouille de flux de données
e. Apprentissage supervisé à large échelle
f. Fouille de graphes et réseaux sociaux
4. Visualisation d'information : historique, applications, outils
5. Enjeux perceptifs de la visualisation d'information : couleurs, formes, immersion, lecture
6. Techniques de représentations : graphes, hiérarchies, lignes de temps
7. Techniques d'interaction : association focus/contexte, distorsion, filtrage
Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques présentées. Pour la partie fouille de données, les TP seront réalisés à l'aide de Apache Spark. Pour le travail sur le projet, l'auditeur devra installer le logiciel Spark (gratuit) sur un ordinateur personnel de capacité suffisante, suivant les instructions disponibles en ligne.
Les supports de cours et de TP, ainsi que d'autres explications concernant le déroulement de l'UE sont accessibles à partir de http://cedric.cnam.fr/vertigo/Cours/RCP216/
Note finale = ((note de projet + note d'examen) / 2).
- Ryza, S., U. Laserson, S. Owen and J. Wills : Advanced Analytics with Spark, O'Reilly, 2014.
- A. Rajaraman and J. D. Ullman : Cambridge University Press, New York, NY, USA, 2014.
Cette UE apparaît dans les diplômes et certificats suivants
Rechercher une formation
RECHERCHE MULTI-CRITERES
-
Vous pouvez sélectionner des formations grâce à un mot ou à une expression présent dans l’intitulé ou dans les index (discipline ou métier visé).
Des index vous sont suggérés à partir du 3e caractère saisi, mais vous pouvez aussi saisir librement tout autre mot . - Les différents items sélectionnés sont croisés.
ex: "Comptabilité" et "Région Pays-de-la-Loire" - Validez par le bouton « Rechercher » ou par la touche Entrée.
- Cette recherche affiche aussi les fiches UE et certificats régionales. Leurs codes les distinguent des fiches nationales par le suffixe de la région (ex : « -IDF » ).
Par défaut, les fiches régionales reprennent le contenu de la fiche nationale correspondante. Mais dans certains cas, des informations régionales ont pu être ajoutées. - Certains diplômes se déclinent selon plusieurs parcours. Pour afficher tous les parcours, tapez la racine du code (ex : « LG035 »).
- Certains stages ont un double code : leur code propre et le code de l’UE ou du certificat équivalent.
- Dans tous les cas, veillez à ne pas insérer d'espace ni de ponctuation supplémentaire.
- Validez par le bouton « OK » (et non pas par la touche Entrée).
Chargement du résultat...

Type |
Intitulé |
Equipe pédagogique |
Modalité(s) / Lieu(x) |
Code |
|
---|---|---|---|---|---|
Type
Diplôme/ certificat
|
Equipe pédagogique
Mathématique et statistique
|
Modalité(s) / Lieu(x)
|
Code
CS5900A
|
||
Type
Diplôme/ certificat
|
Equipe pédagogique
Mathématique et statistique
|
Modalité(s) / Lieu(x)
|
Code
MR12303A
|
||
Type
Diplôme/ certificat
|
Equipe pédagogique
Industries, chimie, pharma et agroalimentaires
|
Modalité(s) / Lieu(x)
|
Code
CYC8200A
|
||
Type | Intitulé | Equipe pédagogique | Modalité(s) / Lieu(x) | Code |
Contact
Centre(s) d'enseignement proposant cette formation
-
Liban
- 2018-2019 1er semestre : Présentiel
- 2019-2020 1er semestre : Présentiel
- 2020-2021 1er semestre : Présentiel
Code UE : RCP216-LIB
- Cours + travaux pratiques
- 6 crédits
Responsable national
Michel CRUCIANU
Responsable opérationnel
Michel CRUCIANU