Organisme de Formation aux technologies et métiers de L'informatique

Cursus Data Scientist

Cursus Métier
Ce cursus métier est composé de plusieurs formations distinctes

Informations générales

MET060
18 jours (126h)
11 650 €HT

Objectifs

Après ce cours, vous serez capable de :

  • Identifier le rôle stratégique de la gestion des données pour l'entreprise
  • Identifier ce qu'est la donnée, et en quoi consiste le fait d'assurer la qualité de données
  • Synthétiser le cycle de vie de la donnée
  • Assurer l'alignement des usages métiers avec le cycle de vie de la donnée
  • Découvrir les bonnes pratiques en matière de contrôle de qualité des données
  • Assurer la mise en œuvre de la gouvernance de la donnée
  • Disposer d'un premier aperçu des possibilités de traitement proposé par MapR et Hadoop
  • Savoir installer R
  • Identifier comment manipuler des données avec R
  • Savoir importer et exporter des données
  • Être en mesure de réaliser des analyses statistiques basiques avec R
  • Savoir restituer des résultats à l'aide de graphiques
  • Connaître les outils et méthodes d'analyses statistiques avancées en environnement R
  • Être capable de programmer des analyses avec R
  • Savoir utiliser les packages de R pour mettre en œuvre des modélisations statistiques (régression, ACP...)
  • Identifier comment réaliser des analyses prédictives à l'aide d'équations de régression
  • Identifier les différences entre apprentissage automatique supervisé, non supervisé et méta-apprentissage
  • Transformer un gros volume de données à priori hétérogènes en informations utiles
  • Utiliser les algorithmes d'auto-apprentissage adaptés à une solution d'analyse
  • Exploiter de gros volumes de données textuelles
  • Appliquer ces différentes techniques aux projets Big Data
  • mettre en oeuvre des analyses Big Data
  • Démontrer le cadre juridique du stockage et de l'analyse de données
  • utiliser des outils de collecte Open Source
  • choisir la bonne solution de stockage de données au regard des spécificités d'un projet (OLAP, NoSQL, graph)
  • explorer la boite à outils technologique que constitue Hadoop et son écosystème
  • utiliser chaque brique (MapReduce, HIVE, SPARK…)
  • analyser les résultats et la signification des données extraites
  • concevoir un modèle de documents répondant aux attentes de l'entreprise, en fonction du sujet analysé
  • maîtriser une méthode simple et efficace de restitution de données
  • connaître la grammaire graphique et savoir sélectionner le bon graphique pour représenter la bonne donnée
  • bâtir un schéma narratif qui captive votre auditoire et renforce la crédibilité de vos analyses
  • maîtriser les outils de Tableau Software pour restituer les résultats
plus d'infos

Public

Ce cours s'adresse avant tout aux personnes suivantes :

  • Toute personne en charge de la restitution des données analysées

Prérequis

Pour suivre ce cours, vous devez déjà posséder les connaissances suivantes :

  • Si aucune connaissance technique particulière n'est nécessaire, il est toutefois recommandé d'avoir suivi le module Big Data - Enjeux et perspectives (BD500) pour suivre cette formation dans des conditions optimales
  • Une connaissance de SQL est un plus pour suivre cette formation

Programme de la formation

Partie 1 : Big Data - Les fondamentaux de l'analyse de données (3j)

  • Les nouvelles frontières du Big Data (Introduction)
    • Immersion
    • L'approche des 4 Vs
    • Cas d'usages du Big Data
    • Technologies
    • Architecture
    • Master-less vs Master-Slaves
    • Stockage
    • Machine Learning
    • Data Scientist & Big Data
    • Compétences
    • La vision du Gartner
    • Valeur ajoutée du Big Data en entreprise
  • La collecte des données Big Data
    • Typologie des sources
    • Les données non structurées
    • Typologie 3V des sources
    • Les données ouvertes (Open Data)
    • Caractéristiques intrinsèques des sources
    • Nouveau paradigme de l'ETL à l'ELT
    • Du schema On Write au Schema on Read
    • Le concept du Data Lake
    • La vision d'Hortonworks
    • Les collecteurs Apache on Hadoop
    • SQOOP versus NIFI
    • Apache SQOOP - Présentation
    • Apache NIFI - Présentation
    • Les API de réseaux sociaux
    • Lab : Ingestion de données dans un cluster avec Apache NIFI
  • Le calcul massivement parallèle
    • Genèse et étapes clés
    • Hadoop : Fonctions coeurs
    • HDFS - Différenciation
    • HDFS - Un système distribué
    • HDFS - Gestion des blocs et réplication
    • Exemples de commandes de base HDFS
    • MapReduce : aspects fonctionnels et techniques
    • Apache PIG et Apache HIVE
    • Comparatif des 3 approches
    • Les limitations de MapReduce
    • L'émergence de systèmes spécialisés
    • Le moteur d'exécution Apache TEZ
    • La rupture Apache SPARK
    • SPARK point clés principaux
    • SPARK vs Hadoop Performance
    • L'écosystème SPARK
    • IMPALA - Moteur d'exécution scalable natif SQL
    • Le moteur d'exécution Apache TEZ
    • Hive in Memory : LLAP
    • Big Deep Learning
    • La rupture Hardware à venir
    • Labs : Exemples de manipulations HDFS + HIVE et Benchmark moteurs d'exécutions HIVE
  • Les nouvelles formes de stockage
    • Enjeux
    • Le théorème CAP
    • Nouveaux standards : ACID => BASE
    • Les bases de données NoSQL
    • Panorama des solutions
    • Positionnement CAP des éditeurs NoSQL
    • Les bases de données Clé-Valeur
    • Focus Redis
    • Les Bases de données Document
    • Focus mongoDB
    • Les bases de données colonnes
    • Focus Cassandra et HBase
    • Les bases de données Graphes
    • Tendances 1 : Le NewSQL
    • Tendances 2 : OLAP distribué
    • Lab : Exemple d'utilisation d'une base NoSQL (HBASE)
  • Le Big Data Analytics (Partie I - Fondamentaux)
    • Analyse de cas concrets
    • Définition de l'apprentissage machine
    • Exemples de tâches (T) du machine learning
    • Que peuvent apprendre les machines ?
    • Les différentes expériences (E)
    • L'apprentissage
    • Approche fonctionnelle de base
    • Les variables prédictives
    • Les variables à prédire
    • Les fonctions hypothèses
    • Pléthore d'algorithmes
    • Choisir un algorithme d'apprentissage machine
    • Sous et sur-apprentissage
    • La descente de gradient
    • Optimisation batch et stochastique
    • Anatomie d'un modèle d'apprentissage automatique
    • La chaîne de traitement standard
    • Composantes clés et Big Data
    • Trois familles d'outils machine Learning
    • Les librairies de machine Learning standards et Deep Learning
    • Les librairies Scalables Big Data
    • Les plates-formes de Data Science
    • Lab : Exemples de traitement Machine Learning avec Notebook
  • Le Big Data Analytics (Partie II - L'écosystème SPARK )
    • Les différents modes de travail avec Spark
    • Les trois systèmes de gestion de cluster
    • Modes d'écriture des commandes Spark
    • Les quatre API Langage de Spark
    • Le machine Learning avec Spark
    • Spark SQL - Le moteur d'exécution SQL
    • La création d'une session Spark
    • Spark Dataframes
    • Spark ML
    • L'API pipeline
    • Travail sur les variables prédictives
    • La classification et la régression
    • Clustering et filtrage coopératif
    • Lab : Exemple d'un traitement machine learning avec Spark
  • Traitement en flux du Big Data (​streaming​ )
    • Architectures types de traitement de Streams Big Data
    • Apache NIFI - Description, composants et interface
    • Apache KAFKA - Description, terminologies, les APIs
    • Articulation NIFI et KAFKA (NIFI ON KAFKA)
    • Apache STORM - Description, terminologies, langage (agnostique)
    • Articulation KAFKA et STORM (KAFKA ON STORM)
    • Apache SPARK Streaming & Structured Streaming
    • Articulation KAFKA et SPARK
    • Comparatif STORM / SPARK
    • Deux cas concrets
    • Lab : Réalisation d'un traitement Big Data en Streaming (Big Data streaming analytics)
  • Déploiement d'un projet Big Data
    • Qu'est ce que le Cloud Computing
    • Cinq caractéristiques essentielles
    • Trois modèles de services
    • Services Cloud et utilisateurs
    • Mode SaaS
    • Mode PaaS
    • Mode IaaS
    • Modèles de déploiement
    • Tendances déploiement
    • Cloud Privé Virtuel (VPC)
    • Focus offre de Cloud Public
    • Caractéristiques communes des différentes offres de Cloud Public
    • Focus Amazon AWS
    • Focus Google Cloud Platform
    • Focus Microsoft Azure
    • Classement indicatif des acteurs
    • Points de vigilance
    • Lab : Visite d'une plate-forme de Cloud
  • Hadoop écosystème et distributions
    • L'écosystème Hadoop
    • Apache Hadoop - Fonctions coeurs
    • HDFS - Système de gestion de fichiers distribué (rappel)
    • Map Reduce : système de traitement distribué (rappel)
    • L'infrastructure YARN
    • YARN - Gestion d'une application
    • Docker on YARN
    • Les projets Apache principaux et associés
    • Les architectures types Hadoop
    • Les distributions Hadoop
    • Qu'est ce qu'une distribution Hadoop
    • Les acteurs aujourd'hui
    • Focus Cloudera
    • Cloudera Distribution including Apache Hadoop (CDH)
    • Focus Hortonworks
    • Hortonworks Platforms HDP & HDF
    • Nouvelle plate-forme Cloudera
    • Vision Cloudera
    • Cloudera Data Platform
    • Cloudera Data Flow
    • Lab : Visite d'une distribution Hortonworks dans le Cloud
  • Architectures de traitement Big Data
    • A - Traitement de données par lots (BATCH) : - le batch en Big Data - schéma de fonctionnement - usages types du batch processing - l'orchestrateur Apache OOZIE - les workflows OOZIE - les coordinateurs OOZIE (Coordinators) - limitations de OOZIE => FALCON - points de vigilance
    • B - Traitement de données en flux (Streaming) : - principes - fonctionnement - rappel : modèles types de traitement de Flux Big Data - points de vigilance
    • C - Modèles d'architecture de traitements de données Big Data : - objectifs - les composantes d'une architecture Big Data - deux modèles génériques : λ et Κ - architecture Lambda - les 3 couches de l'architecture Lambda - architecture Lambda : schéma de fonctionnement - solutions logicielles Lambda - exemple d'architecture logicielle Lambda - architecture Lambda : les + et les - - architecture Kappa - architecture Kappa : schéma de fonctionnement - solutions logicielles Kappa - architecture Kappa : les + et les -
    • L'heure du choix
    • Lab : Analyse architecturale de deux cas de figure
  • La gouvernance des données Big Data
    • Challenges Big Data pour la gouvernance des données
    • L'écosystème des outils de gouvernance Big Data
    • Les 3 piliers de la gouvernance Big Data
    • Mise en perspective dans une architecture Big Data
    • Management de la qualité des données Big Data
    • Tests de validation de données dans Hadoop
    • Les acteurs face à la qualité des données Big Data
    • Management des métadonnées Big Data
    • Focus Apache HCatalog
    • Focus Apache ATLAS
    • Management de la sécurité, de la conformité et la confidentialité Big Data
    • Focus Apache RANGER
    • Tendances sécurisation des SI
    • Points de vigilance
    • Lab : Réflexion collective ou individuelle sur des opportunités de projets Big Data dans l'organisation et définition des objectifs et des premiers jalons

Partie 2 : Les fondamentaux de l'analyse statistique avec R (3j)

  • Introduction
    • Qu'est-ce que R ?
    • Avantages et inconvénients
    • Solutions concurrentes gratuites ou payantes
  • Installation
    • Installation de R ou Microsoft R Open sur MS Windows ou Scientific Linux
    • Découverte de l'environnement
    • Utiliser l'historique des commandes
    • Exemple d'environnement superposé (R-Studio)
    • Comment citer le logiciel dans une publication scientifique
    • Comment citer des packages dans une publication scientifique
  • Utilisation
    • Vider la console de commande
    • Utilisation de l'aide
    • Changer la langue de l'interface
    • Quitter en ligne de commande
    • Changer le dossier de travail par défaut temporairement ou à chaque session (*.Rprofile)
    • Changer définitivement le dossier par défaut des packages (*.Rprofile)
    • Sauver/Charger l'espace de travail (*.Rdata)
    • Sauver/Charger/Exécuter un historique des commandes (*.Rhistory)
    • Sauver les commandes et sorties dans un fichier (*.txt)
    • Sauver/Charger un script (*.R)
  • Manipulation de packages
    • Installer/Désinstaller/Mettre à jour des packages
    • Obtenir des informations systèmes sur les packages
    • Écrire plusieurs commandes sur une ligne
    • Ajouter des commentaires
  • Types de données
    • Manipulations de scalaires (réels)
    • Manipulations de nombres complexes
    • Manipulations de variables
    • Manipulations de vecteurs
    • Manipulations de matrices
    • Manipulations de textes
    • Manipulations de dates et de durées
    • Création/Édition de données en ligne de commande
    • Gérer les variables dans la mémoire
  • Import et export de données
    • Importer/Exporter des données d'Excel
    • Importer/Exporter des données en *.csv et gestion du passage d'encodage Linux/Windows
    • Importer/Exporter des fichiers SAS
    • Importer des données *.csv du web
    • Fusionner des fichiers *.csv
    • Importer de données de MS Access
    • Importer des données *.xml du web
    • Importer des données de MySQL
    • Importer des données d'Oracle (Express)
    • Importer des fichiers *.json
  • Manipulation de données
    • Utiliser le SQL
    • Quelques Data set
    • Manipuler les data frames
    • Accélérer l'accès aux colonnes
    • Renommer les colonnes
    • Appliquer des rangs
    • Trier des données
    • Filtrer des données
    • Réaliser des sous-sélections
    • Fusionner des données
    • Supprimer les doublons
    • Échantillonnage
    • Empiler/Désempiler des données
  • Analyse de données
    • Synthétiser des données (tables de contingence)
    • Travailler avec des valeurs absentes
    • Définir le nombre de décimales de chaque sortie
    • Générer des variables pseudo-aléatoires
    • Statistiques descriptives simples (comptage, éléments uniques, moyenne, max, min, centiles, somme, écart-type biaisé/non biaisé, cv, médiane, etc.)
    • Plotter (tracer) des fonctions algébriques
    • Racines d'équations univariées
    • Intégration numérique
    • Intégration algébrique
    • Dérivation algébrique/numérique
    • Optimisation linéaire uni ou multidimensionnelle
    • Optimisation sous contrainte
    • Programmation linéaire

Partie 3 : Analyse statistique avancée avec R (3j)

  • Introduction
    • Générer et représenter des variables aléatoires
    • Puissance d'un test Z à 1 échantillon en bilatéral
    • Taille d'échantillon (effectif) d'un test Z en bilatéral
    • Puissance d'un test t à 1 échantillon en bilatéral
  • Travailler avec des échantillons
    • Taille d'échantillon (effectif) d'un test t à 1 échantillon en bilatéral
    • Taille d'échantillon (effectif) d'un test p (proportion) à 1 échantillon en bilatéral
    • Taille d'échantillon (effectif) d'un test p (proportion) à 2 échantillons en bilatéral
  • Réaliser des tests d'ajustement
    • Test d'ajustement d'Anderson-Darling (ie Agostino-Stephens)
    • Test d'ajustement de Shapiro-Wilk
  • Estimation et intervalles de confiance
    • Intervalle de confiance de la moyenne (test Z à un 1 échantillon)
    • Intervalle de confiance de la moyenne (test t à un 1 échantillon)
  • Analyses statistiques avancées
    • Test t-Student bilatéral d'un échantillon
    • Test t-Student pour données appariées
    • Test t-Student homoscédastique bilatéral d'égalité de la moyenne
    • Test t-Student hétéroscédastique bilatéral d'égalité de la moyenne (test de Welch)
    • Test de Poisson à un échantillon unilatéral/bilatéral
    • Comparaison de proportions sur une même population (test binomial exact)
    • Intervalle de confiance de la proportion
    • Comparaison de proportions sur 2 échantillons indépendants
    • Test de Fisher d'égalité des variances
    • Test de Levene d'égalité de deux variances
    • Robustesse de tests statistiques
    • Transformations de Box-Cox
    • Transformations de Johnson
  • Analyse de la variance et de la covariance
    • ANOVA à un facteur fixe (ANOVA-1 canonique) désempilé
    • ANOVA à deux facteurs fixes (ANOVA-2 canonique) sans répétitions avec ou sans interactions
    • ANOVA à deux facteurs fixes (ANOVA-2 canonique) avec répétitions avec ou sans interactions
    • Comparaisons multiples du test de Student avec correction de Bonferroni
    • Test de (l'étendue) de Tukey HSD
    • Test de Levene et Bartlett d'égalité des variances d'une ANOVA canonique
    • ANOVA Imbriquée/Hiérarchique complète
    • ANOVA Carré Latin
    • ANCOVA (Analyse de la Covariance)
    • MANOVA
    • ACP (Analyses en Composantes Principales) paramétrique
    • Analyse factorielle exploratoire (AFE)
    • AFE avec méthode ACP sans rotation
    • AFE avec méthode ACP et rotation VariMax

Partie 4 : Les bases de l'apprentissage Machine (Machine Learning) (3j)

  • L'apprentissage machine (Introduction)
    • Introduction
    • Champs de compétences
    • Focus Data Science (Data Mining)
    • Focus Machine Learning
    • Focus Big Data
    • Focus Deep Learning
    • Définition de l'apprentissage machine
    • Exemples de tâches du machine Learning
    • Que peuvent apprendre les machines
    • Les différents modes d'entraînement
  • Les fondamentaux de l'apprentissage machine
    • Un problème d'optimisation
    • Quête de la capacité optimale du modèle
    • Relation capacité et erreurs
    • Un apport philosophique
    • Cadre statistique
    • Anatomie d'un modèle d'apprentissage machine
    • Jeux de données d'entraînement :
      • Cadre statistique
      • Les variables prédictives
      • Chaîne de traitement des variables prédictives
      • Les variables à prédire
    • Fonctions hypothèses :
      • Principe : jeux de fonctions hypothèses
      • Contexte de sélection des fonctions hypothèses
      • Caractéristiques des fonctions hypothèses
      • Modèles probabilistes Fréquentistes et Bayésiens
    • Fonctions de coûts :
      • Les estimateurs
      • Principe du maximum de vraisemblance (MLE*)
      • MAP - Maximum A Posteriori
      • Le biais d'un estimateur
      • La variance d'un estimateur
      • Le compromis biais - variance
      • Les fonctions de coûts
      • La régularisation des paramètres
    • Algorithmes d'optimisations :
      • Les grandes classes d'algorithmes d'optimisation
      • La descente de gradient (1er ordre)
      • Descente de gradient (détails)
      • Les approches de Newton (2nd ordre)
      • Optimisation batch et stochastique
      • Pour aller plus loin
    • Lab : Mise en oeuvre de l'environnement de travail machine Learning
  • La classification
    • Introduction : - Choisir un algorithme de classification
    • La régression logistique :
      • Du Perceptron à la régression logistique
      • Hypothèses du modèle
      • Apprentissage des poids du modèle
      • Exemple d'implémentation : scikit-learn
      • Régression logistique
      • Fiche Synthèse
    • SVM :
      • Classification à marge maximum
      • La notion de marge souple (soft margin)
      • Les machines à noyau (kernel machines)
      • L'astuce du noyau (kernel trick)
      • Les fonctions noyaux - SVM - Maths - SVM - Fiche Synthèse
    • Arbres de décision :
      • Principe de base - Fonctionnement
      • Maximisation du Gain Informationnel
      • Mesure d'impureté d'un noeud
      • Exemple d'implémentation : scikit-learn
      • Arbres de décision - Fiche Synthèse
    • K plus proches voisins (kNN) :
      • L'apprentissage à base d'exemples
      • Principe de fonctionnement
      • Avantages et désavantages
      • kNN - Fiche synthèse
    • Lab : Expérimentation des algorithmes de classification sur cas concrets
  • Les pratiques
    • Prétraitement :
    • Gestion des données manquantes
    • Transformateurs et estimateurs
    • Le traitement des données catégorielles
    • Le partitionnement des jeux de données
    • Mise à l'échelle des données
    • Ingénierie des variables prédictives (Feature Engineering) :
      • Sélection des variables prédictives
      • Sélection induite par régularisation L1
      • Sélection séquentielle des variables
      • Déterminer l'importance des variables
      • Réduction dimensionnelle par Compression des données 
      • L'extraction de variables prédictives
      • Analyse en composante principale (ACP)
      • Analyse linéaire discriminante (ADL) - l'ACP à noyau (KPCA)
    • Réglages des hyper-paramètres et évaluation des modèles :
      • Bonnes pratiques
      • La notion de Pipeline
      • La validation croisée (cross validation)
      • Courbes d'apprentissage
      • Courbes de validation
      • La recherche par grille (grid search)
      • Validation croisée imbriquée (grid searchcv)
      • Métriques de performance
    • Lab : Expérimentation des pratiques du machine learning sur cas concrets
  • L'apprentissage d'ensembles (ensemble learning)
    • Introduction
    • L'approche par vote
    • Une variante : l'empilement (stacking)
    • Le bagging
    • Les forêts aléatoires
    • Le boosting
    • La variante Adaboost
    • Gradient Boosting
    • Fiches synthèses
    • Lab : L'apprentissage d'ensemble sur un cas concret
  • La régression
    • Régression linéaire simple
    • Régression linéaire multi-variée
    • Relations entre les variables
    • Valeurs aberrantes (RANSAC)
    • Évaluation de la performance des modèles de régression
    • La régularisation des modèles de régression linéaire
    • Régression polynomiale
    • La régression avec les forêts aléatoires
    • Synthèse
    • Lab : La régression sur un cas concret
  • Le clustering
    • Introduction
    • Le regroupement d'objets par similarité avec les k-moyens (k-means)
    • k-means : algorithme
    • L'inertie d'un cluster
    • Variante k-means ++
    • Le clustering flou
    • Trouver le nombre optimal de clusters avec la méthode Elbow
    • Appréhender la qualité des clusters avec la méthode des silhouettes
    • Le clustering hiérarchique
    • Le clustering par mesure de densité DBSCAN
    • Autres approches du Clustering
    • Synthèse
    • Lab : Le clustering sur un cas concret

Partie 5 : Big Data - Mise en oeuvre pratique d'une solution complète d'analyse des données (4j)

  • Introduction
    • Objectifs
    • Schématisation du projet
    • Écosystème et stack technologique
    • Résultats attendus
  • Ingestion de données massives
    • Description
    • Caractéristiques clés des outils d'ingestion
    • Solutions (packagées, cloud computing et Hadoop)
    • Focus Apache NIFI
    • Focus Apache KAFKA
    • Ingestion de données en streaming NIFI on KAFKA
    • Réalisation d'un workflow NIFI d'ingestion de donnée streaming dans HDFS
  • Traitement de données Big Data en batch
    • Diagramme de fonctionnement
    • Solutions logicielles associées (MapReduce, Hive, Spark, ...)
    • Big Data Batch scripting
    • Data Warehousing Big Data
    • Création de tables partitionnées, clusterisées et/ou transactionnelles
    • Écriture des scripts d'updates des différentes tables
    • Analytics Big Data
  • Traitement avancé Big Data : l'apprentissage machine
    • L'écosystème Spark
    • Schéma général de création d'un modèle de ML
    • Création d'un modèle de clusterisation de données
    • Création d'un modèle d'analyse prédictive supervisé
    • Enrichissement d'un DWH avec Spark
    • Sauvegarde d'un modèle d'apprentissage machine
    • Application d'un modèle ML
  • Stockage de données distribuées
    • Principes des bases de donnes distribuées
    • Solutions (NoSQL, NewSQL)
    • Création d'une base de données distribuée
    • Ingestion de données dans une base de données distribuées
    • Interrogation d'une base de données distribuées
  • Automatisation de chaîne de traitement Batch
    • L'orchestrateur Oozie
    • Ordonnancement de scripts HIVE
    • Combinaison avec des scripts SPARK
    • Création d'un worklow Oozie complet
  • Traitement de données massives en flux (streaming)
    • Principe de fonctionnement
    • Solutions logicielles
    • Le prétraitement de données en streaming
    • L'inscription de streams à un Hub Streaming
    • La consommation de streams auprès d'un Hub
    • Le traitement avancé de données en flux (machine learning)
  • Mise en oeuvre dans une architecture Big Data
    • Les approches standards
    • Réalisation d'une solution complète de traitement de données type Lamda
    • Réalisation d'une solution complète de traitement de données type Kappa

Partie 6 : Analyse, Data Visualisation et introduction au Data StoryTelling pour la restitution de données (2j)

  • Data Visualisation ou la découverte de la grammaire graphique
    • Passer simplement des chiffres aux graphiques
    • Jouer avec les 3 dimensions
    • Les concepts essentiels de la grammaire graphique : Quels sont les principaux types de graphique existants ? - Les graphiques proposés par Excel et tous les autres. - Comment choisir le bon graphique pour représenter la bonne donnée ?
    • Couleurs et formes : comment les choisir
    • Présentation détaillée de Tableau Software : menus, fenêtres, fonctions, vocabulaire
    • Passer de l'idée d'un graphique, à sa représentation physique, puis à sa formalisation dans un outil
  • Data Storytelling : Introduction
    • Qu'est-ce que le storytelling : exemples concrets en vidéo
    • Le data storytelling : appliquer les techniques de la mise en récit aux données d'entreprise
    • Présentation et analyse critique des méthodes de data storytelling de Apple, et de Hans Rosling
    • Storytelling des idées
    • Storytelling des données
  • Construire son histoire avec Tableau Software
    • Le Pitch
    • Le scénario
    • Le schéma narratif
  • Les outils
    • Panorama des fonctions de storytelling des outils de BI
    • Le module Data Storytelling de Tableau Software
    • Panorama des autres outils : outils de représentation graphiques, outils de développement
plus d'infos

Méthode pédagogique

Chaque participant travaille sur un poste informatique qui lui est dédié. Un support de cours lui est remis soit en début soit en fin de cours. La théorie est complétée par des cas pratiques ou exercices corrigés et discutés avec le formateur. Le formateur projette une présentation pour animer la formation et reste disponible pour répondre à toutes les questions.

Méthode d'évaluation

Tout au long de la formation, les exercices et mises en situation permettent de valider et contrôler les acquis du stagiaire. En fin de formation, le stagiaire complète un QCM d'auto-évaluation.

Mis à jour le 07/03/2025