Cursus Data Scientist

Cursus Métier
Ce cursus métier est composé de plusieurs formations distinctes

Télécharger le plan de cours

Demander un devis

Obtenir un renseignement

Informations générales

Référence MET060

Durée 18 jours (126h)

Tarif 11 650 €HT

Objectifs

Après ce cours, vous serez capable de :

Identifier le rôle stratégique de la gestion des données pour l'entreprise
Identifier ce qu'est la donnée, et en quoi consiste le fait d'assurer la qualité de données
Synthétiser le cycle de vie de la donnée
Assurer l'alignement des usages métiers avec le cycle de vie de la donnée
Découvrir les bonnes pratiques en matière de contrôle de qualité des données
Assurer la mise en œuvre de la gouvernance de la donnée
Disposer d'un premier aperçu des possibilités de traitement proposé par MapR et Hadoop

Savoir installer R
Identifier comment manipuler des données avec R
Savoir importer et exporter des données
Être en mesure de réaliser des analyses statistiques basiques avec R
Savoir restituer des résultats à l'aide de graphiques

Connaître les outils et méthodes d'analyses statistiques avancées en environnement R
Être capable de programmer des analyses avec R
Savoir utiliser les packages de R pour mettre en œuvre des modélisations statistiques (régression, ACP...)
Identifier comment réaliser des analyses prédictives à l'aide d'équations de régression

Identifier les différences entre apprentissage automatique supervisé, non supervisé et méta-apprentissage
Transformer un gros volume de données à priori hétérogènes en informations utiles
Utiliser les algorithmes d'auto-apprentissage adaptés à une solution d'analyse
Exploiter de gros volumes de données textuelles
Appliquer ces différentes techniques aux projets Big Data

mettre en oeuvre des analyses Big Data
Démontrer le cadre juridique du stockage et de l'analyse de données
utiliser des outils de collecte Open Source
choisir la bonne solution de stockage de données au regard des spécificités d'un projet (OLAP, NoSQL, graph)
explorer la boite à outils technologique que constitue Hadoop et son écosystème
utiliser chaque brique (MapReduce, HIVE, SPARK…)
analyser les résultats et la signification des données extraites

concevoir un modèle de documents répondant aux attentes de l'entreprise, en fonction du sujet analysé
maîtriser une méthode simple et efficace de restitution de données
connaître la grammaire graphique et savoir sélectionner le bon graphique pour représenter la bonne donnée
bâtir un schéma narratif qui captive votre auditoire et renforce la crédibilité de vos analyses
maîtriser les outils de Tableau Software pour restituer les résultats

plus d'infos

Public

Ce cours s'adresse avant tout aux personnes suivantes :

Toute personne en charge de la restitution des données analysées

Prérequis

Pour suivre ce cours, vous devez déjà posséder les connaissances suivantes :

Si aucune connaissance technique particulière n'est nécessaire, il est toutefois recommandé d'avoir suivi le module Big Data - Enjeux et perspectives (BD500) pour suivre cette formation dans des conditions optimales
Une connaissance de SQL est un plus pour suivre cette formation

Programme de la formation

Partie 1 : Big Data - Les fondamentaux de l'analyse de données (3j)

Les nouvelles frontières du Big Data (Introduction)

La collecte des données Big Data

Le calcul massivement parallèle

Les nouvelles formes de stockage

Le Big Data Analytics (Partie I - Fondamentaux)

Le Big Data Analytics (Partie II - L'écosystème SPARK )

Traitement en flux du Big Data (streaming )

Déploiement d'un projet Big Data

Hadoop écosystème et distributions

Architectures de traitement Big Data

La gouvernance des données Big Data

Partie 2 : Les fondamentaux de l'analyse statistique avec R (3j)

Introduction

Installation

Utilisation

Manipulation de packages

Types de données

Import et export de données

Manipulation de données

Analyse de données

Partie 3 : Analyse statistique avancée avec R (3j)

Introduction

Travailler avec des échantillons

Réaliser des tests d'ajustement

Estimation et intervalles de confiance

Analyses statistiques avancées

Analyse de la variance et de la covariance

Partie 4 : Les bases de l'apprentissage Machine (Machine Learning) (3j)

L'apprentissage machine (Introduction)

Les fondamentaux de l'apprentissage machine

La classification

Les pratiques

L'apprentissage d'ensembles (ensemble learning)

La régression

Le clustering

Partie 5 : Big Data - Mise en oeuvre pratique d'une solution complète d'analyse des données (4j)

Introduction

Ingestion de données massives

Traitement de données Big Data en batch

Traitement avancé Big Data : l'apprentissage machine

Stockage de données distribuées

Automatisation de chaîne de traitement Batch

Traitement de données massives en flux (streaming)

Mise en oeuvre dans une architecture Big Data

Partie 6 : Analyse, Data Visualisation et introduction au Data StoryTelling pour la restitution de données (2j)

Data Visualisation ou la découverte de la grammaire graphique

Data Storytelling : Introduction

Construire son histoire avec Tableau Software

Les outils

plus d'infos

Méthode pédagogique

Chaque participant travaille sur un poste informatique qui lui est dédié. Un support de cours lui est remis soit en début soit en fin de cours. La théorie est complétée par des cas pratiques ou exercices corrigés et discutés avec le formateur. Le formateur projette une présentation pour animer la formation et reste disponible pour répondre à toutes les questions.

Méthode d'évaluation

Tout au long de la formation, les exercices et mises en situation permettent de valider et contrôler les acquis du stagiaire. En fin de formation, le stagiaire complète un QCM d'auto-évaluation.

Mis à jour le 07/03/2025