CONSULTING I TECHNOLOGY
AGILITY I COLLABORATIVE INTELLIGENCE I INNOVATION I PERFORMANCE
KEYRUS ACADEMY – CATALOGUE DE FORMATIONS 2015 / FORMATIONS STATISTIQUES ET DATA SCIENCE Janvier 2015 (Version 15.01_01)
© Keyrus – Tous droits réservés
OFFRE DE FORMATION DE KEYRUS Informations clés
/ Une offre de formation dédiée aux outils et méthodes du marché de la Business Intelligence, de l’Analytique et la Data Science
/ Chiffres clés /
3 centres de formations en France (Paris, Lyon et Aix-en-Provence)
/
+ de 15 ans d'expérience
/
Un catalogue de plus de 100 séminaires et stages de formation spécialisés
/
Un équipe de plus de 20 formateurs experts
/
+ de 1 000 jours de formations dispensés en 2014
/ Nos atouts /
Un centre de formation agréé par l’Etat (n°11 92 16285 92)
/
Une équipe de formateurs certifiés et collaborant aux projets de la Direction des Opérations de Keyrus
/
Une expertise technologique et pédagogique
/
Une démarche qualité rigoureuse
/
Une assistance pré et post-stage offerte 2
© Keyrus – Tous droits réservés
OFFRE DE FORMATION DE KEYRUS Contacts pour les formations Statistiques et Data Science
/ Vos contacts : Ludovic BINETTE
Nicolas MARIVIN
Fixe : + 33 1 41 34 10 00 Mobile : +33 (0)6 99 36 03 14
Fixe : + 33 1 41 34 10 00 Mobile: +33 6 98 67 29 58
Keyrus 155 rue Anatole France 92593 Levallois-Perret Cedex France
Keyrus 155 rue Anatole France 92593 Levallois-Perret Cedex France
Business Analytics Sales Manager
[email protected]
Responsable de l’Agence Business Analytics
[email protected]
3
© Keyrus – Tous droits réservés
CATALOGUE DE FORMATIONS L’offre de formations Statistiques et Data Science
/ MÉTHODOLOGIES STATISTIQUES / OUTILS D'ANALYSE STATISTIQUE / DATA SCIENCE
4
© Keyrus – Tous droits réservés
FORMATIONS STATISTIQUES ET DATA SCIENCE Méthodologies statistiques
/ Liste des formations en méthodologies statistiques : LIBELLÉ DE LA FORMATION
CODE
DURÉE
FRÉQUENCE
DMGMT
1
Semestrielle
STATD
1
Semestrielle
STATINF
2
Semestrielle
ANALYSE
2
Bimestrielle
Techniques de régression
MODEL
2
Bimestrielle
Séries temporelles
SERTEMP
2
A la demande
Techniques de scoring
SCOR
2
Trimestrielle
Techniques de segmentation
SEGM
2
Trimestrielle
Data Management Statistiques descriptives Tests statistiques et intervalles de confiance Analyse exploratoire de données
5
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES Data Management (DMGMT) 1
Durée en jour(s)
PROGRAMME DE LA FORMATION
DMGMT
Référence de la formation
OBJECTIF PÉDAGOGIQUE
L’objectif de la formation DMGMT est de fournir aux participants la connaissance méthodologique pour qualifier et quantifier la qualité d'un ensemble de données et de le préparer en vue d'une analyse statistique.
La partie pratique consiste à appréhender les programmes de data management présentés par le formateur.
PUBLIC
La formation DMGMT est destinée à tout public.
Introduction
Qualifier le contenu et mesure de la qualité
/ Les enjeux du Data Management
/ Nombre d’observations
/ Les relations entre le client, le statisticien et le data
/ Gestion des doublons
Manager
/ Valeurs manquantes
/ Les sources
/ Valeurs aberrantes
/ Les livrables
/ Etude uni-variée / Etude bi-variée
Les traitements sur les tables
/ Conversions
Créer et transformer des variables
/ Filtres
/ Créer un identifiant
/ Tris
/ Créer une variable de rang
/ Transpositions
/ Créer une variable de comptage
/ Concaténations
/ Regrouper des modalités
/ Agrégations
/ Discrétiser une variable
/ Jointures
/ Uniformiser / Normaliser
PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
6
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES Statistiques descriptives (STATD) 1
Durée en jour(s)
PROGRAMME DE LA FORMATION
STATD
Référence de la formation
OBJECTIF PÉDAGOGIQUE
L’objectif de la formation STATD est de maîtriser les méthodes statistiques permettant de décrire les données de manière synthétiques. A l’issue de cette formation, les participants seront en mesure d’organiser, traiter, analyser et présenter l'information de la manière la plus pertinente.
PUBLIC
La formation STATD est destinée à tout public.
Organiser ses données
Représentations graphiques classiques
/ Tri de la base de données
/ Diagrammes
/ Mise en place de filtres
/ Histogrammes
/ Sélection de données
/ Courbes / Boites à moustache (box-plot)
Maitriser les fonctions statistiques de base
/ Indicateurs de distribution : moyenne, médiane, mode,
Représentations avancées
quantiles,…
/ Arborescences
/ Caractéristiques de dispersion : variance et écart-type,
/ Cartes choroplèthes
coefficient de variation, écart absolue, minimum, maximum, / Bulles étendue, intervalle interquartiles / Radars / Intervalles de confiance / Animations / Informations relatives : proportion, erreur relative,…
Mieux comprendre les liaisons entre variables
/ Tableaux de contingence / Etude des corrélations / Régression linéaire
PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
7
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES Tests statistiques et intervalles de confiance (STATINF) 2
Durée en jour(s)
PROGRAMME DE LA FORMATION
STATINF
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Tests d’adéquation
/ Définitions
/ Test d’ajustement du Khi -deux
/ Probabilités élémentaires
/ Test d’ajustement de Kolmogorov-Smirnov
/ Statistique paramétrique et non-paramétrique L’objectif de la formation STATINF est de fournir aux participants la connaissance nécessaire pour établir la significativité statistique de tests d’hypothèse et encadrer des estimations au moyen d’intervalles de confiance.
/ Le théorème central-limite
Les intervalles de confiance
/ Lois usuelles de convergence
/ Interprétation / Estimation paramétrique
/ Estimation non-paramétrique
Méthodologie de test
/ Interprétation / Choix de l’hypothèse
Déterminer le nombre d’individus à échantillonner
/ Risque de première et seconde espèce
/ Influence du nombre d’individus sur la région de
/ Puissance de test
confiance
PUBLIC
/ Formules donnant le nombre d’individus
La formation STATINF est destinée à tout public souhaitant établir la validité d’une hypothèse, et aux analystes ou chercheurs désirant publier des mesures de significativité.
Comparaison d’échantillons indépendants
PRÉ-REQUIS
Comparaison d’échantillons appariés
Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows et disposer de connaissances élémentaires en mathématique (moyenne, proportion).
/ Tests d’égalité de moyennes / Tests d’égalité de variance / Cas particulier d’une proportion pour un grand échantillon
/ Tests d’égalité de moyennes / Tests d’égalité de variance
Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
8
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES Analyse exploratoire de données (ANALYSE) 2
Durée en jour(s)
PROGRAMME DE LA FORMATION
ANALYSE
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Analyse des Correspondances Multiples (ACM)
/ Contexte et présentation des objectifs
/ Tableau disjonctif complet
/ Qualification des données (préparation)
/ Tableau de Burt / AFC du tableau de Burt
L’objectif de la formation ANALYSE est de rendre opérationnelle toute personne rencontrant dans son métier le besoin de comprendre les relations entre un nombre important de variables.
Analyse en Composantes Principales (ACP)
/ Interprétation des axes
/ Données utilisées
/ Représentations graphiques associées
/ Construction des axes
/ Choix du nombre d’axes
Méthode de classification
/ Interprétation des axes
/ Arbre de décision
/ Cercle des corrélations / Représentation des individus dans l’espace factoriel
Synthèse et extensions
/ Projection des individus et variables supplémentaires
/ ACP avec rotation
PUBLIC
/ Analyse en Composantes Indépendantes (uniquement Analyse Factorielle des Correspondances (AFC)
La formation ANALYSE est destinée à tout public.
sous R)
/ Tableau de contingence / Métrique du Chi-deux / Choix du nombre d’axes / Interprétation des axes
PRÉ-REQUIS Les participants devront au minimum avoir suivi la formation STATDESC ou justifier d’un niveau de connaissance équivalent à cette formation. Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
9
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES Techniques de régression (MODEL) 2
Durée en jour(s)
PROGRAMME DE LA FORMATION
MODEL
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Analyse de la variance
/ Expliquer ou prévoir
/ Tests de comparaison
/ Choix du modèle en fonction de données
/ Notion d’interaction / Variables quantitatives et qualitatives
L’objectif de la formation MODEL est de fournir aux participants la connaissance suffisante des techniques de modélisation afin de pouvoir répondre à des problèmes concrets (explication, prévision de différents phénomènes,…).
La régression simple
/ La méthode des moindres carrées
Les autres régressions
/ Validation du modèle
/ Régression linéaire généralisé
/ Tests de significativité
/ Régression logistique
/ Analyse des résidus
La régression multiple
/ Visualisation des individus et des variables
PUBLIC La formation MODEL s’adresse à toute personne souhaitant construire un modèle permettant de répondre à un problème concret.
/ Modélisation : estimation des paramètres, tests, qualité du modèle
/ Sélection des variables : méthode de régression pas à pas, choix du « meilleur modèle
PRÉ-REQUIS Les participants devront au minimum avoir suivi la formation STATDESC ou justifier d’un niveau de connaissance équivalent à cette formation. Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
10
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES Séries temporelles (SERTEMP) 2
Durée en jour(s)
PROGRAMME DE LA FORMATION
SERTEMP
Référence de la formation
OBJECTIF PÉDAGOGIQUE
L’objectif de la formation SERTEMP est de fournir aux participants la connaissance nécessaire pour analyser des données temporelles et se servir de leurs régularités à des fins d’interpolation et de prévision.
Introduction
Méthode de Box et Jenkins
/ Présentation des séries temporelles
/ Processus Auto-régressif (AR)
/ Représentation graphique
/ Processus Moyenne Mobile (MA)
/ La méthodologie SEMMA
/ Identification d’un modèle ARMA par étude des
/ Points forts / Points faibles
corrélogrammes
/ Estimation des paramètres ARMA Modèles de composition
/ Modèle additif
Traitement des cas non-stationnaires
/ Modèle multiplicatif
/ Par différenciation : ARIMA, SARIMA
/ Lissage par moyennes mobiles
/ Traitement de l’hétéroscédasticité : processus ARCH,
/ Lissage exponentiel
GARCH
/ Méthode de Holt-Winters
PUBLIC La formation SERTEMP s’adresse à toute personne souhaitant étudier l’évolution passée de grandeurs numériques au cours du temps afin d’en prévoir le comportement futur.
/ Calcul des variations saisonnières
/ Série corrigée des variations saisonnières
Fondamentaux d’analyse stochastique
/ Processus stochastique / Auto-corrélation, auto-covariance
PRÉ-REQUIS
/ Stationnarité
/ Hétéroscédasticité Les participants devront au minimum avoir suivi la formation STATDESC ou justifier d’un niveau de connaissance équivalent à cette formation. Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
11
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES Techniques de scoring (SCOR) 2
Durée en jour(s)
PROGRAMME DE LA FORMATION
SCOR
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Evaluation de la performance
/ Types de score : octroi, appétence, churn
/ Matrice de confusion
/ Finalité : la carte de score
/ Courbes de lift, ROC
/ Interprétation probabiliste
/ Robustesse / Suivi du modèle : structure de la population, stabilité par
L’objectif de la formation SCOR est de fournir aux participants la connaissance nécessaire pour concevoir et implémenter des modèles statistiques de classification aboutissant à la création d’un score.
PUBLIC
La formation SCOR est destinée statisticiens et aux dataminers.
aux
variable de score
Préparation des données
/ Définition du périmètre et choix des données
/ Identifier les variables discriminantes
Communication des résultats
/ Faut-il discrétiser ? Si oui, comment ?
/ Importance des variables dans le score
/ Traitement des valeurs manquantes
/ Création d’une grille de score
/ Echantillon d’apprentissage/test
/ Mise en production
Création du score
Cas particuliers courants
/ Analyse discriminante
/ Cas où l’événement à prédire est rare
/ Régression logistique
/ Cas où l’événement à prédire possède plusieurs modalités
/ Arbres de décision
/ Cas où les coûts de mauvaise affectation ne sont pas
/ Combinaison de modèles
symétriques
PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows et disposer de connaissances élémentaires en mathématique (moyenne, proportion). Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
12
© Keyrus – Tous droits réservés
MÉTHODOLOGIES STATISTIQUES Techniques de segmentation (SEGM) 2
Durée en jour(s)
PROGRAMME DE LA FORMATION
SEGM
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Affecter les nouveaux individus
/ Méthodologie de mise en œuvre
/ Si les données utilisées pour la segmentation sont
/ Vocabulaire usuel
disponibles
/ Si les données utilisées pour la segmentation ne sont pas L’objectif de la formation SEGM est de fournir aux participants la connaissance nécessaire pour segmenter des individus en segments optimisant des critères d’homogénéité et de différenciation.
Définir le périmètre
disponibles
/ Quels individus ?
/ Mettre en production une segmentation
/ Définir la similarité entre individus
/ Quelles variables intégrer ?
Cas pratiques usuels
/ Quelles transformations réaliser avant la segmentation ?
/ Segmentation client basée sur récence, fréquence et montant
/ Segmentation client basée sur le comportement de
Réaliser le regroupement
/ Stratégie hiérarchique vs partitionnement
PUBLIC
/ Classification ascendante hiérarchique
/ K-moyennes La formation SEGM est destinée statisticiens et aux dataminers.
aux
consommation
/ Intégrer une dimension temporelle dans une segmentation / Intégrer des données textuelles dans une segmentations
/ Choix du nombre de segments
Caractériser les segments obtenus
/ Qualité globale d’une segmentation
PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows et disposer de connaissances élémentaires en mathématique (moyenne, proportion).
/ Interpréter les segments
/ Communiquer les résultats
Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)
13
© Keyrus – Tous droits réservés
FORMATIONS STATISTIQUES ET DATA SCIENCE Outils d'analyse statistique
/ Liste des formations sur les outils d'analyse statistique : LIBELLÉ DE LA FORMATION
CODE
DURÉE
FRÉQUENCE
JMP – Initiation
JMP
2
A la demande
Logiciel R – Découverte
RINIT
2
Trimestrielle
Logiciel R – Etudes et modélisation statistiques
RSTAT
2
Trimestrielle
Logiciel R – Programmation avancée
RPROG
2
Trimestrielle
Logiciel R – Data Management NOUVEAU
RDM
2
Trimestrielle
Logiciel R – Data Viz avec Shiny NOUVEAU
RDVIZ
2
Trimestrielle
IBM SPSS Statistics – Initiation
SPSSSTAT
2
A la demande
IBM SPSS Modeler – Initiation
SPSSMOD
2
A la demande
Remarque : Les formations SAS proposées par Keyrus Academy sont disponibles dans un catalogue dédié aux outils et solutions SAS.
14
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE JMP – Initiation (JMP) 2
Durée en jour(s)
PROGRAMME DE LA FORMATION
JMP
Référence de la formation
OBJECTIF PÉDAGOGIQUE
L’objectif de la formation JMP est de fournir aux participants la connaissance nécessaire pour accéder, analyser et visualiser des données sous JMP.
Découverte de JMP
Manipulation sur les tables et tableaux
/ Introduction
/ Tri
/ JMP starter
/ Extraction
/ Fenêtre d’accueil JMP
/ Jointure
/ Didacticiels
/ Statistiques descriptives
/ Indices statistiques
/ Tableaux croisés dynamiques
Chargement des données
Exploration graphique des données
/ Ouverture d’une base MS Excel
/ Diagrammes
/ Ouverture d’une base TXT
/ Nuages de points
/ Présentation base JMP
/ Outils graphiques / Graphiques en bulles
PUBLIC La formation JMP est destinée aux programmeurs SAS, aux créateurs de rapports et aux statisticiens.
Manipulation sur les colonnes et les lignes
/ Mosaïques
/ Actions possibles sur colonnes et/ou sur lignes
/ Arbres de décision
/ Actions spécifiques aux lignes / Manipulations de base sur graphiques
Sauvegarde des résultats
/ Journal / Projet
PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Aucune connaissance particulière statistique n'est requise. Technologie(s) mis(es) en œuvre : JMP 9 et +
15
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE Logiciel R – Découverte (RINIT) 2
Durée en jour(s)
PROGRAMME DE LA FORMATION
RINIT
Référence de la formation
OBJECTIF PÉDAGOGIQUE
L’objectif de la formation RINIT est de fournir aux participants la connaissance des principes fondamentaux du langage R et des fonctions usuelles pour importer, manipuler, analyser et visualiser des données.
Introduction
Graphiques
/ Présentation générale
/ Graphiques usuels : Nuage de points, histogrammes,
/ Concepts fondamentaux
diagrammes
/ Points forts et points faibles
/ Options graphiques
Prise en main
Statistiques
/ Présentation de l’interface
/ Statistiques univariées
/ Première prise en main
/ Tableaux croisés
/ Installer et charger des packages / Intégration des données
Programmation
/ Manipulation des vecteurs/matrices
/ Fonctions / Structures logiques
PUBLIC La formation RINIT s’adresse à tout public souhaitant réaliser des traitements de données sous R.
Objets de R
/ Tableaux
Présentation des résultats/sorties
/ Data.frames
/ Création de tables / Reporting
Gestion des données
PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Aucune connaissance particulière statistique n'est requise.
/ Extraction de sous-tables
Extensions
/ Fusion, tri
/ Quelques packages usuels et comment les utiliser
/ Gestion des doublons
/ Améliorer sa productivité grâce aux interfaces de
/ Gestion des caractères et des dates
développement
Technologie(s) mis(es) en œuvre : R (ou Revolution R Open)
16
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE Logiciel R – Etude et modélisation statistiques (RSTAT) 2
Durée en jour(s)
PROGRAMME DE LA FORMATION
RSTAT
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Techniques de segmentation
/Rappel des fondamentaux de R
/K-moyennes /Classification ascendante hiérarchique /Cartes de Kohonen
Analyses exploratoires
/Statistiques univariées L’objectif de la formation RSTAT est de fournir aux participants la connaissance pratique des fonctions et packages R utilisés dans la réalisation d’études ou de modèles statistiques.
/Statistiques bivariées
Simulation
/Analyses factorielles (ACM, AFC, ACM)
/Echantillonnage
/Boostrapping Tests et intervalles de confiance
/Méthode de Monte Carlo par chaînes de Markov
/Echantillons indépendants /Echantillons appariés /Tests d’adéquation
PUBLIC Modélisation statistique La formation RSTAT s’adresse aux chargés d’études et statisticiens.
/Régression linéaire / ANOVA /Régression logistique /Sélection automatique de variables /Méthodes de régularisation : PLS, Lasso
PRÉ-REQUIS Les participants devront avoir un niveau sous R équivalent à celui de la formation RINIT, ainsi qu’une connaissance des principes généraux des méthodes de modélisation statistique.
/Arbres de décision
/Forêts aléatoires /SVM
Technologie(s) mis(es) en œuvre : R (ou Revolution R Open)
17
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE Logiciel R – Programmation avancée (RPROG) 2
Durée en jour(s)
PROGRAMME DE LA FORMATION
RPROG
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Surveiller l’usage des ressources
/ Présentation générale
/ Monitorer l’usage mémoire
/ Concepts fondamentaux
/ Profiling et benchmarking
/ Points forts et points faibles Entrées/sorties L’objectif de la formation RPROG est de fournir aux participants la compétence de développement R.
Typage des données
/ Les devices graphiques
/ Types de base
/ Générer des rapports
/ Programmation objet
/ Lire et écrire dans un SGBD / Lire et écrire dans un fichier propriétaire (Excel, SAS,
Développer ses propres fonctions
SPSS…)
/ Structure d’une fonction
PUBLIC La formation RPROG s’adresse aux personnes amenées à développer de manière régulière sous R ou chargées d’administrer des scripts R en production.
PRÉ-REQUIS
Les participants devront avoir un niveau sous R équivalent à celui de la formation RINIT.
/ Arguments
Automatiser R
/ Valeur retour
/Séquencer des scripts
/ Scoping
/Utiliser R en mode batch
/ Opérateurs de fonctions Construire son propre package Ecrire un code performant et maintenable
/ Création
/ Conventions de nommage
/ Documentation
/ Vectoriser
/ Automatisation des tests
/ Factoriser
/ Déploiement
/ Sauvegarder et rediriger les logs
Technologie(s) mis(es) en œuvre : R (ou Revolution R Open)
18
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE Logiciel R – Data Management (RDM) NOUVEAU 2
Durée en jour(s)
PROGRAMME DE LA FORMATION
RDM
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Acquérir les compétences fondamentales en programmation R dans le domaine de la gestion de données. Savoir manipuler et exploiter des données digitales structurées et semi-structurées. Connaitre les standards technologiques d’échange de données digitales tels que JSON.
Introduction
Traitement et manipulation des données
/ Rappel des enjeux et des concepts fondamentaux de la
/ Manipulation des données : sélection de lignes/colonnes,
gestion de données
gestion de variables (conversion de types,
/ Focus sur les spécificités des données digitales
transformation,…), tris, agrégation,…
/ Concaténation et fusion de données / Transposition/rotation des données
Intégration des données]
/ Lecture/écriture de fichiers (CSV, XML,…) / Connexion à des bases de données relationnelles (Oracle, Travaux pratiques MySQL, PostgreSQL,…)
/ Production d’indicateurs statistiques (Top 10 par mois,…)
/ Manipulation de données JSON
sur le téléchargement de packages R à partir des logs
/ Interrogation de données digitales structurées avec
structurées disponibles sur le site Web du CRAN
Google Analytics API
/ Constitution d’une base de données d’informations météorologiques à partir des données JSON disponibles via
PUBLIC
le site OpenWeatherMap
Mise en qualité des données La formation RDM est destiné aux statisticiens et aux informaticiens souhaitant acquérir les compétences requises pour la gestion de données digitales.
/ Mesure de la qualité de données : statistiques descriptives, détection des doublons, des valeurs
/ Réalisation d’analyse d’audience de sites Web via l’intégration de données Google Analytics
manquantes/atypiques,…
/ Nettoyage de données : redressement, traitement des données manquantes/atypiques,…
PRÉ-REQUIS Connaissance de la programmation R (avoir déjà programmé en mode projet ou avoir suivi récemment une formation d’introduction à R). Technologie(s) mis(es) en œuvre : R (ou Revolution R Open)
19
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE Logiciel R – Data Visualization avec Shiny (RDVIZ) NOUVEAU 2
Durée en jour(s)
PROGRAMME DE LA FORMATION
RDVIZ
Référence de la formation
Introduction
Développement d'une application Web avec Shiny
/ Présentation des concepts fondamentaux de la
/ Présentation de l'application Web à développer
visualisation de données
/ Construction de l'interface graphique de base
/ Panorama des modes de visualisation de données
/ Mise en œuvre d'un tableau de restitution des données
/ Focus sur les formes de représentations spécialisées et/ou
/ Enrichissement de l'interface avec plusieurs restitutions sous
Maitriser le développement d’applications Web avec l’environnement de développement R et le package Shiny.
innovantes : diagramme de Sankey,,…
forme d'onglet
/ Présentation du « Data Journalisme » ou comment
/ Mise en œuvre de restitutions graphiques avec ggplot2
Disposer d’une connaissance avancée des bibliothèques graphiques majeures et savoir les intégrer au sein d’applications Web orientées visualisation de données.
attractive pour le lecteur
OBJECTIF PÉDAGOGIQUE Appréhender les concepts fondamentaux, les bonnes pratiques et les représentations innovantes de visualisation de données.
PUBLIC La formation RDVIZ est destinée aux statisticiens et aux informaticiens souhaitant découvrir et maitriser les méthodes et techniques de visualisation de données.
transformer les données en une visualisation graphique Data Visualization avec Shiny
/ Techniques d’Intégration de bibliothèques Javascript au Premier pas avec le package Shiny (langage R)
sein d’une application Shiny
/ Présentation du package R et des concepts
/ Mise en œuvre d’outils de visualisation de données via
fondamentaux associés
l’intégration de bibliothèques graphiques (D3.js, googleVis,
/ Focus sur les interfaces graphiques (UI.r)
Chart.js,…)
/ Gestion des interactions entre interface et moteur de traitements R
Travaux pratiques
/ Fonctionnalités de deboggage
/ Mise en œuvre d’un baromètre visuel de données d’informations et de critiques de films
PRÉ-REQUIS
/ Représentation de parcours clients sur un site Web via un diagramme de Sankey
Connaissance de la programmation R (avoir déjà programmé en mode projet ou avoir suivi récemment une formation d’introduction à R). Technologie(s) mis(es) en œuvre : R (ou Revolution R Open) et bibliothèques Javascript (D3.js, Chart.js,…)
20
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE IBM SPSS Statistics – Initiation (SPSSSTAT) 2
Durée en jour(s)
PROGRAMME DE LA FORMATION
SPSSSTAT
Référence de la formation
OBJECTIF PÉDAGOGIQUE
Introduction
Gestion des données
/ Présentation générale de l'outil
/ Création de nouvelles variables
/ Points forts et points faibles
/ Recodage - discrétisation / Sélectionner des lignes avec Select Cases
L’objectif de la formation SPSSSTAT est de fournir aux participants la connaissance nécessaire pour accéder, analyser, manipuler des données hétérogènes (SPSS et autres formats) et présenter des résultats en utilisant l’interface IBM SPSS Statistics.
Prise en main
/ Fusions / agrégation
/ Editeur de données / Fenêtre de résultats
Elaboration de rapports
/ Affichage des variables
/ Tableaux de fréquences / Tableaux croisés
Importer des données
/ Diagrammes
/ Ouverture directe
/ Personnalisation des graphes
/ Requêtes
PUBLIC
/ Lecture de données ASCII
La formation SPSSSTAT est destinée aux statisticiens et aux dataminers.
PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Aucune connaissance particulière statistique n'est requise. Technologie(s) mis(es) en œuvre : IBM SPSS Statistics 19 et +
21
© Keyrus – Tous droits réservés
OUTILS D'ANALYSE STATISTIQUE IBM SPSS Modeler – Initiation (SPSSMOD) 2
Durée en jour(s)
PROGRAMME DE LA FORMATION
SPSSMOD
Référence de la formation
OBJECTIF PÉDAGOGIQUE
L’objectif de la formation SPSSMOD est de fournir aux participants la connaissance nécessaire pour accéder, analyser, manipuler des données hétérogènes (SPSS et autres formats) et présenter des résultats en utilisant l’interface IBM SPSS Modeler.
Introduction
Gestion des données
/ Présentation générale de l'outil
/ Création d’indicateurs
/ Introduction au Datamining
/ Valeurs globales
/ La méthodologie CRISP DM
/ Langage de manipulation des données
/ Points forts et points faibles
/ Fusion, concaténation et agrégation
Prise en main
Segmentation
/ Présentation de l’interface
/ Le nœud k-means
/ Sources de données
/ Le nœud Two Step
/ Typage
/ Le nœud Kohonen
/ Filtre et échantillon Modélisation
PUBLIC
La formation SPSSMOD est destinée aux statisticiens et aux dataminers.
Audit et qualité des données
/ Les nœuds de modélisation
/ Audit
/ Arbres de décision
/ Remplacement des données manquantes
/ Régression
/ Restitution graphique
/ Comparaison de modèles
Exportation de données
PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Aucune connaissance particulière statistique n'est requise. Technologie(s) mis(es) en œuvre : IBM SPSS Modeler 14 et +
22
© Keyrus – Tous droits réservés
FORMATIONS STATISTIQUES ET DATA SCIENCE Data Science
/ Liste des formations Data Science : LIBELLÉ DE LA FORMATION
CODE
DURÉE
FRÉQUENCE
Introduction à la Data Science NOUVEAU
DSINIT
1
Bimestrielle
Acquisition et exploitation de données digitales NOUVEAU
DIGIT
2
A la demande
ML
2
Trimestrielle
TM
2
Semestrielle
Machine Learning Text Mining NOUVEAU
NOUVEAU
23
© Keyrus – Tous droits réservés
DATA SCIENCE Introduction à la « Data Science » (DSINT) NOUVEAU 1
DSINT
Durée en jour(s)
Référence de la formation
PROGRAMME DE LA FORMATION Introduction
Les métiers de la DATA
/ Présentation générale de la « Data Science »
/ Plus qu’un métier, une équipe : Définition et prérogatives
/ Différences majeures entre les approches « Data
des différents métiers de la DATA (Data Scientist, Data
Comprendre les concepts de la « Data Science » et les différences majeures avec les approches « Data Mining » et « Big Data ».
Science », « Data Mining » et « Big Data »
Engineer, Chief Data Officer,…)
De nouvelles données pour de nouveaux challenges
équipe « Data Science »
Disposer d’une connaissance générale sur les méthodologies et technologies liées à la « Data Science ».
/ Données textuelles
/ Focus sur le métier de « Data Scientist »
OBJECTIF PÉDAGOGIQUE
Identifier les compétences et les activités associées aux métiers de la « DATA ».
/ Présentation des différents modèles d’organisation d’un
/ Données digitales (logs Web, réseaux sociaux,…) Panorama des outils et solutions orientés « Data Science »
/ Open Data
/ Présentation des solutions « open source » vs commerciales
Présentation de cas d’usages
/ Comparatifs des solutions sur base des critères suivants :
/ Connaissance Client 360°
PUBLIC
/ Monétisation/valorisation de la donnée / Internet des Objets
La formation DSINT est destinée à toute personne souhaitant appréhender les concepts et enjeux de la « Data Science ».
fonctionnalités analytiques, volumes de données, socle technologique (Apache Hadoop ou non) et complexité de
mise en œuvre
/ Focus sur le langage R et son écosystème de packages Les activités et méthodes liées à la « Data Science »
/ Data Science Management / Machine Learning
PRÉ-REQUIS
/ Text Mining / Visualisation de données
Aucun pré-requis.
Pas de technologie, ni de langage abordé
24
© Keyrus – Tous droits réservés
DATA SCIENCE Acquisition et exploitation des données digitales (DIGIT) NOUVEAU 2
DIGIT
Durée en jour(s)
Référence de la formation
OBJECTIF PÉDAGOGIQUE Maitriser les principes et concepts fondamentaux d’acquisition et d’exploitation de données digitales. Disposer de connaissances fondamentales en programmation Python, langage de référence pour les activités de Web Crawling/Scraping. Maitriser les techniques de Web Crawling/Scraping et de récupération via les API Web de données provenant des réseaux sociaux.
PUBLIC
PROGRAMME DE LA FORMATION Principe d’acquisition des données digitales
Manipulation de données digitales avec Python
/ Présentation des concepts fondamentaux d’acquisition
/ Mise en œuvre des techniques de Web Crawling/Scraping
de données digitales : Web Crawling (exploration de sites
avec le langage Python et la bibliothèque « Beautiful Soup »
Web), Web Scraping (extraction de contenu Web) et
/ Présentation et mise en œuvre de Scrapy, framework
données de réseaux sociaux
Open Source dédié aux activités de crawling et scraping de sites Web
/ Extraction de données depuis des logs Web
Programmation Python
/ Présentation générale du langage Python / Installation de Python et présentation de l’environnement
Acquisition de données via des API Web
de développement IDLE
/ Acquisition de données via les API des réseaux sociaux
/ Bases syntaxiques : syntaxe, conventions de codage,
(Twitter, Facebook,…)
règles de nommage, affectation, commentaires,…
/ Focus et démonstration des packages R dédiés aux
/ Présentation/manipulation des types de données
réseaux sociaux : twitteR, Rfacebook,…
/ Contrôle du flux d'exécution : structure La formation DIGIT est destiné aux profils ayant des connaissances avancées en programmation souhaitant acquérir les compétences requises pour l’acquisition et l’exploitation de données digitales.
PRÉ-REQUIS Connaissance de la programmation R (avoir déjà programmé en mode projet ou avoir suivi récemment une formation d’introduction à R). Avoir des notions en langage HTML/XML.
conditionnelle (if/elif/else), opérateurs logiques et de
Travaux pratiques
comparaison, boucles while/for, instructions
/ Récupération de la liste de membres d’un groupe donnée
break/continue,…
sur la plateforme « Meetup.com »
/ Importation et utilisation des modules les plus courants
/ Enrichissement de la connaissance des membres d’un
(math, sys, calendar,…)
groupe Meetup avec les informations disponibles sur les
/ Expressions régulières (module « re ») et parsing de chaînes réseaux sociaux de caractères
/ Gestion d’accès aux données
Technologie(s) mis(es) en œuvre : Python et R (ou Revolution R Open)
25
© Keyrus – Tous droits réservés
DATA SCIENCE Machine Learning (ML) NOUVEAU 2
ML
Durée en jour(s)
Référence de la formation
PROGRAMME DE LA FORMATION / Arbre de décision et agrégation
Introduction
OBJECTIF PÉDAGOGIQUE
/ Présentation des concepts fondamentaux
/ Bagging et Boosting
/ Contexte et enjeux de l’essor actuel du Machine Learning
/ Mise en œuvre : Elagage et apport du bagging/boosting
/ Présentation de cas d’usage et de leurs valeurs ajoutées Appréhender l’ensemble des méthodologies de Machine Learning au travers l’implémentation de différents cas d’étude dans un contexte de forte volumétrie de données. Maitriser la validation des modèles et éviter les erreurs d’interprétations.
Modélisation supervisée classique
/ Définition « algorithme d’apprentissage » / Cas de test d’introduction avec les modélisations classiques / Définition de l’apprentissage automatique
versus un arbre de décision
/ Support Vector Machine
Modélisation non supervisée
/ K-means clustering / Carte de Kohonen
/ Ecriture formelle d’une problématique de Machine Learning
PUBLIC La formation ML est destinée aux statisticiens (contexte de forte volumétrie de données) et aux informaticiens souhaitant découvrir les algorithmes d’apprentissage et leurs applications.
PRÉ-REQUIS Connaissance minimale en mathématiques correspondant à un niveau BAC+2. Connaissance de la programmation R (avoir déjà programmé en mode projet ou avoir suivi récemment une formation d’introduction à R).
/ Les modèles « classiques » : Régression linéaire/logistique
Réduction de dimension
et Naïve Bayes
/ Analyse en composantes principales
/ Validation : Validation croisée, courbe ROC et complexité / Algorithmes du type « Stepwise » / Retour au cas de test et conclusion sur le choix du modèle / Via les critères : khi2 et gain d’information
Modélisation supervisée évoluée
Travaux pratiques
/ Réseau de neurones
/ A partir de données « Open Data » (SNCF et INSEE), mise
/ Perceptron multi-couches (PMC)
en œuvre et comparaison de performances d’algorithmes
/ Mise en œuvre et focus sur les problèmes de taille
prédictifs avancés destinés à prédire le nombre quotidien
d’échantillons versus le nombre de couches
de voyageurs montant en gare (transilien).
/ K-nearest neighbor
Technologie(s) mis(es) en œuvre : R (ou Revolution R Open)
26
© Keyrus – Tous droits réservés
DATA SCIENCE Text Mining (TM) NOUVEAU 2
TM
Durée en jour(s)
Référence de la formation
OBJECTIF PÉDAGOGIQUE
PROGRAMME DE LA FORMATION Introduction
Analyse exploratoire des textes
/ Origine et développement des méthodes de Text mining
/ Analyse des correspondances et analyse sémantique
/ Apport du Text mining et intérêt par rapport à des logiciels latente (avec pondération des termes) Appréhender l’ensemble des méthodes de valorisation des données non structurées. Maitriser les techniques de préparation et de visualisation des données textuelles.
Maitriser les différentes techniques d’analyses (analyse descriptive, analyse exploratoire et classification) de données textuelles.
PUBLIC La formation TM est destinée aux statisticiens et aux informaticiens souhaitant découvrir et maitriser les méthodes de valorisation des données non structurées.
d’aide à la lecture de texte ou à la recherche par mot clés
/ Interprétation des résultats : lecture des graphiques,
/ Différents types de corpus de texte
interprétation des axes,…
/ Comparaison approche linguistique (traitement du
/ Clustering : calcul de distances et CAH
langage naturel) vs approche statistique (« sac de mots »)
/ Description des classes obtenues : termes discriminants, textes représentatifs,…
Pre-processing des textes
/ Intérêt du preprocessing
Classification de textes
/ Filtrage des « mots-outils » (« stopwords »)
/ Objectif de la classification
/ Lemmatisation versus racinisation
/ Choix des prédicteurs : sélection des termes vis à vis d'un
/ Pré-traitements de mise en forme
critère (score du khi2, TF-IDF) et utilisation de la fréquence
/ Représentations du texte : sacs de mots, bigrammes,,… / Filtrage des termes peu fréquents
Analyse descriptive du corpus
/ Analyse à plat : termes les plus fréquents, hapax, nuage
PRÉ-REQUIS Connaissance minimale en mathématiques correspondant à un niveau BAC+2. Connaissance de la programmation R (avoir déjà programmé en mode projet ou avoir suivi récemment une formation d’introduction à R).
de mots,…
/ Analyse croisée : spécificités lexicales, nuage de mots avec discrimination,…
/ Termes co-occurrents
des termes vs coordonnées de l'analyse sémantique/analyse des correspondances
/ Modèles de classification : SVM, classification bayésienne, arbre et random forest
/ Indicateurs de qualité du modèle
Travaux pratiques
/ Notation de la qualité et de la satisfaction de restaurants via l’analyse textuelle d’avis clients
Technologie(s) mis(es) en œuvre : R (ou Revolution R Open) et R.TeMiS
27