KEYRUS ACADEMY – CATALOGUE DE FORMATIONS 2015 ...

Notion d'interaction. / Variables ... Définition du périmètre et choix des données. / Identifier les ..... Expressions régulières (module « re ») et parsing de chaînes.
762KB taille 17 téléchargements 251 vues
CONSULTING I TECHNOLOGY

AGILITY I COLLABORATIVE INTELLIGENCE I INNOVATION I PERFORMANCE

KEYRUS ACADEMY – CATALOGUE DE FORMATIONS 2015 / FORMATIONS STATISTIQUES ET DATA SCIENCE Janvier 2015 (Version 15.01_01)

© Keyrus – Tous droits réservés

OFFRE DE FORMATION DE KEYRUS Informations clés

/ Une offre de formation dédiée aux outils et méthodes du marché de la Business Intelligence, de l’Analytique et la Data Science

/ Chiffres clés /

3 centres de formations en France (Paris, Lyon et Aix-en-Provence)

/

+ de 15 ans d'expérience

/

Un catalogue de plus de 100 séminaires et stages de formation spécialisés

/

Un équipe de plus de 20 formateurs experts

/

+ de 1 000 jours de formations dispensés en 2014

/ Nos atouts /

Un centre de formation agréé par l’Etat (n°11 92 16285 92)

/

Une équipe de formateurs certifiés et collaborant aux projets de la Direction des Opérations de Keyrus

/

Une expertise technologique et pédagogique

/

Une démarche qualité rigoureuse

/

Une assistance pré et post-stage offerte 2

© Keyrus – Tous droits réservés

OFFRE DE FORMATION DE KEYRUS Contacts pour les formations Statistiques et Data Science

/ Vos contacts : Ludovic BINETTE

Nicolas MARIVIN

Fixe : + 33 1 41 34 10 00 Mobile : +33 (0)6 99 36 03 14

Fixe : + 33 1 41 34 10 00 Mobile: +33 6 98 67 29 58

Keyrus 155 rue Anatole France 92593 Levallois-Perret Cedex France

Keyrus 155 rue Anatole France 92593 Levallois-Perret Cedex France

Business Analytics Sales Manager

[email protected]

Responsable de l’Agence Business Analytics

[email protected]

3

© Keyrus – Tous droits réservés

CATALOGUE DE FORMATIONS L’offre de formations Statistiques et Data Science

/ MÉTHODOLOGIES STATISTIQUES / OUTILS D'ANALYSE STATISTIQUE / DATA SCIENCE

4

© Keyrus – Tous droits réservés

FORMATIONS STATISTIQUES ET DATA SCIENCE Méthodologies statistiques

/ Liste des formations en méthodologies statistiques : LIBELLÉ DE LA FORMATION

CODE

DURÉE

FRÉQUENCE

DMGMT

1

Semestrielle

STATD

1

Semestrielle

STATINF

2

Semestrielle

ANALYSE

2

Bimestrielle

Techniques de régression

MODEL

2

Bimestrielle

Séries temporelles

SERTEMP

2

A la demande

Techniques de scoring

SCOR

2

Trimestrielle

Techniques de segmentation

SEGM

2

Trimestrielle

Data Management Statistiques descriptives Tests statistiques et intervalles de confiance Analyse exploratoire de données

5

© Keyrus – Tous droits réservés

MÉTHODOLOGIES STATISTIQUES Data Management (DMGMT) 1

Durée en jour(s)

PROGRAMME DE LA FORMATION

DMGMT

Référence de la formation

OBJECTIF PÉDAGOGIQUE

L’objectif de la formation DMGMT est de fournir aux participants la connaissance méthodologique pour qualifier et quantifier la qualité d'un ensemble de données et de le préparer en vue d'une analyse statistique.

La partie pratique consiste à appréhender les programmes de data management présentés par le formateur.

PUBLIC

La formation DMGMT est destinée à tout public.

Introduction

Qualifier le contenu et mesure de la qualité

/ Les enjeux du Data Management

/ Nombre d’observations

/ Les relations entre le client, le statisticien et le data

/ Gestion des doublons

Manager

/ Valeurs manquantes

/ Les sources

/ Valeurs aberrantes

/ Les livrables

/ Etude uni-variée / Etude bi-variée

Les traitements sur les tables

/ Conversions

Créer et transformer des variables

/ Filtres

/ Créer un identifiant

/ Tris

/ Créer une variable de rang

/ Transpositions

/ Créer une variable de comptage

/ Concaténations

/ Regrouper des modalités

/ Agrégations

/ Discrétiser une variable

/ Jointures

/ Uniformiser / Normaliser

PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)

6

© Keyrus – Tous droits réservés

MÉTHODOLOGIES STATISTIQUES Statistiques descriptives (STATD) 1

Durée en jour(s)

PROGRAMME DE LA FORMATION

STATD

Référence de la formation

OBJECTIF PÉDAGOGIQUE

L’objectif de la formation STATD est de maîtriser les méthodes statistiques permettant de décrire les données de manière synthétiques. A l’issue de cette formation, les participants seront en mesure d’organiser, traiter, analyser et présenter l'information de la manière la plus pertinente.

PUBLIC

La formation STATD est destinée à tout public.

Organiser ses données

Représentations graphiques classiques

/ Tri de la base de données

/ Diagrammes

/ Mise en place de filtres

/ Histogrammes

/ Sélection de données

/ Courbes / Boites à moustache (box-plot)

Maitriser les fonctions statistiques de base

/ Indicateurs de distribution : moyenne, médiane, mode,

Représentations avancées

quantiles,…

/ Arborescences

/ Caractéristiques de dispersion : variance et écart-type,

/ Cartes choroplèthes

coefficient de variation, écart absolue, minimum, maximum, / Bulles étendue, intervalle interquartiles / Radars / Intervalles de confiance / Animations / Informations relatives : proportion, erreur relative,…

Mieux comprendre les liaisons entre variables

/ Tableaux de contingence / Etude des corrélations / Régression linéaire

PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)

7

© Keyrus – Tous droits réservés

MÉTHODOLOGIES STATISTIQUES Tests statistiques et intervalles de confiance (STATINF) 2

Durée en jour(s)

PROGRAMME DE LA FORMATION

STATINF

Référence de la formation

OBJECTIF PÉDAGOGIQUE

Introduction

Tests d’adéquation

/ Définitions

/ Test d’ajustement du Khi -deux

/ Probabilités élémentaires

/ Test d’ajustement de Kolmogorov-Smirnov

/ Statistique paramétrique et non-paramétrique L’objectif de la formation STATINF est de fournir aux participants la connaissance nécessaire pour établir la significativité statistique de tests d’hypothèse et encadrer des estimations au moyen d’intervalles de confiance.

/ Le théorème central-limite

Les intervalles de confiance

/ Lois usuelles de convergence

/ Interprétation / Estimation paramétrique

/ Estimation non-paramétrique

Méthodologie de test

/ Interprétation / Choix de l’hypothèse

Déterminer le nombre d’individus à échantillonner

/ Risque de première et seconde espèce

/ Influence du nombre d’individus sur la région de

/ Puissance de test

confiance

PUBLIC

/ Formules donnant le nombre d’individus

La formation STATINF est destinée à tout public souhaitant établir la validité d’une hypothèse, et aux analystes ou chercheurs désirant publier des mesures de significativité.

Comparaison d’échantillons indépendants

PRÉ-REQUIS

Comparaison d’échantillons appariés

Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows et disposer de connaissances élémentaires en mathématique (moyenne, proportion).

/ Tests d’égalité de moyennes / Tests d’égalité de variance / Cas particulier d’une proportion pour un grand échantillon

/ Tests d’égalité de moyennes / Tests d’égalité de variance

Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)

8

© Keyrus – Tous droits réservés

MÉTHODOLOGIES STATISTIQUES Analyse exploratoire de données (ANALYSE) 2

Durée en jour(s)

PROGRAMME DE LA FORMATION

ANALYSE

Référence de la formation

OBJECTIF PÉDAGOGIQUE

Introduction

Analyse des Correspondances Multiples (ACM)

/ Contexte et présentation des objectifs

/ Tableau disjonctif complet

/ Qualification des données (préparation)

/ Tableau de Burt / AFC du tableau de Burt

L’objectif de la formation ANALYSE est de rendre opérationnelle toute personne rencontrant dans son métier le besoin de comprendre les relations entre un nombre important de variables.

Analyse en Composantes Principales (ACP)

/ Interprétation des axes

/ Données utilisées

/ Représentations graphiques associées

/ Construction des axes

/ Choix du nombre d’axes

Méthode de classification

/ Interprétation des axes

/ Arbre de décision

/ Cercle des corrélations / Représentation des individus dans l’espace factoriel

Synthèse et extensions

/ Projection des individus et variables supplémentaires

/ ACP avec rotation

PUBLIC

/ Analyse en Composantes Indépendantes (uniquement Analyse Factorielle des Correspondances (AFC)

La formation ANALYSE est destinée à tout public.

sous R)

/ Tableau de contingence / Métrique du Chi-deux / Choix du nombre d’axes / Interprétation des axes

PRÉ-REQUIS Les participants devront au minimum avoir suivi la formation STATDESC ou justifier d’un niveau de connaissance équivalent à cette formation. Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)

9

© Keyrus – Tous droits réservés

MÉTHODOLOGIES STATISTIQUES Techniques de régression (MODEL) 2

Durée en jour(s)

PROGRAMME DE LA FORMATION

MODEL

Référence de la formation

OBJECTIF PÉDAGOGIQUE

Introduction

Analyse de la variance

/ Expliquer ou prévoir

/ Tests de comparaison

/ Choix du modèle en fonction de données

/ Notion d’interaction / Variables quantitatives et qualitatives

L’objectif de la formation MODEL est de fournir aux participants la connaissance suffisante des techniques de modélisation afin de pouvoir répondre à des problèmes concrets (explication, prévision de différents phénomènes,…).

La régression simple

/ La méthode des moindres carrées

Les autres régressions

/ Validation du modèle

/ Régression linéaire généralisé

/ Tests de significativité

/ Régression logistique

/ Analyse des résidus

La régression multiple

/ Visualisation des individus et des variables

PUBLIC La formation MODEL s’adresse à toute personne souhaitant construire un modèle permettant de répondre à un problème concret.

/ Modélisation : estimation des paramètres, tests, qualité du modèle

/ Sélection des variables : méthode de régression pas à pas, choix du « meilleur modèle

PRÉ-REQUIS Les participants devront au minimum avoir suivi la formation STATDESC ou justifier d’un niveau de connaissance équivalent à cette formation. Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)

10

© Keyrus – Tous droits réservés

MÉTHODOLOGIES STATISTIQUES Séries temporelles (SERTEMP) 2

Durée en jour(s)

PROGRAMME DE LA FORMATION

SERTEMP

Référence de la formation

OBJECTIF PÉDAGOGIQUE

L’objectif de la formation SERTEMP est de fournir aux participants la connaissance nécessaire pour analyser des données temporelles et se servir de leurs régularités à des fins d’interpolation et de prévision.

Introduction

Méthode de Box et Jenkins

/ Présentation des séries temporelles

/ Processus Auto-régressif (AR)

/ Représentation graphique

/ Processus Moyenne Mobile (MA)

/ La méthodologie SEMMA

/ Identification d’un modèle ARMA par étude des

/ Points forts / Points faibles

corrélogrammes

/ Estimation des paramètres ARMA Modèles de composition

/ Modèle additif

Traitement des cas non-stationnaires

/ Modèle multiplicatif

/ Par différenciation : ARIMA, SARIMA

/ Lissage par moyennes mobiles

/ Traitement de l’hétéroscédasticité : processus ARCH,

/ Lissage exponentiel

GARCH

/ Méthode de Holt-Winters

PUBLIC La formation SERTEMP s’adresse à toute personne souhaitant étudier l’évolution passée de grandeurs numériques au cours du temps afin d’en prévoir le comportement futur.

/ Calcul des variations saisonnières

/ Série corrigée des variations saisonnières

Fondamentaux d’analyse stochastique

/ Processus stochastique / Auto-corrélation, auto-covariance

PRÉ-REQUIS

/ Stationnarité

/ Hétéroscédasticité Les participants devront au minimum avoir suivi la formation STATDESC ou justifier d’un niveau de connaissance équivalent à cette formation. Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)

11

© Keyrus – Tous droits réservés

MÉTHODOLOGIES STATISTIQUES Techniques de scoring (SCOR) 2

Durée en jour(s)

PROGRAMME DE LA FORMATION

SCOR

Référence de la formation

OBJECTIF PÉDAGOGIQUE

Introduction

Evaluation de la performance

/ Types de score : octroi, appétence, churn

/ Matrice de confusion

/ Finalité : la carte de score

/ Courbes de lift, ROC

/ Interprétation probabiliste

/ Robustesse / Suivi du modèle : structure de la population, stabilité par

L’objectif de la formation SCOR est de fournir aux participants la connaissance nécessaire pour concevoir et implémenter des modèles statistiques de classification aboutissant à la création d’un score.

PUBLIC

La formation SCOR est destinée statisticiens et aux dataminers.

aux

variable de score

Préparation des données

/ Définition du périmètre et choix des données

/ Identifier les variables discriminantes

Communication des résultats

/ Faut-il discrétiser ? Si oui, comment ?

/ Importance des variables dans le score

/ Traitement des valeurs manquantes

/ Création d’une grille de score

/ Echantillon d’apprentissage/test

/ Mise en production

Création du score

Cas particuliers courants

/ Analyse discriminante

/ Cas où l’événement à prédire est rare

/ Régression logistique

/ Cas où l’événement à prédire possède plusieurs modalités

/ Arbres de décision

/ Cas où les coûts de mauvaise affectation ne sont pas

/ Combinaison de modèles

symétriques

PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows et disposer de connaissances élémentaires en mathématique (moyenne, proportion). Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)

12

© Keyrus – Tous droits réservés

MÉTHODOLOGIES STATISTIQUES Techniques de segmentation (SEGM) 2

Durée en jour(s)

PROGRAMME DE LA FORMATION

SEGM

Référence de la formation

OBJECTIF PÉDAGOGIQUE

Introduction

Affecter les nouveaux individus

/ Méthodologie de mise en œuvre

/ Si les données utilisées pour la segmentation sont

/ Vocabulaire usuel

disponibles

/ Si les données utilisées pour la segmentation ne sont pas L’objectif de la formation SEGM est de fournir aux participants la connaissance nécessaire pour segmenter des individus en segments optimisant des critères d’homogénéité et de différenciation.

Définir le périmètre

disponibles

/ Quels individus ?

/ Mettre en production une segmentation

/ Définir la similarité entre individus

/ Quelles variables intégrer ?

Cas pratiques usuels

/ Quelles transformations réaliser avant la segmentation ?

/ Segmentation client basée sur récence, fréquence et montant

/ Segmentation client basée sur le comportement de

Réaliser le regroupement

/ Stratégie hiérarchique vs partitionnement

PUBLIC

/ Classification ascendante hiérarchique

/ K-moyennes La formation SEGM est destinée statisticiens et aux dataminers.

aux

consommation

/ Intégrer une dimension temporelle dans une segmentation / Intégrer des données textuelles dans une segmentations

/ Choix du nombre de segments

Caractériser les segments obtenus

/ Qualité globale d’une segmentation

PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows et disposer de connaissances élémentaires en mathématique (moyenne, proportion).

/ Interpréter les segments

/ Communiquer les résultats

Technologie(s) mis(es) en œuvre : SAS 9.2 et +, R (ou Revolution R Open)

13

© Keyrus – Tous droits réservés

FORMATIONS STATISTIQUES ET DATA SCIENCE Outils d'analyse statistique

/ Liste des formations sur les outils d'analyse statistique : LIBELLÉ DE LA FORMATION

CODE

DURÉE

FRÉQUENCE

JMP – Initiation

JMP

2

A la demande

Logiciel R – Découverte

RINIT

2

Trimestrielle

Logiciel R – Etudes et modélisation statistiques

RSTAT

2

Trimestrielle

Logiciel R – Programmation avancée

RPROG

2

Trimestrielle

Logiciel R – Data Management NOUVEAU

RDM

2

Trimestrielle

Logiciel R – Data Viz avec Shiny NOUVEAU

RDVIZ

2

Trimestrielle

IBM SPSS Statistics – Initiation

SPSSSTAT

2

A la demande

IBM SPSS Modeler – Initiation

SPSSMOD

2

A la demande

Remarque : Les formations SAS proposées par Keyrus Academy sont disponibles dans un catalogue dédié aux outils et solutions SAS.

14

© Keyrus – Tous droits réservés

OUTILS D'ANALYSE STATISTIQUE JMP – Initiation (JMP) 2

Durée en jour(s)

PROGRAMME DE LA FORMATION

JMP

Référence de la formation

OBJECTIF PÉDAGOGIQUE

L’objectif de la formation JMP est de fournir aux participants la connaissance nécessaire pour accéder, analyser et visualiser des données sous JMP.

Découverte de JMP

Manipulation sur les tables et tableaux

/ Introduction

/ Tri

/ JMP starter

/ Extraction

/ Fenêtre d’accueil JMP

/ Jointure

/ Didacticiels

/ Statistiques descriptives

/ Indices statistiques

/ Tableaux croisés dynamiques

Chargement des données

Exploration graphique des données

/ Ouverture d’une base MS Excel

/ Diagrammes

/ Ouverture d’une base TXT

/ Nuages de points

/ Présentation base JMP

/ Outils graphiques / Graphiques en bulles

PUBLIC La formation JMP est destinée aux programmeurs SAS, aux créateurs de rapports et aux statisticiens.

Manipulation sur les colonnes et les lignes

/ Mosaïques

/ Actions possibles sur colonnes et/ou sur lignes

/ Arbres de décision

/ Actions spécifiques aux lignes / Manipulations de base sur graphiques

Sauvegarde des résultats

/ Journal / Projet

PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Aucune connaissance particulière statistique n'est requise. Technologie(s) mis(es) en œuvre : JMP 9 et +

15

© Keyrus – Tous droits réservés

OUTILS D'ANALYSE STATISTIQUE Logiciel R – Découverte (RINIT) 2

Durée en jour(s)

PROGRAMME DE LA FORMATION

RINIT

Référence de la formation

OBJECTIF PÉDAGOGIQUE

L’objectif de la formation RINIT est de fournir aux participants la connaissance des principes fondamentaux du langage R et des fonctions usuelles pour importer, manipuler, analyser et visualiser des données.

Introduction

Graphiques

/ Présentation générale

/ Graphiques usuels : Nuage de points, histogrammes,

/ Concepts fondamentaux

diagrammes

/ Points forts et points faibles

/ Options graphiques

Prise en main

Statistiques

/ Présentation de l’interface

/ Statistiques univariées

/ Première prise en main

/ Tableaux croisés

/ Installer et charger des packages / Intégration des données

Programmation

/ Manipulation des vecteurs/matrices

/ Fonctions / Structures logiques

PUBLIC La formation RINIT s’adresse à tout public souhaitant réaliser des traitements de données sous R.

Objets de R

/ Tableaux

Présentation des résultats/sorties

/ Data.frames

/ Création de tables / Reporting

Gestion des données

PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Aucune connaissance particulière statistique n'est requise.

/ Extraction de sous-tables

Extensions

/ Fusion, tri

/ Quelques packages usuels et comment les utiliser

/ Gestion des doublons

/ Améliorer sa productivité grâce aux interfaces de

/ Gestion des caractères et des dates

développement

Technologie(s) mis(es) en œuvre : R (ou Revolution R Open)

16

© Keyrus – Tous droits réservés

OUTILS D'ANALYSE STATISTIQUE Logiciel R – Etude et modélisation statistiques (RSTAT) 2

Durée en jour(s)

PROGRAMME DE LA FORMATION

RSTAT

Référence de la formation

OBJECTIF PÉDAGOGIQUE

Introduction

Techniques de segmentation

/Rappel des fondamentaux de R

/K-moyennes /Classification ascendante hiérarchique /Cartes de Kohonen

Analyses exploratoires

/Statistiques univariées L’objectif de la formation RSTAT est de fournir aux participants la connaissance pratique des fonctions et packages R utilisés dans la réalisation d’études ou de modèles statistiques.

/Statistiques bivariées

Simulation

/Analyses factorielles (ACM, AFC, ACM)

/Echantillonnage

/Boostrapping Tests et intervalles de confiance

/Méthode de Monte Carlo par chaînes de Markov

/Echantillons indépendants /Echantillons appariés /Tests d’adéquation

PUBLIC Modélisation statistique La formation RSTAT s’adresse aux chargés d’études et statisticiens.

/Régression linéaire / ANOVA /Régression logistique /Sélection automatique de variables /Méthodes de régularisation : PLS, Lasso

PRÉ-REQUIS Les participants devront avoir un niveau sous R équivalent à celui de la formation RINIT, ainsi qu’une connaissance des principes généraux des méthodes de modélisation statistique.

/Arbres de décision

/Forêts aléatoires /SVM

Technologie(s) mis(es) en œuvre : R (ou Revolution R Open)

17

© Keyrus – Tous droits réservés

OUTILS D'ANALYSE STATISTIQUE Logiciel R – Programmation avancée (RPROG) 2

Durée en jour(s)

PROGRAMME DE LA FORMATION

RPROG

Référence de la formation

OBJECTIF PÉDAGOGIQUE

Introduction

Surveiller l’usage des ressources

/ Présentation générale

/ Monitorer l’usage mémoire

/ Concepts fondamentaux

/ Profiling et benchmarking

/ Points forts et points faibles Entrées/sorties L’objectif de la formation RPROG est de fournir aux participants la compétence de développement R.

Typage des données

/ Les devices graphiques

/ Types de base

/ Générer des rapports

/ Programmation objet

/ Lire et écrire dans un SGBD / Lire et écrire dans un fichier propriétaire (Excel, SAS,

Développer ses propres fonctions

SPSS…)

/ Structure d’une fonction

PUBLIC La formation RPROG s’adresse aux personnes amenées à développer de manière régulière sous R ou chargées d’administrer des scripts R en production.

PRÉ-REQUIS

Les participants devront avoir un niveau sous R équivalent à celui de la formation RINIT.

/ Arguments

Automatiser R

/ Valeur retour

/Séquencer des scripts

/ Scoping

/Utiliser R en mode batch

/ Opérateurs de fonctions Construire son propre package Ecrire un code performant et maintenable

/ Création

/ Conventions de nommage

/ Documentation

/ Vectoriser

/ Automatisation des tests

/ Factoriser

/ Déploiement

/ Sauvegarder et rediriger les logs

Technologie(s) mis(es) en œuvre : R (ou Revolution R Open)

18

© Keyrus – Tous droits réservés

OUTILS D'ANALYSE STATISTIQUE Logiciel R – Data Management (RDM) NOUVEAU 2

Durée en jour(s)

PROGRAMME DE LA FORMATION

RDM

Référence de la formation

OBJECTIF PÉDAGOGIQUE

Acquérir les compétences fondamentales en programmation R dans le domaine de la gestion de données. Savoir manipuler et exploiter des données digitales structurées et semi-structurées. Connaitre les standards technologiques d’échange de données digitales tels que JSON.

Introduction

Traitement et manipulation des données

/ Rappel des enjeux et des concepts fondamentaux de la

/ Manipulation des données : sélection de lignes/colonnes,

gestion de données

gestion de variables (conversion de types,

/ Focus sur les spécificités des données digitales

transformation,…), tris, agrégation,…

/ Concaténation et fusion de données / Transposition/rotation des données

Intégration des données]

/ Lecture/écriture de fichiers (CSV, XML,…) / Connexion à des bases de données relationnelles (Oracle, Travaux pratiques MySQL, PostgreSQL,…)

/ Production d’indicateurs statistiques (Top 10 par mois,…)

/ Manipulation de données JSON

sur le téléchargement de packages R à partir des logs

/ Interrogation de données digitales structurées avec

structurées disponibles sur le site Web du CRAN

Google Analytics API

/ Constitution d’une base de données d’informations météorologiques à partir des données JSON disponibles via

PUBLIC

le site OpenWeatherMap

Mise en qualité des données La formation RDM est destiné aux statisticiens et aux informaticiens souhaitant acquérir les compétences requises pour la gestion de données digitales.

/ Mesure de la qualité de données : statistiques descriptives, détection des doublons, des valeurs

/ Réalisation d’analyse d’audience de sites Web via l’intégration de données Google Analytics

manquantes/atypiques,…

/ Nettoyage de données : redressement, traitement des données manquantes/atypiques,…

PRÉ-REQUIS Connaissance de la programmation R (avoir déjà programmé en mode projet ou avoir suivi récemment une formation d’introduction à R). Technologie(s) mis(es) en œuvre : R (ou Revolution R Open)

19

© Keyrus – Tous droits réservés

OUTILS D'ANALYSE STATISTIQUE Logiciel R – Data Visualization avec Shiny (RDVIZ) NOUVEAU 2

Durée en jour(s)

PROGRAMME DE LA FORMATION

RDVIZ

Référence de la formation

Introduction

Développement d'une application Web avec Shiny

/ Présentation des concepts fondamentaux de la

/ Présentation de l'application Web à développer

visualisation de données

/ Construction de l'interface graphique de base

/ Panorama des modes de visualisation de données

/ Mise en œuvre d'un tableau de restitution des données

/ Focus sur les formes de représentations spécialisées et/ou

/ Enrichissement de l'interface avec plusieurs restitutions sous

Maitriser le développement d’applications Web avec l’environnement de développement R et le package Shiny.

innovantes : diagramme de Sankey,,…

forme d'onglet

/ Présentation du « Data Journalisme » ou comment

/ Mise en œuvre de restitutions graphiques avec ggplot2

Disposer d’une connaissance avancée des bibliothèques graphiques majeures et savoir les intégrer au sein d’applications Web orientées visualisation de données.

attractive pour le lecteur

OBJECTIF PÉDAGOGIQUE Appréhender les concepts fondamentaux, les bonnes pratiques et les représentations innovantes de visualisation de données.

PUBLIC La formation RDVIZ est destinée aux statisticiens et aux informaticiens souhaitant découvrir et maitriser les méthodes et techniques de visualisation de données.

transformer les données en une visualisation graphique Data Visualization avec Shiny

/ Techniques d’Intégration de bibliothèques Javascript au Premier pas avec le package Shiny (langage R)

sein d’une application Shiny

/ Présentation du package R et des concepts

/ Mise en œuvre d’outils de visualisation de données via

fondamentaux associés

l’intégration de bibliothèques graphiques (D3.js, googleVis,

/ Focus sur les interfaces graphiques (UI.r)

Chart.js,…)

/ Gestion des interactions entre interface et moteur de traitements R

Travaux pratiques

/ Fonctionnalités de deboggage

/ Mise en œuvre d’un baromètre visuel de données d’informations et de critiques de films

PRÉ-REQUIS

/ Représentation de parcours clients sur un site Web via un diagramme de Sankey

Connaissance de la programmation R (avoir déjà programmé en mode projet ou avoir suivi récemment une formation d’introduction à R). Technologie(s) mis(es) en œuvre : R (ou Revolution R Open) et bibliothèques Javascript (D3.js, Chart.js,…)

20

© Keyrus – Tous droits réservés

OUTILS D'ANALYSE STATISTIQUE IBM SPSS Statistics – Initiation (SPSSSTAT) 2

Durée en jour(s)

PROGRAMME DE LA FORMATION

SPSSSTAT

Référence de la formation

OBJECTIF PÉDAGOGIQUE

Introduction

Gestion des données

/ Présentation générale de l'outil

/ Création de nouvelles variables

/ Points forts et points faibles

/ Recodage - discrétisation / Sélectionner des lignes avec Select Cases

L’objectif de la formation SPSSSTAT est de fournir aux participants la connaissance nécessaire pour accéder, analyser, manipuler des données hétérogènes (SPSS et autres formats) et présenter des résultats en utilisant l’interface IBM SPSS Statistics.

Prise en main

/ Fusions / agrégation

/ Editeur de données / Fenêtre de résultats

Elaboration de rapports

/ Affichage des variables

/ Tableaux de fréquences / Tableaux croisés

Importer des données

/ Diagrammes

/ Ouverture directe

/ Personnalisation des graphes

/ Requêtes

PUBLIC

/ Lecture de données ASCII

La formation SPSSSTAT est destinée aux statisticiens et aux dataminers.

PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Aucune connaissance particulière statistique n'est requise. Technologie(s) mis(es) en œuvre : IBM SPSS Statistics 19 et +

21

© Keyrus – Tous droits réservés

OUTILS D'ANALYSE STATISTIQUE IBM SPSS Modeler – Initiation (SPSSMOD) 2

Durée en jour(s)

PROGRAMME DE LA FORMATION

SPSSMOD

Référence de la formation

OBJECTIF PÉDAGOGIQUE

L’objectif de la formation SPSSMOD est de fournir aux participants la connaissance nécessaire pour accéder, analyser, manipuler des données hétérogènes (SPSS et autres formats) et présenter des résultats en utilisant l’interface IBM SPSS Modeler.

Introduction

Gestion des données

/ Présentation générale de l'outil

/ Création d’indicateurs

/ Introduction au Datamining

/ Valeurs globales

/ La méthodologie CRISP DM

/ Langage de manipulation des données

/ Points forts et points faibles

/ Fusion, concaténation et agrégation

Prise en main

Segmentation

/ Présentation de l’interface

/ Le nœud k-means

/ Sources de données

/ Le nœud Two Step

/ Typage

/ Le nœud Kohonen

/ Filtre et échantillon Modélisation

PUBLIC

La formation SPSSMOD est destinée aux statisticiens et aux dataminers.

Audit et qualité des données

/ Les nœuds de modélisation

/ Audit

/ Arbres de décision

/ Remplacement des données manquantes

/ Régression

/ Restitution graphique

/ Comparaison de modèles

Exportation de données

PRÉ-REQUIS Les participants devront être familiers avec des logiciels de bureautique sous Microsoft Windows. Aucune connaissance particulière statistique n'est requise. Technologie(s) mis(es) en œuvre : IBM SPSS Modeler 14 et +

22

© Keyrus – Tous droits réservés

FORMATIONS STATISTIQUES ET DATA SCIENCE Data Science

/ Liste des formations Data Science : LIBELLÉ DE LA FORMATION

CODE

DURÉE

FRÉQUENCE

Introduction à la Data Science NOUVEAU

DSINIT

1

Bimestrielle

Acquisition et exploitation de données digitales NOUVEAU

DIGIT

2

A la demande

ML

2

Trimestrielle

TM

2

Semestrielle

Machine Learning Text Mining NOUVEAU

NOUVEAU

23

© Keyrus – Tous droits réservés

DATA SCIENCE Introduction à la « Data Science » (DSINT) NOUVEAU 1

DSINT

Durée en jour(s)

Référence de la formation

PROGRAMME DE LA FORMATION Introduction

Les métiers de la DATA

/ Présentation générale de la « Data Science »

/ Plus qu’un métier, une équipe : Définition et prérogatives

/ Différences majeures entre les approches « Data

des différents métiers de la DATA (Data Scientist, Data

Comprendre les concepts de la « Data Science » et les différences majeures avec les approches « Data Mining » et « Big Data ».

Science », « Data Mining » et « Big Data »

Engineer, Chief Data Officer,…)

De nouvelles données pour de nouveaux challenges

équipe « Data Science »

Disposer d’une connaissance générale sur les méthodologies et technologies liées à la « Data Science ».

/ Données textuelles

/ Focus sur le métier de « Data Scientist »

OBJECTIF PÉDAGOGIQUE

Identifier les compétences et les activités associées aux métiers de la « DATA ».

/ Présentation des différents modèles d’organisation d’un

/ Données digitales (logs Web, réseaux sociaux,…) Panorama des outils et solutions orientés « Data Science »

/ Open Data

/ Présentation des solutions « open source » vs commerciales

Présentation de cas d’usages

/ Comparatifs des solutions sur base des critères suivants :

/ Connaissance Client 360°

PUBLIC

/ Monétisation/valorisation de la donnée / Internet des Objets

La formation DSINT est destinée à toute personne souhaitant appréhender les concepts et enjeux de la « Data Science ».

fonctionnalités analytiques, volumes de données, socle technologique (Apache Hadoop ou non) et complexité de

mise en œuvre

/ Focus sur le langage R et son écosystème de packages Les activités et méthodes liées à la « Data Science »

/ Data Science Management / Machine Learning

PRÉ-REQUIS

/ Text Mining / Visualisation de données

Aucun pré-requis.

Pas de technologie, ni de langage abordé

24

© Keyrus – Tous droits réservés

DATA SCIENCE Acquisition et exploitation des données digitales (DIGIT) NOUVEAU 2

DIGIT

Durée en jour(s)

Référence de la formation

OBJECTIF PÉDAGOGIQUE Maitriser les principes et concepts fondamentaux d’acquisition et d’exploitation de données digitales. Disposer de connaissances fondamentales en programmation Python, langage de référence pour les activités de Web Crawling/Scraping. Maitriser les techniques de Web Crawling/Scraping et de récupération via les API Web de données provenant des réseaux sociaux.

PUBLIC

PROGRAMME DE LA FORMATION Principe d’acquisition des données digitales

Manipulation de données digitales avec Python

/ Présentation des concepts fondamentaux d’acquisition

/ Mise en œuvre des techniques de Web Crawling/Scraping

de données digitales : Web Crawling (exploration de sites

avec le langage Python et la bibliothèque « Beautiful Soup »

Web), Web Scraping (extraction de contenu Web) et

/ Présentation et mise en œuvre de Scrapy, framework

données de réseaux sociaux

Open Source dédié aux activités de crawling et scraping de sites Web

/ Extraction de données depuis des logs Web

Programmation Python

/ Présentation générale du langage Python / Installation de Python et présentation de l’environnement

Acquisition de données via des API Web

de développement IDLE

/ Acquisition de données via les API des réseaux sociaux

/ Bases syntaxiques : syntaxe, conventions de codage,

(Twitter, Facebook,…)

règles de nommage, affectation, commentaires,…

/ Focus et démonstration des packages R dédiés aux

/ Présentation/manipulation des types de données

réseaux sociaux : twitteR, Rfacebook,…

/ Contrôle du flux d'exécution : structure La formation DIGIT est destiné aux profils ayant des connaissances avancées en programmation souhaitant acquérir les compétences requises pour l’acquisition et l’exploitation de données digitales.

PRÉ-REQUIS Connaissance de la programmation R (avoir déjà programmé en mode projet ou avoir suivi récemment une formation d’introduction à R). Avoir des notions en langage HTML/XML.

conditionnelle (if/elif/else), opérateurs logiques et de

Travaux pratiques

comparaison, boucles while/for, instructions

/ Récupération de la liste de membres d’un groupe donnée

break/continue,…

sur la plateforme « Meetup.com »

/ Importation et utilisation des modules les plus courants

/ Enrichissement de la connaissance des membres d’un

(math, sys, calendar,…)

groupe Meetup avec les informations disponibles sur les

/ Expressions régulières (module « re ») et parsing de chaînes réseaux sociaux de caractères

/ Gestion d’accès aux données

Technologie(s) mis(es) en œuvre : Python et R (ou Revolution R Open)

25

© Keyrus – Tous droits réservés

DATA SCIENCE Machine Learning (ML) NOUVEAU 2

ML

Durée en jour(s)

Référence de la formation

PROGRAMME DE LA FORMATION / Arbre de décision et agrégation

Introduction

OBJECTIF PÉDAGOGIQUE

/ Présentation des concepts fondamentaux

/ Bagging et Boosting

/ Contexte et enjeux de l’essor actuel du Machine Learning

/ Mise en œuvre : Elagage et apport du bagging/boosting

/ Présentation de cas d’usage et de leurs valeurs ajoutées Appréhender l’ensemble des méthodologies de Machine Learning au travers l’implémentation de différents cas d’étude dans un contexte de forte volumétrie de données. Maitriser la validation des modèles et éviter les erreurs d’interprétations.

Modélisation supervisée classique

/ Définition « algorithme d’apprentissage » / Cas de test d’introduction avec les modélisations classiques / Définition de l’apprentissage automatique

versus un arbre de décision

/ Support Vector Machine

Modélisation non supervisée

/ K-means clustering / Carte de Kohonen

/ Ecriture formelle d’une problématique de Machine Learning

PUBLIC La formation ML est destinée aux statisticiens (contexte de forte volumétrie de données) et aux informaticiens souhaitant découvrir les algorithmes d’apprentissage et leurs applications.

PRÉ-REQUIS Connaissance minimale en mathématiques correspondant à un niveau BAC+2. Connaissance de la programmation R (avoir déjà programmé en mode projet ou avoir suivi récemment une formation d’introduction à R).

/ Les modèles « classiques » : Régression linéaire/logistique

Réduction de dimension

et Naïve Bayes

/ Analyse en composantes principales

/ Validation : Validation croisée, courbe ROC et complexité / Algorithmes du type « Stepwise » / Retour au cas de test et conclusion sur le choix du modèle / Via les critères : khi2 et gain d’information

Modélisation supervisée évoluée

Travaux pratiques

/ Réseau de neurones

/ A partir de données « Open Data » (SNCF et INSEE), mise

/ Perceptron multi-couches (PMC)

en œuvre et comparaison de performances d’algorithmes

/ Mise en œuvre et focus sur les problèmes de taille

prédictifs avancés destinés à prédire le nombre quotidien

d’échantillons versus le nombre de couches

de voyageurs montant en gare (transilien).

/ K-nearest neighbor

Technologie(s) mis(es) en œuvre : R (ou Revolution R Open)

26

© Keyrus – Tous droits réservés

DATA SCIENCE Text Mining (TM) NOUVEAU 2

TM

Durée en jour(s)

Référence de la formation

OBJECTIF PÉDAGOGIQUE

PROGRAMME DE LA FORMATION Introduction

Analyse exploratoire des textes

/ Origine et développement des méthodes de Text mining

/ Analyse des correspondances et analyse sémantique

/ Apport du Text mining et intérêt par rapport à des logiciels latente (avec pondération des termes) Appréhender l’ensemble des méthodes de valorisation des données non structurées. Maitriser les techniques de préparation et de visualisation des données textuelles.

Maitriser les différentes techniques d’analyses (analyse descriptive, analyse exploratoire et classification) de données textuelles.

PUBLIC La formation TM est destinée aux statisticiens et aux informaticiens souhaitant découvrir et maitriser les méthodes de valorisation des données non structurées.

d’aide à la lecture de texte ou à la recherche par mot clés

/ Interprétation des résultats : lecture des graphiques,

/ Différents types de corpus de texte

interprétation des axes,…

/ Comparaison approche linguistique (traitement du

/ Clustering : calcul de distances et CAH

langage naturel) vs approche statistique (« sac de mots »)

/ Description des classes obtenues : termes discriminants, textes représentatifs,…

Pre-processing des textes

/ Intérêt du preprocessing

Classification de textes

/ Filtrage des « mots-outils » (« stopwords »)

/ Objectif de la classification

/ Lemmatisation versus racinisation

/ Choix des prédicteurs : sélection des termes vis à vis d'un

/ Pré-traitements de mise en forme

critère (score du khi2, TF-IDF) et utilisation de la fréquence

/ Représentations du texte : sacs de mots, bigrammes,,… / Filtrage des termes peu fréquents

Analyse descriptive du corpus

/ Analyse à plat : termes les plus fréquents, hapax, nuage

PRÉ-REQUIS Connaissance minimale en mathématiques correspondant à un niveau BAC+2. Connaissance de la programmation R (avoir déjà programmé en mode projet ou avoir suivi récemment une formation d’introduction à R).

de mots,…

/ Analyse croisée : spécificités lexicales, nuage de mots avec discrimination,…

/ Termes co-occurrents

des termes vs coordonnées de l'analyse sémantique/analyse des correspondances

/ Modèles de classification : SVM, classification bayésienne, arbre et random forest

/ Indicateurs de qualité du modèle

Travaux pratiques

/ Notation de la qualité et de la satisfaction de restaurants via l’analyse textuelle d’avis clients

Technologie(s) mis(es) en œuvre : R (ou Revolution R Open) et R.TeMiS

27