Mathurin ACHÉ - Orange

Une fois les scores calculés, on peut simuler les gains générés par les actions ..... 13 Test, apprentissage, validation : voir § partitionnement page n°27 ...
984KB taille 32 téléchargements 267 vues
Mathurin ACHÉ Année 2003-2004

Enseignant encadrant : Guillaume Léorat

Rapport de stage

Construction de scores en vue d’optimiser les actions commerciales de France Télécom (projet BLEU)

Entreprise : France Télécom Services de Communication Résidentiels 8 Place du Maréchal Juin 92791 Issy les Moulineaux Maître de stage : Claude Riwan

Synthèse Dans ce rapport réalisé lors de mon stage à France Télécom, je présente une partie de mes travaux de construction des premiers scores établis pour France Télécom dans le cadre du projet BLEU. Ce projet a pour but d’optimiser les actions commerciales en fonction de la valeur générée pour France Télécom. Il s’appuie sur des calculs de scores qui identifient les potentiels des clients. Ces scores, après une phase d’expérimentation permettant de s’assurer de leur qualité et de quantifier leur apport, seront déployés nationalement dans le système d’information de France Télécom. L’approche mise en œuvre dans BLEU repose sur la construction de cinq types de scores qui seront réalisés sur quatre outils de datamining. A l’issue de ces constructions, deux types de comparaisons sont à réaliser, d’une part, entre les modélisations de chaque score afin d’en dégager le meilleur, d’autre part, entre les quatre logiciels de datamining sur des critères d’efficacité, de simplicité et de robustesse. Les critères de qualité et de robustesse des modèles ont été définis de manière transverse aux quatre outils afin qu’il soit possible de les calculer sur chaque logiciel de datamining.

Remerciements Je tiens tout d’abord à remercier l’équipe SIMF de France Télécom pour m’avoir accueilli en son sein pendant ma période de stage, et plus particulièrement M. Claude Riwan (mon maître de stage, statisticien et ancien du DESS TDE), M. Yves Cascalès (responsable de l’équipe SIMF et responsable du chantier SCORES du projet BLEU), M. Romain Carré qui m’a permis de réaliser ce stage dans les meilleures conditions matérielles, et M. Guy Gobit pour ses conseils avisés sur l’utilisation de SAS notamment. Je tiens également à remercier les équipes de Recherche et de Développement et de Business Intelligence pour m’avoir pleinement impliqué dans leurs travaux et témoigné leur confiance tout au long du stage. Je remercie aussi M. Léorat, enseignant de scoring du DESS TDE, consultant SAS, pour m’avoir éclairé sur les fonctionnalités de SAS Enterprise Miner, et plus globalement, pour m’avoir soutenu au cours de ce stage. De manière plus générale, je remercie France Télécom pour m’avoir permis d’y effectuer ce stage de fin d’études, et d’avoir ainsi pu parfaire mes connaissances, lors notamment des journées de formation aux logiciels de datamining.

Sommaire 1.

INTRODUCTION ........................................................................................................................ 4

2.

PRESENTATION DU CONTEXTE DE FRANCE TELECOM ............................................. 4

3.

ENVIRONNEMENT DU STAGE .............................................................................................. 5 PRESENTATION DE L’EQUIPE SCORES ...................................................................................... 5 ENCADREMENT DU STAGE .......................................................................................................... 5 PRESENTATION DE SIAM ........................................................................................................... 6

3.1. 3.2. 3.3. 4.

PRESENTATION DU PROJET BLEU ..................................................................................... 8 4.1. 4.2. 4.3. 4.4. 4.5.

5.

PRINCIPE GENERAL DE BLEU..................................................................................................... 8 LES SCORES............................................................................................................................... 10 LES MODELES VALEUR MICRO ................................................................................................. 10 LE MODELE VALEUR MACRO ................................................................................................... 11 CONSEQUENCES DE BLEU POUR LES CONSEILLERS CLIENTS .................................................. 11 SCHEMA FONCTIONNEL DE BLEU ................................................................................... 11

5.1. 5.2. 5.3. 5.4. 5.5. 5.6. 6.

LES SCORES............................................................................................................................... 13 LES DONNEES CLIENT « ELEMENTAIRES » ................................................................................ 13 CALCUL DES SEUILS D’ACTIONS COMMERCIALES .................................................................... 14 LES DONNEES « D’ACTION » ..................................................................................................... 15 UTILISATION DE BLEU PAR LE CONSEILLER CLIENT ............................................................... 15 LE SIMULATEUR D’OFFRES ....................................................................................................... 16 LE CHANTIER SCORES DU PROJET BLEU ...................................................................... 17

6.1. 6.2. 6.3. 6.4. 6.5.

LES CINQ TYPES DE SCORES ...................................................................................................... 17 LES DIFFERENTS PERIMETRES D’ETUDES .................................................................................. 19 LES QUATRE OUTILS DE DATAMINING ...................................................................................... 20 LES CRITERES DE COMPARAISON DES MODELISATIONS ........................................................... 20 LES CRITERES DE COMPARAISON DES LOGICIELS DE DATAMINING .......................................... 23

7.

PLANNING DU STAGE ........................................................................................................... 24

8.

TRAVAUX REALISES ............................................................................................................. 25 8.1. 8.2. 8.3.

ETUDE DES DONNEES D'ENQUETES DE SIAM : RECHERCHE DES DONNEES PERTINENTES........ 25 CALCUL DU DELTA TARIFAIRE.................................................................................................. 25 PRESELECTION DES VARIABLES ................................................................................................ 26 EXEMPLE DE CONSTRUCTION D’UN SCORE ................................................................ 27

9. 9.1. 9.2. 9.3. 9.4. 10.

10.1. 10.2. 11.

METHODOLOGIE ....................................................................................................................... 27 EXEMPLE DU SCORE D’ATTRITION ............................................................................................ 28 COMPARAISON DES MODELISATIONS SUR NOTRE EXEMPLE ..................................................... 41 COMPARAISON DES LOGICIELS DE DATAMINING SUR NOTRE EXEMPLE ................................... 43 CONCLUSION ....................................................................................................................... 44 AVANCEMENT DU CHANTIER SCORES : .............................................................................. 44 BILAN DU STAGE ................................................................................................................... 44 GLOSSAIRE........................................................................................................................... 45

3 / 46

1. Introduction Dans le cadre de la formation du DESS « Techniques de décisions dans l’Entreprise », un stage d’une durée de six mois est à réaliser. Il a pour but une mise en pratique des enseignements dispensés en cours d’année, une implication réelle dans la vie de l’entreprise, et la création ou le renforcement de liens entre l’université et le milieu professionnel. Mon stage s’est déroulé à France Télécom dans la division SCR1 « Services de Communication Résidentiels » du 1er juin 2004 au 30 novembre 2004, et plus précisément au sein de l’équipe SIMF « Système d’information marketing du fixe », sous la responsabilité de M. Claude Riwan. Après une présentation succincte du contexte actuel de l’entreprise, du service et de l’équipe qui m’ont accueilli durant ce stage, je décrirai en quoi consiste le projet BLEU, ses implications à tous les niveaux de France Télécom. Je zoomerai ensuite sur la partie SCORES du projet BLEU, à laquelle j’ai activement participé. Et finalement, je présenterai un exemple de mes travaux.

2. Présentation du contexte de France Télécom France Télécom est l’un des principaux opérateurs de télécommunications dans le monde. L’entreprise compte 120 millions de clients servis sur les cinq continents (220 pays et territoires) dont 50 millions de clients en téléphonie fixe, 60 millions de clients en téléphonie mobile (dont 50 pour Orange), 10 millions de clients actifs sur Internet, 3 700 grandes entreprises multinationales clientes. L’année 2003 a été celle de la reprise en main par France Télécom de son propre destin grâce à son projet « Ambition 2005 » : l’urgence était de desserrer l’étau financier dans lequel se trouvait France Télécom fin 2002, pour restaurer sa crédibilité et redonner à l’entreprise les marges de manœuvre indispensables pour relancer sa croissance, fondée sur un vrai projet industriel. La stratégie « Ambition 2005 » pose les fondements d’une évolution complète de l’entreprise : une nouvelle gouvernance d’entreprise et de nouvelles procédures au niveau Groupe, basées sur une démarche projets s’inscrivant dans des programmes d’améliorations opérationnelles et d’initiatives de croissance bien définis, ont été mises en place pour conduire ce changement à France Télécom. Cette transformation de l’entreprise s’appuie sur des réussites concrètes, à commencer par le rééquilibrage financier du Groupe et l’amélioration de son efficacité opérationnelle. Des résultats supérieurs aux prévisions qui permettent à France Télécom de retrouver une flexibilité pour investir dans les gisements de croissance, comme la Recherche et le Développement et le Haut Débit (avec le plan Internet Haut Débit pour tous en juin 2003), ou encore le rachat d'actifs stratégiques comme Orange et Wanadoo. Le Groupe peut désormais se concentrer sur ses activités et son business et lancer de nouvelles offres innovantes (WiFi, Haut Débit, offre intégrée pour les PME, TV sur ADSL…). 1

Dans la suite du document, les termes imprimés en gras font l’objet d’une description dans le glossaire et d’une note de bas de page.

4 / 46

3. Environnement du stage J’ai effectué mon stage dans l’entité SIMF « Système d’information marketing du fixe » dirigé par M. Yves Cascalès, et sous la responsabilité directe de Claude Riwan. J’ai été plus particulièrement rattaché à l’équipe SCORES.

3.1.

Présentation de l’équipe SCORES

L’équipe SCORES est une équipe transverse à plusieurs entités de direction de France Télécom, rassemblant l’ensemble des compétences nécessaires au bon aboutissement du projet. Sous le pilotage d’Yves Cascalès, Romain Carré, responsable du projet de fédération du système d’information du fixe, anticipe les conditions d’intégration des scores dans le futur système d’information. Claude Riwan, expert statistique veille à la qualité des travaux produits par les dataminers et assure le suivi technique du projet. Etienne Audry, responsable du Business Intelligence au sein du service informatique SICOR, suit plus particulièrement la comparaison des outils de datamining avec pour finalité d’identifier ceux qui sont essentiels au développement de France Télécom. Tashin Sankilicoglu, de la même entité, s’occupe de la collecte et de la compilation des données. Sylvie Bourbigot et Aurélie Legaud apportent leur expertise datamining. Elles travaillent à Lannion pour France Télécom Recherche et Développement au sein du service de « sociologie des usages et traitement statistique de l’information ». Céline Mounier, sociologue à FTR&D dans l’entité « usage des TIC2 en Entreprise », suit le projet avec pour objectif de s’assurer que les équipes de marketing « acceptent » les nouvelles orientations et que les conseillers clients prennent bien en compte les scores réalisés. Anne Lise Bonzom est responsable de la maîtrise d’ouvrage Métiers marketing dans la direction « marketing de la relation client ». Elle veille au bon fonctionnement de la mécanique de BLEU (cf. présentation de BLEU) et plus particulièrement au déploiement des nouvelles actions auprès des marketeurs et des conseillers clients. Henri Widmer et Vincent Cortyl, consultants chez « Izsak Grapin & Associés », impulsent le projet en s’appuyant sur leur expérience acquise notamment lors d’un projet similaire chez ORANGE. D’autres intervenants issus des services d’études marketings ou travaillant sur des gisements de données fournisseurs d’informations participent également au chantier.

3.2.

Encadrement du stage

M. Claude Riwan, diplômé du DESS « Techniques de Décisions dans l’Entreprise », m'a conseillé tout au long du stage, aussi bien sur les aspects statistiques de mes travaux que sur mon implication dans le projet et l’environnement professionnel en général.

2

TIC = Techniques de l’Information et de la Communication

5 / 46

Ses activités principales sont les suivantes : 

Organisation et prise en charge des relations avec les utilisateurs du panel de clients SIAM (cf. §3)  Suivi des Comités de projet  Animation du club des utilisateurs de SIAM  Etablissement et diffusion des règles d’usage de SIAM  Soutien et formation aux utilisateurs



Appréhension et analyse des besoins utilisateurs  Collecte des expressions de besoins  Analyse des besoins  Proposition de scénarios de prise en compte



Pilotage des échantillons de SIAM  Méthodologie  Enquêtes  Contrôle et dimensionnement



Expertise statistique pour l’entité SIMF

En ce qui concerne le projet BLEU – Scores, Claude Riwan a deux fonctions ; d’une part, il aide à ce que le chantier produise les résultats attendus dans les délais impartis, et d’autre part, il s’assure de la qualité des travaux statistiques de datamining, et en particulier de ceux que je réalise.

3.3.

Présentation de SIAM

SIAM (Système d’Information et d’Analyse Marketing) est un dispositif d’études mis à la disposition des équipes nationales de marketing. Les objectifs de SIAM sont nombreux et variés, en voici un aperçu : 

Permettre une connaissance approfondie des clients de France Télécom.



Constituer un socle technique robuste, fiable, et évolutif permettant de récupérer dans un gisement de données permanent, l’ensemble de l’information nécessaire à la compréhension des comportements des clients.



Créer un panel de clients des télécommunications représentatif de l’ensemble du marché.



Développer des outils permettant de constituer et de gérer facilement des focus sur des populations particulières (par exemple des exhaustifs d’utilisateurs de produits émergents)



Mettre en place des outils d’extraction permettant d’échantillonner, de segmenter et d’analyser les clients.

Le gisement de données, destiné à permettre l'analyse comportementale fine des clients et l’impact des actions entreprises ou envisagées (lancement de produits, changement tarifaire …) s'articule autour des groupes de données suivants : 

Un panel de clients du fixe de France Télécom. Il couvre tous les segments de marché résidentiels et professionnels. Pour des raisons économiques, il est constitué de trois ensembles imbriqués, chacun représentatif de l’ensemble du marché :

6 / 46



le Très Grand Panel (TGP), qui regroupe tous les clients suivis, contient les agrégats de facturation par ligne et client,



le Grand Panel (GP), sous-échantillon du TGP, intègre en plus le descriptif de toutes les communications émises ou reçues par ces lignes et clients,



le Petit Panel (PP), sous-échantillon du précédent, est alimenté en outre par des données d'enquête socio-démographique, d’usage et d’équipement recueillies lors de vagues d’enquête annuelles d’environ 20 000 clients.



Un système de focus permettant d'étudier finement une population de clients insuffisamment représentée dans les Panels précédemment décrits, mais dont l'analyse présente un intérêt essentiel (ex : clients souscrivant à une nouvelle offre).



Un référentiel des clients du fixe qui contient les informations permettant de gérer au fil de l’eau les échantillons par rapport à un exhaustif de référence.



Des séries statistiques provenant de France Télécom.



Les données des recensements et les fichiers SIRENE de l’INSEE.

SIAM, un ensemble d’échantillons de clients

FOCUS

Petit Panel (PP) 75 000 clients

FOCUS

Grand Panel (GP) 150 000 clients

FOCUS

FOCUS

Très Grand Panel (TGP) 350 000 clients

7 / 46

4. Présentation du projet BLEU 4.1.

Principe général de BLEU

4.1.1.

Contexte et objectifs

Le projet BLEU propose de nouvelles méthodes pour optimiser le retour sur investissement des actions commerciales individuelles. Sa « philosophie » se fonde sur la valeur des actions commerciales réalisées et non plus sur des objectifs de placements. Actuellement, les méthodes de marketing opérationnel varient selon les agences. BLEU propose une méthode nationale s’appuyant sur des actions types, des modèles valeur, des scores et un outil de simulation d’offres tarifaires.

4.1.2.

Les actions types

L’approche mise en œuvre consiste à identifier l’action commerciale optimale du point de vue de la valeur générée pour France Télécom (dite « valeur FT » dans la suite du rapport). Sept actions-types ont été identifiées pour répondre aux différents contextes clients : 

"Recouvrer" : relancer les clients mauvais payeurs et recouvrer leurs dettes.



"Conquérir" : conquérir le trafic à la concurrence en proposant l'offre la plus adaptée.



"Sécuriser" : diminuer le risque de départ à la concurrence en proposant l'offre la plus adaptée.



"Développer" : développer le chiffre d'affaire du client en proposant un service ou une OT3, de préférence une OT Win Win4.



"Découvrir" : faire le bilan des besoins du client et l'équiper en conséquence.



"Laisser faire" : pas d’action particulière.



"Conserver" : désamorcer la demande de résiliation et adapter l'offre (MEG5, DEG6, migration7)

Ces actions sont à réaliser soit en proactif, à l’initiative de France Télécom, soit en réactif, suite à une demande du client, soit en proactif sur réactif, rebond suite à un appel initié par un client. 3

OT : Offre tarifaire : offre impactant le prix par minute des appels (ex : Heures Locales, Heures France).

4

OT Win Win : Offre tarifaire telle que France Télécom et le client soient gagnants (win-win), c'est-à-dire : hausse du chiffre d’affaires, hausse du trafic et baisse du prix minute. 5

MEG : Montée en gamme : passage d’une OT vers une autre OT de même nature mais d’un montant supérieur (ex : passage des Heures France 3h aux Heures France 6h). 6

DEG : Descente en gamme : passage d’une OT vers une autre de même nature mais d’un montant inférieur (ex : passage des Heures France 6h aux Heures France 3h). 7

Migration : Passage d’une OT vers une autre OT de nature différente.

8 / 46



Actions en proactif

Une action proactive peut être réalisée par marketing direct (télémarketing, mailing…) ou suite à un appel entrant (proactif sur réactif). Diagramme des actions en proactif Objectif de l’action

Contexte Client

oui

Recouvrer

Le client est-il défaillant ? non

A-t-il du trafic à la concurrence ?

oui

Conquérir

non

A-t-il un risque de départ à la concurrence ?

oui

Sécuriser

non

A-t-il un potentiel développement ?

de

oui

Développer

non

Sa valeur ou son historique justifient-ils un bilan de ses besoins ?

oui

Découvrir

non

Laisser Faire 

Actions en réactif

Dans le cas particulier où un client non défaillant appelle pour demander à résilier une OT, une action de conservation a été définie. Diagramme des actions en réactif Contexte Client Le client non défaillant demande à résilier son offre tarifaire.

Objectif de l’action

Conserver

Une analyse de la valeur de l’action de conservation est réalisée pour établir le temps maximum qu’un conseiller client devrait passer dans une action de conservation.

9 / 46

4.2.

Les scores

Chaque action commerciale est valorisée par un modèle valeur micro, alimentés par des scores. Ces scores estiment ou prédisent le comportement client : trafic à la concurrence, capacité à être intéressé par une offre FT… La liste des scores est la suivante. Elle pourra être étendue par la suite, notamment par des scores d’appétence supplémentaires. Nom du score

Description

Etat concurrence

Probabilité que le client soit à la concurrence sur le dernier bimestre

Valeur Concurrence

Estimation du chiffre d’affaires voix fixe à la concurrence sur le dernier bimestre

Attrition

Probabilité de chute de trafic dans les mois à venir

Appétence ADSL

Probabilité de prise d’une offre ADSL

Conservation

Probabilité de maintenir le trafic d’un client chez France Télécom s’il demande à résilier une offre tarifaire

4.3.

Les modèles Valeur Micro

Le principe d’un modèle valeur micro est de soustraire les coûts commerciaux des revenus nets générés par une action (CA trafic net de reversements) et de comparer ce résultat aux revenus attendus en l’absence d’action (Laisser Faire). Cinq modèles valeur micro correspondant aux cinq actions types (le recouvrement ne fait pas partie de BLEU) ont été développés : Type d’action

Modèle valeur micro (MV)

Conquérir

MV Conquête

Sécuriser

MV Sécurisation

Inputs clé - Valeur concurrence (score de valeur concurrence) - Concentration / Taux retour (score d'état) - Valeur FT et Espérance de vie (score d'attrition)

Développer MV Développement - Appétence (score d'appétence) et Valeur FT Découvrir

Conserver

MV Découverte

- Valeur FT et Situation du client

MV Conservation - Valeur FT et Taux de réussite x Espérance de vie (score de conservation)

10 / 46

4.4.

Le modèle Valeur Macro

Les actions types ne sont pas entreprises de façon systématique. Leur réalisation dépend du contexte client, de la valeur générée par l’action (cf. modèle valeur micro) et du coût du canal8 utilisé. Le modèle valeur macro définit les seuils de VAN9 au-dessus desquels les actions commerciales devraient être réalisées. Le modèle valeur macro optimise la valeur créée par l’ensemble des actions commerciales telle que calculée par les modèles Valeur Micro. La détermination des seuils de valeur se fait en comptant les actions commerciales les plus rentables jusqu'à atteindre la capacité de traitement maximum des centres, tout en gardant une création de valeur positive.

4.5.

Conséquences de BLEU pour les conseillers clients

La mécanique BLEU permet de définir l’action commerciale optimale pour chaque client. Il n’en demeure pas moins que le conseiller doit vérifier la pertinence de l’action préconisée avec les évènements récents du client. Le conseiller client aura à sa disposition un outil appelé « Simulateur d’offres ». Celui-ci calcule : 

l’offre la plus intéressante pour le client dans les situations de Conquête, de Conservation ou de Sécurisation.



l’offre win-win dans les situations de Développement ou de Découverte.

Les objectifs des conseillers clients devraient par la suite être alignés sur ceux de BLEU. Il s’agira donc pour eux de réaliser un certain nombre d’actions préconisées avec un certain taux de réussite.

5. Schéma fonctionnel de BLEU La mécanique BLEU suit le schéma suivant : 

On détermine des scores pour chaque client,



Ces scores alimentent des modèles valeur micro,



Ces modèles valeur micro calculent la VAN des actions commerciales pour chaque client (pris au sens statistique),



Les VAN des actions commerciales sont introduites dans le modèle valeur macro,



Le modèle valeur macro détermine les seuils de VAN optimisant les ressources commerciales,



Les seuils de VAN permettent de déterminer l’action commerciale préconisée pour chaque client,

8

Canal : Mode de réalisation d’une action commerciale : appel au 1014, télémarketing, mailing, SMS, MMS, emailing. 9

VAN : Valeur Actuelle Nette : somme des valeurs actualisées des flux financiers.

11 / 46



La réalisation des actions commerciales préconisées sert de base à la fixation des objectifs des agences (à décliner ensuite sur les conseillers clients),



Le conseiller client est aidé dans la réalisation des actions commerciales préconisées par un « simulateur d’offres » qui calcule et propose l’offre la plus adaptée en fonction du contexte. 1. Scores Création des formules de score Application des formules sur la base totale

2. Données clients - Valeur France Télécom - Statut - Défaillance - Etat concurrentiel déclaré - Traçage des actions commerciales déjà réalisées

3. Détermination des seuils d’action, à l’aide des modèles valeurs macro et micro, optimisant la valeur créée compte tenu des ressources commerciales (humaines et financières) disponibles.

4. Calcul sur toute la base de : - la valeur marché - Action préconisée - Temps maximum de conservation - Catégorie d’appel entrant

5. REACTIF : Affichage de l’action commerciale sur l’écran du conseiller client au 1014. PROACTIF : Liste des clients ciblés pour actions proactives. - Utilisation manuelle du Simulateur - Traçage des actions commerciales - Enrichissement des données clients par déclaratif Les données permettant le fonctionnement de la mécanique BLEU sont de deux sortes : les scores et les données « élémentaires ». 

Les scores sont calculés à partir de formules réalisées par le chantier SCORES auquel je participe.



Les « données élémentaires » sont des données disponibles nationalement. Leur utilisation relève du bon sens : le client a-t-il été contacté récemment ? A-t-il déclaré son état concurrentiel ?

Le modèle macro définit l'allocation des moyens commerciaux - par canal et par client - qui maximise la valeur du portefeuille client sur un horizon moyen terme. Il donne les seuils de VAN à partir desquels les actions commerciales peuvent être entreprises. Les seuils permettent de calculer les données d’action définies ci-après. Les clients concernés par des actions proactives sont listés dans des fichiers. Les actions proactives et réactives sont rendues visibles au niveau des conseillers afin que ceux-ci puissent les réaliser. Ils sont aidés en cela par le Simulateur d’offre.

12 / 46

5.1.

Les scores

La construction des formules de score est en cours. Elle est réalisée par une équipe de FTR&D (France Télécom - Recherche et Développement), une équipe du SICOR (Système d’Information Communication et Réseaux) et par moi-même. Deux types de formules de score seront construites en prenant en compte des jeux de variables explicatives issues de sources différentes : 

uniquement des variables « nationales » : disponibles pour l’ensemble des clients,



les variables « nationales » précédentes plus des variables dites « locales » : les variables « locales » ne sont disponibles que pour le panel SIAM (données de trafic détaillé ou d’enquête) ou dans l’agence test retenue, sans définition nationale, ni forcément de disponibilité nationale.

La première formule permettra d’avoir des scores rapidement industrialisables au niveau national. La seconde formule permettra d’estimer les potentiels d’amélioration à travers l’identification de variables à forte valeur explicative ayant un impact important sur l’amélioration des résultats obtenus. Il faudra alors soit trouver le moyen de les rendre disponibles en Agence, soit les estimer elles-mêmes. Les formules de scores sont construites sur des échantillons d’environ 50 000 clients. Deux échantillons ont été définis : d’une part le grand panel SIAM qui autorise une vision nationale sur échantillon, et d’autre part sur les clients P (professionnels) de l’agence Paris et les clients R (résidentiels) de l’agence Alpes, ce qui permet de travailler avec une vision locale mais beaucoup plus exhaustive. La construction des formules de score sera l’occasion d’une étude comparative entre les quatre logiciels de scoring suivants : Khiops, SPSS Clémentine, SAS Enterprise Miner, KXEN. Il est prévu de réactualiser périodiquement les formules de scores. Ces modifications pourront concerner les coefficients et les variables explicatives utilisées. Les coefficients seront réajustés tous les deux mois, les modèles explicatifs tous les semestres.

5.2.

Les données client « élémentaires »

Parallèlement aux scores, cinq données sont nécessaires pour assurer la « mécanique » du projet BLEU : 

la valeur France Télécom, représentant la marge mensuelle générée par les appels voix d’un client. Elle est calculée chaque bimestre.



le statut qui permet de prendre en compte les particularités de certaines classes de clients et d’adapter la nature des actions commerciales entreprises à leur égard. On distinguera les statuts « Standard » (Application normale du processus Bleu), « VIP » (Traitement prioritaire en centre client), « Résidence secondaire » (Exclusion des actions proactives), « Ascenseur » (Exclusion des actions commerciales), « Agent France Télécom » (Exclusion du processus Bleu).



la défaillance qui permet d’identifier les clients dont l’importance de l’impayé ou le retard de paiement justifie de les orienter vers une action de recouvrement avant tout autre action commerciale.



l’état concurrentiel déclaré. L’action commerciale optimale ne doit être proposée au client que si elle n’a pas déjà été réalisée récemment et si elle est cohérente avec le déclaratif client. Pour cela, l’historique de la situation concurrentielle déclarée doit pouvoir être visualisée par les conseillers clients.

13 / 46



le traçage des actions commerciales qui permet la cohérence des contacts clients doit être systématique. Un traçage représente un événement dans la relation client (appel entrant, sortant, envoi d’un mailing...). Les traçages apparaissent sur l’écran du conseiller client.

5.3.

Calcul des seuils d’actions commerciales

Une fois les scores calculés, on peut simuler les gains générés par les actions commerciales. Le modèle macro (cf. ci-dessous) fixe alors le seuil de VAN à partir duquel les actions commerciales sont entreprises. Ce seuil est fixé de façon à optimiser les ressources des centres clients. Le principe de calcul est le suivant :

5.3.1.

Calcul du seuil d’action en proactif



On part du panel SIAM scoré.



On calcule la VAN de toutes les actions commerciales pour tout le panel (avec coût proactif et hypothèse de taux de retour dans un premier temps).



On affecte à chaque client l’action commerciale ayant la plus forte VAN (positive ou négative).



On classe les clients par ordre de VAN décroissant.



On établit le graphique de la VAN en fonction du nombre de clients.



On compare cette courbe à la capacité d’actions proactives sur un bimestre (capacité et budget soustraitants), cela détermine le seuil de VAN proactif (seuil où le nombre d’actions proactives correspond aux ressources).

5.3.2.

Calcul du seuil d’action en réactif (proactif sur réactif)

On procède la même façon qu’en proactif, mais : 

en utilisant le coût et les hypothèses de retour du réactif



en tenant compte du nombre d’actions en réactif que peuvent réaliser les conseillers du 1014.

On détermine ainsi un second seuil de VAN pour les actions réactives. On détermine ensuite, pour chaque modèle valeur micro (en réactif et en proactif), à quels critères ces seuils correspondent. Cela définit 3 zones : 

une zone de non-action



une zone d’action réactive



une zone d’action proactive et réactive

Les limites entre les zones correspondent à des couples de valeurs (Xi,Yi) qui alimentent le logigramme des actions commerciales.

14 / 46

Exemple pour la Sécurisation Valeur FT (€ HT / mois)

Score d'attrition

5€ 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% 80,0% 90,0% 100,0%

5€ 0 0 1 2 3 4 5 5 6 7 8

6€ 7€ 8€ 9€ 10 € 11 € 12 € 13 € 14 € 0 0 0 0 0 0 0 0 0 Zone de non-action 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 4 4 4 3 3 4 4 5 5 6 6 7 Zone6 d'action réactive 4 4 5 6 7 8 8 9 5 5 6 7 8 9 10 10 11 6 7 8 9 10 11 12 13 14 7 8 9 10 11 12 14 15 Zone d'action proactive 16 8 9 10 12 13 14 16 17 18 9 10 12 13 15 16 18 19 21 10 11 13 15 16 18 20 21 23

15 € 0 2 5 7 10 12 15 17 20 22 25

Courbe Iso VAN réactif :

Courbe Iso VAN proactif :

seuils réactifs xi, yi = (attrition,valeur FT)

seuils proactifs xi, yi = (attrition,valeur FT)

5.4.

Les données « d’action »

Les seuils d’actions commerciales étant définis par le modèle macro, l’action commerciale à réaliser pour chaque client peut être déterminée, ainsi que les autres données d’action : 

l’action commerciale préconisée permet de calculer et de communiquer aux plateaux l’action commerciale optimale ainsi que son canal. Les clients concernés par une même action proactive sont groupés dans un fichier de ciblage pour être transmis aux centres d’appels proactifs.



le temps de traitement maximum pour la conservation est calculé à partir de seuils fournis par le modèle valeur conservation. Il devra apparaître sur l'écran du conseiller clientèle.



la catégorie d’appel entrant affecté en fonction de la valeur de l’action commerciale préconisée.



la valeur marché qui permet de segmenter les parcs des agences et de les comparer entre eux et constitue également un axe d’analyse des actions commerciales.

5.5.

Utilisation de BLEU par le conseiller client

BLEU repose sur le savoir-faire des conseillers clients et bien que la méthode recommande une action commerciale, ce dernier reste maître de la relation client. Dans le cas d’une action proactive, avant d’appeler, le conseiller client consulte le dossier et s’assure de l’absence d’événement récent invalidant la justification de l’appel : 

fermeture de la ligne,



passage en défaillant,



appel 1014-16 ayant permis de traiter en réactif l’action commerciale prévue,



s’il s’agit d’une action de sécurisation vérifier que le client n’a pas déjà l’offre la moins chère compte tenu de son profil de trafic. 15 / 46

Enchaînement des tâches induites par BLEU dans le cas d’un appel entrant :

Le client est-il défaillant ?

oui

Recouvrer

non

Demande-t-il à résilier son OT ?

oui

non

Enregistrer la résiliation

oui

Traiter la demande

Y-t-il un marquage pour une action commerciale ?

Y a-t-il un durée maximum non de conservation d’indiquée sur l’écran ?

Tenter de conserver pendant X minutes

non

Terminer la communication

oui

La demande initiale, les derniers traçages, la situation du client non sont-ils cohérents avec l’action commerciale préconisée ?

Terminer la communication

oui

Réaliser l’action commerciale préconisée Enregistrer le résultat de l’action commerciale

Enregistrer le déclaratif client le cas échéant

5.6.

Le Simulateur d’offres

En fonction de l’information affichée par le marquage sur son écran, le conseiller devra être en mesure de proposer une offre adaptée à la situation du client et de son exposition à la concurrence. Le Simulateur d’offres, en cours d’élaboration, permettra de simuler la facture pour un client donné.

16 / 46

6. Le chantier SCORES du projet BLEU Le groupe de travail constituant le chantier a pour objectif de réaliser des expérimentations permettant de construire des fonctions de score à l'aide de techniques de datamining proposées par différents outils. Les types de scores à construire ont préalablement été définis dans le chantier. Les données disponibles ont également été listées et les contextes d'expérimentations choisis. Les scores seront immédiatement déployés sur les Agences s’ils sont performants et "faciles" à industrialiser. Au cas où les scores construits sur les données nationales ne donneraient pas de performances suffisantes, les scores comportant des variables locales Agence et des variables spécifiques SIAM serviront à identifier des potentiels d'amélioration des formules de scores.

6.1.

Les cinq types de scores

Les cinq types de scores à construire ont été définis par le groupe de travail du chantier "Scores". Il s'agit de : 

conservation : prédire les clients qui n’auront pas une forte chute de trafic après avoir fait une demande de résiliation d'une offre tarifaire de référence



état : identifier les clients à la concurrence, ceux en APA10 et ceux en PST11 sur un bimestre donné, les règles de la concurrence interdisant à France Télécom d’utiliser les données techniques des autocommutateurs à cette fin.



valeur concurrence : estimer la valeur du trafic à la concurrence des clients



attrition : prédire une forte chute de trafic (pour les clients n'ayant pas fait de demande de résiliation d'une offre tarifaire de référence)



appétence : donner un profil client pour son potentiel à souscrire à une offre ou à un ensemble d'offres

6.1.1.

Conservation

Population à étudier : l'ensemble des individus ayant demandé la résiliation d'une des offres tarifaires de référence au 5ème bimestre de 2003 (noté B5-2203), et n'ayant pas fermé leur ligne (décès, déménagement…). Objectif du score : prédire, parmi ces individus, ceux dont la conservation est réussie et durable, donc ceux dont la chute de trafic n'excèdera pas 75 %, six mois après la demande de résiliation de l'offre tarifaire. 10

APA : Appel Par Appel : le client utilise un autre opérateur que France Télécom. Il compose le code de cet opérateur en début de numéro à chaque fois qu’il ne désire pas passer par France Télécom. 11

PST : Présélection du transporteur : le client compose le 0 pour tous ses appels vers l’opérateur présélectionné.

17 / 46

B2-2003

B3-2003

B4-2003

B5-2003

B6-2003

Demande de résiliation d'une OT historique

B1-2004

B2-2004

Chute de trafic > 75 %

3 bimestres

Construction de la variable cible : Variable à expliquer 1

conditions L'individu n'a pas de chute de trafic supérieure à 75%, 6 mois après la demande de résiliation Le reste des individus ayant fait une demande de résiliation au 5ème bimestre 2003

0

6.1.2.

Etat Concurrence

Population à étudier : l'ensemble des individus de la base n'ayant pas de chute de trafic récente. Objectif des scores : identifier les clients en APA ou en PST, c’est à dire ceux qui sont à la concurrence. …

B2-2003

B6-2003

B1-2004

B2-2004 Est en PST (resp.APA) Sur le bimestre

Historique Construction de la variable cible PST (resp.APA) : Variable à expliquer 1 0

conditions Est en PST (resp.APA) au 2ème bimestre 2004 N'est pas en PST(resp.APA) au 2ème bimestre 2004

Pour le calcul du score, ces informations sont issues des déclaratifs clients.

6.1.3.

Valeur concurrence

Population à étudier : l'ensemble des individus de la base n'ayant pas de chute de trafic récente. Objectif du score : estimer la valeur du trafic concurrence valorisé au 2nd bimestre 2004. Construction de la variable cible : On estime le niveau continu de trafic à la concurrence valorisé sur le dernier bimestre disponible à partir des réponses des clients à des enquêtes.

18 / 46

6.1.4.

Attrition

Population à étudier : l'ensemble des individus de la base n'ayant pas de chute de trafic récente, n'ayant pas de trafic voix nul, n'ayant pas fermé leur ligne et n'ayant pas fait de demande de résiliation d'offre tarifaire au 5ème bimestre de 2003. Objectif du score : prédire, parmi ces individus, ceux qui sont susceptibles de partir à la concurrence B2-2003

B3-2003

B4-2003

B5-2003

B6-2003

B1-2004

B2-2004

Chute de trafic ≥ 75 % Historique

3 bimestres

Construction de la variable cible : Variable à expliquer 1 0

6.1.5.

conditions Chute de trafic au cours des 3 derniers bimestres supérieure ou égale à 75% Pas de chute de trafic sur les 3 derniers bimestres

Appétence

Population à étudier : l'ensemble des individus de la base. Objectif du score : prédire le potentiel ADSL12 des clients. Construction de la variable cible : Variable à expliquer 1 0

6.2.

conditions Offre ADSL présente aux 1er et 2nd bimestre 2004 sinon

Les différents périmètres d’études

Deux contextes d’expérimentation ont été définis : SIAM et Agence. Dans le premier de ces contextes, nous utilisons les clients du Grand Panel (cf. Présentation SIAM), soit 150 000 clients. Le Grand Panel contient, en plus des éléments agrégés de facturation, le détail des communications des clients. 

Cinq scores sont à construire à partir des données SIAM :     

score d'attrition, score d'appétence ADSL, score d'état APA, score d'état PST, score valeur concurrence,

12

ADSL : Asymetric Digital Subscriber Line : Technologie permettant de faire passer du haut débit sur la paire de cuivre téléphonique classique.

19 / 46

Pour chacun de ces scores, on distingue deux types de contexte au niveau des données : national (N) et local (L). Les scores calculés dans le cas (N) pourront, si le résultat est probant, être utilisés dans un cadre national très rapidement. Les scores calculés dans le cas (L) permettent de détecter des variables intéressantes à utiliser au niveau marketing. 

Trois des scores sont à construire à partir des données "agence" :   

score de conservation, score d'attrition, score d'appétence

On distingue deux types de contexte au niveau des données : national (N) et local (L). Ainsi, les scores calculés dans le cas (N) pourront, si le résultat est probant, être déployés sans attendre étant donné la disponibilité des données dans le système d'information. Concernant les scores calculés dans le cas (L), si l’apport de certaines variables locales s’avère déterminant, il faudra alors réfléchir et proposer des méthodes afin de pouvoir généraliser la collecte ou le calcul de ces variables locales et ensuite permettre de les injecter de façon industrielle dans le futur gisement qui servira au calcul des scores. Remarque : Les quatre logiciels de datamining seront utilisés dans ce contexte.

6.3.

Les quatre outils de datamining

Les outils retenus pour la modélisation sont : 

KXEN : outil "presse-bouton", éditeur de solutions d'analyse prédictive utilisées notamment pour optimiser les actions marketing.



Clémentine de SPSS : atelier de data mining



SAS Entreprise Miner : module de data mining construit « au-dessus » de SAS



KHIOPS : outil développé par FTR&D optimisant les phases de préparation des données et de modélisation pour de l'analyse supervisée sur de très grands volumes de données. Il est à noter que seuls SAS Enterprise Miner et KXEN acceptent en entrée une variable de pondération. En conséquence, seuls ces deux logiciels seront utilisés dans le contexte SIAM, car il s’agit d’un échantillon résultant de tirages multi-stratifiés à pondérations très variantes.

6.4.

Les critères de comparaison des modélisations

Les critères de comparaison des modèles ont été choisis en fonction des caractéristiques de chaque logiciel. Par exemple, KXEN propose deux types d’indicateurs : le KI, indicateur de performance et le KR, critère de robustesse. Les différents critères statistiques permettant de comparer les modélisations intra et inter outils sont présentés via l’exemple de la grille d’évaluation du score d’appétence ADSL.

20 / 46

Grille d’évaluation pour le score ADSL

La grille d’évaluation se découpe en 2 parties distinctes. La partie haute de la grille (en jaune) donne un récapitulatif des informations concernant le score : 

sa définition



le type de données utilisées « nationales » ou « locales »



le contexte (exhaustif local ou échantillon national)



la construction de la variable cible avec sa concentration dans la population d‘étude (la concentration est le taux de «1» pris par la variable cible)



une méthode de référence s’il en existe déjà une. Il est important de prouver l’apport de nos scores par rapport à ceux éventuellement déjà construits ou à toute autre méthode de ciblage actuellement utilisée.

La partie blanche de la grille présente en ligne les modèles réalisés et en colonne leurs caractéristiques. Les critères statistiques retenus sont : 

Concentration à x% : il s'agit du pourcentage de clients bien ciblés (ceux pour lesquels la variable cible vaut « 1 ») par un modèle si on prend x% de la population d’étude triée par score décroissant.

21 / 46



Taux de succès global : rapport entre d’une part la somme des clients ciblés « 1 » et prédits « 1 » par le score et la somme des clients ciblés « 0 » et prédits « 0 » et de l’autre, la population d’étude. C’est la diagonale de la matrice de confusion.



Taux d’erreur global = 1 - Taux de succès global.



KI : critère de performance. C’est un calcul de surface. Il représente l’apport du modèle, son pouvoir explicatif. Le KI est calculé comme le rapport entre l’aire définie entre le modèle testé et le « modèle aléatoire », et celle définie entre le « modèle idéal » et « le modèle aléatoire ».

Remarque : Le KI est à construire sur le fichier test13, fichier qui n’a pas été utilisé pour construire le modèle.

Exemple de courbe de concentration

KI = rapport entre l’aire hachurée et l’aire blanche = 0,70



KR : critère de robustesse. Le KR vaut 1 – le rapport entre l’aire définie entre le modèle testé sur le fichier d’apprentissage et le modèle testé sur le fichier test, et l’aire entre le « modèle idéal » et « le modèle aléatoire ».

Plus le KR est proche de 1, en d’autres termes plus l’aire séparant la courbe d’apprentissage de celle du test est restreinte, plus le modèle est robuste. Remarque : Le KR est à construire sur les jeux d’apprentissage et de test.

13

Test, apprentissage, validation : voir § partitionnement page n°27

22 / 46

Exemple de courbe de concentration

KR = 1 - rapport entre l’aire hachurée et l‘aire blanche = 0,95



Nombre total de variables : il s'agit du nombre de variables utilisées par le modèle.



Nombre de variables d'origine : celles présentes dans les tables de base.



Nombre de variables calculées : celles combinant des variables d'origine (ex : ratio).



Détail des 10 premières variables par ordre d'importance : l'ordre est la contribution de la variable dans le modèle.



Classement des modèles par outil : il s'agit de retenir un (au plus deux) modèle(s) par outil, pour ensuite retenir un (au plus deux) modèle(s) par score.

6.5.

Les critères de comparaison des logiciels de datamining

Une fiche est produite par outil utilisé. Les différents items de cette fiche permettent une description homogène des logiciels et donnent des indications sur ses fonctionnalités générales. Les scores sont établis à l'aide de quatre outils, selon les possibilités de ces outils. Le format des résultats dépend des possibilités offertes par chaque outil. Cette même grille récapitulative sert de base à la comparaison des outils utilisés. D'autres critères sont intégrés permettant d'établir une note de comparaison des outils proprement dits. Ces nouveaux critères tiennent compte de la facilité d'installation, d'utilisation, de déploiement de modèles, d'intégration … Une première comparaison qualitative a été faite suite à la présentation de ces quatre logiciels. Le tableau suivant en résume les principales indications.

23 / 46

KHIOPS

SPSS-Clementine

KXEN

SAS-EM

Prise en compte des poids

Non

Non

Oui

Oui

Mise en classe automatique des variables (codage)

Oui

Non

Oui

Non

Gestion de milliers de variables

Oui

Non

Oui

Non

Création d’agrégats automatique

Oui

Non

Oui

Non

Variable cible continue

Non

Oui

Oui

Oui

Bayesien naïf

Réseau de neurones, arbre de décision, régression logistique…

Régression logistique

Plusieurs (à lister)

Syntaxe adaptable

Fonction C ou autre

SQL, C, VB, awk…

SAS uniquement

Techniques de modélisation Langage de sortie de la formule de score

Le coût du logiciel, les compétences nécessaires pour son utilisation, sa rapidité d'exécution et la qualité des résultats présentés seront des critères de comparaison supplémentaires.

7. Planning du stage Du 1er Juin au 11 Juin

Etude de la documentation présentant le projet BLEU.

Du 14 Juin au 29 Juin

Etude des données d’enquête SIAM afin de dégager des variables intéressantes.

Le 30 Juin

Présentation des quatre logiciels de datamining

Du 1 Juillet au 9 Juillet

Calcul du delta tarifaire

Du 13 au 23 Juillet

Sélection des variables avec le logiciel KXEN

Du 26 Juillet au 30 Septembre

Construction des scores

Octobre - Novembre

Finalisation et évaluation des modélisations

Journées de formation 

Le 12 Juillet : SPSS Clémentine



Le 25 Août : SAS Enterprise Miner (version 4.3)



Le 3 Octobre : SAS Enterprise Miner (version 5.1)

24 / 46

8. Travaux réalisés 8.1.

Etude des données d'enquêtes de SIAM : recherche des données pertinentes

A cette étape du projet, il s'agissait d’étudier si les données d'enquête disponibles dans SIAM peuvent avoir un impact sur les performances des scores (plus de 300 variables d’enquêtes). Ces données ne sont disponibles que pour les clients du Petit Panel de SIAM (soit environ 12 000 clients Résidentiels et 8 000 clients Professionnels par vague d’enquête annuelle). Il convenait d’étudier au préalable la pertinence de ces données, puis leur intérêt pour les scores demandés en fonction de leurs corrélations avec les différentes variables cible des scores à réaliser. Le chantier SCORES analysera la façon d’intégrer celles de ces variables qui ont un impact fort. J’ai réalisé cette étude à l’aide de la PROC TABULATE de SAS. Finalement, un certain nombre de variables se sont révélées pertinentes, pour tous ou un des scores envisagés :

Variables retenues pour les résidentiels : 

variables socio-démographiques, comme la composition du ménage, le revenu, le niveau d’étude ou la catégorie socio-professionnelle.



Variables d’équipement, comme la possession d’un téléphone portable, d’un PC, d’un fax, d‘un répondeur, d’Internet ou d’un minitel.

Variables retenues pour les professionnels : 

activité de l’entreprise.



localisation de l’entreprise.



variables d’équipement (les mêmes que pour les résidentiels).

8.2.

Calcul du delta tarifaire

L’économie qu’un client pourrait faire en changeant d’offre ou d’opérateur téléphonique fait partie des éléments indispensables à tester, en tant que variable explicative, dans le contexte concurrentiel de France Télécom. J’ai construit les variables représentant le potentiel d’économie qu’un client pourrait faire, à structure de consommation identique, dans deux contextes : 

en optimisant ses offres tarifaires au sein de France Télécom,



en changeant d’opérateur.

25 / 46

La variable calculée n’est pas sensée reproduire le calcul exact de la facture du client dans des conditions tarifaires différentes. Elle représente ce que le client pourrait lui-même calculer, compte tenu des informations, souvent limitées, à sa disposition. Il s’agit donc d’un « delta tarifaire » perçu par le client. Deux méthodes ont été proposées pour calculer le gain potentiel, d’une part pour un client Résidentiel, d’autre part pour un client Professionnel : 

une méthode « basique », basée uniquement sur le prix à la minute, sans tenir compte du crédittemps,



une méthode « normale », prenant en compte le crédit-temps et une gamme plus large d’offres tarifaires.

La méthode « basique » fournit une appréciation du delta tarifaire perçu par le client entre sa facture actuelle et sa facture potentielle optimale. La méthode « normale » calcule d’abords l’écart entre la facture actuelle du client et sa facture optimale possible à France Télécom, puis également l’écart avec la meilleure offre concurrentielle. Ces calculs ont été adossés sur les premiers éléments recueillis dans le cadre de la veille concurrentielle et du recueil des méthodes déjà développées dans certaines agences en vue de réaliser le Simulateur d’offres.

8.3.

Présélection des variables

Plus de 3 000 variables explicatives ont été mises à notre disposition en provenance des différents gisements de données, pour réaliser les scores. Cependant nous devons travailler sur des tables contenant au maximum 1 000 variables, pour des contraintes techniques. Il s'agissait donc de trier toutes les données disponibles dans SIAM et au niveau agence, puis de ne retenir que celles qui apportent le plus d’information. Pour cette opération, nous avons utilisé les logiciels KXEN et KHIOPS. En effet, le nœud de sélection sous SEM ou SPSS sont plus « lourds » à mettre en œuvre. Les logiciels KXEN et KHIOPS ont pour eux une grande facilité d’utilisation et des temps de traitements plus courts. Les équipes de FTR&D ont réalisé la sélection de variables à l’aide de leur outil KHIOPS, et j’ai effectué celle avec KXEN. Nous avons ensuite procédé à une synthèse de ces sélections. La démarche mise en œuvre sous KXEN est très simple : Il suffit de préciser en entrée le type de chaque variable (continu, binaire, nominal, ordinal), de préciser également le rôle tenu par chaque variable (variable cible, variable explicative, pondération), puis le logiciel réalise automatiquement sa sélection. KXEN est un logiciel construit pour permettre à des non-spécialistes de la statistique de répondre par eux-mêmes à leurs problématiques métier. Avec KXEN pas de paramétrage, tout est automatisé ! Une des dimensions du chantier SCORES étant d’apprécier la potentialité de décentraliser à des niveaux plus opérationnels la réalisation ou l’adaptation des modèles (et par conséquent de rendre cette opération réalisable le cas échéant par des non-spécialistes du datamining), la qualité des présélections ainsi réalisées est un enjeu réel.

26 / 46

9. Exemple de construction d’un score 9.1.

Méthodologie

9.1.1.

Organisation

Les modélisations sous KHIOPS et Clémentine sont réalisées par les équipes de FTR&D, les modélisations sous KXEN par le SICOR, et celles sous SEM par moi-même.

9.1.2.

Partitionnement

Pour le calcul des modèles, nous procédons à la partition aléatoire de la table des données de départ en deux fichiers : apprentissage et validation. 

Le fichier d'apprentissage contient 70 % des individus. C'est sur ce fichier que l'on construit les différents modèles en utilisant différentes techniques de modélisation : les réseaux neuronaux, les arbres de décisions, les régressions logistiques.



Le fichier de validation contient 30 % des individus. Sur ce fichier on compare les modèles établis à partir du fichier d'apprentissage. On mesure leur efficacité à expliquer la variable cible grâce aux courbes de lift et matrices de confusion. Le meilleur modèle au vu de ces indicateurs est sélectionné.

Par ailleurs, un fichier test servant à comparer les outils entre eux est également construit à chaque fois.

9.1.3.

Modélisation

La démarche suivie pour l’élaboration des modèles est la suivante : 

Sur le fichier d'apprentissage : apprentissage de plusieurs techniques.



Sur le fichier de validation : optimisation des paramètres des modélisations obtenues sur le fichier d’apprentissage.



Sur le fichier test : 

par outil : choix du ou des "meilleur(s)" modèle(s) en terme de performances (voir §4 : critères de comparaison des modélisations),



comparaison des modèles entre eux et sélection du modèle le plus approprié : on dispose au plus de quatre modèles (le meilleur par outil) et on compare leurs performances,



comparaison avec les résultats obtenus par une méthode déjà employée à France Télécom si elle existe (qu’il s’agisse d’un simple ciblage fondé sur des critères « de bon sens » ou d’un score défini localement).

27 / 46

9.1.4.

Evaluations des modèles

Dans le cadre de ces expérimentations, trois types d'évaluation sont proposés : 

une évaluation théorique : elle se fait sur le fichier de test prévu à cet effet, et permet d'établir une première performance des modèles construits dans le même cadre que l'étape de modélisation,



une évaluation par glissement : il s'agit de récupérer les données des bimestres suivants et d'appliquer « in vitro » les modèles construits sur ces données,



une évaluation terrain dans deux agences pilotes à partir de leurs fichiers clients.

Les scores finalement choisis le seront en fonction de leurs performances "théoriques", de leur validation grandeur nature, mais aussi de leur plus ou moins grande facilité à être acceptés par les conseillers clients (pertinence et sens des variables explicatives).

9.2.

Exemple du score d’attrition

9.2.1.

Introduction

Avec ce score pris comme exemple illustratif de nos travaux, nous essayons de modéliser les comportements des clients « à risque », ceux qui sont susceptibles de partir à la concurrence. Ce phénomène est connu sous le nom d’attrition ou de « churn ». L’objectif est de mettre en place un score reflétant ce risque et d’implémenter ce score dans le système d'information de France Télécom. Pour cela, nous utiliserons le logiciel SAS, et plus particulièrement le module Enterprise Miner. Nous allons appliquer la démarche vue en cours, à savoir la méthodologie S.E.M.M.A :     

Sampling = échantillonnage Exploration= exploration des données Manipulation = transformation des données Modelling = modélisation Assessment = choix du meilleur modèle 9.2.2.

Sampling = échantillonnage Objectif : Relier notre table d’étude à SAS Enterprise Miner. Paramètres :  Dans l’onglet Variables, définir le rôle de chaque variable (variable cible, variable de pondération, variable explicative)  Dans l’onglet Interval Variables, nous avons quelques statistiques sur les variables continues.  Dans l’onglet Class Variables, renseignements sur le nombre de valeurs prises pour chaque variable nominale.

Le fichier de notre exemple comporte 58 461 lignes (clients du Grand Panel SIAM) et 506 variables. Les données mises à notre disposition sont de différentes natures :

28 / 46



La variable cible est une variable binaire : elle prend la valeur « 1 » si le client est susceptible de partir à la concurrence et « 0 » sinon.



La variable poids :

Il est impératif d’associer à chaque client sa pondération. En effet, la table utilisée est issue du Grand Panel. Ce panel est constitué de 150 000 clients représentatifs des 25 millions de clients « R » et « P » de France Télécom. La pondération constitue le taux de représentativité d’un client du panel. Par construction, la somme des poids des clients du panel est égale à l’effectif de la population totale. Les pondérations du panel (égales à l’inverse des taux du tirage) sont extrêmement diversifiées car le panel SIAM résulte de tirages stratifiés à plusieurs niveaux. Certaines catégories de clients sont fortement sur ou sous-représentées dans le panel en fonction de l’intérêt qui leur est porté. C’est pourquoi, il est indispensable de prendre en compte les pondérations dans tout travail de modélisation. Le fichier utilisé pour ce score contient 58 461 clients du panel, qui représentent environ 15 millions de clients et un ensemble de variables représentant les différentes caractéristiques des clients (principalement des données de consommation). Remarque : Dans ce qui suit, la signification des données est volontairement masquée. En effet, ces données « sensibles » sont stratégiques pour France Télécom. Aussi, les intitulés des variables ont été remplacés dans le rapport par un nom neutre (var1, var2, var3…), ce qui ne perturbe en rien la compréhension du sujet. Dans l’onglet Interval Variables, Enterprise Miner propose quelques statistiques sur une partie du fichier pour donner un aperçu de l’échelle des valeurs (le minimum, le maximum, la moyenne, l’écarttype). SEM indique également si certaines variables ont des valeurs manquantes.

29 / 46

Objectif : Permet d’échantillonner la table d’étude en trois tables : apprentissage, validation et test. Paramètres :  Dans l’onglet Partition, utiliser la méthode User defined.  Dans l’onglet User defined, définir sur quelle variable s’effectuera l’échantillonnage.

La première tâche à réaliser est de constituer trois échantillons, destinés à l'apprentissage, à la validation et au test du modèle. La décomposition aléatoire en trois sous fichiers n’est pas adaptée à nos travaux : dans l’optique de comparer les différents logiciels de datamining, il est nécessaire d’avoir un jeu de données inutilisé identique pour tous les logiciels : c’est l’échantillon test. Sur la partie du fichier restant, nous avons choisi une répartition 70% pour la base d'apprentissage et 30% pour la base de validation. Bien évidemment, l’appartenance d’un client a l’un de ces trois sousfichiers est parfaitement aléatoire.

Extrait du code SAS permettant de partitionner la table en trois sous échantillons

/*table d'apprentissage*/ data scoring.table_train; set scoring.table_train; if ranuni(0)