Statistique (au singulier) : un art et une science comportant un ...

... des données, la statistique descriptive, Tirer des conclusions à partir de données, l'inférence statistique, Prendre ... Règle de Sturge (Nombre de classes) : n.
340KB taille 3 téléchargements 172 vues
Statistique (au singulier) : un art et une science comportant un ensemble de méthodes et de théories pour analyser des situations ou des phénomènes comportant de l’incertitude. L'ensemble des méthodes scientifiques pour aider à : Faire la collecte de données, Organiser et résumer des données, la statistique descriptive, Tirer des conclusions à partir de données, l'inférence statistique, Prendre des décisions rationnelles, la théorie de la décision statistique. Statistiques (au pluriel) : ensemble de données numériques portant sur des caractéristiques économiques, sociales, politiques ou culturelles Statistique représente une quantité particulière calculée à partir d’un échantillon comme la moyenne arithmétique, l’écart-type, etc. Les étapes d’une étude statistique : 1. Analyse de la situation 2. Identification des informations à colliger 3. Choix du type de recherche et de la méthode de collecte de donnés

• Recherche exploratoire : découvrir la nature de la situation à analyser afin de formuler ultérieurement des hypothèses (à l’aide d’entrevues, des fichiers sur les clients, …) • Recherche descriptive : représenter graphiquement des données et les résumer par des mesures de tendance centrale et de dispersion • Recherche causale ou explicative : tester des hypothèses et déterminer la relation entre deux ou plusieurs variables

4. Identification des outils d’investigation et plan de sondage 5. Traitement statistique et codage des données 6. Rédaction du rapport de l’étude L’analyse des données  Ensemble de méthodes pour aider à: faire la collecte de données (l’échantillonnage), organiser et résumer des données (la statistique descriptive), tirer des conclusions à partir de données (la statistique différentielle) ** Le but consiste à comprendre le phénomène sous-jacent à ces données afin de mieux le contrôler ou de mieux le prédire Notions fondamentales : • Population statistique : Ensemble statistique (1 à n)



• •

Échantillon : Sous-ensemble de la population statistique (1 à n observations) o Échantillon aléatoire : Sous ensemble d’individus tirés de façon aléatoire et permet de généraliser les résultats obtenus au niveau de toute la population Unité statistique : Individu Variable statistique : Caractère par lequel on transforme une unité statistique en une modalité Étude = Unité statistique + Variable statistique, Variable statistique = modalité de l’unité statistique o Quantitative : Mesurable (#)



Continue : Nombre illimité de valeurs (Les valeurs sont groupées en classes)

• 

Histogrammes, Polygones de fréquence, Courbes de fréquences cumulées et avec classes intégrales ouvertes

Discontinue (a.k.a Discrète) : Nombre limité de valeurs (Valeur entière)



• •

Diagrammes en bâton, Graphiques en escalier o Qualitative : Non mesurable (Caractéristique) o Variable indépendante: variable qui peut avoir un effet ou influencer une autre variable o Variable dépendante: variable dont les variations peuvent être expliquées ou dépendent des variations d’une autre variable Modalité : Valeur possible des variables

Fréquence d’une modalité : Nombre de fois qu’une valeur se répète dans l’échantillon Échelles de mesure : • Nominale: valeur numérique assignée arbitrairement à une modalité sans idée de distance entre les modalités (Variable qualitative) o Diagrammes à secteurs, Diagrammes à barres



Ordinale: ordre défini entre les modalités (Variables quantitatives ou qualitatives) o Diagrammes à secteurs, Diagrammes à barres

• •

D'intervalle: ordre de grandeur défini entre les modalités (Variable de nature quantitative)

De rapport: zéro introduit dans l'échelle (Variable de nature quantitative Étude de marché/ Sondage/ Échantillonnage : Consiste à prélever un sous-ensemble d’unités statistiques d’une population afin de mieux en connaître les caractéristiques ou de faire des prévisions. Les recensements sont plus précis er plus chers et prennent en général plus de temps

Dépouillement des données: Le dépouillement permet d’élaborer la distribution de fréquences soit: • Fréquences absolues (fi ) : Indiquent combien d’observations appartiennent à une modalité donnée (total fi =n)

• •

Fréquences relatives (fri): La fréquence relative d’une modalité i  fri = fi / n (total fri = 100%

Fréquences cumulées : Correspond au nombre d’observations dont la valeur est égale ou inférieure à cette modalité o Fréquence cumulée absolue de la dernière modalité est égale à n o Fréquence cumulée relative de la dernière modalité est égale à 1 (ou 100 %) o Remarque : On ne doit pas calculer les fréquences cumulées pour des données nominales Dépouillement et distributions de fréquences - Méthode de dépouillement des données: • Par valeurs : Classer les modalités en ordre croissant et faire la fréquence absolue de celles-ci. Cette méthode de dépouillement est appropriée pour les variables statistiques quantitatives ayant, Idéalement, 12 modalités ou moins • Par classes : appropriée pour les variables statistiques quantitatives ayant un grand nombre de modalités o Les données sont regroupées en classes afin d’en faciliter la visualisation et l’interprétation

k ≅1+ 3,322 log 10 n  

o o

Règle de Sturge (Nombre de classes) :

L’amplitude de chaque classe : a = E/k Les classes doivent être exhaustives et mutuellement exclusives Les classes peuvent être ouvertes ou fermées, il est recommandé de choisir des classes de même taille



Selon un diagramme en feuilles : Ce diagramme comporte des « tiges » et des « feuilles ». Dans sa forme la plus simple, les tiges représentent un élément commun à un groupe d’observations et les feuilles chacune des observations. o Les tiges sont généralement le premier ou les deux premiers nombre des données dans la première colonne du diagramme o Identifier ensuite la tige à laquelle chaque donnée (feuille) appartient Les tableaux de contingence (ou tableaux croisés) : Permettent de faire le dépouillement de plusieurs variables simultanément. • Ces variables peuvent être discrètes ou continues.

• Les tableaux de contingence peuvent présenter des fréquences absolues ou relatives Un bon graphique doit: Montre les faits avec précision, Attire l'attention du lecteur, Complète ou démontre les arguments du texte, A un titre et des étiquettes, Est simple et clair, Montre les données sans modifier leur message, Montre clairement la tendance dans les données, Est exact visuellement Pourquoi utiliser un graphique dans la présentation de données? Sont directs et peuvent être lus rapidement, montrent les faits les plus importants, facilitent la compréhension des données, peuvent convaincre le lecteur, sont faciles à mémoriser Quand n'est-il pas approprié d'utiliser un graphique? Quand les modalités ont des fréquences très différentes, Quand il n’y a pas assez de données, Quand les données sont trop nombreuses, Quand les données ne varient pas beaucoup Le questionnaire : Peut inclure des données qualitatives ou quantitatives, Peut inclure des questions ouvertes (réponse numérique ou textuelle) ou fermées (liste préétablie de réponses) Les étapes d’une étude par questionnaire : Définir l’objectif de l’étude (la problématique), Identifier la population cible, Préparer le questionnaire, Tester le questionnaire, Déterminer la taille de l’échantillon et la méthode d’échantillonnage, Choisir le mode d’administration du questionnaire Types de diagrammes : Diagramme en bâton, Graphique en escalier, Courbe de fréquences cumulées, Histogramme, polygone de fréquence et courbe de fréquence, Diagramme à secteur, **Série chronologique: Le graphique doit illustrer l’évolution dans le temps • Histogramme o Lorsque les classes ont la même amplitude, la hauteur du rectangle est proportionnelle à la fréquence observée o Si les classes sont inégales, la surface du rectangle est proportionnelle à la fréquence observée Caractéristiques de tendance centrale et de dispersion Mesures de tendance centrale : indiquent l’ordre de grandeur de la série et la position autour de laquelle se distribuent les données d’une série •

Moyenne arithmétique (

o



́x ) → moyenne de grandeur, Excel : moyenne (D4:D88)

Peut se calculer à l’aide des fréquences absolues ou des fréquences relatives et tient compte de toutes les valeurs de la série. o Si la modalité est un chiffre, il faut multiplier la modalité par la fréquence pour trouver la moyenne o Données groupées en classes → trouver le point milieu de la classe et faire la moyenne à partir de ces points o Elle est affectée par les valeurs aberrantes de la série et ne se calcule pas pour les variables qualitatives ni pour les données groupées avec classes ouvertes Médiane (Me) → moyenne de position

o o o

o o o o

Nombre impair d’observations = (n+1)/2 Nombre pair d’observations = ((n/2) + ((n/2) + 1) / 2) Données groupées en classes = Bi + (((n/2) – F) / fme) x a



BI : borne inférieure de la classe médiane (la classe contenant la n/2 ième observation - 50% des observations)

   

F : somme des fréquences absolues des classes précédant la classe médiane fMe : fréquence de la classe médiane a : amplitude de la classe médiane

n: nombre d’observations de la série Correspond à la valeur de la série dont 50% des données sont inférieures /égales et 50% des données sont supérieures/ égales. La médiane n’est pas affectée par les valeurs aberrantes Elle peut être utilisée avec des données groupées avec des classes ouvertes Elle permet de mieux évaluer la tendance centrale lorsque la distribution est très asymétrique



Mode (Mo) : valeur de la variable statistique dont la fréquence est la plus élevée o Classe modale: classe dont la fréquence est la plus élevée (la valeur correspondant au centre de cette classe) o Le mode est une mesure appropriée pour les variables qualitatives o Un seul mode (distribution unimodale), plusieurs modes (distribution bimodale, multimodale) ou aucun mode. Mesures de dispersion : Déterminent le niveau de fluctuation des données autour d’une valeur centrale o Étendue (E) = Xmax – Xmin. Elle ne tient compte que des deux observations extrêmes de la série de données o Variance (s2) et Écart-type (s), Excel : VAR (D4:D88) et ECARTYPE (D4:D88)

  

Ces deux mesures indiquent comment les observations se répartissent autour de leur moyenne arithmétique

  

Il tient compte de chacune des valeurs des observations de la série et est affecté par les valeurs aberrantes

Une valeur élevée indique une forte dispersion, alors qu’une valeur peu élevée indique une faible dispersion

Il est plus facile d’interpréter la valeur de l’écart-type car il se présente dans la même unité de mesure que la moyenne Variance : S2= ensemble de (Xi – moyenne)2 / (n-1) Variances pour les données de groups : Les calculs se font avec les points milieux des classes (les classes doivent être fermées) Écart-type

s = s2

Il ne peut être calculé pour des données groupées en classes ouvertes La règle de Tchebycheff (outil qui nous permet d’interpréter la valeur de l’écart-type)

P( x − ks < X < x + ks) > 1 − • • • • •

o

1 k2

Si k = 1, la proportion est > 0 Si k = 1,5, la proportion est > 0,55 Si k = 2, la proportion est > 0,75 Si k = 2,5, la proportion est > 0,84

Si k = 3, la proportion est > 0,89 Coefficient de variation (CV) : CV(%) = s/moyenne X 100

 Permet de comparer les dispersions de séries d’observations qui ne sont pas nécessairement dans les mêmes unités de mesure

 Donne une idée du degré d’homogénéité d’une distribution. Une série homogène  CV < 15%  Est indépendant de l’unité de mesure de la variable observée Mesures de position : Permettent de situer une donnée par rapport au x autres (Quantiles (C)) Ces mesures permettent de situer la position d’une observation à l’intérieur de la série d’observations. • Partager les observations triées de la série en k groupes de taille égale et d’indiquer à quel groupe appartient une observation. o en 4 groupes, on obtient des quartiles (Q1, Q2, Q3), o en 10 groupes, on obtient des déciles (D1, D2, ... D9),

o o

en 100 groupes, on obtient des centiles (C1, C2, … C99), en 2 groupes, on obtient la médiane (et Me = Q2)



L’interprétation des quantiles: o 1er quartile : 25 % des observations ont une valeur inférieure ou égale à Q 1, o 3e quartile : 75 % des observations ont une valeur inférieure ou égale à Q 3 o 2e décile : 2/10e (ou 1/5e ou 20 %) des observations ont une valeur inférieure ou égale à D 2 o 85e centile : 85/100e (ou 85 %) des observations ont une valeur inférieure ou égale à C 85



Données individuelles: o Il faut trier les observations en ordre croissant, puis identifier les quantiles en multipliant le nombre total d’observations (n) par la fraction identifiant le quantile. o Si le nombre obtenu n’est pas un nombre entier, le quantile correspond à la donnée de rang le nombre entier immédiatement supérieur. o Si le nombre obtenu est un nombre entier, le quantile correspond à la moyenne des données de rang ce nombre et le nombre entier immédiatement supérieur Données groupées: o Mêmes étapes que pour les données individuelles, mais ont doit regarder la fréquence cumulé pour déterminer quelle classe contient l’observation voulue



C p ≈ BI +

( p ⋅ n − F) ⋅a f Cp



Données groupées en classes: o Cp: quantile p% o BI : borne inférieure de la classe contenant le quantile p% o p: pourcentage désiré sous forme décimale, par exemple 0.50 o n: nombre total d’observations dans la série o F : somme des fréquences absolues de toutes les classes précédant la classe contenant le quantile. Si le quantile désiré se situe dans la première classe, F = 0 o fCp : fréquence de la classe contenant le quantile o a : amplitude de la classe contenant le quantile



Intervalle interquartile (IQ) : mesure de dispersion associée aux quartiles (contient 50% des observations situées au milieu de la série) o Il mesure l’étendue entre le 1er quartile et le 3ème quartile: IQ = Q3 – Q1



Données aberrantes : Une donnée est dite aberrante si sa valeur est:

  •

plus petite que Q1 – 1,5(Q3 – Q1) plus grande que Q3 + 1,5(Q3 – Q1)

Diagramme en boîte

Mesures de forme : fournissent une idée de la symétrie et de l’aplatissement d’une série • Coefficient d'aplatissement (a) (Kurtosis) o Une distribution est plus ou moins aplatie selon que les fréquences des valeurs voisines des valeurs centrales diffèrent peu ou beaucoup les unes par rapport aux autres

α4

∑ ( x −x ) = i

s

   •

4

n−1

4

Si a4 > 3, la courbe est aiguë Si a4 = 3, la courbe est normale (distribution normale) Si a4 < 3, la courbe est aplatie

Coefficient d'asymétrie (SK) (Skewness) o Dans une distribution symétrique, les valeurs de la variable statistique sont également dispersées de part et d’autre

x = Me = Mo SK = 0 d’une valeur centrale

o

Le coefficient de Pearson Sk, est donné par Sk est situé entre -1 et +1

SK ≈

3( x − M e ) x − M o = s s x = Me = Mo •

si Sk = 0,

, la série est symétrique

x < Me < Mo •

si Sk < 0,

, la série a une asymétrie négative

Mo < Me < x • si Sk > 0, , la série a une asymétrie positive Mesures statistiques appropriées selon les échelles de mesure • Échelle nominale (sexe de l’employé) : le mode • •

Échelle ordinale (ordre de préférence pour des vins) : le mode et la médiane Échelle d’intervalle / de rapport (ventes) : le mode, la médiane et la moyenne arithmétique ou l’étendue, l’écart-type et les quantiles