traitement des données manquantes dans les données de panel

pour l'obtention du grade de Maıtre `es sciences (M.Sc.) FACULTÉ ..... ser la méthode de Gauss-Legendre qui est basée sur le calcul numérique des intégrales.
3MB taille 124 téléchargements 145 vues
Mohamed Adel BARHOUMI

´ TRAITEMENT DES DONNEES MANQUANTES ´ DANS LES DONNEES DE PANEL : CAS DES ´ VARIABLES DEPENDANTES DICHOTOMIQUES

M´emoire pr´esent´e a` la Facult´e des ´etudes sup´erieures de l’Universit´e Laval dans le cadre du programme de maˆıtrise en statistique pour l’obtention du grade de Maˆıtre `es sciences (M.Sc.)

´ DES SCIENCES ET DE GENIE ´ FACULTE ´ UNIVERSITE LAVAL ´ QUEBEC

F´evrier 2006

c

Mohamed Adel Barhoumi, 2006

R´ esum´ e Dans ce document, nous examinons la performance de l’estimation par la m´ethode bay´esienne et celle par la m´ethode de vraisemblance. En premier lieu, on s’int´eresse au cas o` u la base de donn´ees est compl`ete pour estimer un mod`ele dichotomique par l’approche du maximum de vraisemblance et qui sera compar´ee a` l’estimation du mod`ele par l’approche bayesienne ; dans ce dernier cas, on utilise la m´ethode d’´echantillonnage de Gibbs. En deuxi`eme lieu, on ´etudie l’impact du m´ecanisme de donn´ees manquantes ainsi que l’´etude des cas complets sur l’estimation des param`etres du mod`ele. En outre, on utilise les mod`eles MCAR, MAR et NMAR. Nous illustrons ces m´ethodes d’estimation a` l’aide des donn´ees simul´ees, ainsi qu’avec des donn´ees r´eelles portant sur la d´ecision d’emploi ou de travail chez les jeunes.

Avant-propos Je tiens a` remercier sinc`erement mon directeur de recherche Monsieur Louis-Paul Rivest, professeur au D´epartement de math´ematique et de statistique de l’Universit´e Laval, pour ses conseils judicieux, sa patience ainsi que sa disponibilit´e ; j’ai beaucoup appr´eci´e travailler sous sa direction. Son encouragement et son aide m’ont permis de mener ce travail a` terme. J’aimerais aussi remercier Monsieur Denis Bolduc pour son aide et ses conseils pr´ecieux. Je d´esire remercier mes parents ; je pense a` ma m`ere ; tes conseils et tes sacrifices sont grav´es dans mon esprit et me guideront pour toute la vie et a` mon p`ere ; ta patience et ton soutien moral au long de mes ´etudes ont ´et´e pour moi d’un grand r´econfort. Je pense aussi a` mon ami Ali et a` son ´epouse Asma pour leur support et leur d´evouement, a` mes fr`eres et soeurs pour leur compr´ehension et leur amour qui m’ont donn´e la force de continuer. Je tiens particuli`erement a` remercier ma fianc´ee Olfa. J’aimerais enfin remercier Kamel B´eji pour la relecture du m´emoire.

Table des mati` eres R´ esum´ e

ii

Avant-Propos

iii

Table des mati` eres

iv

Liste des tableaux

v

Table des figures

vii

1 Introduction

1

2 Donn´ ees longitudinales compl` etes 2.1 Panels complets . . . . . . . . . . 2.1.1 Mod`eles de panel . . . . . 2.2 Mod`ele dichotomique . . . . . . . 2.2.1 Fonction de vraisemblance 2.3 Algorithme de maximisation de la 2.3.1 Formule de Gauss . . . . .

. . . . . .

3 3 4 5 5 6 7

. . . . . . . . . .

9 9 9 11 12 12 14 17 19 20 20

4 Donn´ ees longitudinales incompl` etes 4.1 Panels incomplets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27 27

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fonction de vraisemblance . . . . . . . . . . . . . . .

3 Approche bayesienne 3.1 Approche bayesienne . . . . . . . . . . . . . . . . 3.1.1 Survol de la m´ethodologie bayesienne . . 3.1.2 Distributions a priori . . . . . . . . . . . . 3.2 Inf´erence bayesienne . . . . . . . . . . . . . . . . ´ 3.3 Echantillonnage de Gibbs . . . . . . . . . . . . . 3.3.1 Mod`ele dichotomique . . . . . . . . . . . . 3.3.2 Estimation par l’approche bayesienne . . . 3.4 R´esultats . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Estimateur du maximum de vraisemblance 3.4.2 R´esultats par l’´echantillonnage de Gibbs .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . .

. . . . . . . . . .

. . . . . .

. . . . . . . . . .

. . . . . .

. . . . . . . . . .

. . . . . .

. . . . . . . . . .

. . . . . .

. . . . . . . . . .

v

4.2 Mod`eles pour le m´ecanisme de non-r´eponse . . . . . . . . . . . . . . . . 4.3 Augmentation de donn´ees . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 L’algorithme de base . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Convergence de l’algorithme d’augmentation de donn´ees . . . . 4.4 Estimation pour le mod`ele dichotomique en pr´e- sence de donn´ees manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 M´ecanisme MCAR . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2 M´ecanisme MAR . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.3 M´ecanisme NMAR . . . . . . . . . . . . . . . . . . . . . . . . . ´ 4.4.4 Etude des cas complets . . . . . . . . . . . . . . . . . . . . . . . 4.4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1 M´ecanisme MCAR . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2 M´ecanisme MAR . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.3 M´ecanisme NMAR . . . . . . . . . . . . . . . . . . . . . . . . . ´ 4.5.4 Etude des cas complets . . . . . . . . . . . . . . . . . . . . . . .

27 29 29 31 32 33 39 45 50 57 58 59 64 69 74

5 Conclusion

80

Bibliographie

81

A Distributions a posteriori : cas de donn´ ees compl` etes

85

B Programmes Stata et Matlab B.1 Pragrammes d’estimation par le maximum de vraisemblance . . . . . . B.2 Programmes d’estimation par l’´echantillonnage de Gibbs . . . . . . . . B.2.1 Programme d’estimation par l’´echantillonnage de Gibbs : base de donn´ees compl`etes . . . . . . . . . . . . . . . . . . . . . . . . . B.2.2 Programme adapt´e a des donn´ees manquantes selon diff´erents m´ecanismes de non r´eponse . . . . . . . . . . . . . . . . . . . . B.2.3 Programme pour le m´ecanisme MAR . . . . . . . . . . . . . . . B.3 Programme pour les cas complets . . . . . . . . . . . . . . . . . . . . .

89 89 92

97 101 106

C R´ esultats pour diff´ erentes simulations C.1 Simulations pour le m´ecanisme MCAR . . . . . . . . . . C.2 Simulations pour le m´ecanisme MAR . . . . . . . . . . . C.3 Simulation pour le m´ecanisme NMAR . . . . . . . . . . . C.4 Simulation pour l’´etude des cas complets base de donn´ees

112 112 114 116 117

. . . . . . . . . . . . . . . MCAR

. . . .

. . . .

. . . .

92

Liste des tableaux 3.1 Estimation du maximum de vraisemblance . . . . . . . . . . . . . . . . 3.2 Les diff´erents sc´enarios . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 R´esultats via l’´echantillonnage de Gibbs pour un ´echantillon de taille 100 et dont les vraies valeurs pour µ, β et σ 2 sont 0, 1 et 1, respectivement. 4.1 R´esultats via l’´echantillonnage de Gibbs, sc´enario 1, avec diff´erentes proportions de donn´ees manquantes MCAR dans chaque p´eriode . . . . . 4.2 R´esultats via l’´echantillonnage de Gibbs, sc´enario 1, avec diff´erentes proportions de donn´ees manquantes MAR dans chaque p´eriode . . . . . . 4.3 R´esultats via l’´echantillonnage de Gibbs, sc´enario 1, avec diff´erentes proportions de donn´ees manquantes NMAR dans chaque p´eriode . . . . . 4.4 R´esultats via l’´echantillonnage de Gibbs, sc´enario 1, avec diff´erentes proportions de donn´ee manquante CC-MCAR dans chaque p´eriode . . . . 4.5 R´esultats via l’´echantillonnage de Gibbs avec diff´erentes proportions de donn´ees manquantes NMAR, ´etude des cas complets : sc´enario 1 du tableau 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6 Description de la base de donn´ees : Moyenne des variables explicatives 4.7 R´esultats via l’´echantillonnage de Gibbs avec diff´erentes proportions de donn´ees manquantes MCAR, . . . . . . . . . . . . . . . . . . . . . . . 4.8 R´esultats via l’´echantillonnage de Gibbs avec diff´erentes proportions de donn´ees manquantes MAR . . . . . . . . . . . . . . . . . . . . . . . . 4.9 R´esultats via l’´echantillonnage de Gibbs avec de diff´erentes proportions de donn´ees manquantes NMAR. . . . . . . . . . . . . . . . . . . . . . 4.10 R´esultats via l’´echantillonnage de Gibbs avec diff´erentes proportions de donn´ees manquantes MCAR, ´etudes des cas complets. . . . . . . . . . C.1 R´esultats via l’´echantillonnage de Gibbs sc´enario 1 avec de diff´erents proportions de donn´ees manquantes MCAR dans chaque p´eriode . . . C.2 R´esultats via l’´echantillonnage de Gibbs sc´enario1 avec de diff´erents proportions de donn´ees manquantes MAR dans chaque p´eriode . . . . . . C.3 R´esultats via l’´echantillonnage de Gibbs sc´enario1 avec de diff´erents proportions de donn´ees manquantes NMAR dans chaque p´eriode . . . . .

20 20 21

34 40 45 51

52 58 59 64 69 74

113 115 116

vii

C.4 R´esultats via l’´echantillonnage de Gibbs sc´enario 1 avec de diff´erents proportions de donn´ees manquantes MCAR dans chaque p´eriode : ´etude des cas complets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

117

Table des figures 3.1 Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement : sc´enario 1 du tableau 3.2 . . . . . . . . . . . . . . . . 3.2 Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement : sc´enario 4 du tableau 3.2 . . . . . . . . . . . . . . . . 3.3 Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement : sc´enario 1 du tableau 3.2 . . . . . . . . . . . . . . . . . . . . . . 3.4 Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement : sc´enario 4 du tableau 3.2 . . . . . . . . . . . . . . . . . . . . . . 4.1 Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees MCAR avec 5% de donn´ees manquantes : sc´enario 1 du tableau 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees MCAR avec 5% de donn´ees manquantes : sc´enario 1 du tableau 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees MCAR avec 66% de donn´ees manquantes : sc´enario 1 du tableau 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement, MCAR avec 66% de donn´ees manquantes : sc´enario 1 du tableau 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees MAR de 5% : sc´enario 1 du tableau 3.2 4.6 Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees MAR de 5% : sc´enario 1 du tableau 3.2 . . . . . . 4.7 Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees MAR avec 66% de donn´ees manquantes : sc´enario 1 du tableau 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8 Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees MAR avec 66% de donn´ees manquantes : sc´enario 1 du tableau 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22 23 24 25

35

36

37

38 41 42

43

44

ix

4.9 Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees NMAR avec 5% de donn´ees manquantes : sc´enario 1 du tableau 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . 4.10 Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement, Cas de donn´ees NMAR avec 5% de donn´ees manquantes : sc´enario 1 du tableau 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.11 Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees NMAR avec 60% de donn´ees manquantes : sc´enario 1 du tableau 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . 4.12 Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees NMAR avec 60% de donn´ees manquantes : sc´enario 1 du tableau 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.13 Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, avec une proportion de donn´ees manquantes de 5%, analyse des cas complets MCAR : sc´enario 1 du tableau 3.2 . . . . . . . . . . . 4.14 Convergence de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, avec une proportion de donn´ees manquantes de 5%, analyse des cas complets MCAR : sc´enario 1 du tableau 3.2 . . . . . . . . . . . . . 4.15 Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, avec une proportion de donn´ees manquantes de 66%, analyse des cas complets MCAR : sc´enario 1 du tableau 3.2 . . . . . . . 4.16 Convergence de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, avec une proportion de donn´ees manquantes de 66%, analyse des cas complets MCAR : sc´enario 1 du tableau 3.2 . . . . . . . . . . . . . 4.17 Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 7%, analyse des cas MCAR . . . . . . . . . . . . . . . . 4.18 Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 7%, analyse des cas MCAR . . . . . . . . . . . . . . . . . . . . . . . 4.19 Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 62%, analyse des cas MCAR . . . . . . . . . . . . . . . 4.20 Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 62%, analyse des cas MCAR . . . . . . . . . . . . . . . . . . . . . . 4.21 Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 10%, analyse des cas MAR . . . . . . . . . . . . . . . . 4.22 Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 10%, analyse des cas MAR . . . . . . . . . . . . . . . . . . . . . . . 4.23 Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 42%, analyse des cas MAR . . . . . . . . . . . . . . . . 4.24 Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 42%, analyse des cas MAR . . . . . . . . . . . . . . . . . . . . . . .

46

47

48

49

53

54

55

56 60 61 62 63 65 66 67 68

x

4.25 Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 7%, analyse des cas NMAR . . . . . . . . . . . . . . . . 4.26 Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 7%, analyse des cas NMAR . . . . . . . . . . . . . . . . . . . . . . . 4.27 Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 65%, analyse des cas NMAR . . . . . . . . . . . . . . . 4.28 Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquante de 65%, analyse des cas NMAR . . . . . . . . . . . . . . . . . . . . . . 4.29 Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 7%, analyse des cas Complets . . . . . . . . . . . . . . 4.30 Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 7%, analyse des cas cas complets . . . . . . . . . . . . . . . . . . . . 4.31 Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquante de 62%, analyse des cas complets . . . . . . . . . . . . . . 4.32 Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquante de 62%, analyse des cas complets . . . . . . . . . . . . . . . . . . . . .

70 71 72 73 75 76 77 78

Chapitre 1 Introduction Lors de l’analyse d’enquˆetes, il est tr`es fr´equent de confronter le probl`eme de donn´ees manquantes. Ce ph´enom`ene se manifeste par le refus de certaines personnes de r´epondre a` certaines questions (on parle dans ce cas de non r´eponse partielle) ou encore de r´epondre au questionnaire au complet (il s’agit de la non r´eponse totale). Une autre situation se manifeste ´egalement lorsqu’il est impossible de suivre certains individus dans une enquˆete par panel (ou longitudinale). Ces donn´ees manquantes peuvent se retrouver dans les variables d´ependantes ou les variables explicatives. La pr´esence de ces derni`eres entraˆıne une estimation moins pr´ecise des param`etres d’int´erˆet. Il existe plusieurs solutions au probl`eme de donn´ees manquantes. Une solution consiste a` ´eliminer toutes les observations qui comportent au moins une variable a` valeur manquante on parle dans ce cas de l’analyse des cas complets (CC). En effet, la strat´egie d’´elimination des observations incompl`etes est la solution par d´efault de la majorit´e des logiciels statistiques. Cependant cette m´ethode est g´en´eralement inappropri´ee, parce que la perte d’informations qui en d´ecoule peut g´en´erer un biais important, dont on discutera plus loin dans ce document. En plus, l’analyste s’int´eresse a` l’inf´erence a` partir de l’´echantillon au complet. Ce travail porte sur l’´etude des donn´ees manquantes dans le cas d’une enquˆete par panel. Litte et Rubin (2002) pr´esentent diff´erents m´ecanismes de donn´ees manquantes. Il peut s’agir soit d’un m´ecanisme manquant compl`etement au hasard (MCAR), d’un m´ecanisme manquant au hasard (MAR) et d’un m´ecanisme n’est pas manquant au hasard (NMAR). Yi et Thompson (2005), utilisent l’approche de maximum de vraisemblance pour estimer a` la fois la moyenne de la variable r´eponse et les param`etres d’association d’une base de donn´ees longitudinales binaires incompl`etes avec un m´ecanisme NMAR. Ibrahim et al. (2005) comparent quatres approches d’inf´erence pour les mod`eles lin´eaires g´en´eralis´es avec donn´ees ayant des variables explicatives manquantes et o` u le

Chapitre 1. Introduction

2

m´ecanisme de non r´eponse est MAR : La m´ethode de maximum de vraisemblance, l’imputation multiple, la m´ethode bay´esienne et la m´ethode d’estimation d’´equation pond´er´ee. L’objectif premier de ce travail est de comparer les m´ethodes de maximum de vraisemblance et bayesienne combin´ee avec l’´echantillonnage de Gibbs pour l’estimation d’un mod`ele binaire. La deuxi`eme partie de ce travail porte sur l’utilisation de l’approche bayesienne et l’´echantillonnage de Gibbs pour contourner le probl`eme de donn´ees manquantes. Plus pr´ecisemment, on s’int´eresse a` l’´etude des cas complets ainsi qu’aux diff´erents m´ecanismes de donn´ees manquantes, MCAR, MAR et NMAR. Pour ce faire, nous exploitons une base de donn´ees synth´etiques en premier lieu et en deuxi`eme lieu on utilise une base de donn´ees r´eelles.

Chapitre 2 Donn´ ees longitudinales compl` etes

2.1

Panels complets

Pour qualifier les bases de donn´ees pour lesquelles nous poss´edons de l’information temporelle concernant un ensemble d’individus, nous utilisons le terme donn´ees panel. Ces derni`eres sont compos´ees de coupes transversales et de coupes temporelles. Si chaque individu participe a` chacune des coupes temporelles de l’enquˆete, nous parlons alors d’une base de panels complets, c’est-`a-dire un regroupement de coupes transversales o` u tous les individus sont observ´es a` chaque p´eriode. Les grands avantages des donn´ees panel se r´esument comme suit : 1. Expliquer les effets dynamiques entre les agents, par exemple pour mesurer le taux de chˆomage, les coupes transversales peuvent estimer la proportion des chˆomeurs a` une p´eriode donn´ee. Les donn´ees panel permettent de suivre l’´evolution de la situation de ces derniers dans le temps. 2. Identifier et mesurer les effets dynamiques que les donn´ees transversales ne peuvent pas d´etecter. Par exemple si on veut savoir si le marriage (homme-femme) peut augmenter ou diminuer le salaire d’un travailleur, alors il faut observer le salaire des travailleurs avant et apr`es le marriage, ce qui n´ecessite l’utilisation des donn´ees panel. 3. Contrˆ oler l’h´et´erogeneit´e des individus. Aussi, interroger a` r´ep´etition les diff´erents individus permet d’avoir une base de donn´ees plus informative et contenant des informations diverses. Par contre, plusieurs inconv´enients reli´es aux donn´ees longitudinales compl`etes limitent leur disponibilit´e dans la pratique. Le premier inconv´enient est celui du suivi des per-

Chapitre 2. Donn´ees longitudinales compl`etes

4

sonnes ´echantillonn´ees et est associ´e au probl`eme de la non r´eponse. En effet, d`es que nous observons la pr´esence des donn´ees manquantes, qui peuvent concerner des variables, des unit´es pour certaines p´eriodes, ou provenir du fait que certaines unit´es de la dimension transversale ne sont pas observ´ees a` toutes les p´eriodes, nous avons alors des donn´ees longitudinales incompl`etes, que nous pr´esentons au chapitre suivant. Pour plus de d´etails il faut se r´ef´erer a` Baltagi (1995, chapitre 1). Dans la prochaine section, on pr´esente diff´erents mod`eles de panel.

2.1.1

Mod` eles de panel

Il existe beaucoup de litt´erature concernant la mod´elisation des donn´ees panel. Nous pr´esenterons deux mod`eles de panel. Pour cela, prenons comme exemple le mod`ele de regression lin´eaire suivant : yit = θ + βxit + uit , i = 1, ..., n et t = 1, ..., T,

(2.1)

uit = αi + it , o` u xit est la variable explicative et yit est la variable d´ependante a` caract`ere continu. L’indice i est celui de l’individu alors que t repr´esente le temps. La composante αi repr´esente la caract´eristque de l’individu i, β est le param`etre d’int´erˆet et it est le terme d’erreur qui suit une distribution N (0, σ 2 ). Le terme uit d´enote l’erreur compos´ee du mod`ele, d’o` u l’appellation, mod`ele a` erreur compos´ee. Dans ce cas, nous sommes en pr´esence d’un mod`ele a` erreur compos´ee «One-Way Error Component Regression Model». La notation de ce mod`ele varie selon la nature du param`etre αi . Si αi est fixe alors il s’agit d’un mod`ele de panel a ` effets fixes, et si αi est al´eatoire alors on parle d’un mod`ele a ` effets al´eatoires. Il existe aussi un autre type de mod`ele de panel : yit = θ + βxit + uit , i = 1, ..., n et t = 1, ..., T, uit = αi + λt + it , o` u λt est l’effet temporel ; dans ce cas on parle d’un mod`ele «Two-Way Error Component Regression Model». Dans ce contexte, on parle d’un mod`ele a` effets fixes si λt et αi sont fixes et on parle d’un mod`ele a` effets al´eatoires si ces deux param`etres sont al´eatoires. ` la section prochaine Pour plus de d´etails a` ce sujet voir Baltagi (1995, chapitre 2). A nous pr´esentons le mod`ele d’int´erˆet ainsi que diff´erentes m´ethodes d’estimation.

Chapitre 2. Donn´ees longitudinales compl`etes

2.2

5

Mod` ele dichotomique

Supposons que nous visitons chaque individu T fois. Soient Yit , la variable r´eponse pour l’individu i a` la p´eriode t, et Yi = (Yi1 , ...YiT ), le vecteur r´eponse pour l’individu i = 1, ..., n. Le mod`ele fait intervenir une variable latente Yit∗ . Une r´ealisation de Yi est ∗ ∗ 0 not´ee par yi = (yi1 , ...yiT )0 et une r´ealisation de Yi∗ est not´ee par Yi∗ = (yi1 , ...yiT ) . Soit xi = (xi1 , ..., xiT ) un vecteur de covariables de dimension (T × 1) pour l’individu i. Si Yi est dichotomique, un des mod`eles les plus flexibles est le probit que nous d´ecrivons dans cette sous section. Posons

Yit =

(

1, si Yit∗ ≥ 0 0, si Yit∗ < 0 ,

o` u i = 1, ..., n est l’indice de l’individu, t = 1, ..., T est le temps et Yit∗ est une variable latente qui s’´ecrit comme

Yit∗ = αi + βxit + it ,

(2.2)

o` u le param`etre αi repr´esente l’effet individuel non observable. Nous supposons que αi est une variable al´eatoire de loi normale de moyenne µ et variance σ 2 et it ∼ N (0, 1). On a alors

P (Yit = 1|αi , β, xit ) = Φ(αi + βxit ) ce qui donne P (Yit = yit |αi ) = [Φ(αi + βxit )]yit [1 − Φ(αi + βxit )]1−yit . Les param`etres d’int´erˆet sont β, µ et σ 2 . Dans la section suivante, nous nous penchons sur la fonction de vraisemblance du mod`ele.

2.2.1

Fonction de vraisemblance

Soient yi = (yi1 , ..., yiT ) et xi = (xi1 , ..., xiT ), les donn´ees dont nous disposons et supposons que (yi1 , ..., yiT ) sont ind´ependants sachant (xi , αi ). Donc la distribution conditionnelle de (yi1 , ..., yiT |xi , αi ), ´etant donn´e β, est

Chapitre 2. Donn´ees longitudinales compl`etes

f (yi |αi , β, xi ) =

T Y t=1

[Φ(αi + βxit )]yit [1 − Φ(αi + βxit )]1−yit .

6

(2.3)

Mais puisque les αi ne sont pas observables, alors il ne faut pas qu’ils apparaissent dans l’expression de la fonction de vraisemblance. Il faut utiliser la distribution marginale de yi donn´ee par



  1 1 2 exp − 2 (αi − µ) dαi f (yi |αi , β, xi ) √ fm (yi |β, xi , µ, σ) = 2σ 2πσ −∞ Z

(2.4)

Le logarithme de (2.4) donne la log-vraisemblance marginale, li (θ), de l’individu i, avec θ = (β, σ 2 , µ). Le logarithme de la fonction de vraisemblance est :

l(θ) =

n X

li (θ).

(2.5)

i=1

Dans la section suivante, nous pr´esenterons l’algorithme que nous avons utilis´e pour maximiser cette fonction.

2.3

Algorithme de maximisation de la fonction de vraisemblance

La fonction de vraisemblance (2.4) ne poss`ede pas de forme explicite. Cependant, diff´erentes approches sont disponibles afin de l’approximer. Entre autre, on va utiliser la m´ethode de Gauss-Legendre qui est bas´ee sur le calcul num´erique des int´egrales d´efinies ou ind´efinies. Soit f : [−1, 1] −→ R, une fonction continue donn´ee. On d´esire R1 approcher num´eriquement la quantit´e −1 f (x)dx. D´ efinition Si g est une fonction continue sur [−1, 1] alors la formule de quadrature est donn´ee par J(g) =

M X j=1

ωj g(tj ),

Chapitre 2. Donn´ees longitudinales compl`etes

7

qui est d´efinie par la donn´ee de M points d’int´egration telle que − 1 ≤ t1 ≤ ... ≤ tM ≤ 1 puis M nombres r´eels ω1 , ..., ωM appel´es poids de la formule de quadrature. Ces M points et ces M poids doivent ˆetre d´efinis de sorte que J(g) soit une approximation R1 num´erique de −1 g(t)dt. On dit que la formule de quadrature J(g) est exacte pour les R1 polynˆomes de degr´e r ≥ 0 si J(p) = −1 p(t)dt pour tout polynˆome de degr´e inf´erieur ou ´egal a` r.

2.3.1

Formule de Gauss

L’id´ee des formules de Gauss est de choisir des points d’int´egration t1 , ..., tM particuliers de sorte que la formule de quadrature soit exacte pour des polynˆomes de degr´e r aussi grand que possible. Le polynˆome de Legendre de degr´e M est d´efini par GM (t) =

1 dM 2 (t − 1)M . 2M M ! dtM

(2.6)

Th´ eor` eme 1. Les polynˆ omes de Legendre, PM (X), de degr´e G0 , G1 , G2 , ... v´erifient les propri´et´es suivantes 1. G0 , ..., GM forment une base de PM (X). R1 2. Si i 6= j alors −1 Gi (t)Gj (t)dt = 0, c’est la propri´et´e d’orthogonalit´e.

3. GM a ` exactement M z´eros r´eels distincts tous compris dans l’intervalle (−1, 1), ces z´eros sont appel´es points de Gauss.

On dit que la quadrature J(g) = M points si

PM

j=1

ωj g(tj ) est la formule de Gauss-Legendre a`

1. Les points d’int´egration t1 < ... < tM sont les M z´eros du polynˆome de Legendre. R1 2. Les poids ω1 , ..., ωM sont d´efinis par les relations ωj = −1 Lj (t)dt, j = 1, ..., M o` u L1 , ..., LM est la base de Lagrange de PM −1 (X) associ´ee aux M points de Gauss. Q t−ti e polynˆome Pour d´efinir la base de Lagrange, soit Lk d´efini par Lk (t) = N i=0 tk −ti appel´ de Lagrange est tel que : 1. Lk est un polynˆome de degr´e N , 2. Lk (tj ) = 0 si j 6= k, 0 ≤ j ≤ N ,

3. Lk (tk ) = 1.

Chapitre 2. Donn´ees longitudinales compl`etes

8

Alors L0 , L1 , ..., LN forment une base de PN (X), appel´ee base de Lagrange, associ´ee aux points t0 , t1 , ..., tN , pour plus de d´etails, voir Abramowitz et Stegun (1972 page 916). Nous avons programm´e cet algorithme d’int´egration par Gauss-Legendre en utilisant le logiciel STATA et on a pris M = 40 points d’int´egrations. Ensuite, nous avons cr´e´e un programme qui maximise la fonction de vraisemblance (2.5), en exploitant la commande ml maximize de STATA, qui utilise l’algorithme de Newton-Raphson. Les r´esultats sur les donn´ees simul´ees sont pr´esent´es dans le chapitre suivant. Ce dernier porte sur une autre m´ethode d’estimation, compl`etement diff´erente de la m´ethode d´ecrite ci-haut, qui se base sur l’´echantillonnage de Gibbs.

Chapitre 3 Approche bayesienne Dans ce chapitre, nous estimons le mod`ele de base, tel que pr´esent´e a` la section 2.2, en utilisant l’approche bayesienne combin´ee avec l’´echantillonnage de Gibbs. Pour ce faire, nous rappelons les ´el´ements de base de la technique bayesienne et de l’´echantillonnage de Gibbs.

3.1 3.1.1

Approche bayesienne Survol de la m´ ethodologie bayesienne

L’approche bay´esienne concentre son attention sur l’utilisation de l’information ´echantillonnale, de distributions de probabilit´es a priori et de distributions de probabilit´es a posteriori conjointes des param`etres pour d´ecrire l’incertitude sur ces derniers. La statistique bay´esienne est bas´ee sur une simple r`egle de probabilit´e. Pour motiver la simplicit´e de cette approche nous consid´erons deux variables al´eatoire A et B. La r`egle de probabilit´e est

f (A, B) = f (B)f (A|B)

(3.1)

o` u f (A, B) est la densit´e conjointe de A et B, f (A|B) est la densit´e conditionnelle de A sachant B et f (B) est la densit´e marginale de B. Alternativement on peut changer le rˆole de A et B et trouver l’expression de la densit´e conjointe de A et B :

10

Chapitre 3. Approche bayesienne

f (A, B) = f (A)f (B|A).

(3.2)

Une simple manipulation de (3.1) et (3.2) donne la r`egle de Bayes qui est au coeur de l’approche bayesienne : f (B|A) =

f (B)f (A|B) . f (A)

(3.3)

Pla¸cons nous dans le contexte d’une r´egression lin´eaire et o` u on s’interesse a` l’estimation du vecteur de param`etres θ et soit y, un vecteur de donn´ees. On utilise la r`egle de Bayes et on remplace B par θ et A par y dans l’equation (3.3), et ce qui donne

f (θ|y) =

f (θ)f (y|θ) , f (y)

(3.4)

o` u f (θ|y) est la densit´e a posteriori, f (y|θ) est la fonction de vraisemblance, f (θ) est la densit´e a priori et f (y) est la densit´e marginale de y. La caract´eristique d’int´erˆet de l’approche bayesienne est la densit´e a posteriori, f (θ|y). Pour mettre en oeuvre l’id´ee pr´esent´ee, supposons que nous avons le mod`ele de r´egression suivant :

yi = βxi + i ,

(3.5)

o` u i ∼ N (0, σ). Selon cette notation, le vecteur de param`etre θ contient β et σ. La loi de distribution des param`etres β et σ, ajust´ee a` la lumi`ere des observations de l’´echantillon, se fait au moyen du th´eor`eme de Bayes tel que pr´esent´e a` l’´equation (3.4) :

g(β, σ|x, y) =

h(x, y|β, σ) × g(β, σ) , h(x, y)

telle que

h(x, y) =

  g(β, σ|x, y) :    h(x, y|β, σ) : o` u  h(x, y) :    g(β, σ) :

Z

h(x, y|β, σ)g(β, σ|x, y)dθdσ, β,σ

distribution a posteriori des param`etres d’int´erˆet, fonction de vraisemblance des donn´ees, distribution marginale des donn´ees distribution a priori des param`etres.

(3.6)

11

Chapitre 3. Approche bayesienne

La distribution a priori est ´etablie en fonction des croyances de l’analyste, son intuition et ses analyses pass´ees, alors que la fonction de vraisemblance contient des informations associ´ees a` l’´echantillon. Plus loin nous montrerons comment d´eterminer des lois a posteriori a` partir des distributions a priori. Concentrons nous pour l’instant sur la question de la distribution a priori qui sera trait´ee dans la section suivante.

3.1.2

Distributions a priori

Suivant la conception bay´esienne, les distributions initiales permettent d’incorporer toutes les connaissances et opinions a priori sur les param`etres disponibles avant la collecte des donn´ees. Cette possibilit´e constitue a` l’´evidence un apport potentiel consid´erable. Notons que par d´efinition, une classe de distributions a priori forme une famille conjugu´ee de distribution a priori, si la densit´e a posteriori, p(θ|x), appartient a` la mˆeme classe de distribution a priori quelque soit x. Cependant, la situation qui cause probl`eme est celle o` u ces distributions a priori sont inconnues et/ou peu fiables. Dans le cadre bay´esien, la r´eponse est apport´ee par l’utilisation des distributions a priori non-informative, con¸cues pour exprimer un ´ etat d’ignorance sur les param`etres, en ne privil´egiant pas a priori de valeurs particuli`eres pour θ (Jeffreys 1998). Les probabilit´es a posteriori correspondantes expriment l’apport propre des donn´ees. Cette approche de l’inf´erence bay´esienne est maintenant reconnue comme un standard, pour plus de d´etails voir Lee (1989, chapitre 2). Mais est-ce que l’utilisation d’une distribution non-informative est toujours possible ? La r´eponse est oui dans le cas o` u l’espace des param`etres est discret et fini, par exemple Θ = {θ1 , ..., θn }. Alors la distribution a priori non-informative est p(θi ) =

1 , i = 1 ,..., n n

Aussi, dans le cas o` u nous avons un espace de param`etres continu et born´e, comme par exemple Θ = [a, b], −∞ < a < b < ∞, alors la distribution a priori est uniforme, p(θ) =

1 , a < θ < b, b−a

donc il s’agit bien d’une distribution non-informative pour θ. De plus, une des solutions propos´ee est d’utiliser une distribution invariante par toute transformation qui prend le nom de l’a priori de Jeffrey, qui est d´efini comme :

p(θ) ∝ [I(θ)]1/2 ,

(3.7)

12

Chapitre 3. Approche bayesienne

o` u I(θ) repr´esente l’information de Fisher qui a la forme suivante :

I(θ) = −Ex|θ



∂2 logf (x|θ) ∂θ 2



(3.8)

o` u f (x|θ) est la fonction de vraisemblance. Donc dans le cas de distributin a priori de Jeffrey la fonction de vraisemblance joue un rˆole important a` la d´etermination de la distribution a priori (3.7), pour plus de d´etails voir Carlin et Louis (2000, chapitre 2).

3.2

Inf´ erence bayesienne

L’inf´erence statistique traditionnelle se base sur les probabilit´es d’´echantillonnage, p(y|θ), pour construire le test d’hypoth`ese et l’intervalle de confiance. Dans le cas d’inf´erence ˆ bayesienne, pour obtenir un estimateur θ(y) de θ, nous avons besoin de s´electionner la carat´eristique qui r´esume la densit´e a posteriori f (θ|y), comme la moyenne, le m´ediane ˆ ou le mode. Pour obtenir une mesure de pr´ecision d’un estimateur θ(y), on utilise la ˆ variance a posteriori de θ(y) : 2 ˆ = Eθ|y (θ − θ(y)) ˆ var θ(y)

(3.9)

On montre dans la litt´erature, voir Carlin et Louis (2000, chapitre 2), que la moyenne a posteriori est le meilleur estimateur qu’on peut prendre. Dans la prochaine section on expliquera l’´echantillonnage de Gibbs.

3.3

´ Echantillonnage de Gibbs

L’´echantillonnage de Gibbs est une technique permettant de g´en´erer des variables al´eatoires a` partir d’une distribution marginale. Pour expliquer le fonctionnement de l’´echantillonnage de Gibbs, nous allons exploiter le cas d’une densit´e bivari´ee. Supposons qu’on a une densit´e conjointe f (x, y) et on s’int´eresse a` la simulation de x et y. On simule d’abord x puis y ´etant donn´e x ou l’inverse. Ceci n´ecessite de connaitre les fonctions suivantes :

(

R fX (x) = y f (x, y)dy R fY |X (y) = x f (y|x)dx

13

Chapitre 3. Approche bayesienne

Mais dans le cas o` u fX (x) et fY (y) n’ont pas une forme explicite et que les distributions conditionnelles f (x|y) et f (y|x) sont connues alors on utilise l’´echantillonneur de Gibbs : ´ 1. Etape 1 : Donner des valeurs de d´epart pour x0 et y 0 et poser i = 1 ; ´ 2. Etape 2 : Effectuer les tirages conditionnels de la fa¸con suivante : xi ∼ f (x|y i−1 )

(3.10)

y i ∼ f (y|xi )

´ 3. Etape 3 : Poser i = i+1 et retourner a` l’´etape 2 et proc´eder ainsi jusqu’`a la convergence du processus. Autrement dit, les variables al´eatoires xi et y i convergent vers un tirage a` partir de leur distribution conjointe. Ceci donne une s´equence de Gibbs de variables al´eatoires : (x0 , y 0 ), (x1 , y 1 ), ..., (xm , y m ).

(3.11)

Selon la sp´ecification de la distribution conditionnelle, f (xi |y i−1 ) correspond souvent a` une distribution normale, logistique ou a` une autre distribution a` partir de laquelle nous pouvons facilement proc´eder a` des tirages. Sous certaines conditions de r´egularit´e, si m → ∞, alors la distribution conjointe de (X m , Y m ) converge vers la vraie densit´e conjointe h(x, y) (Casella, 1999). Toutefois, la technique d’´echantillonnage de Gibbs est bas´ee sur la th´eorie des chaˆınes de Markov qui est une suite de variables al´eatoires (Xn , n ≥ 0) a` valeurs dans S, un espace d’´etats, e, discret fini ou infini d´enombrable. Une telle th´eorie doit satisfaire les deux conditions suivantes : 1. p [Xn+1 = s|(X0 , ..., Xn ) = (e0 , ..., r)] = p [Xn+1 = s|Xn = r], c’est la propri´et´e de Markov. 2. p [Xn+1 = s|Xn = r] ne d´epend pas de n, c’est la propri´et´e d’homog´eneit´e dans le temps. Une s´equence est dite chaˆıne markovienne si l’observation pr´ec´edente sp´ecifie enti`erement ` cet la distribution de l’observation pr´esente, pour plus de d´etails voir Ross (2000). A ´egard, il faut noter que le but de la m´ethode Markov Chain Monte Carlo (MCMC ) est de produire des tirages de la loi conjointe f (.) a` partir des tirages faits dans les distributions conditionnelles compl`etes en les visitant alternativement de fa¸con syst´ematique. Nous pouvons g´en´eraliser au cas de distributions multivari´ees. En effet, soit une densit´e conjointe f (θ1 , θ2 , θ3 , ..., θL ) et supposons que toutes les densit´es conditionnelles, compl`etes f (θ1 |θ2 , θ3 , ..., θL ), f (θ2 |θ1 , θ3 , ..., θL ), ..., f (θL |θ1 , θ2 , ..., θL−1 ), soient de forme simple et facile a` utiliser. Alors, en utilisant la mˆeme d´emarche que dans le cas de la densit´e bivari´ee, les ´etapes de l’algorithme nous permettant d’obtenir un tirage de f (θ1 , θ2 , θ3 , ..., θL ) se d´eduisent comme suit :

14

Chapitre 3. Approche bayesienne

´ – Etape 1 : Donner des valeurs de d´epart, θ10 , θ20 , θ30 , ..., θL0 et poser i = 1. ´ – Etape 2 : Effectuer les tirages conditionnels de la fa¸con suivante : θ1i ∼ f (θ1 |θ2i−1 , θ3i−1 , ..., θLi−1 ) θ2i ∼ f (θ2 |θ1i , θ3i−1 , ..., θLi−1 ) θ3i ∼ f (θ3 |θ1i , θ2i , ..., θLi−1 )

(3.12)

...

i θLi ∼ f (θL |θ1i , θ2i , ..., θL−1 ).

´ – Etape 3 : Poser i = i + 1 et retournez a` l’´etape 2 et proc´eder ainsi jusqu’`a convergence vers la distribution stationnaire du processus. Dans la prochaine section, nous utilisons cette m´ethode pour estimer les param`etres du mod`ele pr´esent´e a` la section 2.2.

3.3.1

Mod` ele dichotomique

Pla¸cons nous dans une situation o` u la variable d´ependante est dichotomique et revenons a` notre mod`ele de base pr´esent´e a` la section 2.2

Yit =

(

1, si Yit∗ ≥ 0 0, si Yit∗ < 0 ,

o` u i = 1, ..., n est l’indice de l’individu, t = 1, ..., T est le temps et Yit∗ est une variable latente qui s’´ecrit comme Yit∗ = αi + βxit + it ,

(3.13)

o` u le param`etre αi repr´esente l’effet individuel non observable. Nous supposons que αi est une variable al´eatoire de loi normale de moyenne µ et variance σ 2 et it ∼ N (0, 1). Il est pratique de consid´erer les variables latentes, yit∗ , et les effets individuels, αi , commes des param`etres. Dans cette section nous expliquons comment estimer les param`etres de ce mod`ele, yit∗ , i = 1, ..., n et t = 1, ..., T , αi , i = 1, ..., n, β, µ, et σ 2 . Donc, on dispose de n(T + 1) + 3 param`etres a` estimer. Dans le contexte de l’estimation conjointe de β, µ, αi , yit∗ et σ 2 le lien entre l’information a priori, la nouvelle information et la distribution a posteriori se fait au moyen du th´eor`eme de Bayes tel que vu a` la section 3.1 :

15

Chapitre 3. Approche bayesienne

f (β, µ, α, y ∗, σ 2 , y|x) = g(β, µ, α, y ∗, σ 2 |x, y) × h(y|x) = h(y|β, µ, α, y ∗, σ 2 , x) × g(β, µ, α, y ∗, σ 2 , x).

(3.14)

avec α = (α1 , ..., αn ) ∗ ∗ yi∗ = (yi1 , ..., yiT )

y∗

= (y1∗ , ..., yn∗ )

Ainsi, la distribution a posteriori qui nous int´eresse est h(y|β, µ, α, y ∗, σ 2 , x) × g(β, µ, α, y ∗, σ 2 |x) g(β, µ, α, y , σ |x, y) = . h(y|x) ∗

2

Notons que toutes les distributions sont conditionnelles a` x, mais pour all´eger la notation on les enl`eve des variables sur lesquelles on conditionne. Dans plusieurs cas, la distribution a posteriori est math´ematiquement complexe et donc inutilisable de fa¸con concr`ete. Cette limitation est contourn´ee a` l’aide de l’´echantillonnage de Gibbs, tel que vu a` la section 3.3. En effet, dans l’application qui nous int´eresse, la densit´e jointe, g(β, µ, α, y ∗, σ 2 |y), n’a pas de forme explicite. La solution a` ce probl`eme serait de faire des tirages a` partir des distributions a posteriori conditionnelle de chaque param`etre. Les ´etapes de l’algorithme qui nous permet d’obtenir un tirage dans la loi conjointe g() sont comme suit : – ´etape 1 : donner des valeurs de d´eparts pour β 0 , µ0 , αi0 , yit∗0 et poser k = 1, o` uk est le num´ero de l’it´eration. – ´etape 2 : effectuer les tirages conditionnels de fa¸con suivante :

∗ yit∗k+1 ∼ f (yit∗ |β k , αik , y−it , yit )

k , yi∗k+1 , β k , µk , σ 2,k ) αik+1 ∼ f (αi |α−i

β k+1 ∼ f (β|αk+1, y ∗k+1 , µk , σ 2,k )

µk+1 ∼ f (µ|y ∗k+1, αk+1 , β k+1 , σ 2,k )

σ 2,k+1 ∼ f (σ 2 |y ∗k+1 , αk+1 , β k+1 , µk+1 )

(3.15)

16

Chapitre 3. Approche bayesienne

– ´etape 3 : Poser k = k + 1 et retourner a` l’´etape 2 Pour d´eterminer les diff´erentes distributions conditionnelles a posteriori des param`etres, pr´esent´es ci-dessus, nous allons supposer des lois a priori.

Distribution a priori Les distributions a priori sont comme suit :

fYit∗ (yit∗ |β, αi ) = φ (yit∗ − αi − βxit )   1 αi − µ φ fαi (αi |µ, σ) = σ σ   β−a 1 √ fβ (β) = √ φ b b   µ − a1 1 √ fµ (µ) = √ φ b1 b1 2 fσ (σ ) = IG(c, d), (3.16)

o` u a, b, a1 , b1 , c et d sont connus, φ() est la densit´e d’une loi normale standard et IG() est la distribution d’une gamma inverse. Avant de pr´esenter la forme de la distribution a priori de σ 2 , rappelons que la forme de densit´e Gamma, de param`etre c et d, qu’on prend, pour une variable al´eatoire X quelconque est f (x) =

dc c−1 x exp(−xd), Γ(c)

x > 0.

La distribution a priori de σ 2 est une gamma inverse dont la distribution est la suivante : f (σ 2 ) = Les moments de σ 2 sont

dc −2(c+1) d σ exp(− 2 ), Γ(c) σ

σ 2 > 0.

(3.17)

17

Chapitre 3. Approche bayesienne

E(σ 2 ) = var(σ 2 ) =

d c−1

d2 . (c − 1)2 (c − 2)

(3.18)

` ce stade, nous allons pr´esenter les diff´erentes distributions a posteriori. A

3.3.2

Estimation par l’approche bayesienne

Dans cette section, nous expliquons comment d´eterminer les distributions a posteriori des diff´erents param`etres d’int´erˆet. Notons que la distribution jointe est

f (yit∗ , β, αi , µ, σ 2 |yit ) ∝

Qn n QT i=1

∗ 2 ∗ t=1 fYit (yit |β, αi , yit )fαi (αi |µ, σ )

fβ (β)fµ (µ)fσ (σ 2 )

o

(3.19)

Distribution a posteriori conditionnelle Pour d´eterminer les distributions conditionnelles des diff´erents param`etres, on exploite la distribution jointe dans (3.19). Dans cette ´etape, on pr´esente les lois a posteriori conditionnelle de tous les param`etres. 1. Distribution de yit∗ ´ Etant donn´e tous les param`etres et en exploitant le mod`ele de base (2.2), la simulation de yit∗ sera d´etermin´ee a` partir de la distribution normale tronqu´ee suivante : (a) si yit = 1 (ou yit∗ > 0), alors on a une distribution normale, tronqu´ee a` gauche a` 0, de moyenne αi + βxit et de variance 1 ; (b) si yit = 0 (ou yit∗ < 0), alors on a une distribution normale, tronqu´ee a` droite a` 0, de moyenne αi + βxit et de variance 1. On simule simplement une s´erie de variables al´eatoires a` partir d’une distribution normale de moyenne αi + βxit et de variance 1 ; on prend la premi`ere valeur positive si yit = 1 et la premi`ere valeur n´egative sinon.

18

Chapitre 3. Approche bayesienne

2. Distribution de αi La distribution conditionnelle compl`ete de αi est obtenue en isolant les termes dans (3.19) qui d´ependent de αi , ce qui donne "

f (αi |yi∗ , µ, β, σ 2 ) ∝

T Y t=1

#

f (yit∗ |αi , β) f (αi |µ, σ 2 ). (3.20)

Apr`es quelques manipulations on trouve la distribution suivante (plus de d´etails concernant le calcul sont dans l’annexe A)

f (αi |yi∗ , µ, β, σ 2 )

=N

P

∗ t=1 (yit

− βxit ) + T + σ12

µ σ2

1 , T+

1 σ2



.

(3.21)

3. Distribution de µ en proc´edant de la mˆeme mani`ere que pour αi on trouve la distribution suivante de µ :

f (µ|α, σ 2 ) ∝

"

n Y i=1

#

f (αi |µ, σ 2 ) f (µ),

et apr`es quelques manipulations math´ematiques on trouve la distribution a posteriori compl`ete suivante :

µ∼N



b1

Pn

αi + σ 2 a 1 , nb1 + σ 2 i=1

σ 2 b1 nb1 + σ 2



(3.22)

Pour plus de d´etails, le lecteur peut se r´ef´erer a` l’annexe A. 4. Distribution de β La distribution conditionnelle de β s’obtient comme suit :

f (β|α, y ∗) ∝

hQ

n i=1

i ∗ f (y |β, α ) f (β) i it t=1

QT

f (α, y ∗ )

, (3.23)

19

Chapitre 3. Approche bayesienne

et comme la constante de normalisation ne d´epend pas de β alors la distribution conditionnelle compl`ete est la suivante :

β∼N

a b

+

Pn PT

xit (yit∗ − αi ) , P P + ni=1 Tt=1 x2it i=1

1 b

1

t=1

1 b

+

Pn PT i=1

t=1

x2it

!

(3.24)

5. Distribution de σ 2 La distribution de σ 2 est

f (σ 2 |α, µ) ∝

"

n Y i=1

#

f (αi |µ, σ 2 ) f (σ 2 ).

La distribution conditionnelle compl`ete de σ 2 est une gamma inverse avec fonction de densit´e ( n " )#  1 Pn c+ n2 2 1 1X i=1 (αi − µ) + d −2(c+1+ n2 ) 2 2 σ exp − 2 (αi − µ) + d (3.25) Γ(c + n2 ) σ 2 i=1 Nous pr´esentons a` la section suivante les r´esultats de l’estimation du mod`ele tel que pr´esent´e au chapitre 2 en utilisant l’estimation par maximum de vraisemblance et par l’approche bayesienne.

3.4

R´ esultats

Les r´esultats qui seront pr´esent´es dans cette section sont bas´es sur des donn´ees simul´ees. En effet, on a simul´e la variable explicative xit d’une distribution normale de moyenne 0 et de variance 1, i = 1, ..., 100 et t = 1, ..., 4. En deuxi`eme lieu, on a simul´e αi , i = 1, ..., 100, a` partir d’une distribution normale de moyenne µ0 = 0 et de variance ` la troisi`eme ´etape, on simule le terme d’erreur it , i = 1, ..., 100 et t = 1, ..., 4. σ02 = 1. A Enfin, on simule la variable latente yit∗ comme suit : yit∗ = αi + β0 xit + it ,

(3.26)

o` u β0 = 1 est la vraie valeur de β. La variable yit est d´etermin´ee a` partir des valeurs de yit∗ : si yit∗ < 0, alors yit = 0 et si yit∗ ≥ 0, alors yit = 1.

20

Chapitre 3. Approche bayesienne

3.4.1

Estimateur du maximum de vraisemblance

Dans cette section on pr´esente l’estimation par la m´ethode du maximum de vraisemblance du mod`ele dichotomique tel que vu a` la section 2.2. Pour l’interpolation de Legendre, on utilise 40 points. Le r´esultat par maximum de vraisemblance est r´esum´e dans le tableau suivant : Tab. 3.1 – Estimation du maximum de vraisemblance ´ Variables Coefficients Ecart-type Vraies Valeurs ∗∗ β 1.094 0.19 1 ∗∗ µ -0.065 0.37 0 2 ∗∗ σ 0.879 0.15 1 N 100 Log-Vraisemblance -238.099 Seuil observ´e :

† : 10%

∗ : 5%

∗∗ : 1%

ˆ µ Le tableau 3.1 montre que les estimateurs β, ˆ et σ ˆ 2 sont significatifs. Le r´esultat de l’estimation du mˆeme mod`ele par l’´echantillonneur de Gibbs sera discut´e a` la section suivante. Le programme STATA pour faire ce calcul est pr´esent´e a` l’annexe B.

3.4.2

R´ esultats par l’´ echantillonnage de Gibbs

Sc´ enario

Nous allons ´etudier diff´erentes distributions a priori dans le but de voir leur impact sur l’estimation des param`etres. En effet, on a 4 diff´erentes distributions a priori pour chaque param`etre et dans chaque cas on d´etermine les moments a posteriori de chaque param`etre. L’esp´erence et la variance a posteriori de µ et β sont d´ecrites a` la section 3.3.2. Le tableau 3.2 r´esume les diff´erents sc´enarios que nous avons utilis´es.

1 2 3 4

Tab. 3.2 – Les diff´erents sc´enarios Moments a priori ´ Esp´erence (Ecart-types sont entre parenth`eses) µ β σ2 2.00 (1.00) 2.00 (1.00) 1.33 (0.94 ) 2.00 (1.73) 3.00 (1.73) 2.00 (2.00 ) 5.00 (3.16) 6.00 (3.16) 3.00 (3.00 ) 3.00 (3.75) 4.00 (3.75) 3.00 (3.00 )

Chapitre 3. Approche bayesienne

21

Les r´esultats de ces diff´erents sc´enarios sont pr´esent´es dans le tableau 3.3

Sc´ enario

Tab. 3.3 – R´esultats via l’´echantillonnage de Gibbs pour un ´echantillon de taille 100 et dont les vraies valeurs pour µ, β et σ 2 sont 0, 1 et 1, respectivement. Moments a posteriori Moyenne a posteriori (´ecart-types a posteriori entre parenth`eses) µ β σ2 1 -0.03 (0.14) 1.14 (0.20) 0.99 (0.26) 2 -0.06 (0.14) 1.15 (0.20) 1.08 (0.30) 3 -0.06 (0.14) 1.17 (0.20) 1.22 (0.30) 4 -0.07 (0.14) 1.15 (0.20) 1.19 (0.30)

Le programme MATLAB permettant d’accomplir ce calcul est pr´esent´e dans l’annexe B. Une analyse du tableau 3.3 montre que si la distribution a priori de µ est N (2, 1), alors sa moyenne a posteriori, qui estime sa vraie valeur, est de −0.03 avec un ´ecart-type de 0.14. Si la distribution a priori de β est une N (2, 1), alors sa moyenne a posteriori, qui estime sa vraie valeur, est de 1.14 et son ´ecart-type est 0.2 et si la distribution a priori de σ 2 est une Gamma inverse de moyenne 1.33 et d’´ecart-type 0.94, alors sa moyenne a posteriori est 0.99 et son ´ecart-type est de 0.26. Signalons a` ce propos que si on passe d’une distribution a priori informative, dans le sens o` u sa variance est petite, a` d’autres distributions a priori moins informatives, on remarque que l’estimation de µ et β et leurs ´ecarts-types respectifs sont peu sensibles aux distributions a priori. L’estimation de σ 2 est influenc´ee par la sp´ecification des distributions a priori. Dans le tableau 3.3 la moyenne a posteriori varie de plus de 20% selon la sp´ecification de la distribution a priori. Dans les pages qui suivent, on pr´esente les graphiques montrant la convergence des it´erations et les densit´es a posteriori pour les sc´enarios 1 et 4 du tableau 3.2.

22

Chapitre 3. Approche bayesienne

Densité de Beta

Densité de Mu 3.5

2.5

3 2

2.5

1.5

2

1.5 1

1 0.5

0.5

0 0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

0 −0.8

2.2

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

Densité de SigmaCarrée 1.8

1.6

1.4

1.2

1

0.8

0.6

0.4

0.2

0

0

0.5

1

1.5

2

2.5

3

Fig. 3.1 – Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement : sc´enario 1 du tableau 3.2 .

23

Chapitre 3. Approche bayesienne

Densité de Beta

Densité de Mu 3

2.5

2.5 2

2 1.5

1.5

1

1

0.5

0.5

0 0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

2.2

0 −0.8

2.4

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

Densité de SigmaCarrée 1.4

1.2

1

0.8

0.6

0.4

0.2

0

0

0.5

1

1.5

2

2.5

3

Fig. 3.2 – Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement : sc´enario 4 du tableau 3.2 .

24

Chapitre 3. Approche bayesienne

Beta en fonction du NbIterations

Mu en fonction du NbIterations

2.4

0.6

2.2 0.4

2 0.2

1.6

Valeurs de Mu

Valeurs de Beta

1.8

1.4

1.2

1

0

−0.2

−0.4

0.8 −0.6

0.6

0.4 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

−0.8 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

sigmacarre en fonction du NbIterations 3

2.5

Valeurs de sigmacarre

2

1.5

1

0.5

0 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

Fig. 3.3 – Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement : sc´enario 1 du tableau 3.2 .

25

Chapitre 3. Approche bayesienne

Beta en fonction du NbIterations

Mu en fonction du NbIterations

2

0.6

0.4

0.2

Valeurs de Mu

Valeurs de Beta

1.5

0

−0.2

1 −0.4

−0.6

0.5 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

−0.8 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

sigmacarre en fonction du NbIterations 3

2.5

Valeurs de sigmacarre

2

1.5

1

0.5

0 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

Fig. 3.4 – Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement : sc´enario 4 du tableau 3.2 .

Chapitre 3. Approche bayesienne

26

Les graphiques 3.3 et 3.4 d´emontrent que la convergence des tirages des diff´erents param`etres vers une distribution stationnaire a` partir de leurs distributions a posteriori est rapidement atteinte d`es la premi`ere centaine d’it´erations. Ceci est dˆ u au fait que les distributions a posteriori conditionnelles des param`etres sont connues. Dans le cas o` u les distributions a posteriori conditionnelles ne sont pas connues, Tanner (1987, chapitre 6) pr´esente diff´erentes m´ethodes qui aident a` atteindre la convergence rapidement. Pour faire de l’inf´erence statistique sur les estim´es, nous enlevons la premi`ere moiti´e des tirages et notre inf´erence ultime repose alors sur la deuxi`eme moiti´e des tirages. La pratique de supprimer les premiers tirages est appel´ee burn-in ; pour plus de d´etails a` ce sujet voir Gelman et al (2000 chapitre 6 page 294).

Chapitre 4 Donn´ ees longitudinales incompl` etes

4.1

Panels incomplets

Dans ce chapitre, nous ´etudions le mod`ele pr´esent´e a` la section 2.2 en pr´esence de donn´ees manquantes. En effet, si des individus sont absents de certaines coupes temporelles, nous parlons de fa¸con g´en´erale de donn´ees longitudinales incompl`etes. Dans ces deux cas, nous sommes en pr´esence de panels incomplets. La possibilit´e d’´etudier des comportements dynamiques d´epend directement de la richesse des informations relatives aux variables recueillies. Les principales difficult´es quant a` l’utilisation de ces donn´ees sont d’ordre m´ethodologique. La n´ecessit´e de d´evelopper les techniques appropri´ees pour tenir compte des manquements dans l’information constitue un obstacle important. Dans les sections qui suivent, nous allons pr´esenter diff´erentes m´ethodes permettant de r´esoudre le probl`eme des donn´ees manquantes.

4.2

Mod` eles pour le m´ ecanisme de non-r´ eponse

Dans cette section, nous pr´esentons les diff´erents m´ecanismes qui m`enent a des observations manquantes, selon la terminologie de Little et Rubin (2002). Il s’agit de connaitre la relation qui existe entre les donn´ees manquantes et le reste des observations. L’analyse d’une base de donn´ees contenant des observations manquantes va d´ependre du m´ecanisme qui cause la non r´eponse.

28

Chapitre 4. Donn´ees longitudinales incompl`etes

Pour ce faire, posons Rit =

(

1, si i est observ´e a` la p´eriode t 0, sinon ,

avec i = 1, ..., n et t = 1, ..., T et soit Ri = (Ri1 , ..., RiT )0 et ri = (ri1 , ..., riT )0 la r´ealisation de Ri . La fonction de densit´e jointe de (ri , yi ), o` u yi = (yi1 , ..., yiT )0 , peut ˆetre factoris´ee comme suit : f (yi , ri ) = f (yi )f (ri |yi ),

(4.1)

o` u yi = (yio , yim ) est une partition de yi avec yio la composante observ´ee de yi et yim la composante manquante de yi . Supposons que yit et le processus de non r´eponse sont index´es par les param`etres θ et ν, respectivement. La fonction de densit´e jointe sera f (yio , yim , ri , θ, ν) = f (yio , yim , θ)f (ri |yio , yim , ν).

(4.2)

Les m´ecanismes de donn´ees manquantes sont class´es selon la d´ependance entre yio et yim de la probabilit´e conditionnelle f (ri |yio , yim , ν). Les trois classes de mod`eles de nonr´eponse sont 1. M´ecanisme manquant compl`etement au hasard (MCAR) : Le m´ecanisme est MCAR dans le cas o` u la probabilit´e de r´eponse des unit´es individuelles est uniforme et ne d´epend pas de yio , ni de yim , c’est-`a-dire f (ri |yio , yim , ν) = f (ri |ν)

∀ yio , yim

et ν.

2. M´ecanisme manquant au hasard (MAR) : Le m´ecanisme est MAR si la probabilit´e de r´eponse des unit´es individuelles ne d´epend pas de Yim , mais d´epend seulement de Yio . Il s’agit d’une hypoth`ese qui est moins restrictive que MCAR et on a

f (ri |yio , yim , ν) = f (ri |yio , ν),

∀ yim

3. M´ecanisme non manquant au hasard(NMAR) Un m´ecanisme est dit NMAR si la probabilit´e de r´eponse des unit´es individuelles d´epend de yim et peut d´ependre de yio . Il existe plusieurs m´ethodes pour contourner les probl`emes des donn´ees manquantes parmi lesquelles la m´ethode d’augmentation des donn´ees, qui sera pr´esent´ee dans la section suivante.

Chapitre 4. Donn´ees longitudinales incompl`etes

4.3

29

Augmentation de donn´ ees

Dans cette section on explique la m´ethode d’augmentation de donn´ees telle que pr´esent´ee dans Tanner (1987). Dans notre cas, on va adapter cette m´ethode aux cas des donn´ees longitudinales incompl`etes. Supposons que yi = (yi1 , ..., yiT ), o` u i est l’indice de l’individu alors que T d´enote la p´eriode d’observabilit´e de l’individu. Un individu peut ˆetre observ´e a` une p´eriode mais ne l’est pas a` une autre p´eriode. Par exemple, si o o m m on a 4 p´eriodes on peut trouver le cas suivant yi = (yi1 , yi2 , yi3 , yi4 ), donc l’individu est observ´e pour les deux premi`eres p´eriodes 1 et 2 et manquant pour les p´eriodes 3 et 4. o o m m Dans ce cas, on pose yio = (yi1 , yi2 ) et yim = (yi3 , yi4 ). Pour pr´eserver la mˆeme notation que celle d´ecrite dans Tanner (1987), on va poser y o = yio et y m = yim . L’id´ee principale de cet algorithme est d’augmenter les donn´ees observ´ees y o par la quantit´e y m , qui sera consid´er´ee comme donn´ee latente. Donc si y o et y m sont tous les deux connus, on peut fa¸cilement calculer la distribution a posteriori p(θ|y o , y m ). La densit´e qui nous int´eresse est p(θ|y o ), que nous ne pouvons pas d´eterminer de fa¸con explicite. Mais si on peut simuler diff´erentes valeurs de y m , alors p(θ|y o ) sera la moyenne de p(θ|y o , y m ) sur toutes les valeurs imput´ees de y m . Donc il existe une mutuelle d´ependance entre p(θ|y o ) et p(y m |y o ) qui m`ene a` un algorithme it´eratif pour calculer p(θ|y o ). Soit y o , la base de donn´ees observ´ee dont la distribution d´epend d’un vecteur de param`etre θ. Supposons qu’il y a une fa¸con d’augmenter y o par une quantit´e de valeurs latentes y m . On peut fa¸cilement analyser la base de donn´ees augment´ee, y = (y o , y m ). Une explication plus d´etaill´ee de cette m´ethode sera pr´esent´ee a` la section suivante.

4.3.1

L’algorithme de base

L’algorithme de base est motiv´e par deux identit´es simples. 1. Identit´ e a posteriori : La distribution d’int´erˆet est la probabilit´e a posteriori suivante : Z o o m p(θ|y ) = Eym [p(θ|y , y )] = p(θ|y o , y m )p(y m |y o )dy m ,

(4.3)

ym

o` u p(θ|y o ) est la densit´e a posteriori des param`etres θ sachant les donn´ees observ´ees y o , p(y m |y o ) est la densit´e pr´edictive des valeurs manquantes y m sachant y o et p(θ|y m , y o ) repr´esente la densit´e conditionnelle de θ sachant les donn´ees augment´ees y = (y o , y m ). 2. Identit´ e pr´ edictive :

30

Chapitre 4. Donn´ees longitudinales incompl`etes

m

o

m

o

p(y |y ) = Eφ [p(y |y , φ)] =

Z

Θ

p(y m |y o , φ)p(φ|y o)dφ,

(4.4)

o` u Θ repr´esente l’ensemble des valeurs possibles des param`etres θ. Si on substitue (4.4) dans (4.3), on obtient l’´equation suivante :

g(θ) =

k(θ, φ) =

Z

ym

Z

k(θ, φ).g(φ)dφ, θ

p(θ|y m , y o ).p(y m |φ, y o)dy m

(4.5)

o` u g(θ) = p(θ|y o ) et θ est le param`etre li´e aux donn´ees observ´ees et φ est le param`etre li´e aux donn´ees manquantes. La m´ethode de substitution successive peut ˆetre utilis´ee pour r´esoudre l’´equation (4.5). Autrement dit, on commence par une approximation initiale g0 (θ) pour calculer successivement

gi+1 (θ) = (T gi )(θ),

(4.6)

o` u

T f (θ) =

Z

k(θ, φ)f (φ)dφ

(4.7)

avec T une transformation d’int´egrale qui transforme tout fonction integrable f en une autre fonction integrable T f . Tanner et Wong (1987) adoptent la m´ethode de Monte Carlo pour d´eterminer l’int´egrale dans (4.5). En particulier, ils appliquent la m´ethode de Monte Carlo a` la densit´e a posteriori pour calculer g(θ) = p(θ|y o ), ce qui donne le sch´ema it´eratif suivant : – a1 : g´en´erer θ ∗ a` partir de gi (θ), (parce que p(θ|y o ) = g(θ)) – a2 : g´en´erer y m a` partir de p(y m |θ ∗ , y o ), o` u θ ∗ est la valeur g´en´er´ee en (a1 ) (et ceci en utilisant l’´equation (4.4)).

Chapitre 4. Donn´ees longitudinales incompl`etes

31

– b : D´eterminer gi+1 .

gi+1

J 1X = p(θ|yjm , y o ). J j=1

(4.8)

Il est int´eressant de noter a` ce propos que les ´etapes (a1 ) et (a2 ) sont consid´er´ees comme celles de g´en´eration de donn´ees latentes, y m . En effet, ces deux ´etapes sont rep´et´ees J fois pour obtenir y1m , ..., yJm . Selon la terminologie utilis´ee par Rubin, on appelle cette ´etape l’imputation multiple. C’est pour cela qu’on appelle l’´etape (a) l’´etape d’imputation et l’´etape (b) l’´etape a posteriori. La convergence de cet algorithme sera le sujet de la section suivante.

4.3.2

Convergence de l’algorithme d’augmentation de donn´ ees

Dans cette section, on reprend l’explication de Tanner et Wong (1987) concernant la convergence de l’algorithme. Soit L1 , l’espace des fonctions int´egrables de θ ∈ Θ et R kf k = |f (θ)|dθ pour f ∈ L1 . Soient gi (θ), k(θ, φ) et T d´efinies comme dans (4.5)-(4.7). Supposons que la vraie densit´e a posteriori qui nous int´eresse est g∗ (θ). Les r´esultats qui sont a` l’origine de la convergence de l’algorithme d’augmentation de donn´ees sont : 1. g∗ est le seul point qui satisfait l’´equation de point fixe, T g∗ = g∗ . 2. Quelles que soient les valeurs de d´epart, l’algorithme (4.6) converge lin´eairement vers g∗ Tanner (1987) montre que, sous des conditions de r´egularit´e, on a l’in´egalit´e suivante :

kgi+1 − g∗ k ≤ αi kg0 − g∗ k , avec α ∈ (0, 1), donc peu importe les valeurs de d´epart, g∗ , l’algorithme atteindra le point fixe, pour plus de d´etails voir Tanner (1987). Dans ce document nous allons baser notre attention sur l’algorithme d’´echantillonnage de Gibbs afin de simuler les y m et estimer par la suite les param`etre du mod`ele d’int´erˆet. Nous exploitons pour cette fin une base de donn´ees simul´ee, qui sera expliqu´ee dans les prochaines sections.

Chapitre 4. Donn´ees longitudinales incompl`etes

4.4

32

Estimation pour le mod` ele dichotomique en pr´ esence de donn´ ees manquantes

Dans cette section, nous allons estimer le mod`ele dichotomique tel que pr´esent´e a` la section 2.2, mais en pr´esence de donn´ees manquantes. Pour cela nous avons simul´e une base de donn´ees et nous avons fait diff´erentes exp´eriences en fonction de proportion de donn´ees manquantes. En premier lieu, nous supposons que la variable manquante est la variable d´ependante et nous ´etudions le cas o` u le m´ecanisme de non r´eponse est MCAR, MAR et NMAR. On va aussi s’int´eresser a` l’´etude des cas complets (CC), autrement dit l’analyse ne concerne que les donn´ees disponibles. Revenons au mod`ele de base suivant :

Yit =

(

1, si Yit∗ ≥ 0 0, si Yit∗ < 0 ,

o` u i = 1, ..., n est l’indice du sujet et t = 1, ..., T est le temps. La variable latente, Yit∗ , est mod´elis´ee comme suit :

Yit∗ = αi + βxit + it , o` u

(

(4.9)

αi ∼ N (µ, σ 2 ) it ∼ N (0, 1).

et αi et it sont ind´ependant. Nous allons estimer ce mod`ele en utilisant l’´echantillonnage de Gibbs, mais en pr´esence des donn´ees manquantes. En outre, on utilise la d´emarche du chapitre pr´ec´edent. Soit Yitm qui d´esigne que Y est manquant pour l’individu i a` la p´eriode t. Ainsi remarquons que si Yit est manquant alors Yit∗ est aussi manquant et sera not´e Yit∗m . Il convient aussi de pr´eciser que, compte tenu du mod`ele a` variables latentes, pour estimer les param`etres d’int´erˆet il est suffisant de d´eterminer la valeur de la variable Yit∗m . Les distributions a priori et a posteriori sont les mˆemes que dans la section 3.3.2, sauf pour la distribution a posteriori de Yit∗ . En effet, le tirage de Yit∗ se fait a` partir de la loi normale tronqu´ee dans le cas o` u Yit est observ´e, mais dans le cas ∗ contraire, Yit sera simul´e a` partir de la distribution suivante :

Yit∗ ∼ N (αi + βxit , 1).

(4.10)

33

Chapitre 4. Donn´ees longitudinales incompl`etes

o` u αi et β sont les valeurs courantes de l’algorithme.

Distribution de yit∗ ´ Etant donn´e tous les param`etres, la simulation de yit∗ se fait a` partir de la distribution normale tronqu´ee suivante : 1. si yit = 1 (ou yit∗ > 0), alors on a une distribution normale, tronqu´ee a` gauche a` 0, de moyenne αi + βxit et de variance 1 ; 2. si yit = 0 (ou yit∗ < 0), alors on a une distribution normale, tronqu´ee a` droite a` 0, de moyenne αi + βxit et de variance 1 ; 3. si yit est manquant, alors yit∗m ∼ N (αi + βxit , 1).

` cet ´egard, nous allons cr´eer des observations manquantes de Yit , selon trois m´ecanismes, A soient les m´ecanismes MCAR, MAR et NMAR, dans le but de voir si l’estimation des param`etres par l’´echantillonnage de Gibbs est sensible a` la sp´ecification du m´ecanisme de non r´eponse. Il est int´eressant de noter, a` ce propos, que nous ´etudions pour chaque m´ecanisme diff´erentes proportions de donn´ees manquantes.

4.4.1

M´ ecanisme MCAR

Supposons que nous avons une base de donn´ees de taille 100 et que le but est de cr´eer une proportion de donn´ees manquantes selon un m´ecanisme MCAR. Pour ce faire, nous exploitons l’indicateur des donn´ees manquantes d´efinis pr´ec´edemment, Rit . Posons mt , le nombre d’observations manquantes a` la p´eriode t, qui sera d´etermin´e selon la probabilit´e suivante :

p(Rit = 0|yi , p) = p,

∀ yi .

(4.11)

Pour analyser diff´erentes bases contenant des donn´ees manquantes, on fait varier la valeur de p(pour p = 0.05 on a 5% des observations sont manquantes, pour p = 0.5 on a 50% des observations sont manquantes et ainsi de suite). Concernant l’aspect th´eorique, puisque R ne d´epend pas des donn´ees, l’algorithme donne la bonne distribution a posteriori. Le tableau 4.1 r´esume les r´esultats obtenus en appliquant l’algorithme d’´echantillonnage de Gibbs a` ce m´ecanisme.

Chapitre 4. Donn´ees longitudinales incompl`etes

34

Proportion

Tab. 4.1 – R´esultats via l’´echantillonnage de Gibbs, sc´enario 1, avec diff´erentes proportions de donn´ees manquantes MCAR dans chaque p´eriode P´ eriodes Moments a posteriori pourcentage de Moyenne a posteriori donn´ees manquantes (´ecart-types a posteriori entre parenth`eses) t1 t2 t3 t4 µ β σ2 5% 11% 3% 5% 4% 0.0703 (0.1260) 1.1317 (0.1897) 1.0140 (0.2833 ) 19% 19% 22% 16% 22% -0.0482 (0.1349) 1.1535 (0.2056) 1.0762 (0.3223) 45% 34% 49% 45% 52% -0.2494 (0.1500) 0.8545 (0.2097) 1.1685 (0.3567) 66% 61% 70% 60% 66% 0.0765 (0.1459) 0.9703 (0.2334) 0.9333 (0.3195)

Il est int´eressant de noter que, pour chaque proportion de donn´ees manquantes on applique l’algorithme d’´echantillonnage de Gibbs sur cinq bases de donn´ees diff´erentes. Les r´esultats de ces bases sont pr´esent´es dans les tableaux 4.1 et de C.1 l’Annexe C. L’analyse des r´esultats pr´esent´es dans les tableaux C.1 et 4.1 montrent que les moyennes a posteriori de µ et β ainsi que leurs ´ecarts-types a posteriori ne semblent pas ˆetre affect´es par la variation des proportions de donn´ees manquantes. Toutefois, l’´ecart-type a posteriori de σ 2 est l´eg`erement affect´e par la variation des proportions des donn´ees manquantes. En effet, l’´ecart-type a posteriori de σ 2 passe de 0.2833 pour une proportion de 5% a` 0.3567 pour une proportion de 45%. Dans les pages qui suivent, on pr´esente les graphiques des densit´es a posteriori de µ, β et σ 2 ainsi que leurs graphiques de convergence pour les cas de 5% et de 66% de donn´ees manquantes.

35

Chapitre 4. Donn´ees longitudinales incompl`etes

Densité de Beta

Densité de Mu 3.5

2.5

3 2

2.5

1.5

2

1.5 1

1 0.5

0.5

0 0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

0 −0.6

2.2

−0.4

−0.2

0

2.5

3

0.2

0.4

0.6

0.8

Densité de SigmaCarrée 1.5

1

0.5

0

0

0.5

1

1.5

2

Fig. 4.1 – Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees MCAR avec 5% de donn´ees manquantes : sc´enario 1 du tableau 3.2

36

Chapitre 4. Donn´ees longitudinales incompl`etes

Mu en fonction du NbIterations 0.6

0.4

Valeurs de Mu

0.2

0

−0.2

−0.4

−0.6

−0.8 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

sigmacarre en fonction du NbIterations 3

2.5

Valeurs de sigmacarre

2

1.5

1

0.5

0 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

Fig. 4.2 – Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees MCAR avec 5% de donn´ees manquantes : sc´enario 1 du tableau 3.2

37

Chapitre 4. Donn´ees longitudinales incompl`etes

Densité de Beta

Densité de Mu

1.8

3

1.6 2.5

1.4

1.2

2

1 1.5

0.8

0.6

1

0.4 0.5

0.2

0

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

0 −0.6

−0.4

−0.2

0

2.5

3

3.5

0.2

0.4

0.6

0.8

Densité de SigmaCarrée 1.5

1

0.5

0

0

0.5

1

1.5

2

Fig. 4.3 – Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees MCAR avec 66% de donn´ees manquantes : sc´enario 1 du tableau 3.2

38

Chapitre 4. Donn´ees longitudinales incompl`etes

Beta en fonction du NbIterations

Mu en fonction du NbIterations

2

0.8

1.8 0.6

1.6 0.4

Valeurs de Mu

Valeurs de Beta

1.4

1.2

1

0.2

0

0.8 −0.2

0.6 −0.4

0.4

0.2 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

−0.6 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

sigmacarre en fonction du NbIterations 3.5

3

Valeurs de sigmacarre

2.5

2

1.5

1

0.5

0 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

Fig. 4.4 – Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement, MCAR avec 66% de donn´ees manquantes : sc´enario 1 du tableau 3.2

Chapitre 4. Donn´ees longitudinales incompl`etes

4.4.2

39

M´ ecanisme MAR

Nous allons supposer un mod`ele monotone pour le m´ecanisme des donn´ees manquantes, c’est-`a-dire si un individus est manquant dans une p´eriode t il sera manquant pour le reste des p´eriodes. Pour cela nous exploitons la mˆeme base de donn´ees mais les proportions de donn´ees manquantes seront cr´ees comme suit, en utilisant la mˆeme approche que Yi et Thompson (2005) : 1. On suppose que Ri1 = 1 pour tout i = 1, ..., n. 2. En deuxi`eme lieu, on va cr´eer Ri2 tel que p(Ri2 = 1|Ri1 = 1, yi1 ) =

exp(λ0 + λ1 yi1 ) , 1 + exp(λ0 + λ1 yi1 )

(4.12)

et Ri2 sera simul´e a` partir d’une loi Bernoulli de probabilit´e p(Ri2 = 1|Ri1 = 1, y1 ), ´ et ceci en fixant les param`etres λ0 et λ1 a` l’avance. Etant donn´e qu’il s’agit d’un mod`ele monotone pour le m´ecanisme de non r´eponse, alors si Ri2 = 0 ceci implique que Ri3 = Ri4 = 0 sinon on passe a` l’´etape suivante. 3. On va cr´eer Ri3 tel que p(Ri3 = 1|Ri2 = 1, yi2 ) =

exp(λ0 + λ1 yi2 ) . 1 + exp(λ0 + λ1 yi2 )

(4.13)

Ri3 sera cr´e´e a` partir d’une loi Bernoulli de probabilit´e p(Ri3 = 1|Ri2 = 1, yi2 ) et si Ri3 = 0 alors Ri4 = 0 sinon on passe a` l’´etape suivante. 4. La variable Ri4 sera simul´ee a` partir d’une Bernoulli ayant la probabilit´e suivante : p(Ri4 = 1|Ri3 = 1, yi3 ) =

exp(λ0 + λ1 yi3 ) . 1 + exp(λ0 + λ1 yi3 )

(4.14)

Les diff´erentes proportions de donn´ees manquantes sont d´etermin´ees en faisant varier les valeurs de λ0 et λ1 . Th´eoriquement, l’´echantillonnage de Gibbs donne une estimation non biais´ee de la distribution a posteriori car yit−1 et yit sont ind´ependants ´etant donn´e αi . Donc la formule (3.19) est toujours vraie. Les r´esultats de l’estimation par l’´echantillonnage de Gibbs, en pr´esence de donn´ees manquantes MAR sont d´ecrites dans le tableau (4.2),

Chapitre 4. Donn´ees longitudinales incompl`etes

40

Proportion

Tab. 4.2 – R´esultats via l’´echantillonnage de Gibbs, sc´enario 1, avec diff´erentes proportions de donn´ees manquantes MAR dans chaque p´eriode P´ eriodes Moments a posteriori pourcentage de Moyenne a posteriori donn´ees manquantes (´ecart-types a posteriori entre parenth`eses) t1 t2 t3 t4 µ β σ2 5% 0% 3% 6% 9% -0.0700 (0.1265) 1.1383 (0.1931) 0.9931 (0.2801) 14% 0% 6% 14% 22% 0.0323 (0.1229) 1.1801 (0.2021) 0.9126 (0.2665) 27% 0% 21% 39% 49% -0.1094 (0.1388) 0.8135 (0.1998) 0.9775 (0.2951) 53% 0% 44% 65% 79% 0.1460 (0.1460) 0.9719 (0.2164) 0.9964 (0.3846) 66% 0% 69% 89% 97% -0.0946 (0.1649) 0.9112 (0.2777) 1.1102 (0.4897)

L’´etude du m´ecanisme MAR montre que la moyenne a posteriori de µ ainsi que son ´ecart-type ne sont pas affect´es par la variation de proportion des donn´ees manquantes. Par contre, les moyennes et les ´ecarts-types a posteriori de β et de σ 2 sont sensibles aux variations de proportion des donn´ees manquantes. En effet les r´esultats pr´esent´es dans le tableau C.2 montrent que l’´ecart-type a posteriori de σ 2 passe de 0.2801 pour une proportion de 5% a` plus que 0.5075, pour une proportion sup´erieure ou ´egale a` 53%. La moyenne a posteriori de β passe de 0.1931 pour une proportion de 5%, a` 0.4422 pour une proportion de 66%. Les graphiques de densit´es et de convergence de µ, β et σ 2 sont pr´esent´es dans les pages qui suivent.

41

Chapitre 4. Donn´ees longitudinales incompl`etes

Densité de Beta

Densité de Mu 3.5

2.5

3 2

2.5

1.5

2

1.5 1

1 0.5

0.5

0 0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

0 −0.8

2.2

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

Densité de SigmaCarrée 1.6

1.4

1.2

1

0.8

0.6

0.4

0.2

0

0

0.5

1

1.5

2

2.5

3

Fig. 4.5 – Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees MAR de 5% : sc´enario 1 du tableau 3.2

42

Chapitre 4. Donn´ees longitudinales incompl`etes

Beta en fonction du NbIterations

Mu en fonction du NbIterations

2

0.4

1.8

0.3

0.2

1.6 0.1

Valeurs de Mu

Valeurs de Beta

1.4

1.2

1

0

−0.1

−0.2

−0.3

0.8 −0.4

0.6 −0.5

0.4 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

−0.6 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

sigmacarre en fonction du NbIterations 3

2.5

Valeurs de sigmacarre

2

1.5

1

0.5

0 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

Fig. 4.6 – Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees MAR de 5% : sc´enario 1 du tableau 3.2

43

Chapitre 4. Donn´ees longitudinales incompl`etes

Densité de Beta

Densité de Mu

1.5

2.5

2

1 1.5

1

0.5

0.5

0 −0.5

0

0.5

1

1.5

2

0 −1

2.5

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

Densité de SigmaCarrée 1.4

1.2

1

0.8

0.6

0.4

0.2

0

0

1

2

3

4

5

6

Fig. 4.7 – Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees MAR avec 66% de donn´ees manquantes : sc´enario 1 du tableau 3.2

44

Chapitre 4. Donn´ees longitudinales incompl`etes

Beta en fonction du NbIterations

Mu en fonction du NbIterations

2

0.6

1.8 0.4

1.6 0.2

1.2

Valeurs de Mu

Valeurs de Beta

1.4

1

0.8

0.6

0

−0.2

−0.4

0.4 −0.6

0.2

0 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

−0.8 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

sigmacarre en fonction du NbIterations 6

5

Valeurs de sigmacarre

4

3

2

1

0 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

Fig. 4.8 – Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees MAR avec 66% de donn´ees manquantes : sc´enario 1 du tableau 3.2

Chapitre 4. Donn´ees longitudinales incompl`etes

4.4.3

45

M´ ecanisme NMAR

Les donn´ees manquantes sont cr´e´ees selon un m´ecanisme NMAR. En effet, dans ce cas la proportion de donn´ees manquantes, mt , est cr´e´ee comme suit :

p(Ri = 0|yi , ν) =

(

1 0

si γi + λxit + it > 0 si γi + λxit + it < 0

avec γi ∼ N (µ0 , σ02 ), λ = 1 et it ∼ N (0, 1). Donc pour d´eterminer diff´erentes valeurs de mt , on fait varier µ0 . Ainsi, pour µ0 = 2.4 on aura m1 = 6%, m2 = 5%, m3 = 6% et m4 = 4%. Pour µ0 = 1 on aura m1 = 21%, m2 = 23%, m3 = 21% et m4 = 20%. Pour µ0 = 0.9 on aura m1 = 30%, m2 = 30%, m3 = 33% et m4 = 31%. Le tableau 4.3 r´esume les r´esultats obtenus en appliquant l’algorithme d’´echantillonnage de Gibbs a` ce m´ecanisme.

Proportion

Tab. 4.3 – R´esultats via l’´echantillonnage de Gibbs, sc´enario 1, avec diff´erentes proportions de donn´ees manquantes NMAR dans chaque p´eriode P´ eriodes Moments a posteriori pourcentage de Moyenne a posteriori donn´ees manquantes (´ecart-types a posteriori entre parenth`eses) t1 t2 t3 t4 µ β σ2 5% 8% 5% 4% 6% 0.0153 (0.1356) 0.9888 (0.1897) 1.2258 (0.3403) 19% 16% 19% 15% 19% 0.2177 (0.1296) 0.9439 (0.1972) 0.9786 (0.2875) 38% 41% 36% 41% 39% -0.0486 (0.1360) 1.3014 (0.2313) 0.9554 (0.3345) 60% 48% 53% 47% 56% -0.0256 (0.1600) 1.2928 (0.2519) 1.1799 (0.4037)

L’esp´erence et l’´ecart-type a posteriori de µ ne changent pas beaucoup avec la variation de proportion des donn´ees manquantes. Les estimateurs de β et de σ 2 deviennent moins pr´ecis au fur et a` mesure que la proportion de donn´ees manquantes augmente. Les graphiques de densit´es a posteriori et de convergence des param`etres pour le cas de 5% et de 60% de donn´ees manquantes seront pr´esent´es dans les pages suivantes.

46

Chapitre 4. Donn´ees longitudinales incompl`etes

Densité de Beta

Densité de Mu

2.5

3

2.5

2

2

1.5

1.5

1 1

0.5 0.5

0 0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

0 −0.6

−0.4

−0.2

0

2.5

3

3.5

0.2

0.4

0.6

0.8

Densité de SigmaCarrée 1.4

1.2

1

0.8

0.6

0.4

0.2

0

0

0.5

1

1.5

2

Fig. 4.9 – Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees NMAR avec 5% de donn´ees manquantes : sc´enario 1 du tableau 3.2

47

Chapitre 4. Donn´ees longitudinales incompl`etes

Beta en fonction du NbIterations

Mu en fonction du NbIterations

2

0.6

1.8 0.4

1.6 0.2

Valeurs de Mu

Valeurs de Beta

1.4

1.2

0

−0.2

1 −0.4

0.8

−0.6

0.6

0.4 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

−0.8 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

sigmacarre en fonction du NbIterations 3.5

3

Valeurs de sigmacarre

2.5

2

1.5

1

0.5

0 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

Fig. 4.10 – Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement, Cas de donn´ees NMAR avec 5% de donn´ees manquantes : sc´enario 1 du tableau 3.2

48

Chapitre 4. Donn´ees longitudinales incompl`etes

Densité de Beta

Densité de Mu

1.6

3

1.4 2.5

1.2 2

1

0.8

1.5

0.6 1

0.4 0.5

0.2

0

0

0.5

1

1.5

2

2.5

3

0 −0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

Densité de SigmaCarrée 1.4

1.2

1

0.8

0.6

0.4

0.2

0

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

Fig. 4.11 – Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees NMAR avec 60% de donn´ees manquantes : sc´enario 1 du tableau 3.2

49

Chapitre 4. Donn´ees longitudinales incompl`etes

Beta en fonction du NbIterations

Mu en fonction du NbIterations

2.5

0.6

0.4

2

1.5

Valeurs de Mu

Valeurs de Beta

0.2

1

0

−0.2

−0.4

0.5 −0.6

0 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

−0.8 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

sigmacarre en fonction du NbIterations 4.5

4

3.5

Valeurs de sigmacarre

3

2.5

2

1.5

1

0.5

0 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

Fig. 4.12 – Convergences de β, µ et σ 2 , ayant les vraies valeurs 1, 0 et 1, respectivement, cas de donn´ees NMAR avec 60% de donn´ees manquantes : sc´enario 1 du tableau 3.2

Chapitre 4. Donn´ees longitudinales incompl`etes

4.4.4

50

´ Etude des cas complets

Il serait utile d’analyser les donn´ees disponibles, autrement dit on s’int´eresse a` l’analyse des donn´ees pr´esent. Ainsi on retire les x d`es que yit est manquant. Ibrahim et al. (2005) utilisent le terme analyse des cas complets (CC), pour le reste de ce document nous adoptons la mˆeme notation. L’analyse des cas complets limite l’attention aux cas o` u toutes les variables et tous les individus sont pr´esents. Le grand d´esavantage de cette m´ethode est la perte potentielle d’information due a` la non utilisation des donn´ees incompl`etes. En effet, si le m´ecanisme de non r´eponse n’est pas MCAR, cette perte d’information comportera deux aspects : la perte de pr´ecision et le biais. L’analyse des cas complets peut ˆetre justifi´ee lorsque la perte de pr´ecision et de biais est minime, selon Rubin et al. (2002, page 41). La question est de savoir si les estimateurs seront biais´es si on analyse seulement les donn´ees pour lesquelles les individus sont observ´es. En effet, si un individu est manquant pour une p´eriode donn´ee, on l’´elimine de la base de donn´ees pour cette p´eriode. Donc on n’utilise que les donn´ees observ´ees. Si on a un ´echantillon de taille 100 observations mais avec une proportion p de donn´ees manquantes, alors le nombre d’observations qu’on va consid´erer correspondera aux nombre d’individus qui sont observ´es au moins une fois. Cependant, l’algorithme de la section 4.4.1 utilise les x de l’individu i de la p´eriode t qui sont manquants. Cet algorithme les ignore compl`etement. La non r´eponse, dans ce cas, est g´en´er´ee selon un m´ecanisme MCAR et on utilise les mˆemes bases que celles de MCAR pr´esent´ees dans la section 4.4.1. Le nombre d’observations n est d´etermin´e comme suit :

n=

100 X i=1

max Rit ,

t∈{1,...,T }

et chaque individu i est observ´e ti fois :

ti =

T X

Rit .

t=1

Les r´esultats de cette analyse, qui ne consid`ere que les donn´ees disponibles, sont r´esum´es dans le tableau 4.4.

Chapitre 4. Donn´ees longitudinales incompl`etes

51

.

Proportion

Tab. 4.4 – R´esultats via l’´echantillonnage de Gibbs, sc´enario 1, avec diff´erentes proportions de donn´ee manquante CC-MCAR dans chaque p´eriode P´ eriodes Moments a posteriori pourcentage de Moyenne a posteriori donn´ees manquantes (´ecart-types a posteriori entre parenth`eses) t1 t2 t3 t4 µ β σ2 5% 11% 3% 5% 4% 0.0644(0.1276) 1.1309(0.2004) 0.9235(0.2609) 19% 19% 22% 16% 22% -0.0276(0.1319) 1.1227(0.2167) 1.0728(0.3140) 45% 45% 33% 40% 36% 0.1166(0.1558) 0.9476(0.2557) 1.2274(0.4208) 66% 61% 70% 60% 66% 0.1130(0.3700) 1.5189(0.4315) 6.3554(3.0554)

Une analyse des r´esultats du tableau 4.4 et du tableau C.4 montre que les moyennes et les ´ecarts-types a posteriori de µ, β et de σ 2 sont stables pour les proportions de 5% et de 19%. Par contre, pour une proportion de donn´ees manquantes de 45% on note une diminution de pr´ecision pour µ et β. Cependant, pour une proportion de donn´ees manquantes de 66% on remarque une perte d’information tr`es importante de tous les estimateurs. En effet, la moyenne a posteriori de µ peut atteindre 1.6462 avec un ´ecarttype de 0.9843, celle de β peut atteindre 3.6213 avec un ´ecart-type de 0.7210 et la moyenne de σ 2 est de 394.2961 avec un ´ecart-type de 12.53. Mais il est important de signaler que si le m´ecanisme de non r´eponse n’´etait pas MCAR, les r´esultats auraient ´etaient biais´es et moins pr´ecis pour de faible proportion de donn´ees manquantes. On a d´ej`a ´evoqu´e cet aspect et on estime important d’y revenir. La base de donn´ees manquante NMAR, pr´esent´ee ci-dessus, fera l’´etude d’une analyse des cas complets ; les r´esultats sont dans le tableau 4.5.

Chapitre 4. Donn´ees longitudinales incompl`etes

52

.

Proportion

Tab. 4.5 – R´esultats via l’´echantillonnage de Gibbs avec diff´erentes proportions de donn´ees manquantes NMAR, ´etude des cas complets : sc´enario 1 du tableau 3.2 P´ eriodes Moments a posteriori pourcentage de Moyenne a posteriori donn´ees manquantes (´ecart-types a posteriori entre parenth`eses) t1 t2 t3 t4 µ β σ2 5% 8% 5% 4% 6% -0.0347 (0.1282) 1.2233 (0.2017) 0.9803 (0.2591) 19% 16% 19% 15% 19% 0.0724 (0.1513) 1.1352 (0.2254) 1.2821 (0.4125) 38% 41% 36% 41% 39% -0.0744 (0.1812) 1.2724 (0.2654) 1.7331 (0.5478) 60% 48% 53% 47% 56% -0.1108 (0.3773) 1.7870 (0.3575) 5.8039 (2.8455)

Il en r´esulte que les estimateurs sont biais´es et sont beaucoup moins pr´ecis que le cas de MCAR. En effet, si x est inconnu alors y et R sont corr´ell´es et la formule (3.19) est fausse car elle suppose l’ind´ependance entre y et R. On ne simule plus la densit´e a posteriori avec l’´echantillonneur de Gibbs. Dans les pages suivantes on trouve les graphiques des densit´es a priori ainsi que leur graphique de convergences, pour l’´etude des CC et o` u les donn´ees manquantes sont MCAR.

53

Chapitre 4. Donn´ees longitudinales incompl`etes

Densité de Beta

Densité de Mu

2

3.5

1.8 3

1.6 2.5

1.4

1.2 2

1 1.5

0.8

0.6

1

0.4 0.5

0.2

0 0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

0 −0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

Densite de SigmaCarrée 1.8

1.6

1.4

1.2

1

0.8

0.6

0.4

0.2

0

0

0.5

1

1.5

2

2.5

Fig. 4.13 – Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, avec une proportion de donn´ees manquantes de 5%, analyse des cas complets MCAR : sc´enario 1 du tableau 3.2

54

Chapitre 4. Donn´ees longitudinales incompl`etes

Beta en fonction du NbIterations

Mu en fonction du NbIterations

1.8

0.6

1.6 0.4

1.4 0.2

Valeurs de Mu

Valeurs de Beta

1.2

1

0

−0.2

0.8 −0.4

0.6

−0.6

0.4

0.2 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

−0.8 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

sigmacarre en fonction du NbIterations 2.2

2

1.8

Valeurs de sigmacarre

1.6

1.4

1.2

1

0.8

0.6

0.4

0.2 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

Fig. 4.14 – Convergence de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, avec une proportion de donn´ees manquantes de 5%, analyse des cas complets MCAR : sc´enario 1 du tableau 3.2

55

Chapitre 4. Donn´ees longitudinales incompl`etes

Densité de Beta

Densité de Mu

1

1.4

0.9 1.2

0.8 1

0.7

0.6 0.8

0.5 0.6

0.4

0.3

0.4

0.2 0.2

0.1

0 −0.5

0

0.5

1

1.5

2

2.5

3

3.5

0 −1.5

4

−1

−0.5

0

0.5

1

1.5

2

2.5

Densite de SigmaCarrée 0.16

0.14

0.12

0.1

0.08

0.06

0.04

0.02

0 −5

0

5

10

15

20

25

Fig. 4.15 – Densit´es a posteriori de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, avec une proportion de donn´ees manquantes de 66%, analyse des cas complets MCAR : sc´enario 1 du tableau 3.2

56

Chapitre 4. Donn´ees longitudinales incompl`etes

Mu en fonction du NbIterations 2

3

1.5

2.5

1

Valeurs de Mu

Valeurs de Beta

Beta en fonction du NbIterations 3.5

2

1.5

0.5

0

1

−0.5

0.5

−1

0 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

−1.5 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

sigmacarre en fonction du NbIterations 25

Valeurs de sigmacarre

20

15

10

5

0 5000

5500

6000

6500

7000

7500 8000 NbIterations

8500

9000

9500

10000

Fig. 4.16 – Convergence de β, µ et σ 2 ayant les vraies valeurs 1, 0 et 1, respectivement, avec une proportion de donn´ees manquantes de 66%, analyse des cas complets MCAR : sc´enario 1 du tableau 3.2

Chapitre 4. Donn´ees longitudinales incompl`etes

4.4.5

57

Conclusion

Notons, tout d’abord, qu’il est difficile de simuler les mˆemes proportions de donn´ees manquantes pour tous les m´ecanismes et que dans environ 88% des cas si la proportion des donn´ees manquante augmente, alors la pr´ecision diminue. Pour le m´ecanisme MCAR, on remarque que les estimateurs ne semblent pas ˆetre influenc´es par la variation de proportion des donn´ees manquantes. Donc jusqu’`a une proportion de 66%, les estimateurs sont proches des vraies valeurs. Quant au m´ecanisme MAR, on remarque une perte de pr´ecision de l’estimateurs de σ 2 a` partir d’une proportion de 53%. Pour une proportion de 66%, le biais des estimateurs de β et de σ 2 devient tr`es important et leur pr´ecision diminue, ce qui n’est pas le cas pour le m´ecanisme MCAR. En ce qui concerne le m´ecanisme NMAR, les estimateurs sont pr´ecis et ne pr´esentent pas de biais et sont semblables a` ceux du m´ecanisme MCAR. En revanche, si on compare les r´esultats de l’analyse des cas complets pr´esent´ee dans le tableau 4.4 avec les r´esultats de l’analyse qui tient compte des donn´ees manquantes d´ecrite dans le tableau 4.1, on remarque que le biais est plus important pour l’analyse des r´esultats des cas complets. Les estimateurs issus de l’analyse des cas complets sont aussi moins pr´ecis. Dans la prochaine section, on pr´esente un exemple illustratif en traitant une base de donn´ees r´eelle.

Chapitre 4. Donn´ees longitudinales incompl`etes

4.5

58

Application

L’exemple qui sera ´etudi´e est un sous ensemble de la base de donn´ees de Keane et Wolpin (1997), Keane.raw, qu’on a pris de Wooldridge (2002, page 498). Il porte sur ` partir de cette la d´ecision de continuer les ´etudes et/ou de travailler chez les jeunes. A base, on a s´electionn´e des informations concernant la scolarit´e et le statut d’emploi de 199 individus entre 1981 et 1984. La variable d´ependante est le statut de l’individu, qui prend 1 si l’individu est au travail mais n’est pas aux ´etudes, et 0 si l’individu est aux ´etudes ou n’est pas aux ´etudes et ne travaille pas. Cette variable sera not´ee Y it , o` u i = 1, ..., 199 est l’indice de l’individu et t = 1, ..., 4 est le temps(en ann´ees). La variable explicative Xit est le nombre d’ann´ees d’´education de l’individu i a` la p´eriode t et varie de 7 a` 18 ann´ees d’´education. Dans le reste de l’application, on d´efinit Yt = (Y1t , ..., Y199t ) et Xt = (X1t , ..., X199t ). Une description plus d´etaill´ee de la base de donn´ees est donn´ee dans le tableau 4.6. Tab. 4.6 – Description de la Cas possible Y1 Y2 Y3 Y4 0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0 0 1 0 1 0 1 1 0 0 1 1 1 1 0 0 0 1 0 0 1 1 0 1 0 1 0 1 0 1 1 0 0 1 1 0 1 1 1 1 0 1 1 1 1

base de donn´ees : Moyenne des variables explicatives Moyenne Effectifs X1 X2 X3 X4 10.73 11.11 11.39 11.58 68 11.00 11.52 11.82 12.04 23 11.25 11.75 12.25 12.25 8 11.11 11.73 12.03 12.03 26 10.50 10.50 10.50 10.50 2 11.33 12.16 12.16 12.33 6 10.75 11.50 11.50 11.50 4 11.22 11.50 11.50 11.50 18 10.00 10.00 10.00 10.00 3 10.25 10.25 10.25 10.25 4 10.50 10.50 10.50 10.50 2 11.28 11.28 11.42 11.42 7 10.00 10.00 10.00 10.00 1 10.20 10.20 10.20 10.20 5 11.00 11.00 11.00 11.00 1 11.38 11.38 11.38 11.38 21

On remarque, dans le tableau 4.6, que l’effectif des individus qui sont aux ´etudes ou au chˆomage pour les quatres p´eriodes (Y1 = Y2 = Y3 = Y4 = 0) est plus important que celui des individus qui sont au travail (Y1 = Y2 = Y3 = Y4 = 1). La moyenne de nombre d’ann´ees d’´education, pour le cas o` u Y1 = Y2 = Y3 = Y4 = 0, passe de 10.73 a` 11.58,

Chapitre 4. Donn´ees longitudinales incompl`etes

59

ce qui laisse croire que le nombre d’individus qui sont aux ´etudes d´epasse celui de ceux qui sont aux chˆomage. Le mod`ele qu’on va utiliser est le mˆeme que celui pr´esent´e a` la section 2.2. Les diff´erentes bases de donn´ees manquantes sont cr´e´ees selon les m´ecanismes de non r´eponse MCAR, MAR et NMAR pr´esent´e a` la section 4.2.

4.5.1

M´ ecanisme MCAR

Les diff´erentes proportions des donn´ees manquantes MCAR sont cr´e´ees selon la d´emarche pr´esent´ee a` la section 4.4.1. Les param`etres µ et β poss`edent la mˆeme loi a priori qui est la loi normale de moyenne 1 et de variance 10. Quant a` σ, sa distribution a priori est une gamma inverse de moyenne 1.14 et d’´ecart-type 0.94.

Proportion

Tab. 4.7 – R´esultats via l’´echantillonnage de Gibbs avec diff´erentes proportions de donn´ees manquantes MCAR,

0% 7% 19% 44% 62%

P´ eriodes pourcentage de donn´ees manquantes t1 t2 t3 t4 0% 0% 0% 0% 7% 7% 7% 6% 14% 20% 21% 22% 43% 45% 43% 44% 62% 63% 62% 63%

Moments a posteriori Moyenne a posteriori (´ecart-types a posteriori entre parenth`eses) µ β σ2 -2.6135 (0.6837) 0.1873 (0.0583) 1.2923 (0.2839) -2.6689 (0.6637) 0.1925 (0.0568) 1.2503 (0.2751) -2.4137 (0.6572) 0.1695 (0.0562) 0.9977 (0.2386) -2.5752 (0.7597) 0.1722 (0.0646) 1.1673(0.3119) -1.9892 (0.8187) 0.1170 (0.0706) 1.1488(0.3495)

Les r´esultats pr´esent´es dans le tableau 4.7 montrent que les estimateurs sont pr´ecis ` partir d’une proportion de 44%, on note une pour une proportion de 7% et de 19%. A l´eg`ere dimunition de pr´ecision. En g´en´eral, il n’existe pas une grande diff´erence entre les estimateurs dans le cas o` u on prend la base de donn´ees compl`ete (0% de donn´ees manquantes) et dans le cas de donn´ees manquantes. Les graphiques de densit´e et de convergence pour les proportions de 7% et 62%, respectivement, sont pr´esent´es dans les pages qui suivent.

60

Chapitre 4. Donn´ees longitudinales incompl`etes

Densité de Mu

Densité de Beta 8

0.7

7

0.6

6

0.5 5

0.4 4

0.3 3

0.2 2

0.1

1

0 −0.05

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0 −5

0.4

−4.5

−4

−3.5

−3

−2.5

−2

−1.5

−1

−0.5

0

Densité de SigmaCarrée 1.6

1.4

1.2

1

0.8

0.6

0.4

0.2

0

0

0.5

1

1.5

2

2.5

3

Fig. 4.17 – Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 7%, analyse des cas MCAR

61

Chapitre 4. Donn´ees longitudinales incompl`etes

Beta en fonction du NbIterations

Mu en fonction du NbIterations

0.35

0

−0.5 0.3 −1

−1.5

Valeurs de Mu

Valeurs de Beta

0.25

0.2

0.15

−2

−2.5

−3

−3.5

0.1

−4 0.05 −4.5

0 3.5

4

4.5

5

5.5 NbIterations

6

6.5

−5 3.5

7

4

4.5

5

4

x 10

5.5 NbIterations

6

6.5

7 4

x 10

sigmacarre en fonction du NbIterations 3

Valeurs de sigmacarre

2.5

2

1.5

1

0.5 3.5

4

4.5

5

5.5 NbIterations

6

6.5

7 4

x 10

Fig. 4.18 – Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 7%, analyse des cas MCAR

62

Chapitre 4. Donn´ees longitudinales incompl`etes

Densité de Beta

Densité de Mu

7

0.7

6

0.6

5

0.5

4

0.4

3

0.3

2

0.2

1

0.1

0 −0.2

−0.1

0

0.1

0.2

0.3

0.4

0 −6

0.5

−5

−4

−3

−2

−1

0

1

Densité de SigmaCarrée 1.4

1.2

1

0.8

0.6

0.4

0.2

0

0

0.5

1

1.5

2

2.5

3

3.5

4

Fig. 4.19 – Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 62%, analyse des cas MCAR

63

Chapitre 4. Donn´ees longitudinales incompl`etes

Mu en fonction du NbIterations Beta en fonction du NbIterations

1

0.4

0.35

0 0.3

−1 Valeurs de Mu

Valeurs de Beta

0.25

0.2

0.15

−2

0.1

−3 0.05

0

−4

−0.05

−0.1 3.5

4

4.5

5

5.5 NbIterations

6

6.5

−5 3.5

7

4

4.5

5

4

x 10

5.5 NbIterations

6

6.5

7 4

x 10

sigmacarre en fonction du NbIterations 4

3.5

Valeurs de sigmacarre

3

2.5

2

1.5

1

0.5

0 3.5

4

4.5

5

5.5 NbIterations

6

6.5

7 4

x 10

Fig. 4.20 – Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 62%, analyse des cas MCAR

Chapitre 4. Donn´ees longitudinales incompl`etes

4.5.2

64

M´ ecanisme MAR

Les proportions de donn´ees manquantes MAR sont cr´e´ees selon l’approche pr´esent´ee dans la section 4.4.2. Les param`etres µ et β ont la mˆeme distribution a priori qui est la loi normale de moyenne 1 et variance 10. Quant a` la distribution a priori de σ 2 , c’est une gamma inverse de moyenne 1.33 et d’´ecart-type 0.94. Les r´esultats sont pr´esent´es dans le tableau 4.8.

Proportion

Tab. 4.8 – R´esultats via l’´echantillonnage de Gibbs avec diff´erentes proportions de donn´ees manquantes MAR P´ eriodes Moments a posteriori pourcentage de Moyenne a posteriori donn´ees manquantes (´ecart-types a posteriori entre parenth`eses) t1 t2 t3 t4 µ β σ2 0% 0% 0% 0% 0% -2.6135(0.6837) 0.1873(0.0583) 1.2923(0.2839) 10% 0% 7% 20% 28% -3.3283 (0.8515) 0.2432 (0.0720) 1.4354 (0.3629) 17% 0% 14% 22% 32% -2.3931(0.7291) 0.1605 (0.0625) 1.3702 (0.3232) 30% 0% 26% 44% 55% -3.0060(0.8518) 0.1999 (0.0728) 1.5538 (0.4235) 42% 0% 39% 60% 70% -2.1657(0.9021) 0.1360(0.0776) 0.9786 (0.3078)

Les r´esultats pr´esent´es dans le tableau 4.8 montrent que les moyennes a posteriori de β et σ 2 sont peu affect´es par la variation de proportions de donn´ees manquantes. Cependant l’estimateur de µ est sensible aux changements de proportion de donn´ees manquantes. En effet la moyenne a posteriori de µ passe de −2.6135 a` −3.3283 et son ´ecart-type varie de 0.6837 a` 0.9021. Les graphiques de densit´e et de convergence des param`etres sont pr´esent´es dans les pages qui suivent :

65

Chapitre 4. Donn´ees longitudinales incompl`etes .

Densité de Beta

Densité de Mu

6

0.5

0.45

5 0.4

0.35

4

0.3

3

0.25

0.2

2 0.15

0.1

1 0.05

0 −0.1

0

0.1

0.2

0.3

0.4

0.5

0 −7

0.6

−6

−5

−4

−3

−2

−1

0

Densité de SigmaCarrée 1.4

1.2

1

0.8

0.6

0.4

0.2

0

0

0.5

1

1.5

2

2.5

3

3.5

4

Fig. 4.21 – Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 10%, analyse des cas MAR

66

Chapitre 4. Donn´ees longitudinales incompl`etes

Mu en fonction du NbIterations

Beta en fonction du NbIterations

0

0.5

0.45

−1 0.4

−2

0.3

Valeurs de Mu

Valeurs de Beta

0.35

0.25

−3

0.2

−4 0.15

0.1

−5 0.05

0 3.5

4

4.5

5

5.5 NbIterations

6

6.5

−6 3.5

7

4

4.5

5

4

x 10

5.5 NbIterations

6

6.5

7 4

x 10

sigmacarre en fonction du NbIterations 4

3.5

Valeurs de sigmacarre

3

2.5

2

1.5

1

0.5 3.5

4

4.5

5

5.5 NbIterations

6

6.5

7 4

x 10

Fig. 4.22 – Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 10%, analyse des cas MAR

67

Chapitre 4. Donn´ees longitudinales incompl`etes

Densité de Beta

Densité de Mu

6

0.5

0.45

5 0.4

0.35

4

0.3

3

0.25

0.2

2 0.15

0.1

1 0.05

0 −0.2

−0.1

0

0.1

0.2

0.3

0.4

0 −6

0.5

−5

−4

−3

−2

−1

0

1

2

Densité de SigmaCarrée 1.5

1

0.5

0

0

0.5

1

1.5

2

2.5

3

Fig. 4.23 – Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 42%, analyse des cas MAR

68

Chapitre 4. Donn´ees longitudinales incompl`etes

Mu en fonction du NbIterations

Beta en fonction du NbIterations

1

0.5

0

0.4

−1

Valeurs de Mu

Valeurs de Beta

0.3

0.2

0.1

−2

−3

0

−4

−0.1

−5

−0.2 3.5

4

4.5

5

5.5 NbIterations

6

6.5

−6 3.5

7

4

4.5

5

4

x 10

5.5 NbIterations

6

6.5

7 4

x 10

sigmacarre en fonction du NbIterations 3

2.5

Valeurs de sigmacarre

2

1.5

1

0.5

0 3.5

4

4.5

5

5.5 NbIterations

6

6.5

7 4

x 10

Fig. 4.24 – Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 42%, analyse des cas MAR

Chapitre 4. Donn´ees longitudinales incompl`etes

4.5.3

69

M´ ecanisme NMAR

La base de donn´ees NMAR est obtenue selon la d´emarche pr´esent´ee a` la section 4.4.3. Les param`etres µ, β et σ 2 ont les mˆemes lois a priori que celles pr´esent´ees dans la section pr´ec´edente. Le r´esultat de l’estimation de cette base de donn´ees est r´esum´e dans le tableau 4.9.

Proportion

Tab. 4.9 – R´esultats via l’´echantillonnage de Gibbs avec de diff´erentes proportions de donn´ees manquantes NMAR. P´ eriodes Moments a posteriori pourcentage de Moyenne a posteriori donn´ees manquantes (´ecart-type a posteriori entre parenth`eses) t1 t2 t3 t4 µ β σ2 0% 0% 0% 0% 0% -2.6135 (0.6837) 0.1873 (0.0583) 1.2923 (0.2839) 7% 7% 7% 7% 6% -2.9204 (0.8011) 0.2122(0.0681) 1.3916(0.3299) 20% 21% 20% 19% 20% -2.2733 (0.6148) 0.1530 (0.0522) 1.1544 (0.2743) 41% 41% 42% 42% 40% -2.3076 (0.5923) 0.1629 (0.0506) 0.9704 (0.2378) 65% 66% 64% 65% 65% -2.2317 (0.8149) 0.1385 (0.0692) 1.1570 (0.3641)

Selon les r´esultats pr´esent´es dans le tableau 4.9, on remarque que les moyennes a posteriori de β et σ 2 ne sont pas affect´ees par la variation de proportion de donn´ees manquantes, sauf dans le cas d’une proportion de 65% o` u on note une dimunition de pr´ecision de ces deux param`etres. Quant a` l’estimateur de µ, on note une diminution importante de pr´ecision pour une proportion de 65%. Les graphiques de densit´es et de convergence sont pr´esent´es dans les pages qui suivent.

70

Chapitre 4. Donn´ees longitudinales incompl`etes .

Densité de Mu

Densité de Beta 7

0.7

6

0.6

5

0.5

4

0.4

3

0.3

2

0.2

1

0.1

0 −0.05

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0 −6

−5

−4

−3

−2

−1

0

Densité de SigmaCarrée 1.4

1.2

1

0.8

0.6

0.4

0.2

0

0

0.5

1

1.5

2

2.5

3

3.5

Fig. 4.25 – Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 7%, analyse des cas NMAR

71

Chapitre 4. Donn´ees longitudinales incompl`etes

Mu en fonction du NbIterations

Beta en fonction du NbIterations

0

0.45

0.4

−1 0.35

−2 Valeurs de Mu

Valeurs de Beta

0.3

0.25

0.2

−3

−4

0.15

0.1

−5 0.05

0 3.5

4

4.5

5

5.5 NbIterations

6

6.5

−6 3.5

7

4

4.5

5

4

x 10

5.5 NbIterations

6

6.5

7 4

x 10

sigmacarre en fonction du NbIterations 3.5

3

Valeurs de sigmacarre

2.5

2

1.5

1

0.5 3.5

4

4.5

5

5.5 NbIterations

6

6.5

7 4

x 10

Fig. 4.26 – Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 7%, analyse des cas NMAR

72

Chapitre 4. Donn´ees longitudinales incompl`etes

Densité de Beta

Densité de Mu 0.7

8

7

0.6

6

0.5 5

0.4 4

0.3 3

0.2 2

0.1

1

0 −0.1

−0.05

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0 −6

0.4

−5

−4

−3

−2

−1

0

1

Densité de SigmaCarrée 1.4

1.2

1

0.8

0.6

0.4

0.2

0

0

0.5

1

1.5

2

2.5

3

3.5

4

Fig. 4.27 – Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 65%, analyse des cas NMAR

73

Chapitre 4. Donn´ees longitudinales incompl`etes

Mu en fonction du NbIterations Beta en fonction du NbIterations

0

0.4

0.35

−1 0.3

−2 Valeurs de Mu

Valeurs de Beta

0.25

0.2

0.15

−3

−4

0.1

0.05

−5 0

−0.05

4

4.5

5

5.5

6 NbIterations

6.5

7

7.5

8

−6

4

4.5

5

5.5

6 NbIterations

4

x 10

6.5

7

7.5

8 4

x 10

sigmacarre en fonction du NbIterations 3.5

3

Valeurs de sigmacarre

2.5

2

1.5

1

0.5

0

4

4.5

5

5.5

6 NbIterations

6.5

7

7.5

8 4

x 10

Fig. 4.28 – Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquante de 65%, analyse des cas NMAR

Chapitre 4. Donn´ees longitudinales incompl`etes

4.5.4

74

´ Etude des cas complets

Dans ce cas, la non r´eponse est g´en´er´ee selon un m´ecanisme MCAR et on exploite la base de donn´ees que nous avons utilis´ee a` la section 4.5.1. Les param`etres µ, β et σ 2 poss`edent les mˆemes lois a priori que pr´ec´edemment. La technique d’estimation des cas complets est la mˆeme que celle pr´esent´ee a` la section 4.4.4. Le r´esultat de cette ´etude est pr´esent´ee dans le tableau 4.10.

Proportion

Tab. 4.10 – R´esultats via l’´echantillonnage de Gibbs avec diff´erentes proportions de donn´ees manquantes MCAR, ´etudes des cas complets.

0% 7% 19% 44% 62%

P´ eriodes pourcentage de donn´ees manquantes t1 t2 t3 t4 0% 0% 0% 0% 7% 7% 7% 6% 14% 20% 21% 22% 43% 45% 43% 44% 62% 63% 62% 63%

Moments a posteriori Moyenne a posteriori (´ecart-types a posteriori entre parenth`eses) µ β σ2 -2.6135 (0.6837) 0.1873 (0.0583) 1.2923 (0.2839) -2.7049 (0.6498) 0.1964 (0.0554) 1.2547(0.2780) -2.1977 (0.6865) 0.1547 (0.0589) 0.9814 (0.2426) -33.1379(2.2234) 2.6501 (0.1851) 58.24(12.1779) -27.1524(7.0964) 2.0687 (0.5982) 368.82(109.4552)

L’analyse des r´esultats pr´esent´es dans le tableau 4.10 montre qu’a partir d’une proportion de donn´ees manquantes de 44%, on remarque un biais ainsi qu’une dimunition de pr´ecision qui sont tr`es importants. Ce r´esultat est coh´erent avec le r´esultat obtenu en utilisant les donn´ees simul´ees. Il est important de rappeler dans le cas d’analyse des cas complets la formule (3.19) est fausse car elle suppose l’ind´ependance entre y et R. Cette condition n’est pas respect´e parce que si x est inconnu alors y et R sont corr´ell´es. Les graphiques dans les pages qui suivent montrent que la convergence ne sera pas atteinte.

75

Chapitre 4. Donn´ees longitudinales incompl`etes

Densité de Beta

Densité de Mu

8

0.7

7

0.6

6 0.5

5 0.4

4 0.3

3 0.2

2

0.1

1

0

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0 −6

0.4

−5

−4

−3

−2

−1

0

Densité de SigmaCarrée 1.5

1

0.5

0

0

0.5

1

1.5

2

2.5

3

Fig. 4.29 – Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 7%, analyse des cas Complets

76

Chapitre 4. Donn´ees longitudinales incompl`etes

Beta en fonction du NbIterations

Mu en fonction du NbIterations

0.4

−0.5

0.35

−1

−1.5 0.3 −2 Valeurs de Mu

Valeurs de Beta

0.25

0.2

−2.5

−3

0.15 −3.5 0.1 −4

0.05

0

−4.5

4

4.5

5

5.5

6 NbIterations

6.5

7

7.5

−5

8

4

4.5

5

5.5

6 NbIterations

4

x 10

6.5

7

7.5

8 4

x 10

sigmacarre en fonction du NbIterations 3

2.5

Valeurs de sigmacarre

2

1.5

1

0.5

0

4

4.5

5

5.5

6 NbIterations

6.5

7

7.5

8 4

x 10

Fig. 4.30 – Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquantes de 7%, analyse des cas cas complets

77

Chapitre 4. Donn´ees longitudinales incompl`etes

Densité de Beta

Densité de Mu

0.9

0.07

0.8 0.06

0.7 0.05

0.6

0.04

0.5

0.4

0.03

0.3 0.02

0.2 0.01

0.1

0 0.5

1

1.5

2

2.5

3

3.5

−50

−45

−40

−35

−30

−25

−20

−15

−10

−5

Densite de SigmaCarrée

−3

4

0 −55

4

x 10

3.5

3

2.5

2

1.5

1

0.5

0

0

100

200

300

400

500

600

700

800

900

1000

Fig. 4.31 – Densit´es a posteriori de β, µ et σ 2 , avec une proportion de donn´ees manquante de 62%, analyse des cas complets

78

Chapitre 4. Donn´ees longitudinales incompl`etes

Beta en fonction du NbIterations

Mu en fonction du NbIterations

3.5

−10

−15

3 −20

2.5 Valeurs de Mu

Valeurs de Beta

−25

2

−30

−35

1.5 −40

1 −45

0.5

4

4.5

5

5.5

6 NbIterations

6.5

7

7.5

8

−50

4

4.5

5

5.5

6 NbIterations

4

x 10

6.5

7

7.5

8 4

x 10

sigmacarre en fonction du NbIterations 900

800

Valeurs de sigmacarre

700

600

500

400

300

200

100

4

4.5

5

5.5

6 NbIterations

6.5

7

7.5

8 4

x 10

Fig. 4.32 – Convergence de β, µ et σ 2 , avec une proportion de donn´ees manquante de 62%, analyse des cas complets

Chapitre 4. Donn´ees longitudinales incompl`etes

79

L’application pr´esent´ee dans cette section montre que les trois m´ecanismes donnent des r´esultats similaires des moments a posteriori de β et σ 2 . Seulement, pour le param`etre µ, on note une diff´erence entre le m´ecanisme MAR et les deux m´ecanismes MCAR et NMAR. Ainsi, selon le m´ecanisme MAR, la moyenne a posteriori de µ varie entre −3.3283 et −2.1657 avec un ´ecart-type qui se trouve entre 0.7291 et 0.9021, alors que pour les deux autres m´ecanismes, la valeur minimale de la moyenne a posteriori est de −2.9204 et l’´ecart-type maximal est de 0.8187. En r´esum´e, il serait n´ecessaire de noter que dans le cas de donn´ees r´eelles, l’algorithme prend plus d’it´erations, par rapport aux donn´ees simul´ees, pour converger. En effet dans le cas des donn´ees simul´ees, 10000 it´erations sont suffisantes pour la convergence alors que dans le cas des donn´ees r´eelles, le nombre d’it´erations varie entre 50000 et 100000.

Chapitre 5 Conclusion Le probl`eme de donn´ees manquantes est fr´equemment rencontr´e lors de l’analyse de donn´ees longitudinales. Dans ce travail, on pr´esente une m´ethode d’estimation pour un mod`ele dichotomique en utilisant une base de donn´ees panel incompl`etes. Nous avons vu comment l’analyse d’une base de donn´ees contenant de donn´ees manquantes d´epend du m´ecanisme qui cause la non r´eponse. Les r´esultats bas´es sur l’utilisation de la m´ethode d’augmentation de donn´ees, qui consiste a` cr´eer les variables latentes qui correspondent aux variables d´ependantes manquantes, et l’´echantillonnage de Gibbs montrent que les estimateurs sont proches des vraies valeurs et sont pr´ecis quel que soit le m´ecanisme de non r´eponse. Il est a` noter aussi qu’en utilisant cette m´ethode d’estimation, les estimateurs ne semblent pas ˆetre affect´es par la variation des proportions des donn´ees manquantes. On note que la m´ethode de l’analyse des cas complets, qui est bas´ee sur la strat´egie d’´elimination des observations incompl`etes, n’est valide que pour le cas du m´ecanisme de non r´eponse MCAR et avec une proportion de donn´ees manquantes inf´erieure a` environ 45%. En effet, dans le cas o` u l’´elimination des observations devient importante, le biais et la perte de pr´ecision deviennent ´enormes. Cependant, si le m´ecanisme de non r´eponse n’est pas MCAR, alors l’´etude des cas complets donne des estimateurs qui sont biais´es et moins pr´ecis, mˆeme pour de faibles proportions de donn´ees manquantes. On a remarqu´e aussi que dans le cas de donn´ees r´eelles, il existe une l´eg`ere diff´erence entre le m´ecanisme MAR et les deux m´ecanismes MCAR et NMAR. Cette diff´erence concerne le param`etre µ qui est beaucoup moins pr´ecis compar´e aux autres param`etres du mod`ele. Cette m´ethode d’estimation peut ´egalement ˆetre utilis´ee dans les cas o` u les variables explicatives sont manquantes.

Bibliographie [1] Abramowitz, M. et Stegun, I. A. (1972) Handbook of Mathematical Functions, Dover Press, Washington [2] Albert, J. H. et Chib, S. (1993) Bayesian analysis of binary and polytochomous response data. Journal of the American Statistical Association, 88(422) 669 :679. [3] Albert, P. S., Follmann, D. A., Wang, S. A. et Suh, E. B. (2002) A latent autoregressive model for longitudinal binary data subject to informative missingness. Biometrics 58, 631 :641. [4] Angrist, J. D. (2001) Estimating of limited dependent variable models with dummy endogenous regressors : simple strategies for empirical practice. Journal of Business and Economic Statistics. 19(1)2 :16. [5] Baltagi, B. H. (2004). Panel Data Theory and Application. Physica Verlag, Heidelberg. [6] Baltagi, B. H. (2001). A Companion to Theoretical Econometrics . Blackwell, Malden. [7] Baltagi, B. H. (1995). Econometric Analysis of Panel Data. Wiley, Toronto. [8] Beal, M. J. et Ghahramani, Z. (2003) The Variational bayesian EM algorithm for incomplete data : with application to scoring graphical model structures. Bayesian Statistics. 7, Disponible on ligne : http ://www.gatsby.ucl.ac.uk/ zoubin/papers/valencia02.pdf (Page Consult´ee le 10 jan. 2005). [9] Carlin, B. P. et Louis, T. A. (2000) Bayes and Empirical Bayes Methods For Data Analysis. Chapman et Hall, Boca Raton. [10] Coop, G. (2003) Bayesian Econometrics. Wiley, Chichester. [11] Casella, G. et George, E. I. (1992) Explaining the gibbs sampler. The American Statistician, 46(3)167 :174.

BIBLIOGRAPHIE

83

[12] Fraley, C. (1999) On Computing the largest fraction of missing information for the EM algorithm and the worst linear function for data augmentation. Computational Statistics & Data Analysis, 31,13 :26. [13] Gelman, A. (2000) Bayesian Data Analysis. Chapman et Hall, Boca Raton. [14] Ghahramani, Z. et Jordan, M. I. (1994) Learning from incomplete data. Massachusetts Institute of Technology. Disponible on Ligne : http ://www.gatsby.ucl.ac.uk/ zoubin/papers/review.pdf (Page consult´e le 10 jan. 2005). [15] Gilks, R., Richardson, S. et Spiegelhalter, D. J. (1996) Markov Chain Monte Carlo in Practice. Chapman et Hall, Boca Raton. [16] Ibrahim, J. G., Chen, M., Lipsitz, S. R. et Herring, A. H. (2005) Missing data methods for generalized linear models : a comparative review. Journal of the American Statistical Association, 100(469),173 :190. [17] Lancaster, T. (2004) An Introduction to Modern Bayesian Econometrics. Blackwell Publishing, Malden. [18] Lee, P. M. (1989) Bayesian Statistics : An Introduction. Halsted Press, New York. [19] Little, R. J. A. et Rubin, D. B. (2002). Statistical Analysis With Missing Data. Wiley Interscience Publication, New Jersey. [20] Little R. J. A. (1995) Modeling the drop-out mechanism in repeated-measures studies. Journal of the American Statistical Association, 90(431) 1112 :1121. [21] Poirier, D. (1995) Intermediate Statistics and Econometrics. MIT Press, Cambridge. [22] Raftery, A. E., Tanner M. A. et Wells M. T. (2002). Statistics In The 21st Century. Chapman et Hall, Boca Raton. [23] Ross, S. M. (2000) Introduction to Probability Models. Academic Press, San Diego. [24] Schafer, J. L. (1997) Analysis of Incomplete Multivariate Data. Chapman et Hall, London. [25] Skrondal, A. et Rabe-Hesketh, S. (2004) Generalized Latent Variable Modeling. Chapman et Hall, Boca Raton. [26] Tanner, M. A. (1996). Tools For Statistical Inference. Springer, New York.

BIBLIOGRAPHIE

84

[27] Tanner M. A. et Wong W. H. (1987) The Calculation of posterior distributions by data augmentation. Journal of the American Statistical Association, 82(398)528 :540. [28] Train, K. (2003) Discrete Choice Methods With Simulation. Cambridge University Press. Disponible on ligne : http ://elsa.berkeley.edu/ train/books.html(Page consult´e le 17 mai 2005). [29] Wooldrige, J. M. (2002). Econometric Analysis Of Cross Section And Panel Data. MIT Press, Cambridge. [30] Yi, G. Y. et Thompson, M. E. (2005). Marginal and association regression models for longitudinal binary data with drop-outs : a likelihood-based approach. The Canadian Journal of Statistics, 33(1)1 :20. [31] Zhang, P. (2003) Multiple imputation : theory and application. International Statistical Review, 71(3)581 :592.

Annexe A Distributions a posteriori : cas de donn´ ees compl` etes Dans cette section on d´etermine les distributions a posteriori conditionnelle des diff´erents param`etres d’int´erˆet en se basant sur la distribution jointe (3.19). Distribution de αi La distribution de αi est obtenue comme suit : ∗ 2 f (α i |yi , µ, β, σ , xit )i hQ T ∗ 2 ∝ t=1 f (yit |αi , β) f (αi |µ, σ ) o n  P ∝ exp − 12 Tt=1 (yit∗ − αi − βxit )2 exp − 2σ1 2 (αi − µ)2 n o P ∝ exp − 21 Tt=1 (yit∗ − αi − βxit )2 − 2σ1 2 (αi − µ)2 n o PT 1 1 ∗ ∗2 2 ∗ 2 2 2 2 ∝ exp − 2 t=1 (yit + αi − 2αi yit + β xit − 2βxit yit + 2βαi xit ) − 2σ2 (αi − 2µαi + µ ) n 2 o P P 2 α µ2 ∝ exp − 2i (T + σ12 ) + αi Tt=1 (yit∗ − βxit + σµ2 ) + Tt=1 (βxit yit∗ − 12 yit∗ 2 − β2 xit 2 ) − 2σ 2  P (y∗ −βx )+ µ  it t=1 it 1 σ2 =N , . T+ 1 T+ 1 σ2

σ2

Distribution de µ La distribution a posteriori de µ est d´etermin´ee en suivant les manipulations math´ematiques suivantes :

Annexe A. Distributions a posteriori : cas de donn´ees compl`etes

86

Q f (µ|α, σ 2 ) ∝ [ ni=1 f (αi |µ, σ 2 )] f (µ) n o  Q P ∝ ni=1 exp − 2σ12 ni=1 (αi − µ)2 exp − 2b11 (µ − a1 )2 o n Pn 1 1 2 2 2 2 ∝ exp − 2σ2 i=1 (αi − 2µαi + µ ) − 2b1 (µ − 2µa1 + a1 ) o n Pn Pn 2 a21 αi a1 i=1 αi . ∝ exp − 21 µ2 ( σn2 + b11 ) + µ( i=1 + ) − − σ2 b1 2σ 2 2b2 1

Il s’agit de noyau de la distribution normale, ainsi la distribution conditionnelle a posteriori de µ est donn´ee par

µ∼N



b1

Pn

αi + σ 2 a 1 , nb1 + σ 2 i=1

σ 2 b1 nb1 + σ 2



(A.1)

.

Distribution de β Les manipulations suivantes permettent de d´eterminer la distribution a posteriori de β: hQ Q i n T ∗ f (β|α, y ∗) ∝ f (y |β, α ) f (β) i it t=1 n i=1 P P PT Qn 2 PT 2 ∗ + β x ∝ i=1 exp − 12 Tt=1 yit∗2 + T2 αi2 + αi Tt=1 yit∗ − β2 it t=1 t=1 xit yit o  P −βαi Tt=1 xit exp − 2b1 (β − a)2 n PT P P P P P 2 Pn 2 ∝ exp − 21 ni=1 Tt=1 yit∗2 + T2 ni=1 αi2 + ni=1 Tt=1 αi yit∗ − β2 t=1 xit i=1 o P P P P 2 1 2 +β ni=1 Tt=1 xit yit∗ − β ni=1 Tt=1 αi xit − 2b β + aβ − a2b ) b n 2 P P P P P P ∝ exp − β2 ( ni=1 Tt=1 x2it + 1b ) + β( ni=1 Tt=1 xit yit∗ − ni=1 Tt=1 αi xit + ab ) o Pn PT Pn PT ∗2 T Pn a2 1 2 ∗ + i=1 t=1 αi yit − 2 i=1 t=1 yit + 2 i=1 αi − 2b ce qui permet de donner la distribution conditionnelle compl`ete suivante de β :

β∼N

a b

Distribution de σ 2

+

Pn PT 1 b

∗ i=1 t=1 xit (yit − αi ) , Pn PT + i=1 t=1 x2it

1 1 b

+

Pn PT i=1

2 t=1 xit

!

(A.2)

Annexe A. Distributions a posteriori : cas de donn´ees compl`etes

87

Nous d´eterminons dans un premier temps la distribution a priori de σ 2 . Posons z suit une distribution gamma de param`etres c et d et soit σ 2 = z1 , donc la distribution de σ 2 est une Gamma inverse dont la distribution est : f (σ 2 ) = fz (z −1 (σ 2 ))|J|   1 1 = fz 2 σ σ4 d 1 dc −2(c−1) = σ exp(− 2 ) 4 Γ(c) σ σ   c d d −2(c+1) = σ exp − 2 . Γ(c) σ

(A.3)

(A.4)

´ Etant donn´ees les diff´erents valeurs de αi et µ, la distribution a posteriori de σ 2 s’obtient comme suit :

f (σ 2 |αi , µ) ∝ ∝

"

n Y

σ

i=1

−2 12



1 exp − 2 (αi − µ)2 2σ

"

n Y i=1

#

σ

#

f (αi |µ, σ 2 ) f (σ 2 )

−2(c+1)



d exp − 2 σ



! n X 1 d ∝ σ −2(c+1) σ exp − 2 (αi − µ)2 − 2 2σ i=1 σ Pn   2 1 −2(c+1+ n2 ) i=1 (αi − µ) exp − 2 ( + d) . ∝σ σ 2

(A.5)

−2 n 2

(A.6)

Donc la distribution conditionnelle compl`ete de σ 2 est une gamma inverse dont la distribution est : " )# ( n  1 Pn c+ n2 2 X (α − µ) + d n 1 1 i i=1 2 (αi − µ)2 + d (A.7) σ −2(c+1+ 2 ) exp − 2 Γ(c + n2 ) σ 2 i=1 Distribution de yit∗

Annexe A. Distributions a posteriori : cas de donn´ees compl`etes

88

La distribution conditionnelle a posteriori de yit∗ est normale tronqu´ee de la forme suivante : 1. Si yit = 1 (ou yit∗ > 0), alors on a une distribution normale, tronqu´ee a` gauche a` 0, de moynne αi + βxit et de variance 1 ; 2. Si yit = 0 (ou yit∗ < 0), alors on a une distribution normale, tronqu´ee a` droite a` 0, de moynne αi + βxit et de variance 1.

Annexe B Programmes Stata et Matlab Dans cette section, on pr´esente les programmes qui ont servi a` l’estimation du mod`ele par le maximum de vraisemblance avec STATA ainsi que les diff´erents programmes d’estimation par l’´echantillonnage de Gibbs avec MATLAB.

B.1

Pragrammes d’estimation par le maximum de vraisemblance

Voici le programme qu’on a utilis´e pour l’estimation du mod`ele par maximum de vraisemblance pr´esent´e a` la section 2.2

/*****************************************************************/ ** Maximum de vraisemblance pour le mod` ele de probit_dicho_panel */ ******************************************************************/ /*------------------------------------------------------------------------------*/ * Ce programme intitul´ e mlfunc est r´ ealis´ e pour maximiser la fonction de * * vraisemblance telle que pr´ esent´ ee dans le chapitre 2 en utilisant l’algorithme* * de Gauss-Legendre. Dans ce programme on a cr´ ee une fonction appel´ ee intquad1 * * qui a comme entr´ ee la fonction Func, le nombre de points d’int´ egration (40), * * la borne inf´ erieur et la borne superieur de l’int´ egrale (-15 et 15) et ayant * * comme sortie la valeur num´ erique de logaritme de la fonction de vraisemblance * * qui sera stock´ e dans resultat * /*-----------------------------------------------------------------------------*/

Annexe B. Programmes Stata et Matlab

capture program drop mlfunc

90

* pour effacer le programme mlfunc s’il existe

program define mlfunc * d´ efinir le programme mlfunc args lnf beta mu sig * d´ efinir les arguments du programme capture dropvars resultat scalar deter1 = ‘beta’ scalar deter2 = ‘mu’ scalar deter3 = abs(‘sig’) intquad1 Func 40 -15 15 resultat * est une fonction qui calcule l’int´ egrale quietly replace ‘lnf’ = ln(resultat) * de Func entre -infinie et plus l’infinie end capture program drop Func * d´ efinir un nouveau programme qui s’intitule program define Func * Func et qui g´ en` ere la fonction de vraisemblance args alfa * d´ efinie dans la section 2.2 capture drop _func

#delimit ; gen double _func = [norm(‘alfa’ + deter1*X1)]^Y1*[(1-norm(‘alfa’ + deter1*X1))] ^(1-Y1)*[norm(‘alfa’ + deter1*X2)]^Y2*[(1-norm(‘alfa’ + deter1*X2))]^(1-Y2)* [norm(‘alfa’ + deter1*X3)]^Y3*[(1-norm(‘alfa’ + deter1*X3))]^(1-Y3)* [norm(‘alfa’ + deter1*X4)]^Y4*[(1-norm(‘alfa’ + deter1*X4))]^(1-Y4)* normden((‘alfa’-deter2)/deter3)/deter3;

#delimit cr end ******

Start of program here

set more off *mat b0=(1,1,1) use panel100_110.dta, clear ml model lf mlfunc (beta:) (mu:) *ml check *ml init b0, skip

(sig:)

91

Annexe B. Programmes Stata et Matlab

ml maximize ml graph outtex , level labels details legend file(c:\maxvrs100_110) replace

title( vraisemblance)

Annexe B. Programmes Stata et Matlab

B.2

92

Programmes d’estimation par l’´ echantillonnage de Gibbs

Cette partie de l’annexe d´ecrit les diff´erents programmes MATLAB utilis´es afin d’estimer le mod`ele dichotomique en utilisant l’´echantillonnage de Gibbs.

B.2.1

Programme d’estimation par l’´ echantillonnage de Gibbs : base de donn´ ees compl` etes

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %% Programme d’´ echantillonnge de Gibbs sur donn´ ees compl` etes simul´ es %%%%%% %% Les Vraies valeurs sont Mu = 0, Beta = 1 et Sigma = 1 %%%%%%%%%%%%%%%% %% Derni` ere modification le 11/03/05 %%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %--------------------------------------------------------------------------% % Ce programme est compos´ e d’une fonction principale intitul´ e gibbsmatopt3 % % ayant comme entr´ ee : NbIterations ainsi que le fichier de donn´ ees et des % % valeurs initiales de param` etres. La sortie de cette fonction est : NomFi-% % chierSorties1 et NomFichierSorties2 o` u NomFichierSorties1 contient les % % valeurs de Beta, Alpha, Mu et sigma carr´ ee de chaque it´ eration. Le % % NomFichierSorties2 contient les moyennes a posteriori de sigma carr´ e, de % % Mu et de Beta ainsi que leurs e ´carts-types respectifs. Toutefois cette % % fonction principale fait appelle a ` trois sous fonctions, soient : Trunca-% % tedNormal qui sert a ` faire des tirages a ` partir d’une loi normal tronqu´ ee% % qui a comme entr´ ee le vecteur de donn´ ees, y, la variable explicative, x, % % les valeurs courantes de la variance, sig, de, Beta, d’alpha et de num´ ero% % de l’it´ eration i, et comme sortie une vecteur de yetoile. La fonction % % Graphiques ayant comme entr´ ee : ValeursX, ValeursY,NoFigure,Titre, % % XLabel,YLabel et comme sortie le graphique de convergence des diff´ erents % % param` etres d’int´ erets. La fonction Kdensity ayant comme entr´ ee : ValeursXX% % NoFig, Titre et comme sortie le graphique de la densit´ e a posteriori des % % param` etres. % %--------------------------------------------------------------------------% function gibbsmatopt3(NbIterations,NomFichierSorties1,NomFichierSorties2)

93

Annexe B. Programmes Stata et Matlab

SS=load (’panel100_01.txt’); Id = SS(:,1);X2=SS(:,3);X1=SS(:,2); X3=SS(:,4);X4=SS(:,5);Y1=SS(:,6); Y2=SS(:,7);Y3=SS(:,8);Y4=SS(:,9); n = length(Id) ; % Initialisation des variables : yetoile, alpha, beta, mu, sigmacarre. cc = 3 ;dd = 6 ;aa = 4 ; aa1 = 3 ;bb = 14 ;bb1 = 14 ; yetoile1=ones(n,1);yetoile2=ones(n,1); yetoile3=ones(n,1);yetoile4=ones(n,1); alphaprecedent=ones(n,1);alphaactuel=ones(n,1); beta=ones(NbIterations,1);mu=ones(NbIterations,1); sigmacarre=ones(NbIterations,1);NbEnlever = NbIterations/2 ; var1=1;var2=1;var3=1;var4=1; %D´ ebut de l’´ echantillonnage de Gibbs for (i = 2:NbIterations) moy1 = alphaprecedent+beta(i-1)*X1; moy2 = alphaprecedent+beta(i-1)*X2; moy3 = alphaprecedent+beta(i-1)*X3; moy4 = alphaprecedent+beta(i-1)*X4; %%%%%%%%%%%%%%%%%% Tirage de yetoile %%%%%%%%%%%%% yetoile1 yetoile2 yetoile3 yetoile4

= = = =

TruncatedNormal(Y1,moy1,sigmacarre,i) TruncatedNormal(Y2,moy2,sigmacarre,i) TruncatedNormal(Y3,moy3,sigmacarre,i) TruncatedNormal(Y4,moy4,sigmacarre,i)

; ; ; ;

%%%%%%%%%%%%%%%% Calcul de alpha %%%%%%%%%%%%%%% moyenne_alpha = zeros(n,1); moyenne_alpha = yetoile1 + yetoile2 + yetoile3 + yetoile4 - beta(i-1,1)*(X1+X2+X3+X4) + (mu(i-1,1)/(sigmacarre(i-1,1)))*ones(n,1); moyenne_alpha = moyenne_alpha/(4+1/(sigmacarre(i-1,1))); variance_alpha = 1/(4+1/(sigmacarre(i-1,1)));

94

Annexe B. Programmes Stata et Matlab

alphaactuel = normrnd(moyenne_alpha ,sqrt(variance_alpha)); %%%%%%%%%%%%%%%%%% Calcul de

mu %%%%%%%%%%%%%%%%

moyenne_mu = (bb1*sum(alphaactuel) + aa1*sigmacarre(i-1))/(n*bb1 +(sigmacarre(i-1))); variance_mu = (bb1*(sigmacarre(i-1)))/(n*bb1+(sigmacarre(i-1))); mu(i,1) = normrnd(moyenne_mu , sqrt(variance_mu) ); %%%%%%%%%%%%%%%%%%% Calcul de

beta %%%%%%%%%

moyenne_beta = 0; variance_beta = 1; moyenne_beta = sum(X1.*(yetoile1 - alphaactuel) + X2.*(yetoile2 - alphaactuel)+X3.*(yetoile3 - alphaactuel) +X4.*(yetoile4 alphaactuel)); moyenne_beta = moyenne_beta + aa/bb; moyenne_beta = moyenne_beta / ((1/bb) + sum(X1.^2 + X2.^2 + X3.^2 + X4.^2)); variance_beta = 1/ ((1/bb) + sum(X1.^2 + X2.^2 + X3.^2 + X4.^2)); beta(i,1) = normrnd(moyenne_beta, sqrt(variance_beta)); %%%%%%%%%%% Calcul de

sigmacarre

%%%%

sigmacarre_shape = cc + n/2; sigmacarre_scale = 1/((0.5 * sum((alphaactuel - mu(i,1)).^2)) + dd ) ; sigmacarre(i,1) = gamrnd(sigmacarre_shape, sigmacarre_scale); sigmacarre(i,1) = 1/sigmacarre(i,1); alphaprecedent = alphaactuel; i end ; % F I N ::: Boucle globale X_axe = [1:NbIterations]’; alphaactuel = [alphaactuel]’ ;

sur i

Graphiques(X_axe(NbEnlever:NbIterations,1),sigmacarre(NbEnlever:NbIterations,1) ,71,’sigmacarre en fonction du NbIterations’,’NbIterations’,’Valeurs de sigmacarre’); saveas(gcf,’ConSig.eps’,’psc2’) Graphiques(X_axe(NbEnlever:NbIterations,1),mu(NbEnlever:NbIterations,1),72,’Mu en fonction du NbIterations’,’NbIterations’,’Valeurs de Mu’);

Annexe B. Programmes Stata et Matlab

95

saveas(gcf,’ConMu.eps’,’psc2’) Graphiques(X_axe(NbEnlever:NbIterations,1),beta(NbEnlever:NbIterations,1),73, ’Beta en fonction du NbIterations’,’NbIterations’,’Valeurs de Beta’); saveas(gcf,’ConBeta.eps’,’psc2’) Kdensity(sigmacarre(NbEnlever:NbIterations,1),74,’Densit´ e de SigmaCarr´ ee’) ; saveas(gcf,’DenSig.eps’,’psc2’) Kdensity(mu(NbEnlever:NbIterations,1),75,’Densit´ e de Mu’) ; saveas(gcf,’DenMu.eps’,’psc2’) Kdensity(beta(NbEnlever:NbIterations,1),76,’Densit´ e de Beta’) ; saveas(gcf,’DenBeta.eps’,’psc2’) FID = fopen(NomFichierSorties1,’w’); fprintf(FID,’X_axe = [’); fprintf(FID,’%6.2f ’,X_axe); fprintf(FID,’]; \n\n’); % on imprime le reste des r´ esultats de la m^ eme fa¸ con fclose(FID); Resltat = fopen(NomFichierSorties2,’w’); fprintf(Resltat,’MoySig = [’); fprintf(Resltat,’%6.2f ’,mean(sigmacarre(NbEnlever:NbIterations,1))); fprintf(Resltat,’]; \n\n’); fclose(Resltat); %% Creation de fonction Normal tronquee %%% function [yet] = TruncatedNormal(y,x,sig,i) %% i est le num´ eros de l’it´ eration %% n = length(x) ; Phi1 = normcdf(-x,0,1); u1positif = unifrnd(Phi1,1); u1negatif = unifrnd(0,Phi1); u1positif = norminv(u1positif,0,1); u1negatif = norminv(u1negatif,0,1); for j = 1:n if (y(j,1) == 1 ) ; yet(j,1) = x(j,1) + u1positif(j,1) ; end;

96

Annexe B. Programmes Stata et Matlab

if (y(j,1) == 0 ); yet(j,1) = x(j,1) + u1negatif(j,1) ; end; end; %% Cr´ eation de fonction Kdensity

%%%

function Kdensity(ValeursXX,NoFig,Titre) [f,xi] = ksdensity(ValeursXX); figure(NoFig) plot(xi,f); title(Titre); %% Cr´ eation de fonction Graphique

%%%

function Graphiques(ValeursX, ValeursY,NoFigure,Titre,XLabel,YLabel) % Fonction Graphiques(ValeursEnAxeX,ValeursEnAxeY,NumerosDeLaFigure, % TitreDeLaFigure,XLabel,YLabel) figure(NoFigure) plot(ValeursX,ValeursY); title(Titre); xlabel(XLabel); ylabel(YLabel);

Annexe B. Programmes Stata et Matlab

B.2.2

97

Programme adapt´ e a des donn´ ees manquantes selon diff´ erents m´ ecanismes de non r´ eponse

Ce programme est adapt´e pour l’estimation par la m´ethode d’´echantillonnage de Gibbs en respectant les mod`eles de m´ecanisme de non r´eponse.

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%% Programme d’´ echantillonnge de Gibbs sur donn´ ees manquantes MCAR %% %%%% Les Vraies valeurs sont Mu = 0, Beta = 1 et Sigma = 1 %%%%%%%%%% %%%% Derni` ere modification le 18/10/05 %%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %--------------------------------------------------------------------------% % Ce programme est semblable a ` celui qui pr´ ec` ede sauf que dans ce cas nous % % sommes en pr´ esence d’une base de donn´ ees ayant des observations manqua- % % ntes selon un m´ ecanisme MCAR. Donc les changements par rapport au progr- % % amme ci-dessus sont : % % 1) Au niveau de la lecture de la base de donn´ ees on ajoute les variables % % indicatrices des observations manquantes, R. % % 2) La fonction TruncatedNormal, qui sert a ` faire des tirages a ` partir % % d’une loi normal tronqu´ ee, contient une nouvelle e ´tape qui simule % % yetoile a ` partir d’une loi normale et pas a ` partir d’une loi normal % % tronqu´ ee, dans le cas o` u on a une observation manquante. % %--------------------------------------------------------------------------% function gibbsmatopt3(NbIterations,NomFichierSorties1,NomFichierSorties2) t = cputime; SS=load (’panelM2emeperde100_01.txt’); Id = SS(:,1);X1=SS(:,2);X2=SS(:,3); X3=SS(:,4);X4=SS(:,5);Y1=SS(:,6); Y2=SS(:,7);Y3=SS(:,8);Y4=SS(:,9); n = length(Id) ; % Initialisation des variables : yetoile, alpha, beta, mu, sigmacarre. cc = 4 ;dd = 4 ;aa = 2 ; aa1 = 2 ;bb = 1 ;bb1 = 1 ; yetoile1=ones(n,1);yetoile2=ones(n,1);yetoile3=ones(n,1); yetoile4=ones(n,1);alphaprecedent=ones(n,1); alphaactuel=ones(n,1);beta=ones(NbIterations,1);

98

Annexe B. Programmes Stata et Matlab

mu=ones(NbIterations,1);sigmacarre=ones(NbIterations,1); NbEnlever = NbIterations/2 ; %D´ ebut de l’algorithme for (i = 2:NbIterations) moy1 = alphaprecedent+beta(i-1)*X1; moy2 = alphaprecedent+beta(i-1)*X2; moy3 = alphaprecedent+beta(i-1)*X3; moy4 = alphaprecedent+beta(i-1)*X4; %%%%%%%%%%%%%%%%%% Tirage de yetoile %%%%%%%%%%% yetoile1 yetoile2 yetoile3 yetoile4

= = = =

TruncatedNormal(Y1,moy1,sigmacarre,i) TruncatedNormal(Y2,moy2,sigmacarre,i) TruncatedNormal(Y3,moy3,sigmacarre,i) TruncatedNormal(Y4,moy4,sigmacarre,i)

; ; ; ;

%%%%%%%%%%%%%%%% Calcul de alpha %%%%%%%%%%%%%%%% moyenne_alpha = zeros(n,1); moyenne_alpha = yetoile1 + yetoile2 + yetoile3 + yetoile4 - beta(i-1,1)* (X1+X2+X3+X4) + (mu(i-1,1)/(sigmacarre(i-1,1)))*ones(n,1); moyenne_alpha = moyenne_alpha/(4+1/(sigmacarre(i-1,1))); variance_alpha = 1/(4+1/(sigmacarre(i-1,1))); alphaactuel = normrnd(moyenne_alpha ,sqrt(variance_alpha)); %%%%%%%%%%%%%%%%%% Calcul de

mu %%%%%%%%%%%%%%%

moyenne_mu = (bb1*sum(alphaactuel) + aa1*sigmacarre(i-1))/(n*bb1 +(sigmacarre(i-1))); variance_mu = (bb1*(sigmacarre(i-1)))/(n*bb1+(sigmacarre(i-1))); mu(i,1) = normrnd(moyenne_mu , sqrt(variance_mu) ); %%%%%%%%%%%%%%%%%%% Calcul de

beta %%%%%%%%%%%%%%

moyenne_beta = 0; variance_beta = 1; moyenne_beta = sum(X1.*(yetoile1 - alphaactuel)+X2.*(yetoile2 - alphaactuel) +X3.*(yetoile3 - alphaactuel) +X4.*(yetoile4 - alphaactuel)); moyenne_beta = moyenne_beta + aa/bb;

Annexe B. Programmes Stata et Matlab

99

moyenne_beta = moyenne_beta / ((1/bb) + sum(X1.^2 + X2.^2 + X3.^2 + X4.^2)); variance_beta = 1/ ((1/bb) + sum(X1.^2 + X2.^2 + X3.^2 + X4.^2)); beta(i,1) = normrnd(moyenne_beta, sqrt(variance_beta)); %%%%%%%%%% Calcul de

sigmacarre carree %%%%%%%%

sigmacarre_shape = cc + n/2; sigmacarre_scale = 1/((0.5 * sum((alphaactuel - mu(i,1)).^2)) + dd ) ; sigmacarre(i,1) = gamrnd(sigmacarre_shape, sigmacarre_scale); sigmacarre(i,1) = 1/sigmacarre(i,1); alphaprecedent = alphaactuel; i end ; % F I N ::: Boucle globale sur i duree = cputime - t ; X_axe = [1:NbIterations]’; alphaactuel = [alphaactuel]’ ; % Fonction Graphiques(ValeursEnAxeX,ValeursEnAxeY,NumerosDeLaFigure,Titre) Graphiques(X_axe(NbEnlever:NbIterations,1),sigmacarre(NbEnlever:NbIterations,1), 11,’sigmacarre en fonction du NbIterations’,’NbIterations’, ’Valeurs de sigmacarre’); saveas(gcf,’ConSig.eps’,’psc2’) Graphiques(X_axe(NbEnlever:NbIterations,1),mu(NbEnlever:NbIterations,1),12,’Mu en fonction du NbIterations’,’NbIterations’,’Valeurs de Mu’); saveas(gcf,’ConMu.eps’,’psc2’) Graphiques(X_axe(NbEnlever:NbIterations,1),beta(NbEnlever:NbIterations,1),13 ,’Beta en fonction du NbIterations’,’NbIterations’,’Valeurs de Beta’); saveas(gcf,’ConBeta.eps’,’psc2’) Kdensity(sigmacarre(NbEnlever:NbIterations,1),14,’Densit´ e de SigmaCarr´ ee’) ; saveas(gcf,’DenSig.eps’,’psc2’) Kdensity(mu(NbEnlever:NbIterations,1),15,’Densit´ e de Mu’) ; saveas(gcf,’DenMu.eps’,’psc2’) Kdensity(beta(NbEnlever:NbIterations,1),16,’Densit´ e de Beta’) ; saveas(gcf,’DenBeta.eps’,’psc2’) FID = fopen(NomFichierSorties1,’w’); % ouvrir un fichiers qui s’appelle fprintf(FID,’X_axe = [’); % NomFichierSorties1 et dans lequel fprintf(FID,’%6.2f ’,X_axe); % on imprime le r´ esultat fprintf(FID,’]; \n\n’); %% Cr´ eation de fonction Graphique de densit´ e %%%

100

Annexe B. Programmes Stata et Matlab

function Kdensity(ValeursXX,NoFig,Titre) [f,xi] = ksdensity(ValeursXX); figure(NoFig) plot(xi,f); title(Titre); %% Cr´ eation de fonction Normal tronquee %%% function [yet] = TruncatedNormal(y,x,sig,i) n = length(x) ; Phi1 = normcdf(-x,0,1); u1positif = unifrnd(Phi1,1); u1negatif = unifrnd(0,Phi1); u1positif = norminv(u1positif,0,1); u1negatif = norminv(u1negatif,0,1); for j = 1:n if (y(j,1) == 1 ) ; yet(j,1) = x(j,1) + u1positif(j,1) ; end; if (y(j,1) == 0 ); yet(j,1) = x(j,1) + u1negatif(j,1) ; end; if(y(j,1) == 999 ) ; yet(j,1) = normrnd(x(j,1),1) ; end; end; %% Cr´ eation de fonction Graphique

%%%

function Graphiques(ValeursX, ValeursY,NoFigure,Titre,XLabel,YLabel) figure(NoFigure) plot(ValeursX,ValeursY); title(Titre); xlabel(XLabel); ylabel(YLabel);

Annexe B. Programmes Stata et Matlab

B.2.3

101

Programme pour le m´ ecanisme MAR

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%% Programme d’´ echantillonnge de Gibbs sur donn´ ees manquantes MAR %%%%%%% %%%%% Les Vraies valeurs sont Mu = 0,Beta = 1 et Sigma = 1 %%%%%%%%%%%%%%%% %%%%% Derni` ere modification le 19/10/05 %%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %--------------------------------------------------------------------------% % Ce programme est semblable a ` celui qui pr´ ec` ede sauf que dans ce cas nous % % sommes en pr´ esence d’une base de donn´ ees ayant des observations manqua- % % ntes selon un m´ ecanisme MAR. Donc le changement par rapport au program- % % me ci-dessus est au niveau de la cr´ eation des indicatrices des observati-% % ons manquante, qui sont cr´ ees selon un m´ ecanisme MAR est sont bien comme-% % nt´ es au d´ ebut de ce programme % %--------------------------------------------------------------------------% function gibbsmatopt3(NbIterations,NomFichierSorties1,NomFichierSorties2) t = cputime; SS=load (’panel100_01.txt’); Id = SS(:,1);X1=SS(:,2);X2=SS(:,3); X3=SS(:,4);X4=SS(:,5);Y1=SS(:,6); Y2=SS(:,7);Y3=SS(:,8);Y4=SS(:,9); n = length(Id) ; % Initialisation des variables : yetoile, alpha, beta, mu, sigmacarre. cc = 4 ;dd = 4 ;aa = 2 ; aa1 = 2 ;bb = 1 ;bb1 = 1 ; lamda0 = 1.5 ;lamda1 = 0.8 ; yetoile1=ones(n,1);yetoile2=ones(n,1);alphaprecedent=ones(n,1); yetoile3=ones(n,1);yetoile4=ones(n,1);alphaactuel=ones(n,1); beta=ones(NbIterations,1);mu=ones(NbIterations,1); sigmacarre=ones(NbIterations,1);NbEnlever = NbIterations/2 ; %%%%%%%%%%%%% Creer les donn´ ees manquantes selon MAR %%%%%%%% for (j = 1:n) R1(j,1) = 1 ; end;

Annexe B. Programmes Stata et Matlab

102

prob21(:,1) = exp(lamda0 + lamda1*Y1)./( 1 + exp(lamda0 + lamda1*Y1)) ; R2 = binornd(1,prob21(:,1)) ; observation2 = tabulate(R2) ;clear j ; for ( j = 1:n ) if (R2(j,1) == 0 ) R3(j,1) = 0 ; R4(j,1) = 0 ; end; if (R2(j,1) == 1 ) prob32(j,1) = exp(lamda0 + lamda1*Y2(j,1))./( 1 + exp(lamda0 + lamda1* Y2(j,1))) ; R3(j,1) = binornd(1,prob32(j,1)) ;end; if (R3(j,1) == 0 ) R4(j,1) = 0 ; end; if (R3(j,1) == 1 ) prob43(j,1) = exp(lamda0 + lamda1*Y3(j,1))./( 1 + exp(lamda0 + lamda1* Y3(j,1))) ; R4(j,1) = binornd(1,prob43(j,1)) ;end;end; observation3 = tabulate(R3) ;observation4 = tabulate(R4) ; horzcat(observation2, observation3, observation4) clear j ; for (j = 1:n) if (R1(j,1) == 0 Y1(j,1) = 999 end; if (R2(j,1) == 0 Y2(j,1) = 999 end; if (R3(j,1) == 0 Y3(j,1) = 999 end; if (R4(j,1) == 0 Y4(j,1) = end;end;

) ; ) ; ) ; ) 999 ;

%%%%%%%%%% Fin de Cr´ eation les donn´ ees manquantes selon MAR %%%%%%%% %% D´ ebut de l’algorithme

103

Annexe B. Programmes Stata et Matlab

for (i = 2:NbIterations) moy1 = alphaprecedent+beta(i-1)*X1;moy2 = alphaprecedent+beta(i-1)*X2; moy3 = alphaprecedent+beta(i-1)*X3;moy4 = alphaprecedent+beta(i-1)*X4; %%%%%%%%%%%%%%%%%% Tirage de yetoile %%%%%%%%%%%%%%%%%%%%%%%%% yetoile1 yetoile2 yetoile3 yetoile4

= = = =

TruncatedNormal(Y1,moy1,sigmacarre,i) TruncatedNormal(Y2,moy2,sigmacarre,i) TruncatedNormal(Y3,moy3,sigmacarre,i) TruncatedNormal(Y4,moy4,sigmacarre,i)

; ; ; ;

%%%%%%%%%%%%%%%% Calcul de alpha %%%%%%%%%%%%%%%% moyenne_alpha = zeros(n,1); moyenne_alpha = yetoile1 + yetoile2 + yetoile3 + yetoile4 - beta(i-1,1)*(X1+X2 +X3+X4) + (mu(i-1,1)/(sigmacarre(i-1,1)))*ones(n,1); moyenne_alpha = moyenne_alpha/(4+1/(sigmacarre(i-1,1))); variance_alpha = 1/(4+1/(sigmacarre(i-1,1))); alphaactuel = normrnd(moyenne_alpha ,sqrt(variance_alpha)); %%%%%%%%%%%%%%%%%% Calcul de

mu %%%%%%%%%%%%%%%%%%%

moyenne_mu = (bb1*sum(alphaactuel) + aa1*sigmacarre(i-1))/(n*bb1 +(sigmacarre(i-1))); variance_mu = (bb1*(sigmacarre(i-1)))/(n*bb1+(sigmacarre(i-1))); mu(i,1) = normrnd(moyenne_mu , sqrt(variance_mu) ); %%%%%%%%%%%%%%%%%%% Calcul de

beta %%%%%%%%%%%%%%%%%%%

moyenne_beta = 0; variance_beta = 1; moyenne_beta = sum(X1.*(yetoile1 - alphaactuel) + X2.*(yetoile2 - alphaactuel) +X3.*(yetoile3 - alphaactuel) +X4.*(yetoile4 - alphaactuel)); moyenne_beta = moyenne_beta + aa/bb; moyenne_beta = moyenne_beta / ((1/bb) + sum(X1.^2 + X2.^2 + X3.^2 + X4.^2)); variance_beta = 1/ ((1/bb) + sum(X1.^2 + X2.^2 + X3.^2 + X4.^2)); beta(i,1) = normrnd(moyenne_beta, sqrt(variance_beta)); %%%%%%%%%%%%%%%%% Calcul de sigmacarre_shape = cc + n/2;

sigmacarre carree %%%%%%%%%%%%%%%

Annexe B. Programmes Stata et Matlab

104

sigmacarre_scale = 1/((0.5 * sum((alphaactuel - mu(i,1)).^2)) + dd ) ; sigmacarre(i,1) = gamrnd(sigmacarre_shape, sigmacarre_scale); sigmacarre(i,1) = 1/sigmacarre(i,1); alphaprecedent = alphaactuel; i end ; % F I N ::: Boucle globale sur i duree = cputime - t ; X_axe = [1:NbIterations]’; % Fonction Graphiques(ValeursEnAxeX,ValeursEnAxeY,NumerosDeLaFigure,Titre) Graphiques(X_axe(NbEnlever:NbIterations,1),sigmacarre(NbEnlever:NbIterations,1) ,11,’sigmacarre en fonction du NbIterations’,’NbIterations’,’Valeurs de sigmacarre’); saveas(gcf,’ConSig.eps’,’psc2’); Graphiques(X_axe(NbEnlever:NbIterations,1),mu(NbEnlever:NbIterations,1),12,’Mu en fonction du NbIterations’,’NbIterations’,’Valeurs de Mu’); saveas(gcf,’ConMu.eps’,’psc2’) ; Graphiques(X_axe(NbEnlever:NbIterations,1),beta(NbEnlever:NbIterations,1),13,’ Beta en fonction du NbIterations’,’NbIterations’,’Valeurs de Beta’); saveas(gcf,’ConBeta.eps’,’psc2’) ; Kdensity(sigmacarre(NbEnlever:NbIterations,1),14,’Densit´ e de SigmaCarr´ ee’) ; saveas(gcf,’DenSig.eps’,’psc2’) ; Kdensity(mu(NbEnlever:NbIterations,1),15,’Densit´ e de Mu’) ; saveas(gcf,’DenMu.eps’,’psc2’) ; Kdensity(beta(NbEnlever:NbIterations,1),16,’Densit´ e de Beta’) ; saveas(gcf,’DenBeta.eps’,’psc2’) FID = fopen(NomFichierSorties1,’w’); fprintf(FID,’X_axe = [’); fprintf(FID,’%6.2f ’,X_axe);fprintf(FID,’]; \n\n’); fprintf(FID,’sigmacarre = [’);fprintf(FID,’%6.6f ’, sigmacarre); fprintf(FID,’]; \n\n’); %% On imprime le reste de r´ esultat de la m^ eme fa¸ con %%%% Cr´ eation de la fonction de densit´ e Kdensity %%%%%%%%% function Kdensity(ValeursXX,NoFig,Titre) [f,xi] = ksdensity(ValeursXX); figure(NoFig);plot(xi,f);title(Titre);

105

Annexe B. Programmes Stata et Matlab

%%%% Cr´ eation de la fonction Normal tronquee %%%%%%%%%%%%%%%% function [yet] = TruncatedNormal(y,x,sig,i) n = length(x) ; Phi1 = normcdf(-x,0,1);u1positif = unifrnd(Phi1,1); u1negatif = unifrnd(0,Phi1);u1positif = norminv(u1positif,0,1); u1negatif = norminv(u1negatif,0,1); for j = 1:n if (y(j,1) == 1 ) ;yet(j,1) = x(j,1) + u1positif(j,1) ;end; if (y(j,1) == 0 );yet(j,1) = x(j,1) + u1negatif(j,1) ; end; if(y(j,1) == 999 ) ;yet(j,1) = normrnd(x(j,1),1) ;end;end; %% Cr´ eation de fonction Graphique

%%%

function Graphiques(ValeursX, ValeursY,NoFigure,Titre,XLabel,YLabel) figure(NoFigure) plot(ValeursX,ValeursY); title(Titre); xlabel(XLabel); ylabel(YLabel);

Annexe B. Programmes Stata et Matlab

B.3

106

Programme pour les cas complets

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%% Programme d’´ echantillonnge de Gibbs: e ´tude des cas complets %% %%%%%% Les Vraies valeurs sont Mu = 0, Beta =1 et Sigma = 1 %%%%%%%%%%% %%%%%% Derni` ere modification le 15/10/05 %%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %--------------------------------------------------------------------------% % Dans ce programme on s’int´ eresse seulement a ` l’estimation des donn´ ees % % disponibles. Donc on ne fait pas une simulation des donn´ ees manquante. % % Le lecteure remarquera que chaque vecteurs de donn´ ees est multipli´ e par % % le vecteur d’indicatrice des observations maquantes, R. Le but de ce pro-% % gramme est de montrer que l’estimation des cas disponibles donne des est-% % imateurs biais´ e, ce qui est confirm´ e dans le tableau l’AnnexeD intitul´ e % % Simulation pour l’´ etude des cas compl` ete des donn´ ees MCAR. % %--------------------------------------------------------------------------% function gibbsmatopt3(NbIterations,NomFichierSorties1,NomFichierSorties2) t = cputime; SS = csvread(’panelcc40pourcent.csv’,1,0) ; Id = SS(:,1);X1=SS(:,2);X2=SS(:,3); X3=SS(:,4);X4=SS(:,5);Y1=SS(:,6); Y2=SS(:,7);Y3=SS(:,8);Y4=SS(:,9); R1=SS(:,10);R2=SS(:,11);R3=SS(:,12); R4=SS(:,13); %% Cr´ eation de vecteur qui contient les p´ eriodes de chaque personne %% Ti = R1 + R2 + R3 + R4 ; tabtemps = tabulate(Ti) ; %%% Cr´ eation de n %% taille1 = max(R1,R2) ; taille2 = max(R3,R4) ; taille = max(taille1,taille2) ; n = sum(taille) ;

Annexe B. Programmes Stata et Matlab

107

% Initialisation des variables : yetoile, alpha, beta, mu, sigmacarre. cc = 4 ;dd = 4 ;aa = 2 ; aa1 = 2 ;bb = 1 ;bb1 = 1 ; yetoile1=ones(100,1);yetoile2=ones(100,1); yetoile3=ones(100,1);yetoile4=ones(100,1); alphaprecedent=ones(100,1);alphaactuel=ones(100,1); beta=ones(NbIterations,1);mu=ones(NbIterations,1); sigmacarre=ones(NbIterations,1); NbEnlever = NbIterations/2 ; %%%%%%%%%% Creer les donn´ ees manquantes %%%%%%%%%% for (j = 1:100) if (R1(j,1) == 0 Y1(j,1) = 999 end; if (R2(j,1) == 0 Y2(j,1) = 999 end; if (R3(j,1) == 0 Y3(j,1) = 999 end; if (R4(j,1) == 0 Y4(j,1) = end; end;

) ; ) ; ) ; ) 999 ;

%%%%%%%%% D´ ebut de l’´ echantillonnage de Gibbs %%%%%% for (i = 2:NbIterations) moy1 = alphaprecedent+beta(i-1)*X1.*R1; moy2 = alphaprecedent+beta(i-1)*X2.*R2; moy3 = alphaprecedent+beta(i-1)*X3.*R3; moy4 = alphaprecedent+beta(i-1)*X4.*R4; %%%%%%%%%%%% Tirage de yetoile %%%%%%%%%%%%%%%%%%%%% yetoile1 = TruncatedNormal(Y1,moy1,sigmacarre,i) ; yetoile2 = TruncatedNormal(Y2,moy2,sigmacarre,i) ; yetoile3 = TruncatedNormal(Y3,moy3,sigmacarre,i) ;

108

Annexe B. Programmes Stata et Matlab

yetoile4 = TruncatedNormal(Y4,moy4,sigmacarre,i) ; %%%%%%%%%%%%%%%%%%% Calcul de alpha %%%%%%%%%%%%%%%% moyenne_alpha = zeros(n,1); moyenne_alpha = R1.*yetoile1 + R2.*yetoile2 + R3.*yetoile3 + R4.*yetoile4 - beta(i-1,1)*(R1.*X1+R2.*X2+R3.*X3+R4.*X4) + (mu(i-1,1)/(sigmacarre(i-1,1))) ; moyenne_alpha = moyenne_alpha ./(Ti+1/(sigmacarre(i-1,1))); variance_alpha = 1./(Ti+1/(sigmacarre(i-1,1))); alphaactuel = normrnd(moyenne_alpha ,sqrt(variance_alpha)); %%%%%%%%%%%%%%%%%% Calcul de

mu %%%%%%%%%%%%%%%%%%%

moyenne_mu = (bb1*sum(alphaactuel) + aa1*sigmacarre(i-1))/(n*bb1 +(sigmacarre(i-1))); variance_mu = (bb1*(sigmacarre(i-1)))/(n*bb1+(sigmacarre(i-1))); mu(i,1) = normrnd(moyenne_mu , sqrt(variance_mu) ); %%%%%%%%%%%%%%%%%%% Calcul de

beta %%%%%%%%%%%%%%%%

moyenne_beta = 0;variance_beta = 1; moyenne_beta = sum(R1.*X1.*(yetoile1 - alphaactuel) + R2.*X2.*(yetoile2 - alphaactuel) +R3.*X3.*(yetoile3 - alphaactuel) +R4.*X4.*(yetoile4 - alphaactuel)); moyenne_beta = moyenne_beta + aa/bb; moyenne_beta = moyenne_beta / ((1/bb) + sum(R1.*(X1).^2 + R2.*(X2).^2 + R3.*(X3).^2 + R4.*(X4).^2)); variance_beta = 1/ ((1/bb) + sum(R1.*(X1).^2 + R2.*(X2).^2 + R3.*(X3).^2 + R4.*(X4).^2)); beta(i,1) = normrnd(moyenne_beta, sqrt(variance_beta));

%%%%%%%%%%% Calcul de

sigmacarre carree %%%%%%%%%%%%

sigmacarre_shape = cc + n/2; sigmacarre_scale = 1/((0.5 * sum((alphaactuel - mu(i,1)).^2)) + dd ) ; sigmacarre(i,1) = gamrnd(sigmacarre_shape, sigmacarre_scale); sigmacarre(i,1) = 1/sigmacarre(i,1);

Annexe B. Programmes Stata et Matlab

109

alphaprecedent = alphaactuel;

i end ; duree =

%%%% F I N D’´ echantillonnage de Gibbs ::: %%%%%%%%%%%% cputime - t ;

X_axe = [1:NbIterations]’; alphaactuel = [alphaactuel]’ ;

% Fonction Graphiques(ValeursEnAxeX,ValeursEnAxeY,NumerosDeLaFigure, Titre) Graphiques(X_axe(NbEnlever:NbIterations,1),sigmacarre(NbEnlever:NbIterations,1) ,11,’sigmacarre en fonction du NbIterations’,’NbIterations’,’Valeurs de sigmacarre’); saveas(gcf,’ConSig.eps’,’psc2’) Graphiques(X_axe(NbEnlever:NbIterations,1),mu(NbEnlever:NbIterations,1),12, ’Mu en fonction du NbIterations’,’NbIterations’,’Valeurs de Mu’); saveas(gcf,’ConMu.eps’,’psc2’) Graphiques(X_axe(NbEnlever:NbIterations,1),beta(NbEnlever:NbIterations,1),13, ’Beta en fonction du NbIterations’,’NbIterations’,’Valeurs de Beta’); saveas(gcf,’ConBeta.eps’,’psc2’) Kdensity(sigmacarre(NbEnlever:NbIterations,1),14,’Densite de SigmaCarr´ ee’) ; saveas(gcf,’DenSig.eps’,’psc2’) Kdensity(mu(NbEnlever:NbIterations,1),15,’Densit´ e de Mu’) ; saveas(gcf,’DenMu.eps’,’psc2’) Kdensity(beta(NbEnlever:NbIterations,1),16,’Densit´ e de Beta’) ; saveas(gcf,’DenBeta.eps’,’psc2’)

FID = fopen(NomFichierSorties1,’w’);% Ouvrir le fichier NomFichierSorties % et e ´crireles r´ esultats que nous avons fprintf(FID,’X_axe = [’); % besoin, fprintf(FID,’%6.2f ’,X_axe); fprintf(FID,’]; \n\n’);

110

Annexe B. Programmes Stata et Matlab

fclose(FID); Resltat = fopen(NomFichierSorties2,’w’); fprintf(Resltat,’MoySig = [’); fprintf(Resltat,’%6.2f ’,mean(sigmacarre(NbEnlever:NbIterations,1))); fprintf(Resltat,’]; \n\n’); fclose(Resltat); %% Cr´ eation de fonction Normal tronquee %%% function [yet] = TruncatedNormal(y,x,sig,i) n = length(x) ; Phi1 = normcdf(-x,0,1); u1positif = unifrnd(Phi1,1); u1negatif = unifrnd(0,Phi1); u1positif = norminv(u1positif,0,1); u1negatif = norminv(u1negatif,0,1); for j = 1:n if (y(j,1) == 1 ) ; yet(j,1) = x(j,1) + u1positif(j,1) ; end; if (y(j,1) == 0 ); yet(j,1) = x(j,1) + u1negatif(j,1) ; end; if(y(j,1) == 999 ) ; yet(j,1) = normrnd(x(j,1),sqrt(sig(i-1,1))) ; end; end; %% Cr´ eation de fonction Graphique function Kdensity(ValeursXX,NoFig,Titre) [f,xi] = ksdensity(ValeursXX); figure(NoFig) plot(xi,f); title(Titre);

%%%

111

Annexe B. Programmes Stata et Matlab

%% Cr´ eation de fonction Graphique

%%%

function Graphiques(ValeursX, ValeursY,NoFigure,Titre,XLabel,YLabel) figure(NoFigure) plot(ValeursX,ValeursY); title(Titre); xlabel(XLabel); ylabel(YLabel); %%%%% Ex´ ecution du PRG suivant %%% cd .. cd ResultatsBase20pourcent100 gibbsMAR(10000,’ResultatsBase20pourcent100’,’moments’) disp(’haha j’ai fini le 2eme PRG dans duree/60 minute’)

Annexe C R´ esultats pour diff´ erentes simulations Dans cette annexe on pr´esente quelques r´esultats suppl´ementaires int´eressants relatifs aux analyses fait au chapitre 4. Ainsi pour chaque m´ecanisme de donn´ees manquantes on analyse cinq bases de donn´ees diff´erentes. les tableaux (C.1), (C.2), (C.3) et (C.4) indiquent que les r´esultats issus des diff´erentes bases de donn´ees sont semblables. Autrement dit, pour chaque proportion de donn´ees manquantes les cinq diff´erentes bases donnent presque le mˆeme r´esultats.

C.1

Simulations pour le m´ ecanisme MCAR

Annexe C. R´esultats pour diff´erentes simulations

113

5%

19%

45%

66%

Simulations

Proportion

Tab. C.1 – R´esultats via l’´echantillonnage de Gibbs sc´enario 1 avec de diff´erents proportions de donn´ees manquantes MCAR dans chaque p´eriode

1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5

P´ eriodes pourcentage de donn´ees manquantes t1 t2 t3 t4 11% 3% 5% 4% 6% 6% 3% 6% 5% 4% 6% 7% 7% 4% 7% 3% 5% 8% 5% 3% 19% 22% 16% 22% 14% 24% 14% 23% 22% 21% 19% 12% 17% 21% 19% 16% 15% 19% 15% 24% 34% 49% 45% 52% 48% 37% 43% 46% 45% 33% 40% 36% 52% 45% 42% 40% 53% 53% 51% 55% 61% 70% 60% 66% 59% 58% 67% 69% 76% 64% 75% 61% 60% 68% 76% 67% 70% 64% 70% 70%

Moments a posteriori Moyenne a posteriori et ´ecart-type a posteriori entre parenth`eses µ β σ2 0.0703 (0.1260) 1.1317 (0.1897) 1.0140 (0.2833 ) 0.2421 (0.1268) 1.0133 (0.1959) 1.0193 (0.2821) 0.0155 (0.1244) 1.3315 (0.2102) 0.9152 (0.2565) -0.1502 (0.1414) 1.3105 (0.1414) 1.3202 (0.3872) -0.0068 (0.1244) 0.8551 (0.1833) 0.9956 (0.2653) -0.0482 (0.1349) 1.1535 (0.2056) 1.0762 (0.3223) 0.0914 (0.1424) 1.2545 (0.2170) 1.2742 (0.3694) 0.0298 (0.1352) 1.1207 (0.2007) 1.1059 (0.3141) 0.1982 (0.1311) 0.8709 (0.1946) 1.0073 (0.2930) 0.0968 (0.1244) 1.1362 (0.2100) 0.9251 (0.2509) -0.2494 (0.1500) 0.8545 (0.2097) 1.1685 (0.3567) 0.1439 (0.1326) 1.2602 (0.2366) 0.9212 (0.3196) 0.0725 (0.1486) 1.0300 (0.2256) 1.3067 (0.4213) -0.0137 (0.1469) 1.1170 (0.2236) 1.1673 (0.3926) 0.2565 (0.1431) 0.8736 (0.2300) 0.9853 (0.3310) 0.0765 (0.1459) 0.9703 (0.2334) 0.9333 (0.3195) 0.0321 (0.1503) 1.1887 (0.2418) 0.9246 (0.3461) -0.0136 (0.1519) 0.9973 (0.2262) 0.9940 (0.3664) 0.0436 (0.1638) 1.1812 (0.2901) 1.2772 (0.5449) -0.1901 (0.1732) 1.1802 (0.2828) 1.5603 (0.6633)

Annexe C. R´esultats pour diff´erentes simulations

C.2

Simulations pour le m´ ecanisme MAR

114

Annexe C. R´esultats pour diff´erentes simulations

115

5%

14%

27%

53%

66%

Simulations

Proportion

Tab. C.2 – R´esultats via l’´echantillonnage de Gibbs sc´enario1 avec de diff´erents proportions de donn´ees manquantes MAR dans chaque p´eriode

1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5

P´ eriodes pourcentage de donn´ees manquantes t1 t2 t3 t4 0% 3% 6% 9% 0% 1% 4% 7% 0% 2% 5% 8% 0% 3% 9% 15% 0% 2% 5% 8% 0% 6% 14% 22% 0% 13% 20% 27% 0% 10% 17% 26% 0% 10% 20% 37% 0% 10% 17% 21% 0% 21% 39% 49% 0% 22% 34% 47% 0% 19% 40% 51% 0% 17% 39% 51% 0% 23% 38% 46% 0% 44% 65% 79% 0% 48% 67% 78% 0% 58% 83% 93% 0% 54% 79% 90% 0% 51% 77% 91% 0% 69% 89% 97% 0% 69% 87% 98% 0% 72% 94% 99% 0% 81% 93% 99% 0% 77% 95% 99%

Moments a posteriori Moyenne a posteriori et ´ecart-type a posteriori entre parenth`eses µ β σ2 -0.0700 (0.1265) 1.1383 (0.1931) 0.9931 (0.2801) -0.0356 (0.1420) 1.1843 (0.2099) 1.3694 (0.3709) -0.0804 (0.1243) 0.7986 (0.1740) 0.9478 (0.2695) -0.1272 (0.1311) 0.9804 (0.1921) 1.0590 (0.2995) 0.1280 (0.1280) 1.0526 (0.1973) 1.0088 (0.2811) 0.0323 (0.1229) 1.1801 (0.2021) 0.9126 (0.2665) 0.0956 (0.1290) 1.4394 (0.2234) 0.9590 (0.2745) 0.0340 (0.1318) 1.0618 (0.1956) 0.9928 (0.2838) 0.1429 (0.1429) 1.0441 (0.2167) 1.2329 (0.4095) 0.2251 (0.1214) 1.1973 (0.1895) 0.8660 (0.2454) -0.1094 (0.1388) 0.8135 (0.1998) 0.9775 (0.2951) -0.1094 (0.1388) 0.8135 (0.1998) 0.9775 (0.2951) 0.0120 (0.1264) 1.0331 (0.1980) 0.8333 (0.2569) 0.0678 (0.1467) 0.8478 (0.2149) 1.2820 (0.4190) 0.0503 (0.1480) 0.9272 (0.2080) 1.2544 (0.3979) 0.1460 (0.1460) 0.9719 (0.2164) 0.9964 (0.3846) 0.0603 (0.1696) 1.2298 (0.2568) 1.2881 (0.5075) -0.2948 (0.1684) 0.9469 (0.2358) 1.1586 (0.4823) 0.1888 (0.1605) 1.1987 (0.2499) 1.1000 (0.4441) 0.1674 (0.1714) 0.9863 (0.2669) 1.3235 (0.5091) -0.0946 (0.1649) 0.9112 (0.2777) 1.1102 (0.4897) 0.3643 (0.1740) 1.2040 (0.2762) 1.1221 (0.5776) 0.1036 (0.1705) 1.5545 (0.3340) 1.0637 (0.5942) 0.1890 (0.1945) 1.6375 (0.4114) 1.5174 (0.9255) -0.0536 (0.2110) 1.5385 (0.4422) 2.0455 (1.2966)

Annexe C. R´esultats pour diff´erentes simulations

C.3

116

Simulation pour le m´ ecanisme NMAR

5%

19%

38%

60%

Simulations

Proportion

Tab. C.3 – R´esultats via l’´echantillonnage de Gibbs sc´enario1 avec de diff´erents proportions de donn´ees manquantes NMAR dans chaque p´eriode

1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5

P´ eriodes pourcentage de donn´ees manquantes t1 t2 t3 t4 8% 5% 4% 6% 10% 7% 8% 4% 7% 5% 4% 4% 7% 9% 5% 5% 8% 4% 1% 4% 16% 19% 15% 19% 22% 15% 21% 14% 24% 23% 19% 18% 17% 18% 22% 9% 19% 14% 19% 24% 41% 36% 41% 39% 34% 43% 32% 29% 35% 36% 34% 35% 34% 42% 40% 44% 44% 39% 37% 44% 48% 53% 47% 56% 54% 64% 63% 61% 57% 58% 49% 52% 63% 61% 58% 61% 60% 60% 58% 59%

Moments a posteriori Moyenne a posteriori et ´ecart-type a posteriori entre parenth`eses µ β σ2 0.0153 (0.1356) 0.9888 (0.1897) 1.2258 (0.3403) 0.1935 (0.2386) 0.9839 (0.1820) 0.8955 (0.2386) 0.0089 (0.1224) 1.2844 (0.1992) 0.9500 (0.2529) 0.1053 (0.1280) 1.0300 (0.1989) 1.0137 (0.2778) -0.2006 (0.1403) 1.0243 (0.1979) 1.2843 (0.3602) 0.2177 (0.1296) 0.9439 (0.1972) 0.9786 (0.2875) -0.0715 (0.1317) 1.0343 (0.2026) 1.0820 (0.3095) 0.0909 (0.1288) 1.2681 (0.2186) 0.9550 (0.2886) 0.0077 (0.1303) 1.1600 (0.2066) 0.9632 (0.2830) 0.0397 (0.1463) 0.9824 (0.1953 ) 1.2545 (0.3763) -0.0486 (0.1360) 1.3014 (0.2313) 0.9554 (0.3345) 0.1510 (0.1319) 1.1240 (0.2124) 0.9355 (0.2781) 0.0291 (0.1428) 1.0486 (0.2197) 1.0997 (0.3370) 0.1852 (0.1296) 1.0028 (0.2202) 0.7983 (0.2370) 0.0785 (0.1311) 1.2171 (0.2202) 0.8636 (0.2700) -0.0256 (0.1600) 1.2928 (0.2519) 1.1799 (0.4037) 0.0392 (0.1532) 0.9671 (0.2495) 1.0138 (0.3847) 0.0137 (0.1509) 1.1281 (0.2467) 1.2295 (0.4750) 0.2514 (0.1539) 1.0401 (0.2291) 1.0659 (0.4041) 0.0960 (0.1473) 1.1780 (0.2364) 1.0450 (0.3961)

Annexe C. R´esultats pour diff´erentes simulations

C.4

117

Simulation pour l’´ etude des cas complets base de donn´ ees MCAR

5%

19%

45%

66%

Simulations

Proportion

Tab. C.4 – R´esultats via l’´echantillonnage de Gibbs sc´enario 1 avec de diff´erents proportions de donn´ees manquantes MCAR dans chaque p´eriode : ´etude des cas complets

1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5

P´ eriodes pourcentage de donn´ees manquantes t1 t2 t3 t4 11% 3% 5% 4% 6% 6% 3% 6% 5% 4% 6% 7% 7% 4% 7% 3% 5% 8% 5% 3% 19% 22% 16% 22% 14% 24% 14% 23% 22% 21% 19% 12% 17% 21% 19% 16% 15% 19% 15% 24% 45% 33% 40% 36% 52% 45% 42% 40% 53% 53% 51% 55% 48% 37% 43% 46% 34% 49% 45% 52% 61% 70% 60% 66% 59% 58% 67% 69% 70% 64% 70% 70% 60% 68% 76% 67% 76% 64% 75% 61%

Moments a posteriori Moyenne a posteriori et ´ecart-type a posteriori entre parenth`eses µ β σ2 0.0644(0.1276) 1.1309(0.2004) 0.9235(0.2609) 0.2620(0.1326) 1.0372(0.2004) 1.0837(0.3067) 0.0545(0.1252) 1.3231(0.2068) 0.9147 0.2653) -0.1437(0.1407) 1.2767(0.2111) 1.3290(0.3738) -0.0239(0.1264) 0.8889(0.1915) 1.0475 0.3014) -0.0276(0.1319) 1.1227(0.2167) 1.0728(0.3140) 0.0959(0.1403) 1.2466(0.2310) 1.1640(0.3530) 0.0291(0.1327) 1.0792(0.2039) 1.0348(0.3005) 0.2199(0.1273) 0.9244(0.2053) 0.9654(0.2887) 0.0984(0.1240) 1.1060(0.2039) 0.8794(0.2504) 0.1166(0.1558) 0.9476(0.2557) 1.2274(0.4208) -0.0065(0.1726) 1.4913(0.3358) 1.4687(0.5447) 0.4137(0.2239) 1.1206(0.3633) 2.3728(0.9288) 0.1667(0.1667) 1.2259(0.2865) 1.2630(0.4940) -0.2906(0.1694) 0.9172(0.2506) 1.3721(0.4599) 0.1130(0.3700) 1.5189(0.4315) 6.3554(3.0554) 0.7084(0.5197) 3.1444(0.8014) 12.3517(9.2803) 1.0544(0.9083) 3.6213(0.7210) 186.4692(117.29) 1.2492(0.8764) 2.8570(0.6119) 102.3334(47.36) 1.6462(0.9843) 2.6683(0.8700) 394.2961(12.53)