TH`ESE

Jun 5, 2008 - La PR est une maladie auto-immune, intégrée au ..... L'apparition des lésions articulaires – propres aux rhumatismes ...... Arrays for Prediction of Outcome and anti-TNF Response in .... samples, could be associated with as many as n dif- ...... Characteristics of the VErA cohort patients included in the study.
58MB taille 6 téléchargements 807 vues
´ Universit´ e de Rouen — Ecole Doctorale Normande de Chimie-Biologie

One-Dimensional Electrophoresis Gel Analysis Tool, ODEGAT ´ Elaboration d’un outil bio-informatique d’aide ` a la mise en ´ evidence de marqueurs ` a vis´ ee diagnostique et pronostique — Application ` a la polyarthrite rhumato¨ıde —

` THESE pr´esent´ee et soutenue publiquement le 19 d´ecembre 2008 pour l’obtention du

Grade de Docteur de l’Universit´ e de Rouen (sp´ ecialit´ e bioinformatique) par

Romain Daveau

Composition du jury Pr´esident :

Pr. Tron Fran¸cois

Rapporteurs :

Rapporteur 1 Rapporteur 2

Dr. Lisacek Fr´ ed´erique Pr. Gaudin Philippe

Examinateurs :

Examinateur 1 Examinateur 2

Pr. Vittecoq Olivier – Directeur de th` ese Dr. Van Helden Jacques

Inserm U905, CHU Hˆ opitaux de Rouen et IFRMP23 — Universit´ e Libre de Bruxelles

REMERCIEMENTS Légitime, l’usage veut que le Directeur de l’Unité soit remercié pour son accueil, je ne dérogerai bien entendu pas à la règle mais je ne m’en contenterai pas pour autant. Mr. Boyer, s’il est vrai que nous n’avons que peu de fois eu l’occasion de discuter, je sais que vous vous êtes révélé très humain et particulièrement sensible aux lendemains de la disparition de Jean-Philippe. Pour toutes ces attentions délicates, tous ces mots de réconfort à celles et ceux qui pleuraient la perte d’un ami cher, je vous exprime ma très profonde gratitude et mes remerciements sincères. Cher Mr. Tron, à l’époque Directeur de l’Unité, vous m’accueilliez dès 2002 pour 6 mois de stage de maîtrise, puis 2 ans de DESS et finalement 3 années d’une thèse qui devait s’achever avec votre successeur, Mr. Boyer. Cela fait donc un moment que nous nous connaissons. À l’évident privilège s’ajouta très vite le plaisir de travailler à vos côtés. Toujours disponible malgré vos nombreuses prérogatives, d’une écoute attentive en particulier de vos étudiants, vous avez le souci permanent du bien aller de tous. Ami proche de Jean-Philippe, vous aussi avez su trouver les mots justes pour honorer sa mémoire. En ce vendredi 19 décembre 2008, vous me faites l’honneur et l’amitié de présider mon jury de thèse et je vous en remercie. Je suis fier et heureux à la fois d’avoir pu modestement contribuer à la renommée de l’U519 dont vous aviez la responsabilité. Cher Olivier, je ne sais plus qui disait de votre intelligence et de vos compétences qu’elles n’ont d’égales que votre humilité ?... À cela j’ajouterai notamment une infinie gentillesse et une rigueur sans faille. En charge d’une équipe Inserm, principal responsable ou acteur remarquable de nombreux projets scientifiques, recemment promu Chef de Service, jamais pourtant vous n’avez ne serait-ce qu’un instant délaissé votre rôle de Directeur de thèse. À votre place, d’autres sans doute n’auraient pas témoigné d’une telle énergie, d’une telle conscience professionnelle. Pour beaucoup vous êtes un exemple à suivre. Calme, pondéré, rassurant aussi, vous incarnez « la force tranquille » . . . autant d’attributs à mon sens nécessaires au plein épanouissement d’un « thésard » au quotidien parfois difficile. Pour la qualité, la constance de votre encadrement, pour la confiance que vous m’avez accordé et votre soutien permanent, Cher Olivier recevez ici l’expression de mes chaleureux remerciements et de mes très respectueux sentiments. Cher Jacques, comment pourrais-je assez te remercier de ton hospitalité, de ta gentillesse, de tes si précieux conseils . . . Malgré un « planning de ministre » tu t’es toujours arrangé pour me réserver du temps. Ton aptitude à « jongler » avec les multiples projets auxquels tu participes est pour le moins stupéfiante : après tout, quoi de plus facile et amusant que la rédaction simultanée de 6 articles ? Véritable « machine parallèle » tu es la quintessence du multi-tâche ! Alors que j’étais un peu intimidé lors de ma première visite à Bruxelles, tu as tout de suite su comment me mettre à l’aise : « un p’tit caf’ ? » . . . Hasard ou clairvoyance, quelques mois plus tard, j’étais devenu le « Mr. caféine » d’un labo où l’ambiance conviviale et chaleureuse est à chaque instant perceptible : Ariane, Gipsi, Karoline, Morgane, Jean-Valéry, Matthieu, Olivier, Raphaël ou encore Sylvain . . . et toi bien sûr, toutes et tous m’avez accueilli « à bras ouverts » et je vous en remercie. Cher Jacques, si le bénéfice de tes enseignements est un privilège, travailler à tes côtés est aussi un réel plaisir. J’espère que nous aurons l’occasion de nous revoir souvent et te renouvelle ici mes très sincères et très amicaux remerciements.

i

Mme le Dr. Frédérique Lisacek, Mr. le Pr. Philippe Gaudin, vous m’avez fait la sympathie et l’honneur d’accepter d’être rapporteur de ces travaux. Jamais je n’aurais pu espérer meilleur « binôme » . . . Qui mieux que vous Madame, Leader du Proteome Informatics Group à l’Institut Suisse de Bioinformatique et vous Monsieur, Pr. de rhumatologie au CHU de Grenoble et co-responsable d’une équipe CNRS pouvait juger de la pertinence d’une thèse centrée sur la conception d’un outil bioinformatique d’analyse protéomique dans la PR ? Pour votre temps consacré à mon travail, vos critiques éminemment constructives, pour le privilège que vous m’accordez à pouvoir vous compter parmi ce jury, recevez Chère Madame Lisacek, Cher Monsieur Gaudin, l’expression de mes remerciements les plus sincères et de mes très respectueux sentiments. Chère Danièle, Chère Marlène, ce fut un plaisir j’espère partagé que de travailler ensemble. Aujourd’hui à la retraite, Chère Danièle, je vous souhaite le meilleur pour ces années à venir d’un repos bien mérité. Quant à toi Marlène, je te fellicite pour ta récente réussite elle aussi dûment acquise. Un grand merci à toutes les deux. Bien amicalement. À Paulo le « moussaillon », Titine, Céline, Fred, Gaëlle et Carine, à Thierry, Vincent et Thibault, Cédric et Grégory . . . Merci à vous pour tous ces bons moments passés ensemble. À toutes et tous j’exprime ici mon amitié. Vous me manquerez . . . À ma famille, ma petite mamie qui ne pouvait être là aujourd’hui, à Nanie, sans doute la femme de ma vie, à tous mes amis proches et notamment Tom-Tom, Aldo Barazouki et Jérémie, Merci d’être là tout simplement . . . Courage à toi El Graboïdo, la ligne d’arrivée est toute proche ! Pardon à celles et ceux que j’ai pu oublier . . .

ii

À Jean-Philippe

iii

iv

R É S U MÉ La polyarthrite rhumatoïde (PR) demeure aujourd’hui un vrai problème de santé publique. Rhumatisme inflammatoire chronique le plus fréquent de l’adulte, la PR est une affection autoimmune poly-factorielle aux manifestations cliniques initiales et au devenir variables. Responsable de destructions ostéo-cartilagineuses aux conséquences fonctionnelles graves, la PR se traduit généralement par une atteinte bilatérale et symétrique des petites et moyennes articulations, source de handicap pour les malades dont la prise en charge est fortement compliquée par l’absence de critères diagnostiques et pronostiques clairs. Pourtant des solutions thérapeutiques existent : anti-TNF-α, IL-1 Ra, anti-CD20 . . . D’autant plus efficaces qu’elles sont administrées tôt mais très coûteuses, ces « biothérapies » ciblées ne sont pour l’instant prescrites qu’en 2e intention, après l’échec de traitements de fond classiques sur l’activité de la maladie et l’atteinte structurale. Parce qu’elles continuent d’« échapper » aux différents indicateurs clinico-biologiques à ce jour disponibles, ces 10 – 15% de PR, dites sévères et requérant de telles molécules, doivent donc en priorité être identifiées avant que n’apparaissent d’irréversibles lésions. Adossés à une cohorte de rhumatismes inflammatoires débutants (VErA) et à l’utilisation de langages informatiques (Perl, R) appropriés, ces travaux s’intéressent aux questions essentielles du diagnostic et du pronostic précoce. En terme de diagnostic, la contribution des facteurs génétiques (HLA-DRβ1, TNFRII*196R et PTPN22*1858T) se révéla limitée comparativement aux auto-anticorps (Ac) qui restent les marqueurs les plus pertinents. S’agissant du pronostic, une étude « pilote » menée sur des biopsies synoviales démontrait l’intérêt du CD20 tissulaire dans un modèle de régression linéaire associant facteurs rhumatoïdes, anticorps anti-protéines citrullinées (ACPA) et RANKL (marqueur du remodelage osseux), prédictif de l’atteinte articulaire à 3 ans dans un panel de 14 patients. En raison de l’insuffisance de marqueurs diagnostiques et pronostiques, la recherche de nouvelles cibles immunologiques dans le cadre du programme ACPRA nous amena à la conception d’un outil bioinformatique d’analyse de gels électrophorétiques-1D baptisé ODEGAT. Appliqué aux immuno-empreintes de 110 sérums de patients de la cohorte VErA, ODEGAT contribua à l’identification de 4 auto-Ac originaux : anti-PGK1, -STIP1, -FUSE-BP 1 et 2, présents pour au moins l’un d’entre eux dans 40% des PR initialement négatives pour les ACPA. Enfin, des sérums de 10 témoins non arthritiques et 21 malades divisés en 11 PR sévères et 10 bénignes, ODEGAT mettait en évidence 5 bandes polypeptidiques dont les niveaux relatifs d’expression permettaient d’appréhender l’impact radiologique à court terme avec une valeur prédictive négative (resp. positive) de 90% (resp. 82%). Perspective de cette thèse et objectif ultime du projet APOTRA, ce dernier résultat « prometteur » est à l’origine de la réalisation prochaine d’une « biopuce » à protéines qui devrait être testée sur un échantillon plus important de PR : la cohorte nationale ESPOIR.

v

vi

Table des matières Table des figures

xi

Liste des tableaux

xiii

Liste des Abréviations

xv

Chapitre 1 La Polyarthrite Rhumatoïde

3

1.1

Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

1.2

Physiopathologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

1.2.1

Facteurs psychologiques . . . . . . . . . . . . . . . . . . . . . . . .

4

1.2.2

Facteurs hormonaux . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.2.3

Facteurs environnementaux . . . . . . . . . . . . . . . . . . . . . .

6

1.2.4

Facteurs génétiques . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.2.4.1

« L’épitope partagé » . . . . . . . . . . . . . . . . . . . . .

8

1.2.4.2

Gènes non-HLA . . . . . . . . . . . . . . . . . . . . . . .

9

1.2.5 1.3

Facteurs immunologiques . . . . . . . . . . . . . . . . . . . . . . . . 10

Immunopathologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3.1

Lésions articulaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3.1.1

Phase d’initiation . . . . . . . . . . . . . . . . . . . . . . . 11

1.3.1.2

Phase de recrutement et d’inflammation . . . . . . . . . . 11

1.3.1.3

Phase de prolifération et de destruction . . . . . . . . . . 12

1.3.1.4

Phase de réparation . . . . . . . . . . . . . . . . . . . . . 13

1.3.2

Manifestations extra-articulaires . . . . . . . . . . . . . . . . . . . . 14

1.3.3

Principaux (auto-)Ac associés à la PR . . . . . . . . . . . . . . . . 14 1.3.3.1

Facteurs Rhumatoïdes . . . . . . . . . . . . . . . . . . . . 15

1.3.3.2

Ac anti-Protéines Citrullinées . . . . . . . . . . . . . . . . 16

1.3.3.3

Ac anti-Sa . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 vii

Table des matières

1.4

1.3.3.4

Ac spécifiques du cartilage . . . . . . . . . . . . . . . . . . 17

1.3.3.5

Autres Ac . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

Chapitre 2 Le langage R et « la méthode statistique »

21

2.1

Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2

Élements de base du langage . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.3

Notions élémentaires en statistique . . . . . . . . . . . . . . . . . . . . . . 23

2.4

Caractères qualitatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.5

2.6

2.7

2.4.1

Comparer 2 proportions . . . . . . . . . . . . . . . . . . . . . . . . 27

2.4.2

Comparer k répartitions . . . . . . . . . . . . . . . . . . . . . . . . 31

Liaison aux variables continues . . . . . . . . . . . . . . . . . . . . . . . . 36 2.5.1

Moyenne, Variance et Loi Normale . . . . . . . . . . . . . . . . . . 36

2.5.2

Comparaison de moyennes . . . . . . . . . . . . . . . . . . . . . . . 38

Autre approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.6.1

Analyse en Composante Principale . . . . . . . . . . . . . . . . . . 41

2.6.2

Régression Logistique . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.6.3

Classification Hiérarchique . . . . . . . . . . . . . . . . . . . . . . . 43

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

Chapitre 3 Immuno-empreinte 1-D et Bioinformatique

45

3.1

Préambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.2

Technique de Western Blot . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.3

Apport de la bioinformatique . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.4

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

Chapitre 4 Rationnel scientifique

51

Chapitre 5 Résultats

55

5.1

ODEGAT One-Dimensional Electrophoresis Gel Analysis Tool . . . . . . . . . . . . 57

5.2

Diagnostic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.3

viii

5.2.1

Contribution des marqueurs génétiques . . . . . . . . . . . . . . . . 69

5.2.2

Identification de nouvelles cibles immunologiques . . . . . . . . . . 77

Pronostic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.3.1

Intérêt relatif de la biopsie synoviale . . . . . . . . . . . . . . . . . 89

5.3.2

Potentiel du profiling 1-D . . . . . . . . . . . . . . . . . . . . . . . 93

Chapitre 6 Bilan et Perspectives

97

Annexe A La cohorte VErA (Very Early Arthritis)

101

Annexe B « Il était une foie »

103

Bibliographie

149

ix

Table des matières

x

Table des figures 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8

Aspect clinique de la PR . . . . . . . . . . . . . . . . . . Interaction entre les systèmes immunitaire et endocrinien Organisation des gènes du système HLA . . . . . . . . . Dysrégulation cytokinique dans la synoviale rhumatoïde . Multiples activités du TNF-α . . . . . . . . . . . . . . . Schéma immunopathologique de la PR . . . . . . . . . . Conversion chimique de l’arginine en citrulline . . . . . . Organisation schématique du cartilage . . . . . . . . . .

2.1 2.2

Illustration d’une ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Étapes de la Classification Hiérarchique . . . . . . . . . . . . . . . . . . . . 43

3.1 3.2

Exemple d’immuno-empreinte . . . . . . . . . . . . . . . . . . . . . . . . . 47 Relation entre Mr et migration électrophorétique . . . . . . . . . . . . . . . 47

xi

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

5 7 7 13 13 14 16 17

Table des figures

xii

Liste des tableaux 1.1 1.2 1.3 1.4

Rapports standardisés de mortalité liée à la PR . . . Acides aminés de l’« épitope partagé » . . . . . . . . Critères ACR de classification de la PR . . . . . . . . Principales manifestations extra-articulaires de la PR

2.1 2.2

Aperçu des principaux objets sous R . . . . . . . . . . . . . . . . . . . . . 23 Les 3 types d’opérateurs définis dans R . . . . . . . . . . . . . . . . . . . . 23

xiii

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. 5 . 8 . 9 . 15

Liste des tableaux

xiv

Liste des Abréviations 1-DE Ac ACP ACPA ACPA-2 ACR Ag BSA CD CHC CIx CIC CMK CPA CRAN CRP CTK CTLA4 df EBV EP FLS FN FP FR GPL HLA HSP IFN-γ Ig IL LB

Électrophorèse mono-dimensionnelle – One-Dimensional Electrophoresis Anticorps Analyse en Composante Principale Ac Anti-Protéine Citrullinée – Anti-Citrullinated Protein Antibody Test anti-CCP de 2e génération American College of Rheumatology Antigène Albumine de Sérum Bovin Cellule Dendritique Carcinome Hépato-Cellulaire Intervalle de Confiance à x% – x% Confidence Interval Complexe Immun Circulant Chemokine Cellule Présentatrice d’Antigène Comprehensive R Archive Network Protéine C Réactive – C-Reactive Protein Cytokine Cytotoxic T Lymphocyte Antigen 4 degré de liberté – degrees of freedom Epstein-Barr Virus « Épitope Partagé » – Shared Epitope Fibroblast-Like Synoviocyte Faux Négatif – False Negative Faux Positif – False Positive Facteur Rhumatoïde General Public Licence Human Leukocyte Antigen Heat Shock Protein Interferon-gamma Immunoglobuline Interleukine Lymphocyte B

xv

Liste des Abréviations LED LDA LOO LT MMP Mr NK NP V PAD PAGE PDCD1 PN PPV PR PRL PTPN22 RUNX1 SDS Se SIAS SLC22A4 SNP Sp TCR TN TNF-α TNFRII TP Treg TSAP6 VHC VS WB

xvi

Lupus Érythémateux Disséminé Analyse Linéaire Discriminante Leave-One-Out Lymphocyte T Métalloprotéinase – Matrix Metallo-Proteinase Masse moléculaire relative Natural Killer Valeur Prédictive Négative – Negative Predictive Value Peptidyl Arginine Deiminase Poly-Acrylamide Gel Electrophoresis Programmed Cell Death 1 Poly-Nucléaire Valeur Prédictive Positive – Positive Predictive Value Polyarthrite Rhumatoïde Prolactine Protein Tyrosine Phosphatase, Non-receptor type 22 Runt-related Transcription Factor 1 Sodium Dodecyl Sulfate Sensibilité Syndrome Inflammatoire Aigu Systémique Solute Carrier Family 22, member 4 Single Nucleotide Polymorphism Spécificité Récepteur du Lymphocyte T – T-Cell Receptor Vrai négatif – True Negative Tumor Necrosis Factor-alpha TNF Receptor II Vrai Positif – True Positive LT « régulateurs » Tumor Suppressor Activated Pathway-6 Virus de l’Hépatite C Vitesse de Sédimentation Western Blot

1

Liste des Abréviations

2

Chapitre 1 La Polyarthrite Rhumatoïde Sommaire 1.1 1.2

Généralités . . . . . . . . . . . . . . . . . . . . . . Physiopathologie . . . . . . . . . . . . . . . . . . . 1.2.1 Facteurs psychologiques . . . . . . . . . . . . . . 1.2.2 Facteurs hormonaux . . . . . . . . . . . . . . . . 1.2.3 Facteurs environnementaux . . . . . . . . . . . . 1.2.4 Facteurs génétiques . . . . . . . . . . . . . . . . . 1.2.4.1 « L’épitope partagé » . . . . . . . . . . 1.2.4.2 Gènes non-HLA . . . . . . . . . . . . . 1.2.5 Facteurs immunologiques . . . . . . . . . . . . . 1.3 Immunopathologie . . . . . . . . . . . . . . . . . . 1.3.1 Lésions articulaires . . . . . . . . . . . . . . . . . 1.3.1.1 Phase d’initiation . . . . . . . . . . . . 1.3.1.2 Phase de recrutement et d’inflammation 1.3.1.3 Phase de prolifération et de destruction 1.3.1.4 Phase de réparation . . . . . . . . . . . 1.3.2 Manifestations extra-articulaires . . . . . . . . . 1.3.3 Principaux (auto-)Ac associés à la PR . . . . . . 1.3.3.1 Facteurs Rhumatoïdes . . . . . . . . . . 1.3.3.2 Ac anti-Protéines Citrullinées . . . . . . 1.3.3.3 Ac anti-Sa . . . . . . . . . . . . . . . . 1.3.3.4 Ac spécifiques du cartilage . . . . . . . 1.3.3.5 Autres Ac . . . . . . . . . . . . . . . . . 1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . .

3

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

4 4 4 6 6 6 8 9 10 10 11 11 11 12 13 14 14 15 16 16 17 17 18

Chapitre 1. La Polyarthrite Rhumatoïde

1.1

Généralités

Vraisemblablement décrite pour la première fois dès 1800 par le français Auguste Landré-Beauvais, la Polyarthrite Rhumatoïde (PR) – dont la prévalence mondiale est estimée à près de 1% – est le rhumatisme inflammatoire chronique le plus fréquent de l’adulte [1], caractérisé par une atteinte bilatérale et symétrique des petites et moyennes articulations (e.g. mains, pieds, chevilles . . .). La PR est une maladie auto-immune, intégrée au groupe des Immune-Mediated Inflammatory Disorders, affections se traduisant par une dysrégulation de la production cytokinique, à l’origine d’un processus inflammatoire [2]. Hautement hétérogène dans ses manifestations, la PR se traduit le plus souvent par une inflammation chronique du tissu synovial † , évoluant par poussées, susceptible d’entraîner inconstamment déformations et destructions ostéo-articulaires, source de handicap fonctionnel (Figure 1.1). La PR est aussi une maladie systémique, à l’origine de manifestations extra-articulaires (e.g. pulmonaires, cardiaques, vasculaires . . .) allant jusqu’à compromettre le pronostic vital. Jusqu’à la fin des années 90 le taux de mortalité rapporté à une population témoin du même âge était multiplié par 2 (Tableau 1.1). Bénéfice d’une prise en charge anticipée et mieux adaptée, ce risque aujourd’hui en régression a récemment été ré-évalué sur près de 112 000 cas à 1.5 en moyenne‡ [3]. La PR est un vrai problème de santé publique. Elle peut apparaître à n’importe quel âge mais on l’observe surtout entre 40 et 60 ans, avec une prédominance féminine très marquée. Son retentissement articulaire altère considérablement la qualité de vie, au point qu’un malade sur deux est contraint de cesser toute activité professionnelle 5 ans seulement après le début de la maladie. Dans 10% des cas, l’atteinte est si sévère qu’il en résulte une invalidité grave en moins de 2 ans. Les conséquences socio-économiques sont énormes : perte de salaire, obligation de soins médicaux et/ou chirurgicaux, hospitalisation . . . Aujourd’hui encore, la PR reste une maladie complexe, face à laquelle le clinicien est confronté à des difficultés à la fois diagnostiques et pronostiques. Si aucun traitement curatif n’est actuellement disponible, la découverte « récente » d’agents thérapeutiques communément appelés biothérapies – d’autant plus efficaces qu’ils sont administrés tôt – rend nécessaire le dépistage précoce de la maladie.

1.2

Physiopathologie

La PR est une maladie poly-factorielle, relevant de facteurs à la fois psychologiques, hormonaux, environnementaux, génétiques et immunologiques.

1.2.1

Facteurs psychologiques

Même s’il n’existe a priori aucun « terrain psychologique » particulier favorisant la maladie, celle-ci ou simplement une poussée, peuvent être induites à la suite d’un traumatisme affectif (e.g. accident de la circulation, deuil brutal, divorce . . .). Ainsi, l’approche † ‡

4

Tissu tapissant l’intérieur des articulations Méta-analyse de données bibliographiques compilées jusqu’en 2005

1.2. Physiopathologie médico-psychologique intervient-elle dans la prise en charge d’un rhumatisme inflammatoire débutant. Une hypothèse suggère que des neuromédiateurs solubles agissant sur l’axe hypothalamo-hypophyso-surrénalien déclenchent des perturbations immunitaires [4].

Fig. 1.1 – Aspect clinique de la PR. À gauche, PR débutante caractérisée par une synovite des inter-phalangiennes proximales (aspect dit fusiforme des doigts). À droite, PR sévère à un stade avancé, révélant une déformation du pouce dite en Z-synovite des métacarpophalangiennes et une subluxation en « coup de vent cubital » des doigts (déviation latérale des doigts) — Source : Club Rhumatismes et Inflammations.

Étude Cobb, 1953 Uddin, 1970 Monson et Hall, 1976 Linos, 1980 Allebek, 1982 Pincus, 1984 Prior, 1984 Mutru, 1985 Mitchell, 1986 Jacobsson, 1993 Wolfe, 1994 Myllykangas-Luosujarvi, 1995 Wallberg-Jonsson, 1997 †

Effectif 583 475 1035 521 1165 75 448 1000 805 2979 3501 1186 606

Mortalité† 1.32 1.29 1.85 1.16 2.48 1.31 3.00 1.73 1.51 1.28 2.26 1.37 1.57

Origine géographique U.S.A Canada U.S.A U.S.A Suède U.S.A U.K Finlande Canada U.S.A U.S.A – Canada Finlande Suède

Rapportée à une population témoin du même âge

Tab. 1.1 – Rapports standardisés de mortalité liée à la PR. 5

Chapitre 1. La Polyarthrite Rhumatoïde

1.2.2

Facteurs hormonaux

La PR est à nette prédominance féminine et survient souvent en période périménopausique. Une rémission est fréquente pendant la grossesse et une poussée presque constante au décours de l’accouchement [5]. Les contraceptifs œstroprogestatifs diminuent la sévérité de la PR et il n’y a aucune anomalie du métabolisme des œstrogènes ou de la progestérone chez ces femmes. En revanche, la PR masculine peut être associée à une hypoandrogénie, conséquence d’une réduction des taux sériques et synoviaux de testostérone [6]. Il existe au cours de la PR une dysrégulation hypothalamo-hypophyso-surrénalienne [4, 7]. Les rythmes circadiens de synthèse du cortisol et de la prolactine (PRL) sont parfois altérés et l’allaitement est un facteur aggravant de la maladie. L’effet inhibiteur de la testostérone freine l’immuno-stimulation induite par la PRL et les œstrogènes. La Figure 1.2 illustre l’étroite interaction entre les systèmes immunitaire et endocrinien.

1.2.3

Facteurs environnementaux

La PR est rare en Asie, très répandue en Inde et plus fréquente chez les pakistanais vivant au Pakistan que ceux résidant en Angleterre [8]. Ces observations suggèrent l’implication de facteurs environnementaux, notamment infectieux (e.g. Escherichia Coli, Mycoplasma) ou viraux (e.g. EBV1 , Parvovirus). Par un mécanisme de mimétisme moléculaire, des antigènes (Ag) bactériens (e.g. HSP652 ) dont la structure s’apparente à celle de certains Ag articulaires pourraient ainsi initier la maladie [9, 10]. De même, les séquences de l’« épitope partagé » (EP, cf. 1.2.4.1) et de la protéine DNA-J d’Escherichia Coli sont fortement similaires [11]. Dans cette hypothèse, la PR apparaît comme un syndrome post-infectieux non spécifique. Parmi tous les autres facteurs potentiels avancés (e.g. régime alimentaire, statut social . . .) le tabac est le seul dont l’implication ait été démontrée : il est un facteur de risque de la PR [12], favorise la production conjointe d’anticorps (Ac) Anti-Protéines Citrullinées (ACPA, cf. 1.3.3.2) et de Facteurs Rhumatoïdes (FR, cf. 1.3.3.1), la survenue de manifestations extra-articulaires ainsi que la destruction ostéo-cartilagineuse [13, 14].

1.2.4

Facteurs génétiques

Ils interviennent pour environ 30% dans la genèse de la maladie. Le taux de concordance chez les jumeaux homozygotes (resp. hétérozygotes) est de 15 à 30% (resp. 5 à 10%) [15]. Il existe différents gènes dits de susceptibilité à la PR : gènes codant pour les chaînes α et β du récepteur des lymphocytes T (TCR), gènes des immunoglobulines (Ig), gènes de l’apoptose, séquences régulatrices du Tumor Necrosis Factor-alpha (TNF-α), gènes codant pour la Protein Tyrosine Phosphatase, Non-receptor type 22 (PTPN22) et surtout gènes du système Human Leukocyte Antigen (HLA) de classe II (Figure 1.3).

1 2

6

Epstein-Barr Virus Protéine de choc thermique (HSP, Heat Shock Protein) de 65kDa

1.2. Physiopathologie

Fig. 1.2 – Interaction entre les systèmes immunitaire et endocrinien. CPI : Cytokines Pro-Inflammatoires (e.g. TNF-α, Interleukines-1 et -6) ; PRL : Prolactine. En réponse à un « stress », le complexe hypothalamo-hypophyso-surrénalien libère de la PRL et du Cortisol dont l’action conjointe régule l’activité des lymphocytes.

Fig. 1.3 – Représentation schématique de l’organisation des gènes du système HLA. Les gènes du complexe HLA sont tous regroupés sur le chromosome no 6. Du centromère vers le télomère on trouve les gènes des protéines de classe II (DP, DM, DQ, DR), puis ceux des protéines de classe III et I. Les allèles DR de susceptibilité à la PR s’observent sur le locus DRβ1.

7

Chapitre 1. La Polyarthrite Rhumatoïde 1.2.4.1

« L’épitope partagé »

Les molécules HLA-DR sont exprimées à la surface des Cellules Présentatrices d’Ag (CPA) et se composent d’une chaîne α non polymorphe et d’une chaîne β1 multi-allélique 1 . L’association génétique des allèles DRβ1*01 et *042 avec la PR est connue depuis 30 ans déjà [16, 17]. Lorsqu’elle est codée par l’un des allèles *0101, *0102, *0401, *0404, *0405, *0408, *0410, *1001 ou *1402, la chaîne β1 des molécules HLA-DR se caractérise par un pentapeptide commun 3 : l’« épitope partagé » (Tableau 1.2). Si le rôle exact de l’EP n’est pas clairement défini, le risque relatif de survenue d’une PR serait fonction de l’haplotype HLA [18]. L’interaction des protéines chaperones HSP70 avec la séquence QKRAA portée par l’allèle *0404 potentialiserait les capacités d’apprêtement de l’Ag des molécules HLA-DR [19]. En étendant la définition de l’EP à différents allèles (e.g. *0103, *0402, *08, *11 et *13) et résidus (en position 13 et 78), Reviron et al. ont étudié l’influence de la charge électrique des allèles DRβ1 sur la maladie et décrivent comme protecteurs ceux dont la charge est négative ou neutre [20]. D’autres études suggèrent que les allèles DRβ1 sont davantage associés à la sévérité plutôt qu’à la susceptibilité de la PR. Ainsi, les allèles *04 (resp. *01) seraient préférentiellement observés dans les formes érosives (resp. non-érosives) et l’atteinte articulaire semble maximale pour le génotype combinant les allèles *0401 et *0404 [21, 22]. D’une façon générale, l’incidence des érosions et des manifestations extra-articulaires est augmentée chez les homozygotes pour l’EP [23, 24]. Une classification récente des variants alléliques DRβ1, basée sur l’influence des résidus 70 et 71 [25, 26] et testée sur une cohorte française de rhumatismes débutants, a permis de définir des allèles réduisant (e.g. *1101, *1104, *12 et *16) ou augmentant (e.g. *0401 et *1303) le risque pour le malade de développer une forme sévère de PR [27, 28]. DRβ1* 0101 0102 0401 0404 0405 0408 0410 1001 1402

70 Q Q Q Q Q Q Q R Q

71 R R R K R R R R R

72 R R R R R R R R R

73 A A A A A A A A A

74 A A A A A A A A A

Q glutamine ; R arginine ; K lysine ; A alanine 70 – 74 positions des résidus dans la séquence

Tab. 1.2 – Acides aminés de l’« épitope partagé »

1

Le gène HLA-DRβ1 compte plusieurs centaines d’allèles Anciennement DR1 et DR4 3 Situé dans la 3e région hypervariable du 1er domaine de la chaîne β1 2

8

1.2. Physiopathologie 1 2 3 4 5 6 7

– – – – – – –

Raideur articulaire matinale ≥ 1 heure depuis ≥ 6 semaines Gonflement de ≥ 3 articulations depuis ≥ 6 semaines Gonflement de ≥ 1 articulation des mains depuis ≥ 6 semaines Atteinte articulaire simultanée symétrique Atteinte radiologique des mains (érosions ou déminéralisation) Nodules sous-cutanés rhumatoïdes Sérologie rhumatoïde positive

Le diagnostic est établi quand ≥ 4 de ces conditions sont remplies

Tab. 1.3 – Critères ACR de classification de la PR. 1.2.4.2

Gènes non-HLA

L’association entre PR et EP – même combiné aux FR – n’est ni très spécifique ni très sensible 1 . Au regard du diagnostic, on retrouve ces allèles dits « à risque » dans plus d’un tiers de la population générale et finalement, la notion d’EP n’entre pas dans les critères de référence définis par l’American College of Rheumatology (ACR, Tableau 1.3) [29]. Concernant le pronostic, l’implication supposée des allèles DRβ1*04 n’est pas toujours vérifiée [30, 18]. 1.2.4.2.1 TNFRII La région située en position 36 sur le « bras court » du chromosome no 1 (notée locus 1p36) est liée à la PR [31, 32] et regroupe les gènes PADI4 (cf. 1.2.4.2.3) et TNFRII (TNF Receptor II). Le polymorphisme 196M/R2 du TNFRII substitue l’arginine (basique) à une méthionine (hydrophobe) dans la partie transmembranaire du récepteur et potentialise ainsi la transduction du signal induite par la fixation du TNF-α [33]. L’association entre PR et TNFRII*196R a souvent été observée, à la fois dans des formes familiales [34, 35] et sporadiques de la maladie [36, 37], suggérant l’intérêt diagnostique potentiel de ce gène. 1.2.4.2.2 PTPN22 Localisé en 1p13, le gène PTPN22 code pour une tyrosine phosphatase du cytosol des Lymphocytes T (LT). La mutation 1858C/T observée dans la PR, substitue un résidu tryptophane (apolaire et hydrophobe) à une arginine dans un domaine riche en proline interagissant avec la protéine kinase Csk. Les conséquences de cette substitution restent ambiguës, certains auteurs rapportant une perte de fonction [38], d’autres un gain [39]. Il semble toutefois que l’allèle *1858T active la production d’Ac par les Lymphocytes B (LB) en bloquant l’action inhibitrice de la Csk sur les LT [40, 41]. Ainsi, les ACPA sont sur-exprimés chez les malades porteurs de l’allèle *1858T [42, 43] qui, par ailleurs, n’est pas spécifique de la PR mais s’observe dans différents désordres auto-immuns parmi lesquels le diabète de type I [44], le Lupus Érythémateux Disséminé (LED) [45] ou les dysthyroïdies [46]. S’agissant de la PR, la contribution de cet allèle apparaît plus marquée chez les hommes [47]. 1 2

En termes statistiques (cf. 2.3) Différencie les allèles *196M et *196R

9

Chapitre 1. La Polyarthrite Rhumatoïde 1.2.4.2.3 Autres gènes Localisé au sein du même locus d’intérêt1 que TNFRII, PADI4 appartient à la famille des Peptidyl Arginine Deiminases (PAD), enzymes responsables de la citrullination de résidus arginine. Les épitopes citrullinés sont à l’origine de l’apparition d’Ac spécifiques de la PR comme les ACPA. Suzuki et al. ont été les premiers à décrire une association entre la PR et 8 Single Nucleotide Polymorphisms (SNP) de PADI4. La susceptibilité la plus forte est attribuée à la mutation 94T/C et l’haplotype *89G, *90C, *92C, *94C et *104C serait associé à la présence d’Ac anti-fillagrine citrullinée [48]. Observés dans un échantillon de la population japonaise, ces résultats ne se vérifient pas en Europe [49, 50, 51]. CTLA42 en 2q33 appartient à la famille des récepteurs CD28 et produit un signal négatif d’activation des LT [52, 53]. De même que PTPN22, CTLA4 peut être associé au diabète de type I, au LED ou à la thyroïdite auto-immune [54, 55]. Dans la PR, les résultats sont une fois de plus contradictoires, l’association avec CTLA4 ayant d’abord été démontrée [56], puis démentie [43]. PDCD1, SLC22A4 et RUNX1 codent respectivement pour une protéine de surface de la « super-famille » des Ig, un transporteur cationique et un facteur de transcription. Le gène Programmed Cell Death 1 (PDCD1), impliqué dans la tolérance immunitaire3 est situé en 2q37, locus associé à la PR [57] et au LED [58]. En particulier, l’allèle PD-1.3*A pourrait être d’intérêt diagnostique face à une PR débutante sans EP et négative pour les FR [59]. Les gènes Solute Carrier Family 22, member 4 (SLC22A4) et Runt-related Transcription Factor 1 (RUNX1) se positionnent en 5q31 et 21q22 respectivement. Tokuhiro et al. suggèrent qu’un SNP du site de fixation de RUNX1 du gène SLC22A4 serait impliqué dans la physiopathologie de la PR, selon des mécanismes qui restent à définir [60].

1.2.5

Facteurs immunologiques

Ces facteurs sont nombreux. Certains favorisent sans doute le développement de la PR (e.g. Ag HLA de classe II). Des anomalies de la clairance et/ou de la solubilisation de complexes immuns ont été rapportées [61]. D’autres facteurs sont plus directement responsables des lésions synoviales et articulaires.

1.3

Immunopathologie

L’immunopathologie de la PR relève à la fois de l’immunité innée (réponse inflammatoire, production de cytokines) et adaptative (réponse lymphocytaire). La compréhension des mécanismes impliqués dans les lésions articulaires – principale source de handicap – est à l’origine du développement « récent » de drogues ciblées4 et modulant le TNF-α et l’Interleukine-1 (IL-1) notamment. 1

1p36 Cytotoxic T Lymphocyte Antigen 4 3 Par inhibition des LT et LB activés 4 Communément appelées « biothérapies » 2

10

1.3. Immunopathologie

1.3.1

Lésions articulaires

L’apparition des lésions articulaires – propres aux rhumatismes inflammatoires érosifs comme la PR – est souvent précoce. Ces lésions sont la conséquence mécanique d’un pannus synovial, secondaire à une synovite chronique auto-entretenue et conduisant à une prolifération pseudo-tumorale de la synoviale. On « découpe » généralement la maladie en 4 phases : – Phase d’initiation caractérisée par une néo-angiogenèse – Phase de recrutement et d’inflammation – Phase de prolifération et de destruction – Phase de réparation 1.3.1.1

Phase d’initiation

La néo-vascularisation de la synoviale est particulièrement précoce [62]. Initiée par un stimulus encore indéterminé (auto-Ag articulaires, peptides exogènes ? . . .), l’accumulation de monocytes/macrophages – producteurs de cytokines (CTK) pro-inflammatoires1 – au contact de l’endothélium capillaire activerait les cellules endothéliales, à l’origine de la formation de néo-vaisseaux, facilitée par certains facteurs pro-angiogéniques (e.g. VEGF, angiopoïétine-1) et différentes CTK, chemokines (CMK) et molécules d’adhésion (e.g. IL-1 et -8, intégrines). La néo-angiogenèse pourrait être entretenue par une hypoxie localisée, résultante d’un redéploiement des capillaires [63]. 1.3.1.2

Phase de recrutement et d’inflammation

L’inflammation débute avec les macrophages dont l’activité chimiotactique contribue au recrutement non spécifique des lymphocytes et Poly-Nucléaires (PN) sanguins. 1.3.1.2.1 Recrutement des LT La synoviale rhumatoïde se caractérise par un infiltrat lymphocytaire périvasculaire d’aspect folliculaire de type Th1, essentiellement constitué de LT CD4 CD45RO2 associés à quelques LT CD8. Activés par un hypothétique Ag arthritogène, les LT CD4 – sous contrôle de LT « régulateurs » (Treg) – libèrent de l’Interferon-gamma 3 (IFN-γ) activant les macrophages qui produisent alors les CMK CCL3 et CCL54 dont les ligands spécifiques CXCR3 et CCR5 sont exprimés par les LT CD4 [64]. L’IFN-γ et les IL-1 et -2 favorisent également l’expression de molécules ICAM-1 à la surface des cellules endothéliales et la production – par ces mêmes cellules – de CTK (e.g. IL-6 et -8) dont l’effet autocrine permet la synthèse d’autres molécules d’adhésion (e.g. ICAM-2). Agissant « de concert » dans un environnement cytokinique favorable (e.g. IL-15 et -16), toutes ces molécules constituent un chimio-attractant fort permettant la diapédèse des LT dans le tissu synovial. Ce processus complexe aboutissant à l’entrée dans le compartiment synovial de cellules circulantes est appelé « homing » [65]. 1

TNF-α, IL-1 et -6 notamment LT dits « mémoires » 3 Anciennement Macrophage-activating factor 4 Anciennement MIP-1α et RANTES 2

11

Chapitre 1. La Polyarthrite Rhumatoïde 1.3.1.2.2 Recrutement des LB Comme pour les LT, le « homing » des LB dans la synoviale relève d’interactions multiples. En particulier, l’action conjointe de CXCL121 et VCAM-1 – entretenue par des stimuli pro-inflammatoires (e.g. IL-1, TNF-α) – contribuerait au recrutement des LB par l’intermédiaire des Fibroblast-Like Synoviocytes (FLS), cellules constitutives de l’Intima du tissu synovial [66]. 1.3.1.2.3 Autres types cellulaires Beaucoup d’autres cellules infiltrent la synoviale pendant la phase de recrutement : Cellules Dendritiques (CD), Natural Killers (NK), PN, monocytes/macrophages . . . Par exemple, les CD – CPA « professionnelles » exprimant CCR7 – traversent l’endothélium vasculaire sous l’effet des CMK CCL20 et -192 , abondantes dans le tissu synovial [67]. Quant aux monocytes/macrophages, leur migration est assurée par les CMK CCL2, -3 et -5, qui trouvent sur ces cellules leurs récepteurs spécifiques (CCR2, CXCR3 et CCR5) [68]. 1.3.1.3

Phase de prolifération et de destruction

1.3.1.3.1 Rôle des LB Si l’infiltrat lymphocytaire est essentiellement constitué de LT, les LB restent les acteurs « clé » de nombreux désordres auto-immuns [69] et leur importance dans la PR a été largement démontrée, notamment dans le modèle murin K/BxN [70]. Par la production d’Ac pathogènes (e.g. FR, ACPA), l’activation des LT et la synthèse de nombreuses CTK et CMK (e.g. TNF-α, IL-1, -6, -10), les LB sont un élément central des mécanismes de l’immnunité adaptative et innée, humorale et cellulaire. Ainsi, le rituximab 3 , Ac monoclonal chimérique anti-CD20 cytotoxique pour les LB, constitue aujourd’hui une alternative thérapeutique aux anti-TNF-α [71]. 1.3.1.3.2 Rôle des LT Au contact de CPA (CD, macrophages . . .), la liaison TCR/Ag – renforcée par l’interaction CD28/B7 et sous contrôle des Treg – active les LT « naïfs » en LT Th1, producteurs de CTK pro-inflammatoires (e.g. IFN-γ, IL-2). Les LT activés stimulent à leur tour les macrophages qui, libérant du TNF-α et de l’IL-1, entretiennent la synovite, jusqu’à la mise en œuvre du système RANK/RANKL et l’apparition des premières lésions [72]. 1.3.1.3.3 Autres types cellulaires Le rôle des CD et des macrophages vient d’être discuté (CPA, synthèse de CTK . . .). Celui des NK est avant tout cytotoxique, même si stimulés, ceux-ci libèrent quantité de médiateurs pro-inflammatoires (e.g. IFN-γ, TNF-α, IL-2). Enfin, avec le concours du TNF-α et de l’IL-1, les chondrocytes, FLS et certains PN (neutrophiles notamment) produisent les métalloprotéinases (MMP) responsables de la destruction du cartilage [73, 74]. 1

Aussi appelé Stromal Cell-Derived Factor-1, SDF-1 Anciennement MIP-3α et -β 3 Commercialisé sous le nom de Rituxan 2

12

1.3. Immunopathologie 1.3.1.4

Phase de réparation

Elle est la « réponse » de l’organisme au pannus en formation et s’observe donc en parallèle de la destruction. Comme l’illustre la Figure 1.4 l’activité Th2 des LT CD4 ne parvient pas à compenser l’« hyperproduction » de CTK pro-inflammatoires (TNF-α notamment) ni la libération de MMP dans la synoviale. La Figure 1.5 détaille les multiples activités du TNF-α et la Figure 1.6 résume le schéma immunopathologique décrit depuis le paragraphe 1.3.1.

Fig. 1.4 – Dysrégulation cytokinique dans la synoviale rhumatoïde. CPI (resp. CAI) : CTK Pro- (resp. Anti-) Inflammatoires ; IL-1 Ra : antagoniste du récepteur de l’IL-1 ; TIMP : inhibiteur tissulaire des MMP.

Fig. 1.5 – Multiples activités du TNF-α. APP : Acute Phase Protein ; CRP : C-Reactive Protein ; GM-CSF : Granulocyte Macrophage Colony Stimulating Factor ; PGE-2 : Prostaglandin E2 ; SNC : Système Nerveux Central — D’après J. Sany.

13

Chapitre 1. La Polyarthrite Rhumatoïde

Fig. 1.6 – Schéma immunopathologique de la PR. Sous contrôle des Treg et renforcé par l’interaction CD28/B7, l’apprêtement HLA-dépendant par les CD d’un hypothétique Ag arthritogène active les LT Th1 et stimule les LB. Alertés par l’IFN-γ, les macrophages sécrètent IL-1 et TNF-α dont l’effet synergique conduit à la libération de MMP par des cellules résidentes de la synoviale (synoviocytes, chondrocytes et ostéoclastes). Les CMK CCL3 et -5 participent à la diapédèse des LT et le système RANK/RANKL, stimulé par le TNF-α et inhibé par l’ostéoprotégérine (OPG) joue un rôle important dans la genèse des lésions articulaires — Adapté de W. Arend et JM. Dayer.

1.3.2

Manifestations extra-articulaires

Elles sont « à l’image » de la PR : hétérogènes (Tableau 1.4). Exceptionnellement inaugurales de la maladie et de plus en plus rares depuis l’avènement des « biothérapies », ces manifestations sont secondaires à différents mécanismes immunologiques associant des composantes génétiques, des complexes immuns contenant souvent des FR, des macrophages et les CTK qu’ils produisent ainsi qu’une infiltration lymphocytaire T, plutôt de type CD8.

1.3.3

Principaux (auto-)Ac associés à la PR

La réponse auto-immune est très précoce [75] et fait intervenir différents Ac caractéristiques parmi lesquels les FR et les ACPA, utiles à la compréhension des mécanismes physiopathologiques impliqués dans la PR [76]. 14

1.3. Immunopathologie Organe cible Organes hématopoïétiques

Manifestation Fréquence (%) Adénopathies 30 – 70 Anémie 20 – 30 Hyperplaquettose 10 – 30 Splénomégalie 7 Tendons Ténosynovites 99 Muscles Amyotrophie — Myosite — Nodules rhumatoïdes sous-cutanés 10 – 30 Poumons Bronchectasies 25 – 35 Pleurésie 2–5 Pneumopathie interstitielle diffuse 1–5 Nodules rhumatoïdes pulmonaires 0.5 Syndrome de « Caplan-Colinet » — Bronchiolite — Cœur et vaisseaux Péricardite 2 – 10 Lésions vasculaires spécifiques 3 Vascularite 1 Troubles de la conduction — Système nerveux Névrites ischémiques 1 Névrites sensitives distales — Neuropathies de compression — Œil Syndrome de « Gougerot-Sjögren » 20 Sclérite ou épisclérite 2–5 Tab. 1.4 – Principales manifestations extra-articulaires de la PR. 1.3.3.1

Facteurs Rhumatoïdes

Découverts dès 1940 et décrits huit ans plus tard, les FR sont les seuls Ac dont la positivité constitue l’un des 7 critères ACR de classification de la PR [29]. Pourtant, ces Ac sont très peu spécifiques [77]. Par leur capacité à reconnaître les déterminants antigéniques du Fragment constant des IgG, les FR contribuent à la formation de Complexes Immuns Circulants (CIC). Liés au Complément 1 les CIC sont phagocytés par des PN, libérant dans l’articulation enzymes lysosomiales, radicaux oxygénés et dérivés de l’acide arachidonique. Ainsi, les formes sévères2 de PR sont souvent associées à des titres élevés de FR, suggérant l’intérêt également pronostique de ces Ac [78].

1 2

Cascade biochimique complexe à effet cytolytique, chimiotaxique et inflammatoire Caractérisées par une atteinte structurale

15

Chapitre 1. La Polyarthrite Rhumatoïde

Fig. 1.7 – Conversion chimique de l’arginine en citrulline. 1.3.3.2

Ac anti-Protéines Citrullinées

Successivement décrits comme Ac anti-kératine [79], -périnucléaire [80] puis -filaggrine [81], les ACPA constituent une famille d’Ac capables de reconnaître la forme déiminée de la filaggrine [82] et d’une façon générale, n’importe quel peptide antigénique ayant subi la déimination (Figure 1.7) par une PAD d’une arginine flanquée de résidus neutres [83]. Ainsi, le fibrinogène et la fibronectine [84, 85], la vimentine [86], l’α-énolase [87] ou le collagène de type I [88] deviennent des cibles antigéniques dans la PR. La citrullination de ces protéines – avec pour corollaire la production d’ACPA – s’observerait notamment lors de stress oxydatifs et des processus apoptotiques1 qui en découlent – 2 phénomènes observés dans la synoviale rhumatoïde [89, 90, 91, 92]. Certains auteurs avancent également des mutations du gène PADI4 mais cette hypothèse semble restreinte aux populations asiatiques (cf. 1.2.4.2.3). En revanche, l’influence de l’EP sur la production des ACPA a largement été démontrée aussi bien en Europe qu’aux U.S.A ou en Asie [93, 94, 95, 43]. Enfin, et contrairement aux FR, les ACPA sont des marqueurs diagnostiques très spécifiques – et relativement sensibles. À titres élevés, ils orientent fortement le diagnostic de PR, sinon d’autres pathologies doivent être envisagées (e.g. Syndrome de « Gougerot-Sjögren ») [96]. Si la Valeur Prédictive Positive (P P V , cf. 2.3) tend vers 1 lorsque ACPA et FR sont tous deux positifs [97], la sensibilité de cette association reste très faible2 [98, 99]. 1.3.3.3

Ac anti-Sa

C’est en 1994 que sont découverts ces Ac [100] à forte P P V mais peu sensibles du point de vue diagnostique, peut-être prédictifs de la survenue précoce d’érosions osseuses [101, 102, 103]. Initialement décrit par électrophorèse mono-dimensionnelle (1-DE) comme un doublet de bandes de 50kDa, le profil anti-Sa n’est pas clairement défini et pourrait correspondre à un triplet observable entre 70 et 50kDa [104]. De même, la nature des cibles antigéniques est à ce jour encore discutée. En particulier, la protéine de 50kDa a maintes fois été « ré-étiquetée » : calpastatine [105], apolipoprotéine-A1 [106] ou encore α-énolase [107] . . . Plus récemment, Vossenaar et al. ont démontré que les anti-Sa reconnaissent la vimentine, dans sa forme citrullinée uniquement [86], suggérant ainsi leur appartenance à la famille des ACPA. 1 2

16

Mort cellulaire programmée De l’ordre de 50%

1.3. Immunopathologie 1.3.3.4

Ac spécifiques du cartilage

Le cartilage est un tissu conjonctif formé de chondrocytes baignant dans une matrice extracellulaire riche en fibres de collagène1 et protéoglycanes (Figure 1.8) [108, 109]. Dès le début des années 70, plusieurs études confirment la présence d’Ac anti-collagène dans la synoviale rhumatoïde [110, 111, 112]. Depuis, la prévalence de ces Ac a été estimée entre 20 et 30% [113] et jusqu’à plus de 50% dans les PR débutantes [114]. Retrouvés dans d’autres pathologies (e.g. Syndrome de « Gougerot-Sjögren », LED) leur intérêt diagnostique apparaît limité [115, 116]. Moins fréquents, souvent peu spécifiques, d’autres Ac ciblant le cartilage ont été décrits dans la PR : (i) anti-CH65, protéine chondrocytaire similaire en séquence aux HSP [117], (ii) anti-HCgp39, observés notamment chez les porteurs de l’allèle HLA-DRβ1*0401 [118, 119, 120], (iii) anti-COMP2 , dont les taux sériques « pré-thérapeutiques » présumeraient de l’efficacité clinique de l’adalimumab3 [121].

Fig. 1.8 – Organisation schématique du cartilage.

1.3.3.5

Autres Ac

Les Ac anti-RA33 inhibent la liaison aux « pré-messagers » de la protéine A2 du complexe d’épissage4 hnRNP [122, 123]. Présents chez l’Homme atteint de PR [124, 125, 126], de LED ou autres connectivites [127, 128], ces Ac sont aussi détectés dans des modèles murins de maladies auto-immunes [129], transgéniques pour le TNF-α [130] ou simplement arthritiques [131]. Très peu sensibles et moins spécifiques que les ACPA visà-vis du diagnostic, les Ac anti-RA33 n’auraient de plus aucune valeur pronostique [132].

1

Principalement de type II Marqueur du remodelage ostéo-cartilagineux avec OPG et RANKL 3 Nom commercial HUMIRA – 3e anti-TNF-α après infliximab et etanercept 4 Maturation des ARNm par excision des introns 2

17

Chapitre 1. La Polyarthrite Rhumatoïde Les annexines sont des protéines cytosoliques et membranaires impliquées dans la signalisation calcique. Récepteur du Tissue Plasminogen Activator, l’annexine II régule la conversion du plasminogène en plasmine et finalement la fibrinolyse. En formant un « film » cristallin à la surface des cellules et en inhibant la phospholipase-A2, l’annexine V – synthétisée par l’endothélium vasculaire – exerce une activité à la fois anti-coagulante et anti-inflammatoire. Acteurs du « syndrome des anti-phospholipides » [133, 134] et décrits dans la PR [135, 136] ou le LED [137, 138], les Ac anti-annexine II et V sont généralement synonymes de thrombose [139, 140] et contribueraient donc, dans la PR, à la survenue de manifestations vasculaires (cf. 1.3.2). Enfin, dans le cadre d’un syndrome post-infectieux (cf. 1.2.3), ont été décrits des Ac : (i) anti-gp110 d’EBV [141], (ii) -HSP65 de Mycobacterium Tuberculosis [142], (iii) -DNA-J et -GroEL d’Escherichia Coli [143, 144], (iv) -hémolysine de Proteus Mirabilis [145] . . .

1.4

Conclusion

Rhumatisme inflammatoire chronique, érosif et fréquent, la PR est loin d’être une maladie bénigne mais pose au contraire un vrai problème de santé publique. Hétérogène dans ses manifestations cliniques, elle se traduit le plus souvent par une atteinte bilatérale et symétrique des petites et moyennes articulations, à l’origine d’un handicap lourd pour le malade dont la prise en charge est compliquée par l’absence de critères diagnostiques et pronostiques clairs. Avec l’avènement « récent » de biothérapies ciblées (e.g. anti-TNF-α, IL-1 Ra, anti-CD20, . . .) a débuté une véritable « révolution thérapeutique » qui invite à la découverte de nouveaux marqueurs prédictifs de la survenue d’érosions articulaires. C’est alors qu’il nous faut parler de cette « science dévouée » que sont les statistiques : économie, sociologie, climatologie, physique, biologie, médecine . . . partout les statistiques se sont imposées. Ainsi certains chercheurs† ont-ils dû progressivement enrichir leur vocabulaire des mots écart-type, variance, loi normale . . . sans oublier l’incontournable p-value, « quintessence » de la discipline à laquelle on prête volontiers un sens parfois erroné. Trop souvent réduites à un simple « outil » devenu indispensable, les statistiques sont avant tout une science, contrainte par des règles dont le non respect conduit aujourd’hui encore à l’usage inapproprié de tests pourtant largement utilisés tels que Student ou chi-deux.



18

Ou « apprentis chercheurs » dont je fais partie . . .

1.4. Conclusion

19

Chapitre 1. La Polyarthrite Rhumatoïde

20

Chapitre 2 Le langage R et « la méthode statistique » Sommaire 2.1 2.2 2.3 2.4

Avant-propos . . . . . . . . . . . . . . . . . . . Élements de base du langage . . . . . . . . . . Notions élémentaires en statistique . . . . . . Caractères qualitatifs . . . . . . . . . . . . . . 2.4.1 Comparer 2 proportions . . . . . . . . . . . . 2.4.2 Comparer k répartitions . . . . . . . . . . . . 2.5 Liaison aux variables continues . . . . . . . . 2.5.1 Moyenne, Variance et Loi Normale . . . . . . 2.5.2 Comparaison de moyennes . . . . . . . . . . . 2.6 Autre approche . . . . . . . . . . . . . . . . . . 2.6.1 Analyse en Composante Principale . . . . . . 2.6.2 Régression Logistique . . . . . . . . . . . . . 2.6.3 Classification Hiérarchique . . . . . . . . . . . 2.7 Conclusion . . . . . . . . . . . . . . . . . . . . .

21

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

22 22 23 27 27 31 36 36 38 41 41 42 43 43

Chapitre 2. Le langage R et « la méthode statistique »

2.1

Avant-propos

À l’image de la PR, hautement hétérogène dans ses manifestations et ses composantes, les sciences de la vie doivent être abordées pénétré de l’idée que « la variabilité est non l’exception mais la règle ». Ainsi, la biologie ou la médecine ne devient véritablement une science qu’à la condition d’y formuler les problèmes d’une façon singulière, adaptée à la variabilité et différente de celle utilisée dans le domaine du certain. La recherche clinique ou fondamentale se résume presque toujours à étudier l’association de plusieurs facteurs : la maladie peut-elle se définir selon certains critères (diagnostic), sa survenue est-elle liée à une condition particulière (étiologie) ou bien son devenir peut-il être appréhendé à partir d’indices (pronostic) ou d’un traitement (thérapeutique) donnés ? . . . De telles associations – quand elles existent – ne se présentent jamais comme une relation rigide mais ne peuvent être vraies que « en moyenne ». La formulation et la solution de ces problèmes constituent « la méthode statistique ». Conçu en 1996 par Ross Ihaka et Robert Gentleman [146], R est un système d’analyse statistique et graphique, distribué librement par le Comprehensive R Archive Network 1 sous les termes de la General Public Licence 2 . Sans cesse en développement et régulièrement mis à jour par le R Development Core Team 3 , R est avant tout un langage, souvent perçu comme trop complexe par le non-spécialiste. Bien au contraire, R privilégie la flexibilité et dans de nombreux cas, s’avère finalement plus simple d’utilisation que la plupart des logiciels « classiques » d’apparence plus conviviale. La description formelle et la mise en œuvre pratique sous R de fondamentaux statistiques constituent l’essentiel de ce 2e chapitre.

2.2

Élements de base du langage

R est un langage orienté-objet. Derrière cette notion qui peut sembler compliquée « se cache » en réalité toute la simplicité et la flexibilité de R, qui traite ainsi données, variables, résultats . . . sous la forme d’objets (Tableau 2.1), stockés en mémoire et accessibles par un nom. Ces objets interagissent au moyen d’opérateurs (Tableau 2.2) ou de fonctions – qui sont elles-mêmes des objets. R est également un langage interprété et non compilé, ce qui signifie que chaque commande peut être exécutée directement sans qu’il soit besoin de construire un programme complet. Sa syntaxe est de plus très simple et intuitive : reg = lm(y˜x) affectera par exemple à l’objet reg le résultat de la régression linéaire de y en fonction de x. On retiendra que pour être exécutée, une fonction – ici lm – s’écrit toujours avec des parenthèses. Enfin, à chaque objet sont associés des attributs qui définissent le type des données. Considérons une variable v qui prendrait les valeurs 0, 1 ou 2 : il peut s’agir d’une variable entière (e.g. nombre d’allèles HLA-DRβ1) ou du codage d’une variable catégorielle (e.g. diagnostic – PR, spondylarthropathie ou autre rhumatisme). Le traitement statistique de v n’étant pas le même dans les 2 cas, les attributs donnent l’information nécessaire. 1

http://cran.r-project.org/ http://www.gnu.org/ pour plus d’informations 3 Communauté de statisticiens et bioinformaticiens bénévoles 2

22

2.3. Notions élémentaires en statistique

objet

numeric ou character √

mode1 logical ou complex

plusieurs autres



– vector √ – – factor √ √ – matrix √ √ – data.frame √ √ √ list 1 Typage des éléments d’un objet 2 Seuls les data.frame et list peuvent contenir des objets de types différents

modes2

– – –

√ √

Tab. 2.1 – Aperçu des principaux objets sous R. Un vector est une suite d’éléments d’un même mode. Un factor est un vector catégorique. Les objets matrix et data.frame sont des tableaux à 2 dimensions composés de un ou plusieurs vector et/ou factor de même longueur. Enfin, une list peut contenir tout type d’objet – y compris des list. logiques !x x&y x && y x|y x || y xor(x, y)

NON x x ET y

idem. x OU y

idem. OU exclusif

arithmétiques + addition soustraction ∗ multiplication / division ˆ puissance %% modulo

de comparaison < inférieur > supérieur = supérieur ou égal == égal != différent

Tab. 2.2 – Les 3 types d’opérateurs définis dans R.

2.3

Notions élémentaires en statistique

La formulation statistique d’un problème repose sur le fait fondamental et constant que les individus d’un groupe, au moment où on les étudie, sont différents. Ainsi, les problèmes doivent être posés à l’échelon, non de l’individu mais du groupe, défini par une propriété « moyenne ». Dans le cas général de l’étude de la liaison entre 2 caractères, la solution est donnée par un test de signification qui détermine si ce qui est observé relève (hypothèse nulle) ou non (hypothèse alternative) des seules fluctuations du hasard. La décision de rejeter ou d’accepter † l’hypothèse nulle – notée H0 – s’appuie sur le calcul d’une p-value, chiffrement d’un risque dit « de première espèce » et noté α.



En réalité on n’accepte pas H0 mais on choisit de ne pas la rejeter

23

Chapitre 2. Le langage R et « la méthode statistique » Considérons un groupe de n = 100 malades atteints de PR débutante – dont on sait que p = 15%1 développeront une forme sévère après 2 ans – et testons, passé ce délai, l’effet prophylactique d’un traitement t. L’hypothèse H0 à tester consiste à déclarer t inactif. Dans ce cas, les fluctuations d’échantillonnage 2 font varier p0 – proportion observée de malades ayant développé une forme sévère – dans un intervalle dit de pari, centré sur p et qu’il est possible de borner avec un risque donné d’erreur. Au seuil usuel de 5% p0 oscille ainsi entre p − 2σ et p + 2σ, avec : r r p(1 − p) 0.15 × 0.85 = ≈ 0.04 (1) σ= n 100 Une interprétation concrète de l’écart-type σ et de son carré, la variance, sera donnée plus loin dans l’étude des caractères quantitatifs (cf. 2.5). Le chiffre 2 est une approximation de la valeur de l’écart-réduit – noté  – pour laquelle α vaut 5%. Si e est l’écart « vrai » définissant l’intervalle, il vient : =

e σ

−→

e =  × σ ≈ 2 × 0.04 ≈ 0.08

(2)

Une conséquence intuitive est que sous l’hypothèse H0 la probabilité de voir p0 s’écarter de p d’au moins e est d’autant plus faible que n est grand. Autrement dit, σ et finalement α diminuent lorsque n (1) et donc  (2) augmentent. Dans cet exemple, t sera jugé sans effet (resp. actif) si p0 est compris dans (resp. sort de) l’intervalle ouvert 0.15 ± 0.08. Avec n = 1000, σ ≈ 0.01,  ≈ 0.08 × 102 = 8 et α  10−9 . Ici, α mesure le risque de déclarer à tort t actif. Avec α et donc  fixés, étant donnés p et n, le calcul de σ permet de conclure : l’écart observé | p0 − p | est significatif s’il égale ou dépasse e =  × σ. β ou l’antagonisme de 2 risques — Au risque α s’ajoute un risque β « de deuxième espèce ». Ce sont plus généralement les risques de rejeter H0 alors qu’elle est exacte, ou de l’accepter lorsqu’elle est fausse. En choisissant l’intervalle ] 0.07 − 0.23 [ sur n = 100 cas, α vaut 5%. Pour réduire ce risque, il faut consentir à augmenter  et finalement étendre l’intervalle de pari. Ainsi, la probabilité de déclarer à tort t actif est d’autant plus faible que celle d’écarter t – en réalité actif – augmente. De ces 2 risques, seul α sera qualifié d’erreur, β n’étant qu’un « manque à gagner » ou « défaut de puissance ». Pour s’en convaincre, l’analogie avec le domaine judiciaire est intéressante : on préfèrera risquer de voir s’échapper un coupable plutôt que de commettre l’erreur de condamner un innocent. Vraiment faux ou faussement vrai ? — Attardons-nous un instant sur le parallèle qui vient d’être fait . . . À l’issue d’un procès (test) et au regard des différentes plaidoiries (observations), le prévenu doit être jugé : coupable ou innocent (H0 ) ? Innocenter un coupable (faux positif, F P ) serait regrettable mais condamner à tort un innocent (faux négatif, F N ) n’est pas concevable. Idéalement, on souhaiterait ignorer le doute : appréhender toujours le criminel (vrai négatif, T N ) sans jamais inquiéter l’inattaquable (vrai positif, T P ), et l’analogie s’arrête là, car la biologie n’est pas du domaine du certain. 1 2

24

Ce chiffre indicatif n’est donné que pour servir l’exemple Appellation formelle désignant le hasard

2.3. Notions élémentaires en statistique À l’impossible, nul n’est tenu — La formulation de l’hypothèse nulle est essentielle car c’est elle qui détermine « le vrai du faux » et conditionne l’interprétation du test. C’est ainsi que pour juger de l’intérêt préventif de t, H0 consistait à déclarer t inactif et non le contraire, car en définitive c’est l’efficacité de t dont on souhaite s’assurer. De même, la préoccupation première d’un tribunal sera – dans la mesure du possible – de ne jamais condamner à tort, d’où le principe de la présomption d’innocence. Un 3e et dernier exemple illustre une confusion fréquente liée au terme « nulle » désignant H0 : dans un test diagnostique, l’innocent est le malade . . . car s’il est maladroit de dire au « bien portant » qu’il souffre d’un « mal imaginaire », il est exclu d’ignorer celui qui requiert des soins. Si l’erreur consentie α associée au rejet de H0 (F N ou test négatif à tort) se doit d’être minimale – nulle au mieux – le risque implicite β (F P ou test positif à tort) ne saurait être négligé : à quoi bon tester une molécule si toute activité est indétectable ? Pourquoi faire un réquisitoire si, sous couvert de ne jamais commettre d’erreur judiciaire, le prévenu se sait innocenté ? . . . Or, et bien qu’il soit souvent difficile voire impossible à évaluer, β sera d’autant plus grand que α aura été choisie petite. L’antagonisme des 2 risques impose donc le compromis entre pertinence et faisabilité. Sensible ou spécifique ? — Dans le chapitre précédent, les ACPA ont été décrits comme des « marqueurs diagnostiques très spécifiques et relativement sensibles ». En statistique, la sensibilité (resp. spécificité) représente la probabilité qu’a un test dichotomique 1 d’être positif (resp. négatif) lorsque H0 est vraie (resp. fausse). Ainsi, l’antagonisme entre α et β se traduit-il par une opposition entre sensibilité (Se) et spécificité (Sp) : la première augmente quand la seconde diminue. Ensemble2 , elles donnent au test une appréciation de sa validité intrinsèque. Néanmoins, parce qu’elles ne dépendent pas de la prévalence du caractère C étudié, on leur préfèrera le plus souvent3 les valeurs prédictives négative (N P V ) et positive (P P V ) qui correspondent respectivement à la probabilité que C soit absent (présent) lorsque le test est négatif (positif) : Se =

TP TP + FN

et

Sp =

TN TN + FP

NP V =

TN TN + FN

et

PPV =

TP TP + FP

Lorsque la représentativité de l’échantillon est incertaine et sachant p la prévalence attendue de C, il vient4 :

et

NP V =

1−p LR



LR =

1 − Se Sp

PPV =

p × LR p(LR − 1) + 1



LR =

Se 1 − Sp

1

vrai/faux vs. positif/négatif Se = 95% (peu de F N ) n’a aucune valeur si Sp = 5% (trop de F P ) 3 Sous réserve que l’échantillon soit représentatif de la population 4 Formules dérivées du théorème de Bayes 2

25

Chapitre 2. Le langage R et « la méthode statistique » La folie des grandeurs — Reprenons l’exemple du traitement t et supposons p0 = 8% la proportion de PR sévères observée sur n1 = 100, n2 = 200 et n3 = 1000 cas, soit : s e p(1 − p) ≈ 0.04 −→ | 1 | = < 2 σ1 = n1 σ1 s e p(1 − p) σ2 = ≈ 0.03 −→ | 2 | = ≈ 2 n2 σ2 s e p(1 − p) ≈ 0.01 −→ | 3 | = > 2 σ3 = n3 σ3 Toute donnée chiffrée (e.g. proportion, moyenne, . . .) n’a de sens que sur un nombre fini d’observations d’où l’intérêt du test de signification de substituer à la notion d’écart, qui dépend de la dimension de l’échantillon, celle de probabilité qui n’en dépend pas. Ainsi, l’antagonisme des 2 risques ne devient une contrainte qu’à effectif constant : en fixant α, l’intervalle de pari se restreint et le test gagne en puissance (σ et β diminuent) à mesure que n augmente. En accumulant les preuves, on démasque plus souvent le coupable sans accroître le risque pour l’innocent d’être condamné. Bien que β soit l’inconnue, il est possible – et recommandé – d’estimer a priori la taille utile nécessaire pour définir à l’avance les bornes de l’intervalle de pari. Si i est la précision désirée pour l’erreur consentie α = 5%, alors : n=

4 × 0.15 × 0.85 2 × p(1 − p) ≈ ≈ 1300 si 2 i 4 × 10−4 4 × 0.15 × 0.85 ≈ ≈ 5000 si 10−4 4 × 0.30 × 0.70 > 8000 avec ≈ 10−4

i = 2% i = 1% p = 30%

En pratique, on retiendra que pour réduire i de moitié il faut plus que doubler n et que pour un intervalle donné, l’effectif requis augmente avec p. Conditions d’application — La dimension de l’échantillon n’influence pas seulement le résultat mais conditionne également le type du test. Ici,  ne chiffre correctement α que si np et n(1 − p) ≥ 5 soit n ≥ 34. Cette règle n’a rien d’accessoire et lorsqu’elle ne peut être respectée, il faut se résoudre à utiliser d’autres tests, par nature plus stringents1 et dits non paramétriques, par opposition aux tests paramétriques, toujours préférables si les effectifs le permettent. En théorie, n ne devrait jamais suffir à justifier d’un test mais en pratique2 l’usage des tests paramétriques est généralement admis à partir de n ≈ 30.

1 2

26

Donc moins puissants Parce que les exigences réelles sont souvent trop difficiles voire impossibles à vérifier

2.4. Caractères qualitatifs Selon la nature du problème posé, le type et le nombre de données disponibles, différentes solutions sont possibles et toutes reposent fondamentalement sur ce qui vient d’être énoncé : principe de test, antagonisme des risques, importance de l’effectif et du choix de l’hypothèse nulle . . . Bien sûr, la « méthode statistique » ne se résume pas à ces quelques notions mais elles suffisent à justifier de ce qui va suivre.

2.4 2.4.1

Caractères qualitatifs Comparer 2 proportions

Problème — On se propose d’évaluer l’intérêt diagnostique de l’allèle *196R du TNFRII dans la cohorte VErA1 [37]. En particulier, on s’intéresse aux proportions de malades porteurs de cet allèle, atteints ou non de PR. Les données sont les suivantes : PR† non oui †

allèle *196R absent présent n00 = 82 n01 = 40 n10 = 76 n11 = 80

P n0 = 122 n1 = 156

Diagnostic à 2 ans selon les critères ACR

Solution — Soit H0 : « la proportion d’allèles *196R est la même, que les malades soient (p11 ≈ 51.3%) ou non (p01 ≈ 32.8%) atteints de PR ». Ce problème rappelle celui où sachant p = 15%, on jugeait de l’effet du traitement t. Bien que p – proportion de malades porteurs de l’allèle – soit ici l’inconnue, on peut l’estimer par : p= d’où

40 + 80 n01 + n11 = ≈ 43% avec min(n0 , n1 ) × min(p, 1 − p) ≥ 5 n0 + n1 122 + 156

|| = s

| p01 − p11 | p(1 − p) p(1 − p) + n0 n1

≈r

| 0.328 − 0.513 | 0.43 × 0.57 0.43 × 0.57 + 122 156

≈3

D’après la table de l’écart-réduit,  ≈ 3 implique le rejet de H0 avec : 1% > α > 1‰. Implémentation — Elle se résume à une ligne de code, aussi profiterons-nous de ce 1 exemple pour introduire notamment quelques fondamentaux du langage. Des plus élémentaires aux plus complexes, les fonctionnalités offertes par R sont telles qu’il peut être malaisé d’identifier la commande désirée. Même si R propose un efficace moteur de recherche interne, c’est davantage par la pratique et la consultation de forums en ligne2 que l’utilisateur trouvera le plus souvent réponse à ses interrogations3 . er

1

Very Early Arthritis – cf. Annexe A Certe indigest mè tré util . . . 3 Rédigé par E. Paradis, « R for beginners » est un excellent document pour bien débuter avec R 2

27

Chapitre 2. Le langage R et « la méthode statistique » Ici, la solution est donnée par la fonction prop.test dont l’usage et les attributs sont rappelés par l’instruction ?prop.test1 : Usage prop.test(x, n, ...) Arguments x a vector n ...

of counts of successes or a matrix with 2 columns giving the counts of successes and failures, respectively. a vector of counts of trials ; ignored if x is a matrix.

On devine déjà toute la flexibilité de R qui permet de soumettre des arguments « synonymes » mais différents à une même fonction2 de sorte que la réponse au problème posé peut être obtenue à l’aide de l’une ou l’autre des commandes : > prop.test(x = c(80, 40), n = c(156, 122)) > prop.test(x = matrix(data = c(80, 40, 76, 82), ncol = 2))

De cet exemple découlent plusieurs observations essentielles, intuitives pour la plupart : – Placé en tête de ligne, le signe « > » n’est pas une instruction mais symbolise le « prompt » ou « invite de commande » tandis que « = » traduit une affectation3 – Les divers arguments possibles d’une fonction, quelle qu’elle soit, sont toujours séparés par une virgule – e.g. prop.test(x, n, ...), c(80, 40, ...) – Un vector résulte de la concaténation par l’opérateur c(...) du même nom d’éléments d’un seul mode4 – e.g. data = c(80, 40, 76, 82) – x, n, data et ncol sont ici des paramètres nommés, non des objets5 – Le type matrix – de même que data.frame, factor ou list – se construit grâce une fonction éponyme de paramètres explicites (e.g. ncol nombre de colonnes . . .) R étant conçu pour créer, manipuler, faire interagir des objets . . . on préférera l’affectation à l’appel direct de fonction : > result = prop.test((x = matrix(data = c(80, 40, 76, 82), ncol = 2)))

Avant d’examiner le contenu de result, discutons tout d’abord du sens des parenthèses supplémentaires encadrant x. Sans elles et parce qu’il n’est qu’argument5 , celui-ci est en quelque sorte « victime d’apoptose » sitôt prop.test exécutée. Ici au contraire, en tant qu’objet il « survit » : on dira de la portée 6 de x qu’elle est locale ou globale selon qu’il renvoie ou non au seul paramètre de la fonction.

1

?fun est un raccourci de help(fun) où fun désigne une fonction Souvent mais pas toujours 3 À ne pas confondre avec l’opérateur de comparaison « == » qui traduit une égalité (Tableau 2.2) 4 Cf. Tableau 2.1 5 En réalité « tout » est objet, mais un paramètre n’a d’existence que le temps d’une instruction 6 Notion fondamentale commune à tous les langages 2

28

2.4. Caractères qualitatifs Pour visualiser x ou result, il suffit alors de taper leur nom1 : >x [1, ] [2, ]

[, 1] 80 40

[, 2] 76 82

Davantage que l’objet lui-même, on souhaitera généralement extraire ou modifier sélectivement ses composantes et R dispose pour cela d’un simple mais puissant système d’indexation. Si x est du type vector (resp. list) de taille n = length(x) alors ∀ i ∈ N*, i ≤ n† : x[i] (resp. x[[i]]) représente le ie élément de x. De même pour les classes matrix et data.frame à r = nrow(x) lignes et c = ncol(x) colonnes où ∀ (i, j) ∈ N*, i ≤ r, j ≤ c : x[i, j] est la valeur située ligne i colonne j. Parce que x[i, ] et x[, j] sont aussi des vector : x[i, j]⇔ x[i, ][j]⇔ x[, j][i]. Pour accéder à plus d’un élément on utilise une suite finie d’indices : x[i, ]⇔ x[i, 1:c] et x[, j]⇔ x[1:r, j] où « a:b » est un raccourci de seq(from = a, to = b, by = 1). L’usage d’opérateurs de comparaison est également possible : x[x > y]= z substitue z à tout x[i]> y. Enfin, names, rownames, colnames et dimnames sont autant d’attributs qui – lorsqu’ils sont définis – partitionnent l’objet : x[i]⇔ x["el"]⇔ x$el si names(x)[i]== "el". On retiendra que l’indexation implique des crochets 2 , les parenthèses étant réservées aux fonctions. Différents éléments3 composent ainsi result, parmi lesquels : – – – –

$p.value, dont on pourra vérifier qu’elle est bien comprise entre 1‰ et 1% $estimate, proportions calculées p01 et p11 soit environ 0.328 et 0.513 $conf.int, intervalle de confiance à 95% (CI95 ) de la différence | p01 − p11 | $statistic et $parameter, respectivement χ2c et degré de liberté

Bien que similaires par le calcul, les intervalles de pari et de confiance ont une signification propre. Le 1er porte sur la donnée future d’un échantillon aléatoire (e.g. proportion p0 de PR sévères observée sur n cas), le 2e sur une valeur certes inconnue mais actuelle et parfaitement déterminée, soit ici : d0 = | p01 − p11 | ≈ 0.185. Les bornes estimées par $conf.int et encadrant d0 sont telles qu’on peut y situer la vraie différence d « avec confiance », l’erreur α étant connue et fixée par défaut à 5% : σd ≈ 0.06 d’où CI95 ≈ 0.185 ± 0.12 soit 0.06 < | d | < 0.31. L’option conf.level de prop.test propose de redéfinir α : > prop.test(..., conf.level = .99)$conf.int [1] 0.02727998 0.34262334

Ainsi, avec α = 1%,  ≈ 2.6 et CI99 ≈ 0.185 ± 0.16 d’où 0.03 < | d | < 0.34. On notera donc que CI croît quand α diminue. C’est là un résultat évident : d’autant plus faible sera le risque de déclarer à tort d compris dans un certain intervalle que celui-ci est grand. Cet antagonisme a déjà été signalé à propos du pari et du test.

1

obj est un raccourci de print(obj) où obj désigne un objet Doubles dans le cas des list ; l’alternative $ est incompatible avec le type matrix 3 Listés dans names(result)

2



Notation mathématique : ∀ pour tout ; N* entier naturel non nul

29

Chapitre 2. Le langage R et « la méthode statistique » Quelques mots à venir sur la portée des expressions χ2c et degré de liberté feront finalement le lien avec le prochain paragraphe, mais avant cela remarquons qu’il n’a dans cet exemple jamais été question du choix pourtant critique de H0 . C’est que le « comportement » par défaut de R† correspond au cas général où, en l’absence d’arguments tangibles, il n’est pas permis de présumer du sens de la différence : ici rien n’indique a priori que la proportion de l’allèle *196R doit être supérieure dans le groupe PR. Supposons que des données de la littérature le justifient, autrement dit qu’il existe un « rationnel fort » à cet axiome : il ne s’agit donc plus de tester une équivalence mais une inégalité pré-établie. Pour ce faire, et parce qu’elle est à la fois plus immédiate et intelligible, c’est l’hypothèse contraire à H0 – dite alternative et notée H1 – qui peut et doit être reformulée : > prop.test(..., alternative = "greater")

Dans ce cas, seule l’inégalité p11 > p01 est évaluée pour l’erreur consentie α et le test est dit unilatéral, par opposition au test bilatéral qui supposerait équi-vraisemblable à α/2 l’inégalité opposée. Ainsi et comme illustré ci-après, les bornes inférieures (resp. supérieures) de CI1−α d’un test bilatéral et de CI1− α2 (asymétrique par construction) d’un test unilatéral à droite (resp. gauche) se confondent-elles. En élargissant la zone de rejet de H0 , la significativité augmente, le risque β diminue et le test gagne en puissance. Plus fréquents, préférables aussi, il ne sera fait mention par la suite que de tests bilatéraux.

Élaboré par l’allemand Friedrich Robert Helmert et le britannique Karl Pearson vers la fin du XIXe siècle, le célèbre « chi-deux » – noté χ2 – est un indice permettant d’éprouver l’indépendance entre caractères qualitatifs à k classes, avec ∀ k ∈ N*, k ≥ 2. À la notion de χ2 est associée celle de degré de liberté (df ), commune à de nombreux tests et représentant le nombre de variables stricto sensu aléatoires d’une équation : sauf à connaître x ou y et si c est une constante alors x + y = c possède une infinité de solutions. Ainsi, tout système de taille k est parfaitement défini par df = k − 1 de ses composantes. Dans le cas particulier où df = 1, la comparaison de k = 2 proportions repose sur le calcul d’un χ2 dont nous démontrerons qu’il correspond ici au carré de l’écart-réduit. Enfin, précisons que R utilise par défaut une version singulière du χ2 – dite corrigée et notée χ2c



30

Ce qui est vrai ici pour prop.test l’est aussi pour d’autres fonctions

2.4. Caractères qualitatifs

Comparer k répartitions

2.4.2

Problème — Éprouver l’indépendance entre diagnostic ACR et EP : PR non oui P j

0 n00 = 96 n10 = 63 ni0 = 159

EP 1 n01 = 35 n11 = 81 ni1 = 116

P 2 n02 = 4 n12 = 17 ni2 = 21

i

n0j = 135 n1j = 161 nij = 296

Solution — L’hypothèse H0 est : « le nombre d’EP n’est pas lié au diagnostic ». L’une des variables devenant tri- et non bimodale, la comparaison des k > 2 proportions ne peut plus être abordée par la méthode de l’écart-réduit mais par celle du χ2 . Au problème posé – selon un principe déjà invoqué – nous substituerons momentanément le suivant : s’il y a indépendance et sachant p∗i0 , p∗i1 et p∗i2 les proportions théoriques de 0, 1 ou 2 EP, peut-on juger appartenir à un même groupe les malades atteints ou non de PR ? En première approximation, il vient : p∗i0 =

ni0 ≈ 0.54 nij

p∗i1 =

ni1 ≈ 0.39 nij

p∗i2 =

ni2 ≈ 0.07 nij

d’où

n∗00 = n0j · p∗i0 ≈ 72.5

n∗01 = n0j · p∗i1 ≈ 52.9

n∗02 = n0j · p∗i2 ≈ 9.60

et

n∗10 = n1j · p∗i0 ≈ 86.5

n∗11 = n1j · p∗i1 ≈ 63.1

n∗12 = n1j · p∗i2 ≈ 11.4

Les effectifs théoriques n∗ij conformes à H0 calculés, l’« écart » avec les données observées nij doit être chiffré. On ne saurait envisager la somme – ou la moyenne – des différences qui est évidemment nulle, ni celle de leurs valeurs absolues, peu propices aux calculs probabilistes. Par ailleurs, en ne tenant pas compte de la dimension de l’échantillon, la somme des carrés des écarts seule reste imparfaite. Simple, presque évident, le χ2 dit de Pearson est l’indice qu’il convient d’utiliser : χ2 =

k X (ok − ck )2 (om − cm )2 (o1 − c1 )2 (o2 − c2 )2 + + ... + = c1 c2 ck cm m=1

Il s’agit d’une définition générale du χ2 où oi et ci représentent respectivement les effectifs observés et calculés pour la modalité m ∈ [ 1 − k ] de la variable à tester, soit ici : χ20

=

2 X (n0j − n∗0j )2 j=0

χ21

=

n∗0j

2 X (n1j − n∗1j )2 j=0

n∗1j

=

(96 − 72.5)2 (35 − 52.9)2 (4 − 9.60)2 + + ≈ 17 72.5 52.9 9.60

(63 − 86.5)2 (81 − 63.1)2 (17 − 11.4)2 = + + ≈ 14 86.5 63.1 11.4

31

Chapitre 2. Le langage R et « la méthode statistique » En supposant les échantillons « PR » et « non PR » provenir d’une même population définie par une répartition connue pour la variable EP, les travaux de Pearson montrent que χ20 + χ21 suit la loi du χ2 pour la somme des df . En statistique, une loi † est une fonction de distribution décrivant les fluctuations d’échantillonnage d’un phénomène aléatoire. Ainsi la table de l’écart-réduit est-elle construite sur la non moins célèbre loi normale dont nous reparlerons au chapitre 2.5. À la loi du χ2 et sachant df correspond donc une table de valeurs critiques au-delà desquelles le rejet de H0 est consenti pour l’erreur α. Au seuil usuel de 5%, χ2 ≈ 9.5 quand df = 4. Ici χ2 ≈ 17 + 14 = 31  9.5 est en faveur de H1 . Ceci est d’autant plus vraisemblable que les proportions extrapolées p∗ij tendent à réduire un χ2 qui naturellement croît avec k. Cet artefact peut et se doit d’être corrigé en posant : df = (r − 1)(c − 1) où r et c sont le nombre de lignes et de colonnes du tableau de données, soit ici df = (2 − 1)(3 − 1) = 2 et non pas df = 2(k − 1) = 4. Conditions d’application — Notons d’abord que le χ2 ne s’intéresse qu’aux effectifs, jamais aux proportions. Ensuite, de même que  n’a de valeur que si np et n(1 − p) ≥ 5, il faut ici que n∗ij ≥ 5. On préférera donc la méthode du χ2 parce qu’elle est plus aisée, qu’elle repose sur le calcul toujours nécessaire des effectifs théoriques et qu’elle est aussi et surtout une généralisation de celle de l’écart-réduit pour k ≥ 2. Parfois – sous réserve que cela ait un sens – il peut être judicieux de regrouper certaines modalités (e.g. présence vs. absence de l’allèle *196R, peu importe que l’individu soit homo- ou hétérozygote). Cas particulier où k = 2 — Simplifions le problème comme suit : PR non oui P

p01 =

39 ≈ 0.29 135

d’où |  | = r

j

p11 =

EP absent présent n00 = 96 n01 = 39 n∗00 = 72.5 n∗01 = 62.5 n10 = 63 n11 = 98 n∗10 = 86.5 n∗11 = 74.5 ni0 = 159

ni1 = 137

98 ≈ 0.61 161

| 0.61 − 0.29 | 0.46 × 0.54 0.46 × 0.54 + 135 161

p∗i1 = ≈ 5.5

P

i

n0j = 135 n1j = 161 nij = 296

137 ≈ 0.46 296 et

et p∗i0 = 1 − p∗i1 ≈ 0.54

χ2 =

1 X (nij − n∗ij )2 0

n∗ij

≈ 30

L’issue du test était peut-être évidente, l’égalité pressentie 2 = χ2 sans doute moins . . .



32

Sous-entendu de probabilité ou de distribution

2.4. Caractères qualitatifs En reprenant les termes de la définition générale du χ2 sur n observations de la variable p bimodale, nous allons faire la démonstration que pour k = 2 soit df = 1 il vient |  | = χ2 . Si p est la proportion théorique pour la modalité 1 alors c1 = np d’où c2 = n(1 − p), soit : χ2 =

(o1 − c1 )2 (o2 − c2 )2 (o1 − np)2 (o2 − n(1 − p))2 + = + c1 c2 np n(1 − p)

En posant o2 = n − o1 il vient o2 − n(1 − p) = np − o1 et parce que (a − b)2 ⇔ (b − a)2 (o1 − np)2 (o1 − np)2 (o1 − np)2 + = alors χ = np n(1 − p) n 2

or

1 p + (1 − p) 1 1 + = = p 1−p p(1 − p) p(1 − p)



1 1 + p 1−p



(o1 − np)2 soit χ = = 2 np(1 − p) 2

Ainsi la preuve est faite que le χ2 d’un tableau 2 × 2 n’est autre que le carré de la différence réduite entre les proportions des 2 colonnes – ou des 2 lignes, le test du χ2 alors dit d’indépendance étant parfaitement symétrique : chaque caractère jouant un rôle réciproque, si le diagnostic est lié à l’haplotype HLA alors celui-ci est inégalement réparti selon que les malades souffrent ou non de PR – et inversement . . . Avant de revenir à R, il est un autre cas particulier qui n’à pas encore été abordé : celui des séries appariées. Considérons un groupe homogène de n malades, chacun recevant successivement et dans un ordre aléatoire 2 traitements t1 et t2 à confronter. En notant « + » un succès et « − » un échec, on construit le tableau suivant : t1 − − + +

t2 − + − +

n n00 n01 n10 n11

On pourrait comparer les proportions de succès, par exemple : || = r

| p1 − p 2 | p(1 − p) p(1 − p) + n n

avec

p=

n11 n

p1 =

n10 + n11 n

p2 =

n01 + n11 n

Cette démarche serait correcte si l’essai avait porté sur 2 séries indépendantes de taille n, l’une ayant reçu t1 l’autre t2 . Ici chaque malade devenant son propre témoin, les paires de réponses concordantes et notamment « ++ » n’apportent rien à la question posée.

33

Chapitre 2. Le langage R et « la méthode statistique » On ne s’intéressera donc qu’aux paires divergentes, supposées compatibles avec l’hypothèse d’équivalence des 2 traitements, soit H0 : n01 − n01 + n10 1 n01 + n10 | n01 − n10 | n01 2 = ⇔ n01 = d’où |  | = r = √ n01 + n10 2 2 n01 + n10 1 1 (n01 + n10 ) · 2 2 De même enfin, on vérifiera que 2 = χ2 : 2  2  n01 + n10 n01 + n10  2 n10 − n01 − n01 − n10 (n01 − n10 )2 2 2 2 = √ + = χ = n01 + n10 n01 + n10 n01 + n10 n01 + n10 2 2 Implémentation — Elle est une fois de plus si simple que nous discuterons tout d’abord d’un autre atout du langage : la lecture et la manipulation de données. L’un des avantages du χ2 est de raisonner non sur des proportions mais des effectifs, encore faut-il que ceux-ci soient connus . . . Plaçons-nous dans le cas général d’un fichier data.tab1 où pour chacun des individus (Id) listés sont associées les variables EP (0, 1 ou 2) et ACR (0 ou 1). Sachant la fonction chisq.test à utiliser2 , l’instruction ?chisq.test révèle à nouveau toute la flexibilité qui caractérise R. L’accès à data.tab est immédiat : > x = read.delim(file = "data.tab", row.names = "Id")

Est-il besoin de préciser qu’il s’agit là d’un moyen parmi d’autres de lire des données ? N’oublions pas que R est un langage et de fait, il sera toujours possible d’exprimer différemment une même idée. Ayant par ailleurs rappelé l’intérêt de la commande ? nous éviterons alors d’encombrer l’exposé en ne décrivant que ponctuellement et sommairement chaque nouvelle instruction.

Loin d’être exceptionnelle, nous supposerons l’éventualité d’un fichier incomplet – e.g. nrow(x)== 335 soit sum(is.na(rowSums(x)))== 39 Id pour lesquels au moins une donnée est manquante. Cette dernière séquence suggère avec quelle facilité R sera capable de réaliser les opérations les plus complexes. L’indexation logique nous permet de ne retenir que les nij = 296 entrées où sont à la fois définis EP et ACR : > x[-which(is.na(rowSums(x))), ]

Entre autres alternatives – presque indispensable lorsque la sélection des composantes est contrainte par de nombreux critères – R propose la très utile fonction subset(...) : > identical(x[-which(...), ], subset(x, !is.na(EP) & !is.na(ACR)))

Non moins pratique, identical(...) confirme ici l’équivalence des 2 expressions. Efficace, clair, élégant aussi . . . les adjectifs ne manquent pas pour dire combien R est adapté à la manipulation et au traitement de données. 1 2

34

Équivalente à .txt, l’extension .tab précise le séparateur de champs du fichier, ici une tabulation Une simple requête « pearson » ou « chi-squared » suffit à identifier la commande

2.4. Caractères qualitatifs Pas encore convaincu ? Quoi de plus élémentaire pour R que de construire la table de contingence croisée décrite plus haut : > t(table(x)) EP ACR 0 1 2 0 96 35 4 1 63 81 17

Et pourquoi ne pas simultanément déclarer un objet x défini par les seules nij lignes d’intérêt du fichier data.tab, calculer les différents haplotypes en fonction du diagnostic pour finalement éprouver par un test du χ2 l’indépendance entre EP et ACR : > result = chisq.test(t(table((x = na.omit(read.delim(...)))))

On aura noté le raccourci na.omit(...) mais aussi et surtout la surprenante simplicité des commandes requises. Parmi les attributs de result on retrouve $p.value, $statistic et $parameter, soit respectivement p ≈ 1.8 × 10−7 , χ2 ≈ 31 et df = 2. L’importance des effectifs n∗ij théoriques a été soulignée : > round(result$expected, digits = 1) EP ACR 0 1 2 0 72.5 52.9 9.6 1 86.5 63.1 11.4

Arrondis à la 1re décimale via round(..., digits = 1) on reconnaît les n∗ij précédemment calculés, tous égalant ou dépassant 5. À défaut, R avertit : > round(chisq.test(result$observed/2)$expected, digits = 1) EP ACR 0 1 2 0 36.3 26.5 4.8 1 43.2 31.5 5.7 Warning message: Chi-squared approximation may be incorrect

En remplaçant indifféremment fun par prop.test ou chisq.test et pour k = 2 modalités de la variable EP, il vient : > fun(table(ACR = x$ACR, EP = as.numeric(!x$EP)), correct = FALSE)

L’option correct qui n’a de sens que pour df = 1, détermine si le calcul de χ2 doit (défaut) ou non (FALSE) être corrigé. Ici p ≈ 3.9 × 10−8 pour χ2 ≈ 30. Nous avions enfin formellement abordé le problème des séries appariées. Avec n00 = 35, n01 = 5, n10 = 15 et n11 = 45, nous écrirons : > result = mcnemar.test((x = matrix(c(35, 15, 5, 45), nrow = 2)), correct = FALSE)

Dit de Mac Nemar, le test donne significative à 3% la différence entre t1 et t2 – on pourra vérifier par le calcul que χ2 = 2 = 5.

35

Chapitre 2. Le langage R et « la méthode statistique »

2.5 2.5.1

Liaison aux variables continues Moyenne, Variance et Loi Normale

Nous savons que les fluctuations d’échantillonnage d’une variable k-modale se simplifient à k proportions de somme 1. Pour un caractère quantitatif, il suffira d’en connaître un résumé en 2 indices : la moyenne et la variance dont nous rappelerons ici la signification. Considérons tout d’abord le cas d’une variable discontinue : soient n observations de x prenant un nombre k fini de valeurs. Si ni est l’effectif de l’évènement xi et µ la moyenne : n 1 x1 + n 2 x2 + · · · + n k xk = µ= n

Pk

ni xi n

1

avec

n=

k X

ni

1

Élevé au carré, l’écart-type σ devient variance ou moyenne des carrés des écarts, une mesure de la dispersion des n quantités x autour de µ : n1 (x1 − µ)2 + n2 (x2 − µ)2 + · · · + nk (xk − µ)2 σ = = n 2

Pk 1

ni (xi − µ)2 n

Par passage à la limite quand k → ∞ ces formules s’étendent aux variables continues : µ=

∞ X

p i xi

et

2

σ =

1

∞ X

pi (xi − µ)2

avec

pi =

1

ni n

Et finalement si y(x) est la loi de probabilité de la quantité x, alors pour dx très petit : Z µ= 1



xy(x) · dx

et

2

Z

σ = 1



(x − µ)2 y(x) · dx

Loi Normale — Soient µ0 et µ les moyennes calculée – sur n observations – et théorique d’une quantité x. Lorsque n est suffisamment « grand » la loi de probabilité de µ0 ne dépend plus de celle de x mais seulement de µ, σ et n. Décrivant une courbe en « cloche » centrée sur µ et dite de Laplace-Gauss ou normale, cette loi se formalise comme suit : 1 y= √ σ 2π

− e

(x − µ)2 2σ 2

avec

e ≈ 2.718 la base des logarithmes népériens

Ainsi la donnée de la fonction y(x) conduit-elle à la table de l’écart-réduit chiffrant pour tout  la probabilité α de voir x sortir de l’intervalle ouvert µ ± e† .



36

Intervalle de pari – e étant l’écart

2.5. Liaison aux variables continues Mais alors, comment justifier plus haut de l’usage d’une table reposant sur une loi ellemême fondée sur la distribution d’un caractère quantitatif ? Revenons un instant sur l’exemple de la variable bimodale EP et supposons connue p la proportion théorique d’allèles définie sur n cas, d’où : µ= et σ 2 =

np 1 × np + 0 × nq = =p n n

avec

µ = EP

et

q =1−p

np(1 − p)2 + nq(0 − p)2 = pq 2 + qp2 = pq(q + p) = pq n

L’observation de p0 et q0 proportions parmi n0 se traduit par : µ0 =

1 × n0 p0 + 0 × n0 q0 = p0 n0

Si l’effectif n0 est suffisant† , les fluctuations de p0 obéissent donc à une loi de probabilité normale de moyenne µ = p et de variance σ 2 = pq/n0 soit symboliquement p0 ∼ N (µ, σ). †

La définition de « grands » échantillons est singulière en biologie : parce qu’une quantité quelconque peut ici être considérée comme le reflet du cumul de multiples facteurs, sa loi de probabilité est alors celle d’une moyenne, proche de la normale dès que n ≥ 30.

Ce bref mais nécessaire retour aux caractères qualitatifs nous amène à la réflexion suivante : parce qu’une variable k-modale peut être vue comme quantitative discontinue et à la limite continue, on devine la plupart des concepts à venir proches de ceux déjà exposés. On sait par exemple inférer une proportion p inconnue à partir de p0 si n0 ≥ 30 : r p 0 q0 p = p0 ±  × avec q0 = 1 − p0 n0 On estimera de même µ sachant µ0 , n0 et l’écart-type s0 évalué sur l’échantillon : s0 µ = µ0 ± √ n0

avec

sP (x0 − µ0 )2 s0 = n0 − 1

On retrouve avec n0 −1 la notion de df : les écarts et leurs carrés ayant été calculés sur µ0 et non µ on joue sur l’effectif pour s’approcher au plus près de la variance inconnue. En réalité – et pour la même raison – lorsque la variable est qualitative à 2 classes, l’estimation de la variance faite sur une proportion observée est : σ2 =

n0 · p0 q 0 n0 −1

Cette « complication » aura donc été négligée à dessein dans les formules précédentes . . .

37

Chapitre 2. Le langage R et « la méthode statistique »

2.5.2

Comparaison de moyennes

Problème — Les taux sériques d’ACPA ont été mesurés chez n malades atteints ou non de PR. On suppose chaque échantillon distribué normalement† et de variances équivalentes‡ . Sachant µ∗1 le titre théorique moyen dans la PR, on souhaite éprouver la représentativité de µ1 puis confronter sa valeur à celle de µ0 présumée différente.   σ1 ∗ √ Solution — µ1 ∼ N µ1 , n et µ∗1 seront jugées similaires si |  | < 2 avec : | µ1 − || = s √1 n

µ∗1

|

où s1 ≈ σ1 ≈

sP

n 1 (x1i −

µ1 )2

n−1

est estimé sur l’échantillon

  De même µ0 ∼ N µ∗0 , √σ0n 6= µ1 si 2 ≤ |  | tel que : | µ0 − µ1 | || = r σ02 + σ12 n

avec

σ02



s20

1 (x0i −

Pn =

µ0 )2

et

n−1

σ12



s21

1 (x1i −

Pn =

µ1 )2

n−1

En substituant p à µ et pq à σ 2 on reconnaîtra des formules décrites au chapitre 2.4. Fautil – d’un point de vue statistique – en conclure qu’une variable k-modale est finalement quantitative ? Non, bien entendu . . . par ailleurs, en pratique et parce que s s’éloignera d’autant de σ que n diminue, on utilisera non pas la table de § mais celle dite de StudentFisher ou table de t, dont la courbe représentative, plus « aplatie » que la loi normale, dépend de l’effectif et donc de df – tout comme χ2 . Logiquement, les valeurs critiques de t décroissent à mesure que df augmente : lorsque df → ∞ l’estimation s se confond avec σ et la valeur de t s’identifie à celle de  soit environ 2 si α = 5%. Bien que ce résultat soit déjà presque acquis pour df = 30, c’est l’« incontournable » test et donc table t de Student qu’il conviendra toujours d’utiliser, soit à la question µ1 est-elle proche de µ∗1 : sP n 2 | µ1 − µ∗1 | 1 (x1i − µ1 ) avec s ≈ σ ≈ et df = n − 1 |t| = 1 1 s df √1 n Et pour µ0 6= µ1 sous l’hypothèse d’égalité des variances et dans le cas général où n0 6= n1 : | µ0 − µ1 | |t| = r 2 s2 s + n0 n1



avec

σ02

=

σ12

2

≈s =

Pn0 1

(x0i − µ0 )2 + df

et df = n0 + n1 − 2

Hypothèse admise au vu des effectifs Contrainte qui pourra être levée à l’aide des formules de Welch § Précédemment, on lui préférait déjà la table du χ2 ‡

38

Pn1 1

(x1i − µ1 )2

2.5. Liaison aux variables continues Concrètement, si n = 30, µ0 ≈ 2.8, µ1 ≈ 59.9, µ∗1 = 50, s1 ≈ 34.3 et s2 ≈ 590.4 il vient : µ1 ≈ µ∗1

mais µ0 6= µ1

car | t | ≈

| 59.9 − 50 | result = list( + t.test(subset((x = read.delim(...)), !!ACR, t0), mu = 50), + t.test(t0 ˜ ACR, data = x, var.equal = FALSE, conf.level = .95), + t.test(x$t0, x$t1, paired = TRUE) +)

Tout comme « > » y a le sens de « prompt », ainsi placé en début de ligne le signe « + » n’est pas « opérateur » mais invite l’utilisateur à compléter l’instruction en cours. †

Que l’on sait couramment admise en biologie

39

Chapitre 2. Le langage R et « la méthode statistique » Une fois encore, il aura fallu d’une seule commande pour lire un fichier et réaliser sélectivement 3 tests t successifs. On notera l’absence de na.omit(...) introduite ci-avant pour l’exemple mais le plus souvent inutile sachant R gérer automatiquement les données manquantes. Que dire par ailleurs des différents arguments de t.test sinon « qu’ils font ce qu’ils suggèrent . . . ». Enfin et parce que FALSE est la valeur par défaut de var.equal de même que .95 est celle plutôt mentionnée de conf.level, ces 2 options ne sont ici que « decorum », ajoutées à titre indicatif. Poursuivons en supposant qu’il nous faille communiquer à un tiers1 tout ou partie des résultats – e.g. les valeurs de t, df et p pour chacun des 3 tests. Bien qu’un simple « copier – coller » soit possible dans ce cas, on conçoit devoir disposer avec R d’une alternative en pratique inévitable2 , plus raffinée aussi. La mise en forme des données est généralement un préalable nécessaire : > x = matrix(data = signif(unlist((x = t(mapply(c, (x = lapply(result, function(x) + list(x$method, c(abs(x$stat), x$param, x$p.value)))))))[, 2]), digits = 3), + byrow = TRUE, nrow = nrow(x), dimnames = list(unlist(x[, 1]), c("t", "df", "p")) +)

Nouvelle illustration d’une flexibilité maintes fois vantée, Cette suite d’instructions – que l’on imagine à raison construire un tableau des paramètres désirés – rappelle que R est un langage certes intuitif mais riche et donc complexe. Observons la structure de x : > x = matrix(data = signif(unlist((x = t( + mapply(fun, + (x = lapply(..., fun(x) list(...))) + )))[, 2]), ...), + ...)

Pour comprendre l’objet s’ajoutent à la notion fondamentale de portée celles de précédence et d’associativité 3 : la 1re définit une hiérarchie entre opérateurs, la 2e l’ordre dans lequel à précédence identique ceux-ci se succèdent. C’est ainsi que la précédence supérieure et l’associativité à gauche confèrent aux parenthèses un rôle de « chef d’orchestre » précisant pour chaque instruction sa portée et sa place dans la séquence. D’abord paramètre de la fonction lapply, x extrait itérativement de result des composantes choisies : type de test, valeurs de t, df et p. Le résultat est une list nommée x, alors soumise à mapply qui concatène dans une matrix éponyme et renversée par t les éléments de la list argument : > t(mapply(c, (x = lapply(result, function(x) list(...))))) [1, ] [2, ] [3, ]

1

[, 1] "One Sample t-test" "Welch Two Sample t-test" "Paired t-test"

[, 2] Numeric,3 Numeric,3 Numeric,3

On supposera « le malheureux » ne pas connaître R Figurez-vous la pareille avec ne serait-ce que 100 tests . . . 3 Elles aussi communes à tous les langages 2

40

2.6. Autre approche Il s’agit d’une matrix d’un genre particulier où chaque élément est une list définie dans la dimension [, 2] comme une suite de vector de mode numeric de taille 3. Préambule indispensable à l’ultime appel de la fonction matrix, la vectorisation des données est obtenue avec unlist, appliquée à x[, 2] puis à x[, 1] que l’on affecte respectivement aux paramètres data et dimnames. Au passage, les valeurs entières de df et p et absolue1 de t auront été arrondies avec signif(..., digits = 3) à la 3e décimale significative : >x One Sample t-test Welch Two Sample t-test Paired t-test

t 1.590 9.110 0.841

df 29.0 29.4 59.0

p 1.23e-01 4.64e-10 4.04e-01

Dès lors et aussi simplement qu’on accède au contenu d’un fichier avec read.delim, des fonctions comme write.table ou write.xls2 réaliseront finalement l’export de l’objet.

2.6

Autre approche

S’il s’agissait d’un ouvrage de statistique inférentielle, à ce ryhtme il nous faudrait encore longuement discuter d’analyse de la variance, de liaison entre caractères quantitatifs, des petits échantillons et de l’usage des tests non paramétriques . . . évidemment là n’était pas l’enjeu de ce 2e chapitre, que nous ne pouvions néanmoins conclure sans aborder ne serait-ce que sommairement d’autres méthodes, plus récentes, plus complexes aussi, mais avec l’« envolée » des ressources informatiques3 , très largement utilisées.

2.6.1

Analyse en Composante Principale

La transformée de Karhunen-Loève ou Analyse en Composante Principale (ACP) intègre le groupe des méthodes multidimensionnelles dites factorielles, développées en France dans les années 60 sous l’impulsion de Jean-Paul Benzécri. Essentiellement descriptives, ces méthodes s’appuient sur des modèles géométriques et non probabilistes. En particulier, l’ACP permettra de projeter dans un plan de variance maximale les unités d’un espace de corrélation multidimensionnel. De fait très utile pour visualiser d’éventuelles relations entre individus ou variables, l’ACP ne saurait être pour autant « une fin en soi » mais servira au contraire le plus souvent de support à la formulation d’hypothèses plus tard à tester. Déduite de la cohorte VErA (cf. Annexe A), la Figure 2.1 illustre le résultat d’une ACP où la progression radiologique est décrite selon les dosages ab initio de marqueurs de l’immunité (FR, ACPA), de l’inflammation (VS) et du remodelage osseux (COMP) [147].

1

Obtenue avec abs Fonction du package xlsReadWrite, téléchargeable depuis le CRAN – http://cran.r-project.org/ 3 Ces méthodes et beaucoup d’autres sont toutes implémentées dans R 2

41

Chapitre 2. Le langage R et « la méthode statistique »

Fig. 2.1 – Illustration d’une ACP. La superposition sur le plan factoriel d’inertie optimum, d’individus pourtant distincts vis-à-vis de la progression de leur atteinte articulaire, témoigne de l’insuffisance des paramètres étudiés dont les directions dans cet espace à 2 dimensions révèlent par ailleurs l’existence d’une corrélation VS – COMP et FR – ACPA.

2.6.2

Régression Logistique

Généralisation du prototype linéaire, la très « commode » régression logistique permet de modéliser un caractère non pas continu mais qualititatif, en évaluant les probabilités de ses modalités sur une ou plusieurs variables explicatives. Supposons pour l’exemple le titre d’un Ac λ et l’observation d’une érosion liés par la relation :

On aperçoit immédiatement l’« abération » du modèle linéaire qui naturellement s’étend de part et d’autre de l’intervalle [ 0 − 1 ] de définition d’une probabilité. Basé sur une fonction de répartition cumulative, le modèle logistique ou Logit – dont nous verrons une application au chapitre 5.2.1 – ajuste au nuage de points une sigmoïde de la forme : e (a + bx) y= 1 + e (a + bx)

42

−→

 ax + b = ln

y 1−y



avec a et b, paramètres de la loi

2.7. Conclusion

2.6.3

Classification Hiérarchique

L’objectif est ici d’établir une hiérarchie valuée entre variables, ou dendrogramme, construite sur des mesures d’hétérogénéité intra- et de dissimilarité inter-groupes : de la vectorisation des données dans un espace dit d’expression (A) dépendent l’usage d’une algèbre linéaire et l’édition d’une matrice de distances (B) sur laquelle l’exécution d’algorithmes agglomératifs (C) conditionne le partitionnement des classes (D). Nous reviendrons sur cette méthode dans des articles de l’Annexe B notamment.

Fig. 2.2 – Étapes de la Classification Hiérarchique. Le recours au « dessin » vectoriel (A) autorise la mesure de distances (d euc euclidienne, d man manhattan . . .) entre variables (B) alors regroupées par liaison simple, complète . . . (C) en différents ensembles hiérarchisés ou dendrogramme, permutant lignes et colonnes d’une matrice au passage « colorée » (D).

2.7

Conclusion

Parce qu’elles permettent notamment de chiffrer le « risque d’erreur » associé à une décision, les statistiques se sont très vite révélées indispensables, en particulier dans le domaine des sciences de la vie, sans cesse enrichi de nouvelles données. Parallèlement, l’informatique connaît elle aussi un intérêt croissant – toujours plus puissant, l’ordinateur trouvant naturellement sa place aux côtés des pipettes et autres tubes à essai. Ainsi la dynamique était-elle lancée : la machine et ses logiciels dédiés pour la saisie et le traitement statistique systématique d’une information sans limite . . . Le principal revers de cette apparente perfection naît pour partie de la disparition des contraintes de calcul : il suffira généralement de quelques secondes pour effectuer des millions voire des milliards d’opérations ! C’est ainsi que peuvent s’effacer certains fondamentaux que nous avons donc ici souhaité rappeler et sans lesquels le chercheur « désarmé » réalisera parfois des tests de Student ou de χ2 là où ceux de Wilcoxon ou de Mac Nemar étaient pourtant requis. Sans revenir enfin sur sa très grande flexibilité ni même parler de son « insolente » supériorité † , l’intérêt d’utiliser un langage tel que R tient en ce qu’il devient quasi-nécessaire de savoir à l’avance comment et quel test utiliser. †

Je ne lui connais aucune alternative autre que Splus ou SAS, 2 logiciels propriétaires aux tarifs _ ¨

43

Chapitre 2. Le langage R et « la méthode statistique »

44

Chapitre 3 Immuno-empreinte 1-D et Bioinformatique

45

Chapitre 3. Immuno-empreinte 1-D et Bioinformatique

3.1

Préambule

Largement utilisée notamment en routine clinique, la technique de Western Blot (WB) est un moyen simple et rapide pour détecter des complexes immuns, acteurs remarquables de nombreuses pathologies telle la PR dont les cibles antigéniques ne sont encore que partiellement connues. Pluridisciplinaire par essence, la bioinformatique est désormais indissociable des sciences de la vie où l’envolée des connaissances et la généralisation de techniques dites à grande échelle sont à l’origine de données dont le volume et la nature ont nécessité le développement progressif d’outils de stockage et d’analyse dédiés. Ultime chapitre introductif, nous mentionnerons ici les limites de l’immuno-empreinte 1-D et préciserons l’apport de l’informatique en biologie.

3.2

Technique de Western Blot

Définition générale — Fondée sur le principe de liaison Ag/Ac, l’immuno-empreinte d’un échantillon biologique représente la fraction réactive de ses protéines (ou substrat antigénique) au contact d’un ou plusieurs Ac spécifiques. Schématiquement, le protocole consiste en 3 étapes principales : (i) migration électrophorétique sur gel dénaturant de polyacrylamide, (ii) extraction et révélation immunologique du substrat antigénique, (iii) digitalisation de l’empreinte, détection et quantification du signal. Électrophorèse et transfert — La polymérisation de monomères d’acryl en présence d’agents pontants Bis forme un gel de polyacrylamide dont le taux de réticulation croissant constitue un gradient de porosité au sein duquel une protéine (Ag cible potentiel) y sera d’autant plus mobile que son encombrement stérique et donc sa masse moléculaire relative (Mr) sont faibles. Dénaturé et uniformément chargé par l’ajout de Sodium Dodecyl Sulfate (SDS), chaque Ag migre selon sa Mr dans le gel soumis à un courant électrique : l’électrophorèse est alors dite mono-dimensionnelle ou 1-D. En l’état inaccessibles à tout Ac, ces Ag ainsi séparés sont ensuite électrotransférés sur un support solide de nitrocellulose par le jeu d’interactions hydrophobes et ioniques. Révélation immunologique — Caractérisée par ses propriétés d’interactions aspécifiques optimisant la migration des Ag depuis le gel, la membrane de nitrocellulose est tout autant susceptible de fixer aléatoirement un Ac. Pour limiter ce phénomène et éviter qu’un Ac se lie directement au support plutôt qu’à son Ag cible, on plonge après transfert la membrane dans une solution détergente et diluée de protéines (e.g. Albumine de Sérum Bovin, BSA) – Étape dite de saturation ou blocage des sites non-spécifiques. Finalement, l’incubation des membranes avec une source d’Ac primaire aboutit à la formation de complexes immuns, révélés par couplage à un Ac secondaire, substrat d’une réaction chimique ou enzymatique (e.g. système biotine/streptavidine) utilisée pour la détection. L’empreinte obtenue se matérialise par une succession verticale de bandes (ou profil 1-D, cf. Figure 3.1) dont l’intensité est liée à la réactivité immunologique de l’échantillon.

46

3.2. Technique de Western Blot

Fig. 3.1 – Exemple d’immuno-empreinte. Analyse d’image — S’il s’agit simplement de vérifier la présence d’un Ag P révélé au moyen d’un Ac anti-P , une lecture à l’œil suffit : l’observation d’une bande permet de conclure. Dans tout autre cas, une analyse informatique de l’empreinte préalablement numérisée est requise. Différentes solutions logicielles existent (e.g. ImageMaster TL) pour : (i) délimiter les pistes – un gel standard contenant plusieurs puits de chargement, différents échantillons peuvent migrer simultanément dans des pistes parallèles, (ii) soustraire localement le bruit de fond – bien qu’après transfert la membrane supposée saturée ne devrait théoriquement fixer d’elle-même aucun Ac, en pratique l’empreinte est toujours plus ou moins polluée d’un signal non-spécifique, (iii) détecter et quantifier chaque bande. Immunoblot naïf — Lorsque la source d’Ac est définie, la comparaison directe de profils est possible : à toute bande correspond un Ag connu. Dans le cas contraire (e.g. sous-protéome extrait d’une lignée cellulaire et complexé par les Ac circulants du sérum d’un malade) les cibles antigéniques révélées ne s’identifient que par leurs Mr, que l’on peut estimer en référence à celles d’un marqueur de taille (ou ladder ), chargé seul dans une ou plusieurs pistes du gel. En effet, l’électrophorèse 1-D d’une protéine est inversement proportionnelle au logarithme de sa Mr : sachant la Mr ME d’un étalon E ayant parcouru la distance dE , la mesure de dP permet d’affecter à l’Ag P la Mr MP (cf. Figure 3.2).

Fig. 3.2 – Relation entre Mr et migration électrophorétique.

47

Chapitre 3. Immuno-empreinte 1-D et Bioinformatique La migration électrophorétique inter- et même intra-gel étant variable d’une piste à l’autre, l’estimation des Mr – unique information permettant d’identifier des Ag communs à différents échantillons – l’est aussi, de sorte que la comparaison directe de profils devient impossible : un ré-alignement inter-pistes des bandes est nécessaire. Pour ce faire, ImageMaster TL intègre par exemple un outil de calibration des Mr calculées à partir de bandes de référence jugées identiques et manuellement sélectionnées : l’alignement repose alors sur des ancres qui, tenant compte de la géométrie des gels, définissent des points de correspondances entre pistes. Restreinte aux versions les plus récentes du logiciel, cette fonctionnalité – qui implique une intervention manuelle d’autant plus importante que le nombre d’échantillons augmente – s’inscrit dans une démarche fondamentalement opposée à la recherche sans a priori de signatures antigéniques : la définition des points de correspondances est partiale, dépendante de l’interprétation visuelle faite par l’utilisateur.

3.3

Apport de la bioinformatique

Définition générale — La bioinformatique peut être définie comme la conception et l’utilisation de logiciels utiles à l’organisation, au stockage et à l’analyse de données biologiques. C’est une science où biologie, informatique et technologie de l’information convergent en une discipline unique. Technologies omiques — Génomique, transcriptomique, protéomique, interactomique . . . sont des notions contemporaines de la biologie profitant d’évolutions biotechnologiques capables de générer simultanément d’énormes quantités de données : un transcriptome par exemple représentera l’ensemble des ARNm exprimés par un organe ou un type cellulaire, dans une condition physiopathologique particulière et à un instant donné. Avec l’émergence de tels outils les stratégies de recherche en sciences de la vie se sont progressivement orientées vers l’étude à grande échelle de systèmes complexes, par opposition à une approche ciblée (e.g. type gène candidat), conditionnée par un rationnel pré-établi. En pathologie humaine, ces technologies omiques sont une aide précieuse à la découverte de biomarqueurs à visée diagnostique ou pronostique, mettant parfois en évidence des cibles thérapeutiques potentielles qui n’auraient pu être révélées – du moins pas directement – sans cette appréhension globale et sans a priori du vivant. Banques de données — Support d’une information grandissante, elles sont une première application, essentielle, de la bioinformatique. Historiquement, EMBL en Europe et GenBank Outre-Atlantique sont les premières à voir le jour dès les années 80. Depuis, ces banques se sont largement multipliées : généralistes ou spécialisées, elles cartographient des centaines de génomes, référencent des milliers de protéines, des données d’expression, des voies métaboliques, des liens bibliographiques . . . Accessibles via internet, ces banques sont pour le chercheur une gigantesque et incontournable source d’information, formatée et stockée selon des standards définis par la bioinformatique (e.g. normes MIAME/MIAPE† pour les données d’expression génique/protéomique). †

48

Minimum Information About a Microarray/Proteomic Experiment

3.4. Conclusion Algorithmique et statistiques — Si la collecte et le partage à grande échelle de données biologiques sont une des clés de l’explosion récente des connaissances, l’analyse pertinente de l’information suppose le développement parallèle de méthodes dédiées : les technologies omiques notamment produisent des données brutes généralement inexploitables sans un post-traitement adapté (e.g. normalisation), objet de l’algorithmique, composante fondamentale de la bioinformatique et définissant les règles de processus analytiques. À cela s’ajoute la mise au point d’outils statistiques spécifiques, nécessaires à l’exploitation de gros jeux de données (e.g. classification hiérarchique, analyse discriminante). Le langage R est un exemple de l’apport considérable de l’informatique en biologie. Retour à l’immuno-empreinte — Dans la logique d’une recherche de novo de biomarqueurs, la comparaison de profils électrophorétiques 1-D se heurte actuellement à la difficulté d’établir des correspondances de bandes entre pistes, préalable indispensable à toute exploitation statistique ultérieure. L’approche algorithmique de ce problème et l’implémentation dans un logiciel d’une méthode opérant un ré-alignement automatique et sans a priori est d’intérêt majeur en pathologie humaine – en particulier dans la PR – où l’observation de signatures antigéniques spécifiques pourrait contribuer par exemple à une meilleure prise en charge des malades.

3.4

Conclusion

Science jeune mais déjà riche de nombreuses applications, la bioinformatique s’est parfaitement intégrée à l’étude du vivant où se mêlent concepts et outils issus de la chimiephysique, des mathématiques et statistiques, de l’informatique . . . C’est dans cette dynamique pluridisciplinaire qu’il faut situer la bioinformatique. Aujourd’hui les volumes et la singularité des données collectées sont tels que les possibilités d’analyse sont quasi-infinies. Au problème actuel du recoupement inter-pistes de bandes issues d’immuno-empreintes 1-D, nous présenterons chapitre 5.1 une méthode originale, baptisée ODEGAT, automatisée dans R et accessible en ligne. Objet principal de cette thèse et appliqué à des sérums de patients de la cohorte VErA, ODEGAT peut être vu comme une illustration pratique de l’apport de la bioinformatique en biologie-clinique.

49

Chapitre 3. Immuno-empreinte 1-D et Bioinformatique

50

Chapitre 4 Rationnel scientifique Loin d’être une maladie bénigne, la PR est à la fois le plus fréquent et le plus invalidant des rhumatismes articulaires : chronique, inflammatoire, capable de destructions ostéo-cartilagineuses aux conséquences fonctionnelles graves, elle est pour le malade synonyme d’un quotidien difficile, douloureux et parfois même d’une existence tragiquement écourtée. Pour toutes ces raisons et parce que son retentissement socio-économique est aussi très élevé, la PR constitue un problème de santé publique majeur. Hétérogènes, ses manifestations cliniques mimant volontiers d’autres pathologies, la PR débutante « sait se faire discrète » : connectivites, spondylarthropathies . . . les nombreux diagnostics différentiels compliquent un jugement rendu d’autant plus incertain qu’à ce stade les Se et Sp des critères révisés en 1987 de l’ACR sont faibles [148]. Révolutionnant la prise en charge initiale d’une polyarthrite, c’est alors qu’apparaissent les ACPA : à titres élévés ou associés à la positivité conjointe des FR, ils orientent fortement le diagnostic de PR. Spécifiques mais peu sensibles, ils sont une donnée pour l’instant nécessaire mais pas suffisante, incitant à découvrir d’autres marqueurs, notamment immunologiques, démarche qui se justifie par l’impact fonctionnel que l’on sait désormais considérable de l’introduction précoce d’un traitement de fond, dont la puissance devra par ailleurs être adaptée au pronostic présumé de la maladie. En effet, s’il est établi passés 10 ans qu’en moyenne 1 malade sur 2 est contraint de cesser toute activité professionnelle, dans 10 à 15% des cas, 2 années à peine suffiront pour que survienne une invalidité plus profonde encore. Encouragé par l’émergence de solutions thérapeutiques à l’efficacité démontrée et les sachant continuer d’« échapper » aux différents indicateurs cliniques† , biologiques‡ , génétiques§ ou radiologiques] à ce jour disponibles, ce sont donc ces formes particulièrement agressives de PR qu’il faut en priorité identifier, avant que n’apparaissent d’irréversibles lésions.



Score articulaire, Nodules rhumatoïdes, Manifestations extra-articulaires Vitesse de Sédimentation (VS), Protéine C Réactive (CRP), FR, ACPA § Allèles de susceptibilité HLA-DRβ1*04 ] Score radiologique initial ‡

51

Chapitre 4. Rationnel scientifique Parce que l’atteinte articulaire observée dans la PR est définitive, le diagnostic précoce de la maladie et l’identification de signes prédictifs de la survenue des érosions constituent aujourd’hui des enjeux essentiels, notamment du projet VErA (cf. Annexe A) initié par le Pr. X. Le Loët dès 1998 et intégré en 2004 par le Pr. O. Vittecoq au PRO-A† . Entre temps, sous l’impulsion du Pr. F. Tron, naissait en 1999 le programme ACPRA‡ dont l’ambition première était et demeure la caractérisation à des fins diagnostique, pronostique et cognitive de nouveaux couples Ag/Ac dans les maladies auto-immunes et notamment la PR. Enfin, lauréat 2007 d’un appel d’offres ANR§ , le récent projet APOTRA] porté par le Pr. O. Vittecoq s’est donné pour principale mission l’élaboration d’une « biopuce » à protéines capable de reconnaître les 10 à 15% de malades requérant des Ac anti-TNF-α. C’est dans cette dynamique générale d’identification et d’évaluation de paramètres originaux que s’inscrivent mes travaux, centrés sur la cohorte VErA qui, au terme de 4 années de recrutement, comptait fin 2002 plus de 330 malades, tous atteints de rhumatismes inflammatoires débutants, suivis par le recueil semestriel de données cliniques, biologiques, radiographiques . . . colligées dans une base dédiée, support d’une information « grandissante » qu’il s’agit d’exploiter. À cette fin c’est le langage R que nous avons choisi d’adopter. Environnement abouti, non moins dévoué à l’analyse statistique qu’à l’édition de sorties graphiques, R est d’autre part tout autant adapté à la manipulation « contrainte » de données comme ici, où l’on souhaitera par exemple confronter les taux sériques d’ACPA et de FR en fonction du polymorphisme 1858C/T de PTPN22 ou de l’haplotype HLA dans le sous-groupe PR. Composante connexe du programme ACPRA, notre volonté anticipée d’enrichir la base d’éléments nouveaux rend compte des difficultés tant diagnostiques que pronostiques rencontrées et des constants contredits recensés de la littérature. En particulier, les acteurs et mécanismes de l’auto-immunité dans la PR encore méconnus, il a très vite été décidé d’extraire des sérums de patients de la cohorte VErA prélevés à l’inclusion, l’ensemble des cibles antigéniques circulantes. L’hypothétique découverte d’auto-Ag suffisamment pertinents pour justifier à terme d’un dépistage systématique suppose à moindre coût une technique simple et reproductible, des exigences que l’immuno-empreinte 1-D\ alors retenue satisfait pleinement. Révélée sur un support solide de nitrocellulose, l’immuno-empreinte sérique d’un malade représente la fraction plasmatique réactive de ses Ac mis ici au contact des Ag du présumé « panprotéome » de cellules myélomonocytaires HL-60, préalablement isoélectrisés, dénaturés et séparés selon leur masse moléculaire relative†† sur SDS-PAGE‡‡ . †

Programme national de Recherches sur les maladies Ostéo-Articulaires (Inserm)



Autoantigen Characterization by Proteomic and Recombinant Analysis

§

Projet : « Identification of prognostic algorithms for early initiation of biologics [. . .] in the VErA cohort » Outils : Protéomique mono- ou bi-dimensionnelle et spectrométrie de masse

Agence Nationale de la Recherche ] Arrays for Prediction of Outcome and anti-TNF Response in Rheumatoid Arthritis \

Projet : « Validation de biopuces à protéines pour l’identification de PR sévères requérant des Ac anti-TNF-α »

Communément appelée Western Blot ou immunoblot †† L’électrophorèse est ainsi dite mono-dimensionnelle, en abrégé 1-D ‡‡ Acronyme de Sodium Dodecyl Sulfate – Poly-Acrylamide Gel Electrophoresis

52

À tout sérum correspond une piste, image d’un profil 1-DE révélant sous la forme de bandes des Ag dont les Mr a priori inconnues peuvent être estimées par comparaison à celles référentes d’un ladder † . S’agissant d’une simple approximation affectant pourtant l’unique donnée ici disponible pour juger de l’unicité inter-pistes d’une bande, la confrontation directe à « grande échelle » de profils devenait naturellement impossible. Alors motivés par la recherche de « signatures antigéniques » originales à valeur diagnostique ou pronostique potentielle, s’est imposée l’idée sine qua non de ce qui allait devenir le « cœur » de cette thèse : la conception d’une méthode et la réalisation d’un outil bioinformatique baptisé ODEGAT‡ permettant la reconnaissance inter-profils de bandes jugées similaires mais dont la Mr varie. Toujours en développement et librement accessible au travers d’une interface web§ conviviale et évolutive, ODEGAT devrait prochainement s’enrichir de fonctionnalités nouvelles liées à l’exploration statistique automatique des données : tests t multiples, classification hiérarchique, ACP . . . Aux questions essentielles du diagnostic et du pronostic dans la PR débutante, nous tenterons alors d’apporter des éléments de réponse en examinant dans la cohorte VErA l’incidence de marqueurs connus ou mis à jour par ODEGAT. Objets de manuscrits édités, soumis ou en préparation, au total les travaux parmi les plus marquants auxquels j’ai dans ce contexte contribué sont ici résumés dans une chronologie dont la logique se précisera à la lecture du prochain chapitre. Principaux Marqueurs

Intérêt

Article

Immunologiques

Méthodologique

En révision

Diagnostique

Paru

Diagnostique

En révision

Pronostique

En préparation

Pronostique

En préparation

Génétiques Immunologiques Synoviaux Immunologiques



Proteines dont la Mr est connue One-Dimensional Electrophoresis Gel Analysis Tool § http://rsat.scmbb.ulb.ac.be/odegat/ ‡

53

Chapitre 4. Rationnel scientifique

54

Chapitre 5 Résultats Sommaire 5.1 5.2

ODEGAT One-Dimensional Electrophoresis Gel Analysis Tool Diagnostic . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Contribution des marqueurs génétiques . . . . . . . . . . . 5.2.2 Identification de nouvelles cibles immunologiques . . . . . 5.3 Pronostic . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Intérêt relatif de la biopsie synoviale . . . . . . . . . . . . 5.3.2 Potentiel du profiling 1-D . . . . . . . . . . . . . . . . . .

55

. . . . . . .

. . . . . . .

. . . . . . .

57 69 69 77 89 89 93

Chapitre 5. Résultats

56

5.1. ODEGAT One-Dimensional Electrophoresis Gel Analysis Tool

5.1

ODEGAT

One-Dimensional Electrophoresis Gel Analysis Tool

Préambule — Objet premier et central de mon travail de thèse, ODEGAT est un outil bioinformatique innovant, conçu pour répondre au problème de la reconnaissance interpistes de bandes issues d’expériences de WB. Préalable indispensable à la comparaison de profils 1-D, cette étape de ré-alignement repose fondamentalement sur : (i) l’usage non conventionnel d’un standard interne, récurrent dans l’ensemble des pistes, (ii) l’étude de la prévalence et l’application de règles pour définir dans des intervalles continus de Mr des points de césures entre lesquels les bandes correspondantes fusionnent. Résumé — Mise au point dès le début des années 80 par le Pr. George Stark, alors membre de la prestigieuse Université californienne de Stanford, la populaire technique du Western Blot est un des « piliers » fondateurs de la protéomique moderne. Simple à mettre en œuvre, reproductible et peu coûteuse, elle est de fait toujours largement sollicitée, notamment en routine clinique (e.g. dépistage de maladies lupiques tel le LED). Adoptant l’électrophorèse sur gel de polyacrylamide pour séparer des protéines préalablement dénaturées selon leur Mr et après transfert sur membrane de nitrocellulose, elle permet classiquement de révéler un ou plusieurs peptides d’intérêt par contact avec leurs Ac spécifiques. Évidemment « anonymes » dans un sérum, ceux-ci complexent des cibles dont les Mr alors inconnues s’estiment en référence à celles d’un ladder migrant séparément de l’échantillon biologique étudié. Aux aléas expérimentaux s’ajoutant d’usuelles distorsions des gels† , les incertitudes entachant le calcul des Mr, pourtant « carte d’identité » du substrat antigénique, rendent impossible le recoupement automatique de profils. En particulier obstacle à l’accomplissement de la composante ACPRA du projet VErA, la détermination des correspondances de bandes entre pistes reste le « talon d’Achille » des différentes solutions logicielles existantes, y compris les plus récentes. De l’usage singulier d’un standard interne, préambule à l’interpolation des Mr, j’ai conçu et décrit dans cet article une procédure originale – matérialisée dans un outil bioinformatique baptisé ODEGAT – centrée sur l’examen de la distribution inter-pistes des bandes et opérant un ré-alignement global, pré-requis nécessaire à la comparaison d’immunoempreintes 1-D a priori qualitativement indéfinies. Bilan — Testée et validée sur des échantillons de composition connue, cette méthode repose sur un étalon « endogène » quasi-insensible à la géométrie des gels et donc préférable à l’utilisation conventionnelle devenant inutile d’un ladder externe. Faisant appel à des scripts Perl ‡ et R, ODEGAT est un logiciel libre dont les fonctionnalités et l’interface web ont par ailleurs fait l’objet d’un poster et d’une démonstration publique à l’occasion de l’édition lilloise 2008 de JOBIM§ . Appliqué à des sérums de patients de la cohorte VErA, il se révélera finalement d’une aide « précieuse » à l’identification dans la PR de nouvelles cibles immunologiques d’intérêt diagnostique ou pronostique possible. †

En biologie la notion de reproductibilité est toute relative Practical Extraction and Report Language – http://www.perl.org/ § Journées Ouvertes Biologie Informatique Mathématiques



57

ODEGAT: A NEW BIOINFORMATICS TOOL FOR AUTOMATIC RE-ALIGNMENT OF ONE-DIMENSIONAL ELECTROPHORETIC PROFILES Daveau R., Morel P., Gilbert D., Go¨eb V., L’Otellier M., Tron F., Vittecoq O., and Van Helden J. ABSTRACT — The widely used Western blot method is a simple and cheap way to separate denaturated proteins, depending on their Mr. In an immunoblotting assay, target proteins of unknown antibodies are only identified by their Mr, which can be estimated by comparison with some reference lanes loaded with ladders. The identification of related bands in multiple lanes is a crucial step in 1-D electrophoresis (1-DE) profiles interpretation. This is usually done by visual inspection and manual edition of the tables resulting from 1-DE gel analysis software tools. This post-processing can be tedious and error-prone, especially when the number of biological samples is high. Studying over a few dozen samples thus requires computer assistance. To address this need, we have developed ODEGAT, a user-friendly software, available through a web interface: http://rsat.scmbb.ulb.ac.be/odegat/. ODEGAT performs automatic post-processing of the output tables resulting from the ImageMaster TL software in two steps: (i) cross-lane re-alignment of bands, using an original merging algorithm relying on user-defined lane-wise markers, (ii) calibration of relative bands’ concentration, with three alternative modes: single-band-wise, multiple-band-wise or lane-wise. The web server offers a flexible interface, enabling researchers and clinical analysts to deal with hundreds of samples with minimal manual intervention. Keywords: cross-lane re-alignment, lane-wise markers, 1-D profiles, Western blot I.

INTRODUCTION

Developed in the laboratory of George Stark at Stanford University (California, U.S.A) and described as soon as 1981 by W. N. Burnette, Western blot (WB) analysis (alternately immunoblot) [1–3] is a simple, fast, effective and cheap way to detect a specific protein in a given biological sample. In a typical immunoblot, a specific antibody (Ab) is used to reveal one target protein. In contrast, when the Abs are unknown, the target proteins are undefined. In this context, the only available information to discriminate bands is their Mr, which can be estimated using a ladder: indeed, the electrophoretic migration distance of a protein is inversely proportional to the logarithm of its Mr [4]. Many software tools dedicated to 1-D electrophoresis (1-DE) gel analysis have been developed for this purpose (e.g. ImageMaster TL, Quantity One). Yet, whichever program is used, the estimation of Mr is tedious and error-prone, particularly when the number of biological samples studied is high: mostly due to heterogeneities in the gel composition and other experimental effects (e.g. “smiles”), related bands, revealed in n different samples, could be associated with as many as n different distance values (and thus Mr) in the output of any 1-DE gel analysis software. Comparison of 1-DE profiles therefore requires an alignment step. On a gel picture, the human eye is relatively good at identifying similarities between lanes, despite the presence of such deformations and imperfections. Bands’ re-alignment can thus be done manually, in a reasonable amount of time, when the number of experiments is limited (a few dozen). As the latter increases (e.g. on the scale of a cohort of patients), the exercise becomes tedious, if not impossible. ODEGAT (One-Dimensional Electrophoresis

Gel Analysis Tool) was specifically developed for this purpose: to eliminate the uncertainty in Mr estimation, allowing the analysis of a large number of samples (up to several hundreds or even thousands). Beyond the identification of Mr, 1-DE gel analysis software tools are also able to quantify the signal intensity of the bands they detect. However, especially because the background noise is variable between lanes, it could be difficult to study the concentration variations of a given band across different samples. ODEGAT thus provides three alternative methods to calibrate signal intensities: single-band-wise, multiple-band-wise and lane-wise. Input data sets correspond to output tables of the ImageMaster TL software (Nonlinear Dynamics), which is one of the most widely used 1-DE gel analysis tool. ODEGAT is a free and open-source software, available through a user-friendly web interface† . The present study describes our tool and demonstrates its effectiveness on samples of known composition. † http://rsat.scmbb.ulb.ac.be/odegat/

II.

MATERIALS AND METHODS

Although the following chapters put much emphasis on blots – meaning that an additional transfer step is conducted – all further considerations are also valid on any normal 1D gel, as long as the hereafter described contiguity rule (especially the 1kDa limit) is applicable. A.

1-DE gel, Western blotting and image analysis

WB is a proteomic method to detect a specific protein in a given biological sample. It uses polyacry-

2 lamide gel electrophoresis to separate denaturated proteins depending on their Mr [4, 5]. In order to check and finally validate the re-alignment procedure implemented in our tool, 32 lanes spread over 3 blots were loaded on standard 4-12% pre-cast Bis-Tris NuPAGE gels (Invitrogen, Carlsbad, CA, USA) with a set of 8 known proteins (BenchMark Prestained Protein Ladder, Invitrogen), which are usually used as an external protein ladder. By using MOBS running buffer (MOBS SDS Running Buffer 20X, Invitrogen), the electrophoretic migration was carried out at a 120V constant voltage during 90mn. Then, the proteins were first transferred onto nitrocellulose membranes (Hybond-C Extra, GE Healthcare Life Sciences, Piscataway, NY, USA) during 90mn at a constant voltage of 30V, using the NuPAGE 20X transfer buffer (Invitrogen), then stained for 5mn with Ponceau red (Sigma-Aldrich, St. Louis, MO, USA), followed by another 5mn with 5% acetic acid. After a rinsing step with distilled water, the membranes were kept between two Whatman paper filters. Gels were digitalized using the UMAX PowerLook 1000 scanner, and the corresponding images were analyzed with the ImageMaster TL software (v2.01). The latter was used to detect protein bands after background removal and to define, for each band, its distance (position) and signal intensity (volume) within the gel. In order to optimize the quality of these data, the positioning of the bands, which were automatically detected by the software, has been visually controlled and, if necessary, corrected. For each analyzed image, the resulting data have been exported in an Excel workbook containing, for each lane, a list of bands each characterized by a pair of parameters (position, volume).

B.

Overview of ODEGAT

The input data should be submitted in xls format (ImageMaster TL output). ODEGAT results consist in a set of tab-delimited text files (readable with Excel or any text editing program) and high resolution pdf graphics. ODEGAT successively performs: (i) a classical distancebased Mr estimation relying on user-defined lane-wise markers, (ii) a cross-lane re-alignment of bands, based on an original merging procedure, (iii) a quantitative calibration of bands with three different possible modes. ODEGAT has been developed by using Perl (Practical Extraction and Report Language) [6] and the R language for statistical computing [7]. The Perl module Spreadsheet::ParseExcel (http://search.cpan.org) is used to automatically read the xls-formatted files generated by ImageMaster TL. The ODEGAT web interface which was written in PHP (Hypertext Preprocessor) [8], is based on a MySQL server [9] for managing user accounts and sessions, and runs on an Apache server [10].

C.

Pre-alignment: Mr estimation

The estimation of Mr requires the existence of two reference bands, recurring throughout the lanes. Depending on the nature of the biological samples, systematic addition of one or two proteins may thus be necessary. This unusual but required step makes the use of traditional protein ladders unnecessary: the reference group formed by these two bands is a recurring internal Mr marker, unique to each lane. For each band, the Mr can thus be approximated directly from the position using the classical equation Mr = eax+b . The lane-specific a and b coefficients are determined by solving a system of 2 equations with the Mr and position values of the two reference bands. To optimize this stage, it is essential to carefully define the two markers to be used as references: their range of Mr must be maximized so that further computations of sample Mr relies on interpolation rather than extrapolation (Figure 1A). Although required, this step alone is not sufficient: the uncertainty in the Mr calculation is not suppressed and the total number of distinct bands remains generally high, relatively to the separating power of the gels (Figure 1B). The highly innovative input of our tool therefore stands in an additional step of bands’ re-alignment based on a merging procedure (Figure 1C).

D.

Cross-lane re-alignment of bands 1.

Rules

The motivation of this second step is to remove the uncertainty surrounding each Mr by merging adjacent bands (not within but across lanes) and finally reveal a total number of distinct bands consistent with gel resolution: considering a standard 4-12% NuPAGE gel, in most cases, bands must be separated from each other by at least 2 kilo Dalton (kDa). For this purpose, 4 main rules have been defined: (i) contiguity rule: contiguous bands (separated by at most 1kDa) are first flagged as potentially related ones, (ii) co-occurrence rule: never unify bands if they are co-occurring in some lanes (e.g. if some lanes contain the 2 bands simultaneously). This rule is a priority as it avoids merging bands that correspond to distinct proteins, even if they are separated from each other by 1kDa only, (iii) prevalence rule: for a given band, prevalence is defined as the number of lanes revealing that band. This rule consists in merging less prevalent bands to more prevalent adjacent ones. In addition, the total prevalence resulting after merging should be the smallest possible, minimizing the recurrence of bands within the blots, (iv) resolution rule: when several combinations are possible and the resulting prevalence is constant, heavier bands are preferably merged, because they are observed in a lower resolution area.

3

FIG. 1: Example of the cross-lane band re-alignment performed by ODEGAT. A. Digitalized image of a 16-lane 1-DE gel (01-16), each loaded with different serums of patients suffering from rheumatoid arthritis. Bands are each represented by a diamond (mostly blue or green). Red and purple ones respectively stand for lane-specific bands and the 2 reference internal markers, which are preferentially located at each end of the gel. Related bands are line-connected. B. Virtual representation of the gel. Bands are defined by their Mr, which are estimated from the lane-wise known markers. Among all 16 distinct related bands (excluding the 3 lane-specific ones and the 2 reference markers), only 2 are correctly aligned. C. Cross-lane band re-alignment showing a resulting profile that perfectly matches the true one: uncertainty in Mr estimation has been suppressed, revealing a total of 16 distinct bands as expected. 2.

Distribution study of contiguous bands

The merging algorithm that performs the re-alignment first needs to determine how contiguous bands are distributed across tracks. If b[1−n] is a series of n contiguous bands ordered by decreasing Mr, the prevalence of each of the n bands is defined by [-1, 0, 1], where -1, 0 and 1 mean that the prevalence of the bp+1 band (with p the position of the band in the series) is respectively lower, equal and greater compared to that of the bp one. Considering the distribution of band prevalence, 0 values are represented by a plateau, either at a maximum (Figure 2A, D), a minimum (Figure 2B, D) or within a group of bands with an overall increase or decrease in prevalence (Figure 2C). We distinguish N0 (N as neighbors), which corresponds to a series of 3 or more contiguous bands of equal prevalence (the last two columns in Figure 2), from F0 (F as foreigners), which are bands with a prevalence equal to that of their preceding heavier band (the first two columns in Figure 2). As illustrated in Figure 2, each 0 is then replaced by ±1, simplifying the previous distribution to positive (+1) and/or negative (-1) variations only. After that, each group of contiguous bands are defined as a series of either N±1 (bands whose prevalence increases/decreases) and/or F±1 (bands whose prevalence is greater/lower than that of their preceding heavier adjacent band). Particular N0 cases, where all n bands are of equal prevalence, are discussed in the next paragraph. Once having determined how contiguous bands are distributed across tracks, the re-alignment process is then

conducted with 3 successive main steps, described hereafter from section II D 3 to II D 5. A formal description of the algorithm is available on our website (section 04).

FIG. 2: Distribution study of contiguous bands. Each figure shows the possible variations in prevalence of bands surrounding F0 and/or N0 (see results). The latter (represented by a square) are located in a plateau, either at a maximum (A, D), a minimum (B, D), or within a group of bands with an overall increase (+1) or decrease (-1) in prevalence (C). Triangles point-up (-down) represent bands with an increase (decrease) in prevalence. The distribution is simplified by replacing each F0 and N0 by the ±1 value of the contiguous band to which it is connected by a thick line.

4 4.

FIG. 3: Merging procedure. Each figure represents variations in prevalence and merging procedure for F+1 and N±1 (see results). Full black circles represent F+1 (see Figure 2 legend for triangle and square signification). At the end of the procedure, bands connected by a thick line are merged in a single band which is circled. A. N+1 merging. B. N−1 merging. C. Particular N0 case, where all bands are of equal prevalence. Here, b4 – b5 merge to form a new band defined by an intermediate Mr between those of b4 and b5 . D – I. F+1 merging. Merging of bands connected by a double line (D, E, I), which would have been possible, is not realized according to the prevalence rule (see III).

3.

Considering a series of contiguous bands ordered by decreasing Mr, each F+1 has necessarily at least two adjacent bands on its left side (bands with greater Mr) and possibly one or more at its right side (bands with lower Mr). If they exist, the two possible right adjacent bands are defined as R and RR , while L and LL are those of the left. R and RR are merged if the cost (in term of prevalence) is less than that which would result from the merge of R and F+1 (Figure 3D). Similarly, L and LL are grouped if such a cost between L and F+1 is stronger (Figure 3E). If L and LL are grouped but not R and RR , then R and F+1 can be merged (Figure 3F). Likewise, if R and RR are grouped but not L and LL , then L and F+1 can be merged as well (Figure 3G). Finally, when L and R can both be merged with F+1 , then L, F+1 and R will be grouped if they are not co-occurring (Figure 3H). Otherwise, only F+1 and L are merged because the latter is in a lower resolution area than R (see resolution rule and Figure 3I). Knowing that L and R can both be a F−1 , the merging procedure of the latter, which is performed after that of the F+1 , is greatly simplified, so that each remaining F−1 can only be merged with its left adjacent band.

N±1 merging procedure

In the case of N+1 (Figure 3A), the heaviest band (low resolution area) is that of lowest prevalence. The prevalence rule requires to preferentially merge such bands from the heaviest to the lightest ones. Merging stops whenever the co-occurrence rule is no longer respected: concretely, if b[1−5] is a group of 5 bands whose Mr decreases while the prevalence increases between b1 and b5 , and if b2 and b4 are co-occurring in at least one lane, then the ODEGAT algorithm will merge b1 , b2 and b3 on the one hand, b4 and b5 on the other. The N+1 and N−1 merging procedures are “symmetrical”. Indeed, in the case of N−1 (Figure 3B), the lightest band is that of lowest prevalence. Consequently, if the prevalence decreases between b1 and b5 , and if b2 and b4 are co-occurring, then the algorithm will first merge b1 and b2 , then b3 , b4 and b5 . In all cases, due to the prevalence rule, when several bands merge, the more prevalent one becomes the reference Mr of the corresponding group: to the b3 Mr will be associated the profile resulting from the merge of b1 , b2 and b3 in the first instance, b3 , b4 and b5 in the second one. In particular cases of N0 (see previous paragraph and Figure 3C), the procedure is similar to that of N+1 : only the reference Mr allocation changes, so that the merge is focused on the median Mr of each group. Thus, in our example, b1 – b3 focuses on b2 , while b4 – b5 merge to form a new band defined by an intermediate Mr between those of b4 and b5 .

F±1 merging procedure

5.

Last step of the merging procedure

When an N−1 follows an N+1 , the first band of N−1 has an absolute molecular mass (Ma) of 1kDa less than the last band of N+1 . Such contiguous bands are merged if they are not co-occurring.

E.

Calibration of band concentrations

For a given band, the associated volume parameter is related to its corresponding concentration, which can be calibrated with three different methods: (i) singleband-wise: assumes that a remarkable band, recurring throughout the lanes (e.g. one of the two internal reference markers), has been deposited with a constant concentration, (ii) multiple-band-wise: allows the user to manually specify a subset of recurring bands that are considered as reliable indications for quantity calibration and will thus be used in each lane to calibrate the volume of all the other bands, (iii) lane-wise: is robust to band-specific variability but it relies on the assumption that the total protein content of each lane is equivalent. Whichever method is used, the calibrated volume Vc is calculated with Vc = 100 · volume/v, where v corresponds to either the volume of the selected reference band (single-band-wise), or the mean volume of either the user-specified subset of bands (multiple-band-wise) or all the revealed bands (lane-wise).

5

FIG. 4: Validation of ODEGAT’s re-alignment procedure. A. Digitalized image of the 32 lanes used for validation. Each band is tagged with a diamond: (i) in purple, the 2 internal reference markers located at each end of the lanes allowing the interpolation of Mr, (ii) in red, bands of lanes B101, B107, B114, B201, B205, B209, B301, B305 and B309 used as an external ladder to directly estimate Mr with ImageMaster TL, (iii) in orange, 4 additional bands revealed in L2, (iv) in yellow, all the other bands. Related bands are line-connected. B – E. Virtual images before (B, D) and after (C, E) re-alignment procedure. Mr were estimated with: (i) ImageMaster TL using an external ladder (B, C), (ii) ODEGAT using the 2 internal reference markers (D, E). Before re-alignment, ImageMaster TL and ODEGAT respectively identify 39 (B) and 30 (D) distinct bands instead of the 12 expected (8+4). After re-alignment, 15 bands remain when an external ladder is used (C) while only the 12 expected ones are correctly identified when using an original internal standard as reference (E).

III.

RESULTS

To check for the relevance of our tool, the electrophoretic migration of the BenchMark Prestained Protein Ladder has been carried out on 32 lanes spread

over 3 blots (Figure 4A). Moreover, in an attempt to reproduce real experimental conditions, 3 different samples of ladder were used (L1, L2 and L3), which were more or less concentrated, deteriorated and/or contaminated. L1 is overall poorly concentrated but neither deteriorated

6 nor contaminated (only the 8 expected bands were revealed). In contrast, L2 remains highly concentrated but partially deteriorated and/or contaminated (reveals four extra bands). Finally, L3 is not contaminated, remains well concentrated but seems partially deteriorated (under-expression of the two lightest bands, respectively 30 and 20kDa, was observed). L1, L2 and L3 were respectively loaded on: (i) the first 4 lanes of the first blot (B101 – B104), (ii) the 10 following lanes (B105 – B114) and the 9 lanes of the second blot (B201 – B209), (iii) the 9 lanes of the third blot (B301 – B309). The digitalized images of the gels were then analyzed using the ImageMaster TL software in two different procedures: without (Figure 4D) and with (Figure 4B) Mr determination. In the first case, each band is defined by its’ migration distance in the gel (position parameter) which is used for Mr approximation. In the second procedure, which is most widely used, Mr are directly calculated by ImageMaster TL using 3 lanes per blot as reference: lanes 1, 7, and 14 in the first blot; 1, 5 and 9 in the other ones. These lanes were selected in order to optimize Mr calculation: one at each end of the gel and one in the middle. Overall, ImageMaster TL identifies 39 distinct Mr (and thus bands) instead of the 12 expected (8 expected bands and 4 extra bands, see Figure 4B). On the other hand, ODEGAT appears more efficient as it discriminates 30 bands even before any cross-lane realignment of bands (Figure 4D). Using an original internal standard rather than a conventional external ladder leads to better results as it is less sensitive to gel distorsion. Nevertheless, in both cases, results remain incorrect. Therefore, in order to demonstrate our tool’s efficiency as well as the advantage of using an internal standard rather than an external ladder, the previously described merging procedure was applied on the profiles obtained directly through ImageMaster TL (Figure 4C) or indirectly using ODEGAT (Figure 4E). In the first case, 15 bands persist (instead of 12) while in the second case, 12 distinct bands (as expected) were observed. Table I summarizes all these results. Additional experiments conducted on both rheumatoid arthritis and pemphigus samples demonstrate the robustness of our tool (see http://rsat.scmbb.ulb.ac.be/odegat/suppl/).

IV.

DISCUSSION

In a typical immunoblot analysis, the Mr calculation is commonly based on protein ladders that migrate separately from the biological sample(s) studied. Adding to experimental uncertainties, this generally leads to variations surrounding each Mr, which are not easy to quantify. Yet, in such an experiment, Mr is the only information available to discriminate bands. Other methods exist that provide further information such as bi-dimensional gel electrophoresis [11] and/or mass spectrometry [12], both coupled with dedicated databases querying [13], or more recently, high-density protein

a ME

b MT 1

c MT 2

d MO1

rangef

matchg

e MO2

rangef

matchg

rangef

matchg

120h

124-117

62.5%

123-117

84.4%

120

100%

120

NAi

112-107

47.4%

109

100%

115-113

84.2%

114

100

103-98

50%

100

100%

110-108

71.9%

109

NAi

87-85

63.2%

86

100%

98-97

57.9%

98

80

81-79

78.1%

80

100%

91-89

71.9%

90

NAi

70-68

63.2%

69

100%

78-76

57.9%

77

60

61-59

81.3%

60

100%

68-64

43.8%

67 54

50

50-49

78.1%

50-49

78.1%

55-53

68.8%

NAi

49-48

63.2%

49-48

63.2%

52-51

68.4%

52

40

40

100%

40

100%

41-40

65.6%

40

30

30-29

75%

30

100%

29-28

96.9%

29

20h

20-19

78.1%

20

100%

20

100%

20

P

±2.4j

70%k

±0.7j

93.8%k

±2.4j

73.9%k

100%k

TABLE I: Validation of ODEGAT’s re-alignment procedure. (a) expected Ma (kDa) of the bands used for validation (b, c) Ma estimated with ImageMaster TL using a classical external ladder before (b) and after (c) band re-alignment (d, e) Ma estimated with ODEGAT using an original internal standard before (d) and after (e) band re-alignment (f) maximal and minimal calculated Ma for each band (g) percentage of lanes revealing the most prevalent band among range (h) bands used as an internal reference marker (i) the 4 extra bands revealed in L2 for which Ma is unknown (NA, Not Available) (j) mean uncertainty surrounding each Ma (k) mean percentage of perfect match.

microarrays [14]. However, these methods are more complex and expensive, especially protein microarrays. WB thus remains widely used, in spite of difficulties faced in result interpretation. We therefore developed ODEGAT (One-Dimensional Electrophoresis Gel Analysis Tool) to perform an automatic post-processing of data obtained from any WB analysis done on standard 4-12% NuPAGE gel (or any other gel as long as the 1kDa limit is applicable), in a 2-step method. To approximate Mr, we chose to use an internal reference group consisting in two recurring bands only, rather than a traditional ladder. This limitation was necessary due to the revelation method used in WB. Indeed, while in some DNA microarrays where different fluorescent dyes (Cy3, Cy5) can be used on a same sample [15], it is not easy to differentiate reference and studied bands on 1-DE gel. Using more than two reference bands could thus possibly hide useful information (e.g. internal marker and band from sample migrating in same position). Furthermore, to overcome this bias as well as to interpolate Mr and not extrapolate them, the two reference bands should be as distant as possible from one another (e.g. one at each end of the gel). However, because uncertainties remain concerning Mr calculation, a cross-lane re-alignment is then applied to finally identify contiguous bands corresponding to related ones. This useful improvement in 1-DE gel analysis has been validated with protein samples of

7 known composition (BenchMark Prestained Protein Ladder). Others experiments, conducted on “real-life” samples have confirmed the reliability of our tool (data available online). In any case, it should be noted that the resulting Mr can be more or less different from the true ones (see Table I). However, Mr alone are never sufficient to identify proteins: ODEGAT should be mainly appreciated for its demonstrated capacity to correctly separate distinct protein bands from each other. However, ODEGAT users should keep in mind that merging could fail for very close bands and distorted gels. This limitation is illustrated in Figure 4 and Table I, where the 2 expected closer bands of about 50kDa revealed in L2 overlap (cf. 4B). As precised in Table I, some of the 1st and 2nd bands both have an identical estimated Ma of 49kDa. Because of the co-occurrence rule, such bands can’t be merged (cf. 4C). Using internal standards prevents such mis-alignments because lane-specific ladders are less sensitive to gel distorsion effects and thus lead to a better separation of bands. Nevertheless, in some cases, especially with very close bands revealed in very distorted gels, it would be possible to encounter such troubles, even while using internal standards. Among many possible applications of our tool, ODEGAT seems very interesting in clinical research. For instance,

Rheumatoid Arthritis is a disabling autoimmune and inflammatory disease responsible for potentially severe articular destruction [16, 17]. The heterogeneity of disease manifestations and clinical course constitutes a challenge for clinicians to predict the severity of the disease and to early choose the appropriate therapy. The autoimmune response appears early, often prior to the apparition of clinical symptoms and leads to the production of various autoAbs easily detectable in serum. These autoAbs could constitute new biological markers of the disease. In this context, ODEGAT could allow to rapidly compare 1-DE profiles obtained from a great number of patient serums and thus help with the identification of such markers. In conclusion, ODEGAT (available online through a user-friendly and free-to-use web interface: http://rsat.scmbb.ulb.ac.be/odegat/) appears as a very innovative and useful bioinformatics tool in all fields of research interested in 1-DE profile comparison.

[1] W. N. Burnette. Anal. Biochem., 112:195–203, 1981. [2] J. Renart, J. Reiser, and G. R. Stark. Proc. Nat. Acad. Sci. USA., 76:3116–20, 1979. [3] H. Towbin, T. Staehelin, and J. Gordon. Proc. Nat. Acad. Sci. USA., 76:4350–4, 1979. [4] K. Weber and M. Osborn. J. Biol. Chem., 244:4406–12, 1969. [5] C. F. Matscon. Anal. Biochem., 13:294–304, 1965. [6] L. Wall, T. Christiansen, and J. Orwant. Programming Perl, ISBN 0-596-00027-8, 2000. [7] R Development Core Team. R: A language and environment for statistical computing, ISBN 3-900051-07-0, 2008. [8] D. Sklar and A. Trachtenberg. PHP Cookbook, ISBN 156592-681-1, 2002.

[9] P. Dubois. MySQL Cookbook, ISBN 0-596-52708-X, 2006. [10] R. Bowen and K. Coar. Apache Cookbook, ISBN 0-59652994-5, 2007. [11] S. Raymond and B. Aurell. Science, 138:152–3, 1962. [12] K. Biemann. Annu. Rev. Biochem., 32:755–80, 1963. [13] A. D. Baxevanis. Nucleic Acids Res., 29:1–10, 2001. [14] M. F. Templin, D. Stoll, J. M. Schwenk, and O. et al. P¨ otz. Proteomics, 11:2155–66, 2003. [15] N. H. Lee and A. I. Saeed. Methods Mol. Biol., 353:265– 300, 2007. [16] R. Scrivo, M. Di Franco, A. Spadaro, and G. Valesini. Ann. NY. Acad. Sci, 1108:312–22, 2007. [17] M. Lorenzo. Foot Ankle Clin., 12:525–37, 2007.

Acknowledgments

We wish to thank Inserm PRO-A and Wyeth Pharmaceuticals France for their financial support.

5.1. ODEGAT One-Dimensional Electrophoresis Gel Analysis Tool

65

Chapitre 5. Résultats

Poster

— JOBIM 2008 —

66

ODEGAT: A NEW PROCEDURE FOR AUTOMATIC ALIGNMENT AND STANDARDIZATION OF 1-D ELECTROPHORETIC PROFILES DAVEAU Romain1, MOREL Paul1, GILBERT Danièle1, GOËB Vincent1, 2, L’OTELLIER Marlène1, TRON François1, 3, VITTECOQ Olivier1, 2 and Van HELDEN Jacques4 1

Inserm U905, IFRMP23 and Institute of Clinical Biology, Rouen University, France Department and Immunology Laboratory, Rouen University Hospital, France Laboratoire de Bioinformatique des Génomes et des Réseaux (BiGRe), ULB, Belgium

2, 3 Rheumatology 4

Abstract. The widely used Western blot (WB) method is a simple and cheap way to separate denaturated proteins, depending on their molecular weights (Mw). In an immunoblotting assay, target proteins of unknown antibodies are only identified by their Mw, which can be estimated by comparison with some reference lanes loaded with ladders. The identification of related bands in multiple lanes is a crucial step in 1-D electrophoresis (1-DE) profiles interpretation. This is usually done by visual inspection and manual edition of the tables resulting from 1-DE gel analysis software tools. This post-processing can be tedious and error-prone, especially when the number of biological samples is high. Studying over a few dozen samples thus requires computer assistance. To address this need, we have developed ODEGAT, a user-friendly software, available through a web interface (http://rsat.scmbb.ulb.ac.be/odegat/). ODEGAT performs automatic postprocessing of the output tables resulting from the ImageMaster TL software in 2 steps: (i) cross-lane re-alignment of bands, using an original merging algorithm relying on user-defined lane-wise markers, (ii) standardization of relative bands’ concentration, with 3 alternative modes: single-band-wise, multiple-band-wise or lane-wise. The web server offers a flexible interface, enabling researchers and clinical analysts to deal with hundreds of samples with minimal manual intervention. G H I

J K L

M N O P Q R

P1

Mw

A B C D E F

loge(M2)-b x2 x2loge(M1)-x1loge(M2) b= x2-x1

a=

(ax+b) M=exp

Lane

x1

x2

x

*M

(kDa)

M

43

391

138

N

36

391

133

87

O

36

391

135

86

P

45

392

139

87

Q

44

391

135

88

87

P2 migration distance x Digitalized images of 3 6-lane 1-DE gels, each loaded with a different biological sample. Bands are tagged with diamonds which are line-connected when corresponding to a same protein: (i) in purple, lane-wise markers used to estimate Mw of all the other bands, (ii) in red, isolated bands absent in other lanes, (iii) in orange, bands used to illustrate uncertainties in Mw estimation, (iv) in green and blue, all other bands. 1.

*with

M1=120kDa and M2=37kDa

Curve examples of the lane-specific log-linear model used to estimate Mw from the migration distance. For a given L lane, Mw M of protein P is related to its migration distance x. P1 and P2 are lane-wise markers with known Mw (M1, M2) and migration distances (x1, x2). For each lane correspond specific a and b coefficients. Likewise x variates. Therefore, in the worst case, one single protein revealed in n samples will be associated with as many as n different Mw. For instance, the protein P (in orange) revealed in the 3rd gel (M-Q) is associated with 3 different Mw (88-86kDa). Comparison of multiple lanes thus requires a cross-lane band re-alignment. 2.

Mw A B C D E F G H I J K L M N O P Q R 120 90 80 67 55 37 120 90 80 67 55 37 Virtual image of lanes A-R before (above) and after band realignment (below). P1 and P2 are immediately re-aligned since their Mw are known. Before cross-lane band re-alignment, 34 distinct bands (instead of the 18 expected ones) are identified with a mean uncertainty surrounding each estimated Mw of ±0.5kDa. Only the 18 expected proteins remain after merging. The relevance of ODEGAT, as well as the advantage of using a lane-specific internal standard (P1, P2) rather than a classical external ladder, have been demonstrated with samples of known composition. Moreover, starting from n analyzed gels (3 in this example) and thus n output files, ODEGAT sums up all re-aligned 1-DE profiles in a single tab-delimited text file, making further investigations easier. High resolution pdf graphics are also proposed to facilitate visualization. 4.

Distribution study of contiguous bands (separated by at most 1kDa) on the left: (x) F0 are isolated bands with a prevalence equal to that of their preceding heavier band, whereas N0 correspond to a series of contiguous bands of equal prevalence; (xx) bands with an increase (+1) or decrease (-1) in prevalence. Each N0 and F0 is replaced by the ±1 value of the band to which it is connected by a thick line. Each group of contiguous bands is then simplified as a series of either N±1 or F±1 that will be re-aligned according to 3 main rules: (i) contiguity rule. Contiguous bands are first flagged as a potential same protein, (ii) co-occurrence rule. Never unify bands if they are co-occurring in some lanes, (iii) prevalence rule. Consists in merging less prevalent bands to more prevalent adjacent ones. Merging procedure on the right: bands connected by a thick line are merged in a single band which is circled. A-B. N±1 merging examples. C. Particular N0 case where all bands are of equal prevalence. D-I. F±1 merging: R and RR are the 2 possible right adjacent bands of any F+1 (x) while L and LL are those of the left. 3.

Conclusion.

Because WB remains widely used in spite of difficulties faced in result interpretation, we have developed ODEGAT. Available on-line through a user-friendly web interface (http://rsat.scmbb.ulb.ac.be/odegat/), ODEGAT appears as a very useful bioinformatics tool in all fields of research interested in 1-DE profile comparison. The most innovative input of our tool stands in the cross-lane band realignment based on lane-wise markers enabling researchers and clinical analysts to deal with hundreds of biological samples within a few minutes and with minimal manual intervention.

Chapitre 5. Résultats

68

5.2. Diagnostic

5.2 5.2.1

Diagnostic Contribution des marqueurs génétiques

Affection hétérogène poly-factorielle inconstamment source d’un handicap fonctionnel « lourd » et irréversible à la fois, la PR soulève encore de nombreuses interrogations, en particulier diagnostiques. À cet égard, se pose la question de savoir si l’information actuellement fournie par les principaux auto-Ac peut être complétée par la donnée de facteurs génétiques. Majoritairement représentés par le système HLA et intervenant à hauteur de 30% dans la genèse de la maladie, ceux-ci regroupent également des gènes non-HLA parmi lesquels TNFRII et PTPN22 occupent une place de choix. En outre, la réponse auto-immune médiée par les FR et ACPA pourrait être liée au « terrain génétique ». Du suivi des 284 patients génotypés de la cohorte VErA, nous discutons dans cet article à visée diagnostique de la contribution isolée ou combinée de l’ensemble des marqueurs sus-cités. Dans ce contexte, j’ai conçu des scripts R opérant le rapatriement sélectif des données et leurs analyses par régression logistique et tests de Fisher, Student et Wilcoxon, à l’origine de la totalité des résultats ici publiés. Le test exact de Fisher et la statistique W de Wilcoxon sont des alternatives non-paramétriques aux solutions du χ2 et Student, introduites au chapitre 2. Quant au choix du modèle Logit, nous rappellerons qu’il est utile pour chiffrer la probabilité d’un évènement sur un ensemble de variables explicatives, ici le diagnostic ACR de PR à partir de données génétiques et immunologiques. Bilan — Avec une prédiction correcte à près de 70% et une P P V pour la PR proche de 85%, la positivité concomitante initiale des auto-Ac s’est révélée la plus spécifique. Bien qu’également péjorative, l’interaction des allèles TNFRII*196R et PTPN22*1858T l’est moins. Enfin, face à une PR négative pour les FR et ACPA-2† , le recours aux données génétiques n’est apparu, dans la cohorte VErA, d’aucun intérêt diagnostique.



Test anti-CCP de 2e génération

69

Rheumatology Advance Access published June 5, 2008 Rheumatology 2008; 1 of 5

doi:10.1093/rheumatology/ken192

Contribution of PTPN22 1858T, TNFRII 196R and HLA-shared epitope alleles with rheumatoid factor and anti-citrullinated protein antibodies to very early rheumatoid arthritis diagnosis V. Goe¨b1, P. Dieude´2,3, R. Daveau4, M. Thomas-L’Otellier4, F. Jouen4, F. Hau5, P. Boumier6, F. Tron4, D. Gilbert4, P. Fardellone6, F. Corne´lis2, X. Le Loe¨t1 and O. Vittecoq1 Objectives. To evaluate the predictive value of TNFRII 196R, PTPN22 1858T and HLA-shared epitope (SE) alleles, RFs and anti-citrullinated protein antibodies (ACPAs) for RA diagnosis in a cohort of patients with very early arthritis. Methods. We followed up 284 patients who had swelling of at least two joints that had persisted for longer than 4 weeks but had been evolving for