La visuaLisation des donnÃ©es en histoire v isu a L ... - Chronos Verlag

... Hoffmann qui a corrigÃ© les textes en allemand et veillÃ© Ã la cohÃ©rence formelle des articles. ...... (dÃ©placement synchrone ou asynchrone des points par exemple). Le principal .... Un bon moyen pour tenter de limiter le risque de surinterprÃ©tation est ...... machine Ã Ã©crire, il vaut mieux passer du temps Ã comprendre le fonc-.

Télécharger le PDF

19MB taille 1 téléchargements 235 vues

commentaire

Report

147

169

183

211

229

265

285

309

Multimédia / Multimedia Unanschauliche Datenschwärme. Eine medienhistorische Analyse interaktiver Visualisierungen mehrdimensionaler Daten am Computer Shintaro Miyazaki «Die Verschmelzung von Wissenschaft und Filmchronik» – Das Potential der reduktionslosen Visualisierung am Beispiel von Das elfte Jahr und Der Mann mit der Kamera von Dziga Vertov Adelheid Heftberger Les chronologies numériques entre héritages et innovations : quelques implications méthodologiques et épistémologiques Cécile Armand

Die Visualisierung von Daten in den Geisteswissenschaften erlebt in den letzten Jahren eine Renaissance. Faktoren wie bessere Rechnerleistung und immer einfacher zu bedienende Software haben diese Entwicklungen beschleunigt. Darüber hinaus wächst die Zahl offen zugänglicher Daten und digitalisierter Materialien, die mit automatisierten Methoden abgefragt und bearbeitet werden können. Die Beiträge dieses doppelten Bandes der Zeitschrift Geschichte und Informatik widmen sich aus geschichtswissenschaftlicher Perspektive den methodologischen Implikationen, die sich aus der Frage nach der Auswahl und Selektion der Daten sowie den daraus resultierenden Folgen für die Visualisierungen ergeben.

ISSN 1420-5955 ISBN 978-3-0340-1289-8

Infoclio_2015-couverture_Druck.indd 1-4

Vol. 18/19 — 2015

Les contributions de ce double numéro de la revue Histoire et informatique sont consacrées aux implications méthodologiques qui résultent, pour les sciences historiques, de la sélection des données et de leur visualisation.

Environnements de recherche / Forschungsumgebungen Interaktive Visualisierungen als Erkenntnismodelle am Beispiel des Projekts « ImpulsBauhaus » Jens Weber, Andreas Wolter Visualisierung von Annotationen und Verknüpfungen in SALSAH Tobias Schweizer, Lukas Rosenthaler, Ivan Subotic

La visualisation des données en histoire

Visualisierung von Daten in der Geschichtswissenschaft

129

Cartes & Statistiques / Karten und Statistiken Des cartes de pratiques à une meilleure pratique graphique. Bénéfices d’une utilisation consciente de l’informatique Damien Thiriet Étudier et cartographier un phénomène dynamique : le peuplement de la Touraine du XVIIe au XXe siècle Matthieu Gaultier Reduction, Approximation, and Omission: Preparing a Dataset for Visualization Laura Hornbake Eigene Erhebung oder « fertige » Daten? Zu Möglichkeiten und Grenzen der visuellen Darstellung statistischer Daten Katrin Henzel, Stefan Walter

La visualisation des données connaît depuis quelques années une véritable renaissance dans les sciences humaines. L’amélioration de la puissance des ordinateurs et l’usage simplifié des logiciels ont accéléré ce développement. De plus, les données librement accessibles se multiplient, tout comme les documents numérisés pouvant être consultés et traités par des méthodes automatiques.

Visualisierung von Daten in der Geschichtswissenschaft La visualisation des données en histoire

109

Vol. 18/19 — 2015

Geschichte und Informatik / Histoire et Informatique

95

Geschichte und Informatik / Histoire et Informatique

9 783034 012898

59

Réseaux / Netzwerke Principes et usages des dessins de réseaux en SHS Pascal Cristofoli Les mondes savants et leur visualisation, de l’Antiquité à aujourd’hui Anthony Andurand, Laurent Jégou, Marion Maisonobe, René Sigrist Préparer l’insurrection : le réseau relationnel des carbonari lors de la conspiration de la Rochelle Vivien Faraut Introduction à la visualisation de données : l’analyse de réseau en histoire Martin Grandjean

ISBN 978-3-0340-1289-8

23

Geschichte und Informatik / Histoire et Informatique

29.07.15 17:22

Revue Histoire et Informatique / Zeitschrift Geschichte und Informatik Volume / Band 18/19 2015

Infoclio_2015-livre_DRUCK.indd 1

06.08.15 09:10

La visualisation des données en histoire

Visualisierung von Daten in der Geschichtswissenschaft

Vol. 18/19

EDS. / hrsg. Enrico Natale, Christiane Sibille, Nicolas Chacherau, Patrick Kammerer, Manuel Hiestand

Infoclio_2015-livre_DRUCK.indd 3

06.08.15 09:10

Réseaux / Netzwerke 7

13

323

332

Avant-propos / Vorwort Introduction / Einleitung

23

59

En mémoire de Peter Haber / In Gedenken an Peter Haber Auteurs / Autoren 95

109

Infoclio_2015-livre_DRUCK.indd 4

Principes et usages des dessins de réseaux en SHS Pascal Cristofoli Les mondes savants et leur visualisation, de l’Antiquité à aujourd’hui Anthony Andurand, Laurent Jégou, Marion Maisonobe, René Sigrist Préparer l’insurrection : le réseau relationnel des carbonari lors de la conspiration de la Rochelle Vivien Faraut Introduction à la visualisation de données : l’analyse de réseau en histoire Martin Grandjean

06.08.15 09:10

sommaire / Inhaltsverzeichnis

Cartes & Statistiques / Karten und Statistiken

129

147

169

183

Multimédia / Multimedia

Des cartes de pratiques à une meilleure pratique graphique. Bénéfices d’une utilisation consciente de l’informatique Damien Thiriet

211

Étudier et cartographier un phénomène dynamique : le peuplement de la Touraine du XVIIe au XXe siècle Matthieu Gaultier

229

Reduction, Approximation, and Omission: Preparing a Dataset for Visualization Laura Hornbake Eigene Erhebung oder «fertige» Daten? Zu Möglichkeiten und Grenzen der visuellen Darstellung statistischer Daten Katrin Henzel, Stefan Walter

265

«Die Verschmelzung von Wissenschaft und Filmchronik» – Das Potential der reduktionslosen Visualisierung am Beispiel von Das elfte Jahr und Der Mann mit der Kamera von Dziga Vertov Adelheid Heftberger Les chronologies numériques entre héritages et innovations : quelques implications méthodologiques et épistémologiques Cécile Armand

Environnements de recherche / Forschungsumgebungen

285

309

Infoclio_2015-livre_DRUCK.indd 5

Unanschauliche Datenschwär me. Eine medienhistorische Analyse interaktiver Visuali sierungen mehrdimensionaler Daten am Computer Shintaro Miyazaki

Interaktive Visualisierungen als Erkenntnismodelle am Beispiel des Projekts « ImpulsBauhaus » Jens Weber, Andreas Wolter Visualisierung von Annotationen und Verknüpfungen in SALSAH Tobias Schweizer, Lukas Rosenthaler, Ivan Subotic

06.08.15 09:10

Infoclio_2015-livre_DRUCK.indd 6

06.08.15 09:10

La visualisation des données en histoire / Visualisierung von Daten in der Geschichtswissenschaft

Avant-propos / Vorwort

7

Infoclio_2015-livre_DRUCK.indd 7

06.08.15 09:10

Der vorliegende Doppelband widmet sich der Visualisierung von Daten in der Geschichtswissenschaft. Er ist der 18. und 19. Band der Zeitschrift Geschichte und Informatik, die vom gleichnamigen Verein herausgegeben wird. Beide wurden Anfang der 1980er Jahre, noch vor der Erfindung des World Wide Web, gegründet und gehörten damit auf europäischer Ebene zu den Pionieren der Forschungen an der Schnittstelle zwischen digitalen Informationstechnologien und Geschichtswissenschaft und damit dem, was wir heute als Digital Humanities bezeichnen. 2012 übergab der Vorstand des Vereins die Aktivitäten des Vereins in neue Hände. An dieser Stelle möchten wir allen, die in diesen langen Jahren dem Verein und seiner Zeitschrift verbunden waren, für ihr vielfältiges Engagement danken. Mit mehreren kleineren Erinnerungen möchten wir am Ende dieses Doppelbandes besonders Peter Haber gedenken, der mehrere Bände dieser Zeitschrift herausgegeben hat und sich darüber hinaus auf fast unzählige Arten für die intellektuelle Auseinandersetzung mit der Digital Past eingesetzt hat. Sein viel zu früher Tod hat eine grosse Lücke hinterlassen. 1

Der vorliegende Doppelband ist nun der Erste, der durch den neuen Vorstand herausgegeben wurde. Nach langen Jahren des Nischendaseins, erfreuen sich die Digital Humanities und mit ihnen auch Aspekte digitaler Geschichtswissenschaft, derzeit grosser Beliebtheit. Zu diesem Zeitpunkt eine etablierte Zeitschrift wie Geschichte und Informatik zu übernehmen ist ein Privileg, aber auch eine sehr grosse Herausforderung. Übergänge haben oft auch Veränderungen zur Folge. Optisch wird dies vor allen Dingen an einem neuen Layout deutlich. Dieses wurde von Boris Meister entworfen, dem wir an dieser Stelle für seine kreativen und inspirierenden Ideen, seine Flexibilität und auch für seine Geduld danken möchten. Der neue Auftritt ist so konzipiert, dass er nicht nur gedruckt, sondern auch digital lesefreundlich ist. Dies ist deswegen nötig geworden, weil wir künftig die Zeitschrift «Geschichte und Informatik» nicht nur auf Papier, sondern – ohne zeitliche Vezögerung – auch Open Access im Internet anbieten werden. 8

Infoclio_2015-livre_DRUCK.indd 8

06.08.15 09:10

Avant-propos / Vorwort

Le présent double volume est consacré à La visualisation des données en histoire. Il s’agit des numéros 18 et 19 de la revue Histoire et Infor matique, éditée par l’association du même nom. Fondées à la fin des années 1980 – avant l’invention du World Wide Web – l’association et la revue font alors figure de pionniers à l’échelle européenne dans un champ d’études et de pratiques situé au carrefour entre les technologies numériques et l’histoire au sens large, aujourd’hui popularisé sous l’appellation Digital Humanities. En 2012, le comité de l’association Histoire et Informatique a fait l’objet d’un passage de témoin. Nous saluons ici toutes les personnes qui ont fait vivre l’association et la revue lors de ses nombreuses années d’existence. En particulier, nous remercions le précédent comité pour son engagement et de la confiance qu’ils nous ont témoignée. En publiant à la fin de ce double volume plusieurs textes courts écrits en sa mémoire, nous souhaitons rendre un hommage particulier à Peter Haber. Editeur de plusieurs numéros de cette revue et auteur d’une réflexion riche et diversifiée sur le Digital Past, sa mort prématurée a laissé un grand vide. 1

Avec le présent volume, le nouveau comité de l’association présente les premiers résultats de ses travaux. Longtemps resté confidentiel, le domaine des Digital Humanities bénéficie d’une grande popularité depuis quelques années. Reprendre les rennes d’une revue établie comme Histoire et Informatique dans un tel contexte est un grand privilège, de même qu’une gageure. Les transitions amènent souvent leur lot de changement. En premier lieu, ce numéro introduit une nouvelle charte graphique. Celle-ci a été développée par les soins du graphiste Boris Meister, que nous remercions ici pour ses contributions originales et sa flexibilité dans le travail. De plus, la revue est conçue pour être lue non seulement sur papier imprimé, mais également en format électronique. En effet la revue Histoire et Informatique sera désormais disponible en Open Access sur internet, sans délai d’embargo entre sa publication imprimée et sa publication électronique. L’édition d’une revue est un processus long qui nécessite beaucoup de précision. A l’heure de la communication instantanée via les blogs, 9

Infoclio_2015-livre_DRUCK.indd 9

06.08.15 09:10

Das Herausgeben einer Zeitschrift ist eine langwierige Angelegenheit, die viel Präzision verlangt. Das gerät heute zwischen der schnelleren Kommunikation via Blogs, Twitter und andere digitale Kanäle oft in Vergessenheit. Als junges Herausgeberteam haben wir viel gelernt. Wichtige Unterstützung erhielten wir dabei von Marie-José Brochard, die die französischen Texte korrigiert hat und Henrike Hoffmann, die neben dem Lektorat der deutschsprachigen Texte, die notwendige formale Einheitlichkeit gewährleistet hat.

10

Infoclio_2015-livre_DRUCK.indd 10

06.08.15 09:10

Avant-propos / Vorwort

Twitter et d’autres médias numériques, on a tendance à l’oublier. La jeune équipe éditoriale que nous sommes a beaucoup appris de ce travail. Nous remercions pour leur soutien précieux Marie-José Brochard, qui a corrigé les textes en français et Henrike Hoffmann qui a corrigé les textes en allemand et veillé à la cohérence formelle des articles.

11

Infoclio_2015-livre_DRUCK.indd 11

06.08.15 09:10

1

Peter Haber, Digital Past. Geschichtswissenschaften im digitalen Zeitalter, München 2011.

12

Infoclio_2015-livre_DRUCK.indd 12

06.08.15 09:10

La visualisation des données en histoire / Visualisierung von Daten in der Geschichtswissenschaft

Introduction / Einleitung

13

Infoclio_2015-livre_DRUCK.indd 13

06.08.15 09:10

Inhaltlich widmet sich dieser Doppelband der Visualisierung von Daten in der Geschichtswissenschaft. Die graphische Darstellung numerischer Forschungsergebnisse erfreut sich seit einigen Jahren eines gesteigerten Interesses, das weit über den eigentlichen Bereich der Digital Humanities hinausgeht. Ausgehend von der immer grösser werdenden Menge digital vorliegender Daten, einfach zu nutzender Tools und der Einbindung in soziale Medien, sind Karten, Charts, Infografiken, Netzwerke oder Wordclouds feste Bestandteile digitaler Informationsvermittlung geworden. Die Geschichtswissenschaft bildet hier keine Ausnahme. Diese Entwicklungen standen im Mittelpunkt des Panels, das der Verein Geschichte und Informatik im Rahmen der 3. Schweizerischen Geschichtstage in Fribourg veranstaltet hatte und das den Ausgangspunkt für diesen Band bildete. Der daran anschliessende Call for Papers stiess auf Resonanz in Deutschland, Österreich, den Vereinigten Staaten, Frankreich, Grossbritannien, Polen und der Schweiz. Es war uns eine grosse Freude mit den Autorinnen und Autoren zusammenzuarbeiten und ihre Forschungen publizieren zu dürfen. Visualisierung von Daten ist ein breites Feld. Um dieses einzugrenzen, widmen sich die Beiträge dieses Bandes methodologischen Implikationen, die sich aus der Frage nach der Auswahl und Selektion der Daten sowie den daraus resultierenden Folgen für die Visualisierungen ergeben. Zu den vielen Überlegungen, die den Artikeln zugrunde liegen, gehören unter anderem die folgenden: Wie gewinnen Historikerinnen und Historiker aus welchen Quellen verwertbare Daten zur Visualisierung? Wie müssen sie ihre Daten strukturieren, um vergleichende Aussagen machen zu können? Welche formalen Regeln müssen dabei beachtet werden? Welche Visualisierungen eignen sich zur Darstellung welcher Ergebnisse? Mit Hilfe welcher Programme und welcher Algorithmen werden Visualisierungen erzeugt? Welche Rolle spielen Visualisierungen als Ausgangspunkt für weitere Forschungen? Dienen sie als Unterstützung einer Aussage oder stellen sie ein eigenes Analyseinstrument dar? Im Mittelpunkt des ersten von insgesamt vier Teilen dieses Bandes stehen Netzwerkvisualisierungen. Gleich zu Beginn entwirft Pascal Cristofoli – ausgehend von wichtigen Entwicklungen in den 1930er Jahren bis in 14

Infoclio_2015-livre_DRUCK.indd 14

06.08.15 09:10

Introduction / Einleitung

Ce double volume est consacré à la visualisation des données en histoire. La question de la présentation graphique de résultats de recherche fait l’objet depuis quelques années d’une très forte attention, qui dépasse le seul domaine des Digital Humanities. Cartes, graphiques, infographies, réseaux et nuages de mots font désormais partie du quotidien des régimes d’information numérique ; un phénomène favorisé par la multiplication des données numériques de toute nature, la facilité d’accès aux logiciels de visualisation et la popularité des médias sociaux. Dans ce contexte, l’histoire ne fait pas exception. Ces développements formaient l’objet d’une session consacrée à la visualisation des données, organisée en 2012 par l’association Histoire et Informatique lors des 3èmes journées suisses d’histoire à Fribourg, qui est à l’origine de ce volume. Elle a été complétée par un appel à articles propagé sur internet qui a résonné au-delà des frontières nationales et permis d’ouvrir les pages de la revue à des chercheurs actifs en Allemagne, Autriche, États-Unis, France, Grande-Bretagne, Pologne et Suisse. Ce fut un grand plaisir de travailler avec ces auteurs et de publier leurs travaux. La visualisation des données est un champ d’étude large. Nous avons souhaité l’aborder en concentrant la réflexion sur les implications méthodologiques et les choix qui sous-tendent la réalisation des visualisations – et qui sont souvent escamotés lors de la présentation des résultats. Comment l’historien produit-il, sur la base de ses sources, les données qu’il entend visualiser ? Comment leur donne-t-il une structure systématique qui en permette la comparaison ? A quelles opérations formelles soumet-il ses données ? Comment adapter la visualisation des données à l’objet de recherche envisagé ? Quels sont les programmes et les algorithmes utilisés pour procéder à leur mise en forme ? Comment intégrer les visualisations dans un processus de recherche ? Faut-il les considérer comme un support de présentation ou comme une méthode d’analyse ? La première des quatre parties qui composent ce double volume est consacrée aux visualisations de réseaux. Elle s’ouvre sur un article de Pascal Cristofoli qui offre une synthèse de l’histoire des dessins de réseau en sciences humaines et sociales, des premières expériences 15

Infoclio_2015-livre_DRUCK.indd 15

06.08.15 09:10

die heutige Zeit – ein Panorama der Geschichte der Netzwerkdarstellungen in den Geistes- und Sozialwissenschaften. Der Beitrag zeigt die Annäherungen der verschiedenen Disziplinen an diese Form der Visualisierung und die damit einhergehende Herausbildung graphischer Konventionen. Daneben zeichnet er die sich verändernden Herangehensweisen an die Daten, die Entwicklung von Algorithmen und die Verwendung unterschiedlicher Software durch die Forschenden nach. Diesem Überblicksbeitrag folgen Artikel, die sich mit der konkreten Anwendung von Netzwerkvisualisierungen auseinandersetzen. Unter dem Titel Les mondes savants et leur visualisation. De l’antiquité à aujourd’hui entwickeln Anthony Andurand, Laurent Jégou, Marion Maisonobe und René Sigrist Visualisierungen zu drei verschiedenen Wissensnetzwerken aus drei unterschiedlichen Epochen: den Personen in den Tischreden des griechischen Schriftstellers Plutarch aus der Zeit des Römischen Reichs am Übergang zum 2. Jahrhundert, einem Korrespondenznetzwerk europäischer Chemiker im 19. Jahrhundert sowie den Co-Autorschaften in wissenschaftlichen Artikeln, die zwischen 2006 und 2008 in der Datenbank Web of Science verfügbar waren. Vivien Faraut widmet sich in seinem Beitrag der Charbonnerie française, einer liberalen Geheimorganisation zur Zeit der Restauration deren organisatorische Struktur sie anhand von Netzwerkvisualisierungen nachzeichnet und hinterfragt. Am Beispiel seiner Forschungen zu den Netzwerken der coopération intellectuelle des Völkerbunds gibt Martin Grandjean schliesslich einen Überblick über die wichtigsten Verfahren zur Visualisierung von Netzwerkdaten. Die Beiträge des zweiten Teils fokussieren auf verschiedene weitere Arten der Darstellung von erhobenen Daten, insbesondere auf die Verknüpfung von Statistiken und Karten. Damien Thiriet wertet hierfür Statistiken zu unterschiedlichen religiösen Praktiken von Minenarbeitern in Nord-pas-de-Calais und Oberschlesien und arbeitet dabei die Probleme heraus, die sich ihm im Forschungsprozess mit Bezug auf die Auswertung der Daten stellten. Auch Matthieu Gaultiers Untersuchung liegen statistische Daten zugrunde. Anhand einer ausgewählten französischen Region, der Touraine, zeichnet er die Entwicklungsstufen einer kartographischen Darstellung demographischer Statistiken dieser Region im Laufe mehrerer Jahrhunderte nach. Laura Hornbake ergänzt die 16

Infoclio_2015-livre_DRUCK.indd 16

06.08.15 09:10

Introduction / Einleitung

dans les années 1930 jusqu’à aujourd’hui. L’article revient sur les différentes disciplines qui ont successivement investi la pratique du dessin de réseau et sur l’évolution des codes graphiques utilisés pour les représenter. Les méthodes de traitement des données et les algorithmes développés au fil du temps pour réaliser les visualisations de réseau, de même que les principaux programmes informatiques utilisés par les chercheurs, sont également détaillés. Après cette mise en perspective, les articles suivants constituent des exemples concrets d’application des visualisations de réseau. La contribution de Anthony Andurand, Laurent Jégou, Marion Maisonobe et René Sigrist présente ainsi plusieurs essais pratiques de visualisation de réseaux savants à différentes époques : au temps de l’empire romain, avec la visualisation des banquets philosophiques évoqués dans l’œuvre de Plutarque ; au XIXe siècle, avec la visualisation des flux de correspondance entre les chimistes européens ; et de nos jours, avec la visualisation des co-signatures d’articles scientifiques répertoriés dans la base de données Web of Science entre 2006 et 2008. De même, Vivien Faraut, dans sa contribution consacrée à la Charbonnerie française, une société secrète libérale de l’époque de la Restauration, s’interroge sur les potentiels de la visualisation de réseau pour comprendre les stratégies organisationnelles de cette organisation. Enfin l’article de Martin Grandjean, qui discute l’usage de la visualisation pour sa recherche sur les réseaux d’intellectuels dans l’entre-deux-guerres, pointe les écueils de méthode les plus fréquents dans les visualisations de données de consommation courante. La seconde partie est consacrée à la visualisation de données statistiques et à la cartographie. L’article de Damien Thiriet s’intéresse aux potentiels de la visualisation de données statistiques dans le domaine des pratiques religieuses. Sa recherche compare au moyen d’une large palette de visualisations les pratiques religieuses des populations de mineurs du Nord-pas-de-Calais et de Haute-Silésie, et souligne les multiples difficultés de ce type de recherche. La visualisation de données statistiques est également au centre de l’article de Matthieu Gaultier, qui aborde la démographie historique d’une région française – la Touraine – sur près de quatre siècles (XVIII-XXe siècles). Sa recherche détaille les différentes étapes pour produire une cartographie 17

Infoclio_2015-livre_DRUCK.indd 17

06.08.15 09:10

Betrachtung des Einsatzes von Karten um eine dynamische Zeitdimension, die den Einsatz von Repressionsmassnahmen gegen kollektive Bürgerbewegungen in Italien zur Zeit des Kalten Kriegs darstellt. Hierfür hat sie zahlreiche Zeitungsartikel ausgewertet und in eine Webapplikation eingebunden, die in der Lage ist, die Häufigkeit und die räumliche Verbreitung der Ereignisse in ihrer zeitlichen Entwicklung darzustellen. Karin Henzel und Stefan Walter berichten in ihrem Beitrag über die Ergebnisse ihrer vergleichenden statistischen Forschungen zu Poesiealben in der Bundesrepublik Deutschland und der DDR, die sie im Hinblick auf mögliche ideologische Indoktrinierungen untersuchen. Einen weiteren Schwerpunkt des Artikels bildet die grundlegende Frage der Korpusbildung, insbesondere die Vor- und Nachteile existierender Angebote wie Googles N-Gram Viewer sowie selbsterstellter Textkorpora. Der dritte Teil des vorliegenden Heftes fasst drei Artikel zusammen, die sich mit spezifischen medialen Visualisierungsaspekten auseinandersetzen. Shintaro Miyasaki reflektiert aus medienhistorischer Perspektive Ansätze zum « Sehen » komplexer informationstechnischer Daten von den 1950er Jahren bis heute und eröffnet so wichtige Einsichten in das Zusammenspiel von technologischer Entwicklung und der daran anschliessenden Herausforderung neugewonnene Informationen auch verarbeiten zu können. Reduktionslose Visualisierungen von Filmen Dziga Vertovs stehen im Mittelpunkt des Artikels von Adelheid Heftberger. Dieser innovative Ansatz ermöglicht es, die den Filmen zugrunde liegenden formalen Techniken wie Einstellungslänge oder Bildkomposition im Überblick darzustellen und auszuwerten. Mit der Verortung von Informationen in einem zeitlichen Verlauf beschäftigt sich auch Cécile Armand, deren Beitrag zur Verwendung von Zeitstrahlen nicht nur einen Überblick über deren Entwicklung und die Herausbildung graphischer Konventionen gibt, sondern auch auf die zeitgenössische Verwendung verschiedener webbasierter Angebote kritisch eingeht. Der Einbindung von Möglichkeiten zur visuellen Darstellung von Daten in Forschungsumgebungen widmet sich schliesslich der vierte Teil des Doppelbandes anhand zweier Projekte. Jens Weber und Andreas Wolter beschreiben die von ihnen entwickelten multi-medialen und interaktiven Netzwerkdarstellungen, die sie im Rahmen eines Forschungsprojekts zur Geschichte der Bauhaus-Bewegung konzipiert und umgesetzt 18

Infoclio_2015-livre_DRUCK.indd 18

06.08.15 09:10

Introduction / Einleitung

statistique de la population d’une région à travers les siècles. Laura Hornbake complète la réflexion sur l’usage des cartes en y ajoutant une dimension temporelle. Son article revient sur la production d’une application web qui illustre dans la durée la répression des associations dans l’Italie d’après-guerre. L’extraction des données à partir d’articles de journaux et le développement d’une carte dynamique sur le web sont au centre de sa recherche. Enfin, Karin Henzel et Stefan Walter s’intéressent aux Poesiealben, carnets personnels dans lesquels amis et connaissances laissent des mots, des poèmes ou des citations. Leur article présente les résultats de recherches statistiques comparant ces cahiers en Allemagne de l’est et de l’ouest, examinant les traces de possibles endoctrinements idéologiques. De plus, l’article se livre à une analyse critique des difficultés de constitution d’un corpus, et discute les avantages et les inconvénients d’outils tels que Google N-Gram Viewer. La troisième partie rassemble trois articles qui s’intéressent à différentes techniques de visualisation multimédia. Shintaro Miyasaki propose ainsi un historique du développement des programmes informatiques servant à la visualisation de données complexes issues des sciences expérimentales des années 1950 à nos jours. Son article met en lumière les liens étroits entre les progrès des techniques de visualisation et l’histoire de l’informatique en elle-même. L’article d’Astrid Heftberger, basé sur les films du pionnier du cinéma Dziga Vertov, explore comment la visualisation informatique des différentes caractéristiques d’un film – durée des plans, composition, mouvements – peut ouvrir de nouvelles pistes pour l’analyse des œuvres cinématographiques. Enfin, Cécile Armand s’intéresse elle aussi à la représentation diachronique de l’information. Son article consacré aux frises chronologiques retrace l’émergence des codes graphiques utilisés pour représenter le temps historique, avant de se livrer à une revue critique des applications disponibles sur le web pour produire des chronologies personnalisées. La dernière section du double volume est dédiée aux visualisations de données dans des environnements de recherche. Jens Weber et de Andreas Wolter développent des visualisations multimedia et interactives inédites au sein d’une équipe de recherche sur le mouvement du Bauhaus. Ils mobilisent dans leurs projets des médias aussi variés que la vidéo, le mouvement ou la réalité augmentée pour proposer de 19

Infoclio_2015-livre_DRUCK.indd 19

06.08.15 09:10

haben. Tobias Schweizer, Lukas Rosenthaler und Ivan Subotic zeigen am Beispiel des Projekts Salsah die netzwerkbasierte Darstellung von Wissen im Umfeld des Semantik Web. Die dreizehn Artikel des Doppelbandes liefern so einen breiten Überblick über die vergangene und gegenwärtige Bestrebungen zum Einsatz und zur Nutzung von Datenvisualisierung. Als gemeinsamer Tenor der Beiträge lässt sich jedoch die Notwendigkeit zu einem methodologisch reflektierten Ansatz in allen Phasen des Forschungsprozess – von der Gewinnung der Daten bis zu ihrer konkreten Anwendung – erkennen. Die hier versammelten Beiträge liefern hierzu wichtige Überlegungen und Anregungen.

20

Infoclio_2015-livre_DRUCK.indd 20

06.08.15 09:10

Introduction / Einleitung

nouvelles expériences de visualisation. Enfin Tobias Schweizer, Lukas Rosenthaler et Ivan Subotic, dans leurs travaux sur la modélisation des connaissances dans l’univers du web sémantique, exploitent les techniques de visualisation de réseaux comme des outils d’exploration des données. Les treize articles contenus dans ce double volume offrent un large aperçu des différents usages, passés et présents, de la visualisation de données. Comme fil directeur des différents thèmes abordés, il ressort la nécessité d’une approche réflexive et méthodique à chaque étape des processus de recherche, de l’extraction des données jusqu’à leur mise en application. En cela, les réflexions présentées dans les articles ici réunis offrent une importante contribution.

21

Infoclio_2015-livre_DRUCK.indd 21

06.08.15 09:10

Infoclio_2015-livre_DRUCK.indd 22

06.08.15 09:10

Réseaux / Netzwerke

Principes et usages des dessins de réseaux en SHS Pascal Cristofoli

23

Infoclio_2015-livre_DRUCK.indd 23

06.08.15 09:10

Abstract

Network visualizations are now very popular: they are apparently simple to read and many tools allow making them easily. This success invites us to examine the nature of this kind of representations. It was designed in the last century in the context of social research focusing on the study of social interactions. The history of network layouts allows us to understand their building principles and their status in research contexts. This point of view is essential to make a rational use of these visualizations, especially while technical developments are transforming them into a powerful tool for relational data exploration.

24

Infoclio_2015-livre_DRUCK.indd 24

06.08.15 09:10

Réseaux / Netzwerke

L’analyse des réseaux sociaux s’est considérablement développée depuis les années 1970 autour d’une approche relationnelle des objets de recherche en sciences humaines et du développement d’outils d’analyse mathématique des structures relationnelles. Les recherches menées dans ce domaine font régulièrement appel à des visualisations de réseaux pour figurer les données et concepts qu’elles manipulent et étudient. Si dans les premiers temps ces figures de réseaux étaient réalisées à la main, elles sont aujourd’hui produites automatiquement à l’aide d’algorithmes peu à peu intégrés dans les logiciels. Dans son article retraçant l’histoire de la visualisation des réseaux sociaux, L. Freeman souligne que « les images ont, et ont toujours eu, un rôle clef dans les recherches sur les réseaux […], tant pour le développement des idées structurales que pour leur communication aux autres » 1. L’objet de ce texte est d’interroger les visualisations de réseaux : leur nature, les principes de leur construction et les conditions de leur utilisation dans les travaux scientifiques en sciences humaines et sociales, et notamment en histoire 2.

Introduction : une généralisation de l’usage des dessins de réseaux D’une présence peu discutée à un usage courant Ces questions ont finalement été relativement peu discutées au sein de la communauté des réseaux sociaux, hormis les travaux de quelques spécialistes, souvent producteurs d’algorithmes et de logiciels. La revue au cœur du domaine, Social Networks, ne consacre à la visualisation que très peu d’articles en regard d’autres concepts (densité, centralité, etc.). L’article régulièrement cité de Klovdal publié en 1981 3 a finalement peu de suites et si les questions de visualisation ne sont pas totalement absentes, elles ne constituent que très rarement l’objet principal des articles. On constate la même tendance dans les manuels classiques d’analyse de réseaux : le recours à des visualisations y est fréquent, mais souvent sans que leurs utilisations soient discutées en tant que telle. Et si la question de leur production est évoquée, c’est surtout du point de vue de son intégration dans les logiciels, et ce bien souvent sans expliciter plus avant les enjeux de la construction et de l’utilisation des représentations de réseaux 4. La visualisation des réseaux est abordée plus directement dans les revues au format plus souple et diffusées en ligne : la revue Connections et surtout, à partir des années 2000, au sein du Journal of Social Structure (JoSS) dont le fondateur n’est autre que D. Krackhardt, concepteur du programme 25

Infoclio_2015-livre_DRUCK.indd 25

06.08.15 09:10

Krackplot au début des années 1990 5. Le premier article qui y est publié est celui de L. Freeman déjà cité. Depuis lors, cette revue fait régulièrement place à des présentations d’algorithmes de visualisation ou d’exemples de travaux laissant une large place aux visualisations 6. C’est finalement autour de cette revue que l’on peut identifier les chercheurs travaillant sur cette question. Dans son introduction au JoSS Visualization Symposium organisé en 2010 7, J. Moody, nouvel Editor, rappelle cette spécificité de la revue, grandement facilitée par sa publication en ligne. Il souligne que la production de figures de réseaux a pris de l’ampleur avec les outils et techniques parus dans le courant des années 1990, et que les images de réseaux sont aujourd’hui adoptées par les revues scientifiques et les grands médias – tel le New York Times – qui y font régulièrement appel. J. Moody constate toutefois qu’à l’exception de quelques travaux, il n’existe pas de guide de « bonnes pratiques » pour aider à la réalisation de dessin de réseaux. La situation évolue sensiblement sous l’effet de telles initiatives 8 et en raison du décloisonnement des communautés scientifiques intéressées à cette question depuis quelques années 9. Elle évolue aussi sous la pression de la généralisation et de la démocratisation de l’usage des images de réseaux insufflées par les développements du web, la multiplication des bases de données et des outils de sociabilité en ligne (Friendster, Facebook, Twitter, etc.). Les visualisations de réseaux concernent aujourd’hui de nombreux domaines et activités sociales 10. Un foisonnement de textes accessibles en ligne s’attachent à présenter, comparer et vulgariser les techniques de visualisation, ou bien se lancent dans des entreprises plus larges d’explicitation 11. De fait, à l’heure actuelle, un chercheur désirant réaliser un dessin de réseau à partir de ses données dispose d’une panoplie impressionnante d’outils et d’algorithmes relevant de ces différents domaines. La capacité à utiliser tel ou tel outil dépend bien sûr des cultures et disciplines scientifiques, de l’aisance vis-à-vis de l’informatique et du traitement des données ainsi que de la compréhension des principes des logiciels. Dans le domaine des études de réseaux sociaux, quelques outils généralistes ont été plus particulièrement utilisés depuis le milieu des années 1990 pour produire des dessins de réseaux. Il s’agit notamment : du logiciel d’analyse de réseaux Ucinet et de son module de visualisation associé Netdraw ; du logiciel Pajek développé par des mathématiciens slovènes pour lesquels la visualisation fait partie intégrante de « l’analyse exploratoire des réseaux sociaux » 12 ; ou bien encore du logiciel Visone qui partage cette approche. À la fin des années 2000, apparaît une nouvelle génération de logiciels permettant notamment de travailler directement 26

Infoclio_2015-livre_DRUCK.indd 26

06.08.15 09:10

Réseaux / Netzwerke

sur les données du web : Gephi et NodeXL. Il faut aussi compter avec les modules spécialisés du logiciel statistique R qui soulignent que l’analyse de réseaux a désormais intégré la panoplie des techniques des statisticiens (Igraph, Statnet). D’autres outils performants existent mais sont moins utilisés dans la communauté des SHS. Il s’agit de logiciels commerciaux 13 ou encore de logiciels libres produits par des équipes de recherche en mathématique et/ou informatique 14.

La visualisation des réseaux sociaux au carrefour de plusieurs champs de recherche L. Krempel 15 rappelle que, loin d’être cantonnée au seul champ des réseaux sociaux, la visualisation des réseaux relève aujourd’hui des communautés scientifiques du dessin de graphe (Mathematical Graph Drawing) et de la visualisation de l’information (InfoVis), mais aussi des domaines de la statistique graphique (Statistical graphics) et de l’esthétique (digital art). L’énumération de ces différents champs d’études permet de rappeler le contexte et la chaine d’opérations qui autorisent un chercheur non seulement à produire des visualisations de réseau, mais aussi à en justifier l’intérêt et surtout à les exploiter à bon escient. Un objet de recherche peut être envisagé en termes relationnels et l’opérationnalisation de cette approche relationnelle peut aboutir à la production d’un ensemble de données organisé sous la forme d’un ou plusieurs « réseaux sociaux » ; chaque réseau social peut être formalisé en un graphe mathématique décrivant sa structure et c’est cet objet mathématique qui pourra être représenté graphiquement par un ou plusieurs dessins adaptés. Plusieurs « moments » importants jalonnent cette chaîne et doivent être rappelés car ils permettront de contextualiser l’histoire des visualisations de réseaux ainsi que leur évolution récente. N. Elias montre l’utilité de déplacer l’intérêt des chercheurs de l’étude des entités sociales pour elles-mêmes vers celle de leurs interactions réciproques et des configurations sociales que ces interactions engendrent 16. Cette approche relationnelle des phénomènes sociaux puise dans de nombreuses traditions scientifiques dont on peut retracer l’histoire 17. Du point de vue des études historiques, quelques travaux pionniers ont ainsi démontré les avantages heuristiques d’une approche relationnelle pour formaliser et analyser les objets de recherche 18. L’approche relationnelle concentre son attention sur les configurations sociales et les questions de topologie et de voisinage deviennent un sujet primordial. Cet ensemble de notions est propice à la formalisation : au sens mathématique du terme, un graphe est composé d’un ensemble d’objets (sommets) et d’un ensemble de couples de sommets (arêtes) 27

Infoclio_2015-livre_DRUCK.indd 27

06.08.15 09:10

définissant une relation. La théorie des graphes constitue un champ de recherche à la croisée des mathématiques et de l’informatique dédié à la manipulation et à l’étude des graphes. Elle est à l’intersection de plusieurs disciplines, objets et champs de recherche, ce qui favorise le transfert de technologies et de problématiques 19. L’analyse des réseaux sociaux a ainsi puisé dans ces travaux pour construire les indices et autres mesures proposés aujourd’hui par les logiciels. Les développements de la théorie des graphes ont très souvent été accompagnés d’un recours à des représentations visuelles. Le caractère intuitif des dessins permet d’expliciter efficacement définitions, concepts et problèmes. C’est le cas par exemple du problème des sept ponts de Königsberg exposé par Euler en 1735 20, souvent cité comme prémisse de ce champ de recherche. Les études sur les réseaux sociaux ont puisé dans cette tradition et utilisent régulièrement des dessins de graphes pour communiquer informations et concepts ou bien pour visualiser les structures relationnelles qu’elles manipulent. Du point de vue de la théorie des graphes, dessiner un graphe est un problème complexe dès que le nombre d’objets à représenter devient important, si bien qu’une communauté de recherche spécifique s’est emparée de la question du dessin de graphe 21. L’étude de la meilleure façon de représenter visuellement des graphes est envisagée du point de vue des préceptes énoncés par les spécialistes de la visualisation de l’information. Ce champ de recherche se donne pour objectif de préciser comment réaliser des représentations graphiques de données « efficaces ». Cette question est intimement associée à l’étude de la manière dont les individus appréhendent les images qui leur sont soumises, c’est-à-dire dont les images sont perçues par l’œil et le cerveau humain. En la matière, il apparaît que le sens visuel constitue le moyen le plus efficace de transmettre une information, notamment en raison de l’existence d’une perception pré-attentive fondée sur la reconnaissance instinctive de formes reposant sur quelques principes simples : proximité, similarité, fermeture, continuité et symétrie 22. J. Bertin et ses successeurs ont ainsi constitué une véritable grammaire visuelle – la sémiologie graphique – précisant les règles et les contraintes permettant de construire des représentations graphiques adaptées à la nature des données et des informations à transmettre 23. Les principes de l’excellence graphique 24 permettent de juger de la qualité et de l’efficacité de la transcription graphique de l’information : une représentation graphique sera d’autant plus « utile » qu’elle propose une présentation bien dessinée de données intéressantes et qu’elle est capable de communiquer une idée complexe avec clarté, précision et efficacité. Une telle image, presque toujours multivariée, a pour objet de fournir à l’observateur le plus d’idées en un minimum de temps, ceci sans mentir à propos des données. 28

Infoclio_2015-livre_DRUCK.indd 28

06.08.15 09:10

Réseaux / Netzwerke

La visualisation des réseaux fait référence à l’ensemble de ce contexte. Il doit être pris en compte dès lors que l’on se propose d’étudier la façon dont les dessins de réseaux les plus courants sont produits. Il doit aussi être convoqué lorsque l’on examine le statut et les usages de ces dessins de réseaux dans les recherches en SHS.

Du dessin manuel au dessin automatisé des réseaux sociaux Visualiser les données sociométriques : Moreno et les sociogrammes. C’est autour des travaux de sociométrie que l’on observe une des premières expériences d’utilisation systématisée de visualisations de données relationnelles dans le champ des SHS. À partir des années 1930, les travaux développés par J. Moreno et ses collègues en psychologie sociale s’attachent à comprendre les comportements individuels à l’intérieur de groupes en étudiant les relations entre les individus. Un des exemples classiques concerne l’étude des interactions entre jeunes enfants observés dans des établissements d’éducation. L’étude des données sociométriques est propice à la quantification et à la visualisation. Moreno définit le sociogramme comme une « représentation visuelle de données sociométriques ». Il permet d’exposer graphiquement les choix et les rejets de chacun des individus envers ses pairs. Il faut noter que, dès ce moment, Moreno propose des dessins complexes, associant au dessin des interactions entre les individus des informations supplémentaires précisant la nature des liens et les caractéristiques des individus. Pour Moreno, l’utilité des sociogrammes est évidente : ils constituent autant une méthode de présentation qu’une méthode d’exploration. Il souligne la nécessité de définir un principe commun de construction pour assurer la comparabilité des diagrammes. Il propose pour ce faire des « lois de construction des diagrammes standards », fondées sur sa pratique concrète de la construction manuelle de figures et sur son expérience de leur lecture et interprétation : Il faut ainsi placer la personne la plus « choisie » au centre de la figure, minimiser l’intersection des lignes (pour satisfaire à un principe de clarté visuelle), placer les individus dans leur « groupe naturel » et arranger la configuration de façon à rendre le plus visible possible les groupes interconnectés (« clustering »). Un débat sur la meilleure façon de produire des représentations est initié dès cette époque, notamment avec les propositions de représentations alternatives qui seront évoquées en fin de texte 25.

29

Infoclio_2015-livre_DRUCK.indd 29

06.08.15 09:10

Illustration 1 Sociogramme des attractions recensées dans un groupe de jeunes enfants (Source Moreno 1934, Note 25, p. 32)

I

A

G

B

D

H

F E C

Illustration 2 Exemples de visualisations de réseaux issues de la statistique multidimensionnelle (Source U. Brandes, Note 29, p. 38)

30

Infoclio_2015-livre_DRUCK.indd 30

06.08.15 09:10

Réseaux / Netzwerke

Cette réflexion minutieuse sur la façon de dessiner un graphe de relations est à la base des méthodes de représentations actuelles des réseaux sociaux. Toutefois, l’écueil de la taille des réseaux à représenter est resté longtemps limitatif et les spécialistes ont depuis lors cherché à automatiser la production de ce type de représentations. L. Freeman rappelle que les modalités de production des images de réseaux sont étroitement liées à l’évolution de l’informatique, à l’explosion des capacités de calcul ainsi qu’aux progrès des techniques de visualisation. On est ainsi successivement passé du dessin manuel (1930–40) au calcul assisté par ordinateur, fondé sur des analyses factorielles (1950–60), puis à la production d’images automatiques directement à partir de programmes informatiques, notamment via les techniques factorielles ou d’échelonnement multidimensionnel (MDS) (1970–80) 26.

Dessiner un réseau avec les méthodes de la statistique multidimensionnelle À la fin des années 1980, les résultats graphiques produits par les logiciels d’analyse de réseaux sont dans leur grande majorité issus des procédures de la statistique multidimensionnelle 27. L’application de ces procédures aux matrices d’adjacences figurant les réseaux ne va pas sans poser de problèmes car ces dernières sont en général peu remplies et ont par nature des « effectifs » faibles (information binaire). En général, elles sont appliquées sur des matrices de distances calculées à partir de la matrice d’adjacence 28. Les analyses factorielles produisent plusieurs figures d’un même réseau qui résultent du placement des sommets du graphe dans les espaces à deux dimensions déterminés par les multiples « axes » calculés par la décomposition factorielle. La proximité entre les sommets dans les graphiques résultant de ces procédures est de nature « statistique » et ne tient plus directement compte de la topologie. Les méthodes d’échelonnement multidimensionnel tempèrent un peu ces travers : le nombre d’axes est déterminé a priori (en général deux ou trois) et ce ne sont plus directement les distances entre les sommets qui comptent, mais le simple ordonnancement des sommets. De manière générale, on constate souvent que chaque nuage de points issu de ces procédures est susceptible d’éloigner des sommets pourtant reliés et qu’un grand nombre de sommets est souvent superposé. Dans ces conditions, la représentation de lignes entre les points figurant les connections entre les sommets du graphe est difficilement réalisable et, dans les faits, le plus souvent non envisagée car incongrue pour ces méthodes. Un autre type de résultats graphiques est proposé par les logiciels : les représentations en arbres hiérarchiques 31

Infoclio_2015-livre_DRUCK.indd 31

06.08.15 09:10

(dendogrammes) sont produites à l’aide des méthodes de classifications hiérarchiques ascendantes (CAH). Dépendantes des distances et des méthodes choisies pour leur construction, ces représentations décrivent des proximités statistiques et une hiérarchisation entre les sommets qui donnent à voir une image unidimensionnelle et tronquée de la topologie originale du réseau. Sans nier leur utilité du point de vue de l’analyse structurale des réseaux, il apparaît que les différentes méthodes de représentation graphique issues de la statistique multidimensionnelle ne constituent pas en ellesmêmes des visualisations de réseaux satisfaisantes si l’on se réfère aux critères énoncés par Moreno ainsi qu’aux préceptes de la sémiologie graphique 29. Les sociogrammes sont pourtant utiles et les analystes de réseaux éprouvent le besoin de produire, souvent manuellement, de telles figures, comme en témoigne les dessins de réseaux qui accompagnent certains travaux désormais classiques 30 ou bien qui sont couramment produits dans des domaines spécifiques.

De l’utilité de prendre en compte l’esthétique du dessin : le cas des dessins de réseaux criminels Au début des années 1990, M. Sparrow publie un article dans la revue Social Networks consacré à la comparaison entre les pratiques des spécialistes chargés d’enquêter sur les réseaux criminels et les développements de l’analyse des réseaux. Il présente notamment dans le détail l’usage classique chez les enquêteurs de ce qu’il dénomme les diagrammes de liens (« link diagram »), aussi connus sous le nom d’ANACAPA Charts 31. Il s’agit d’une représentation visuelle à deux dimensions des données relationnelles rassemblées au cours d’une enquête. M. Sparrow précise qu’elle constitue une aide picturale (matérialisée par le dessin accroché au mur) au travail de réflexion engagé par l’enquêteur, sans toutefois s’y substituer. Elle vise à donner un sens à la masse de données accumulées et se révèle extrêmement utile pour communiquer le résultat d’une analyse. Ces diagrammes reposent sur des conventions graphiques de représentation : les individus sont matérialisés par des cercles, les relations entre individus par des lignes (pleines ou en pointillé selon qu’elles sont confirmées ou non) et les affiliations à des groupes ou institutions sont représentées par des rectangles englobant les individus. Le recours à ces visualisations nécessite la création d’une matrice d’adjacence pour préparer les données. Le travail de l’analyste consiste à placer l’individu qui a le plus de liens au centre du dessin, puis à tenter de satisfaire aux objectifs graphiques suivants : la proximité des deux individus dans les 32

Infoclio_2015-livre_DRUCK.indd 32

06.08.15 09:10

Réseaux / Netzwerke

organisations criminelles doit être matérialisée par la proximité des deux individus sur le dessin et l’ensemble du dessin ne doit pas comporter de croisement de lignes. Sparrow convient que ces objectifs peuvent sembler « bizarres » pour les spécialistes de l’analyse des réseaux et des graphes et il s’emploie à en souligner les limites, sans toutefois renier leur utilité. Il convient qu’il est difficile de générer ce type de figure dans un espace à deux dimensions. Il y voit toutefois une grande utilité car cela permet d’utiliser efficacement la troisième dimension pour illustrer la représentation. Dans un même ordre d’idées, Sparrow estime que la volonté d’éviter les croisements de ligne est compréhensible du point de vue de la lecture mais « perverse » d’un point de vue théorique, car elle sous-entend que le graphe est planaire alors qu’il n’y aucune raison pour qu’un réseau criminel le soit. Enfin, s’il juge « raisonnable » la volonté de représenter la centralité dans les organisations par la centralité sur le dessin, il souligne à regret que c’est le concept le plus frustre de centralité qui est utilisé (centralité de degré). Ce sont les sommets sur lesquels on dispose de la meilleure information qui sont privilégiés, et cette pratique est sensible aux biais existants sur les données, auxquels toutefois les enquêteurs sont fortement sensibilisés durant leur formation. Comme Moreno en son temps, Sparrow justifie l’utilité de construire des figures de réseaux où les critères esthétiques prennent le pas sur toute autre considération. Cette volonté, partagée par de nombreux autres chercheurs, suscite dès cette époque la mise au point de techniques automatisées de production de représentations de réseaux s’inspirant de ces principes.

Dessiner « automatiquement » un réseau sous la forme d’un diagramme « nœud-lien » Pour présenter ces techniques, il convient de décrire dans le détail les conventions sur lesquelles elles se fondent ainsi que leurs principes de fonctionnement, ce qui donnera quelques clefs pour l’interprétation des dessins de réseaux qu’elles produisent. Toute opération de visualisation d’une information (transformation) suppose de spécifier clairement l’information à transmettre (la substance), de choisir une représentation appropriée, de spécifier les conventions qui lui sont associées (le design) et enfin de préciser la façon de générer l’image correspondante, c’est-à-dire la procédure et l’implémentation des contraintes qui vont permettre la réalisation de la représentation graphique (l’algorithme) 32. 33

Infoclio_2015-livre_DRUCK.indd 33

06.08.15 09:10

Illustration 3 Les réseaux et la sémiologie graphique (Source J. Bertin, Note 23, p. 270)

34

Infoclio_2015-livre_DRUCK.indd 34

06.08.15 09:10

Réseaux / Netzwerke

↑ Illustration 4

Exemples de contraintes graphiques influençant la lisibilité (Source C. Kosak & al., Note 35, p. 2)

→ Illustration 5

L’analogie avec la recherche d’équilibre d’un système de ressorts (Source U. Brandes, Note 36, p. 41)

35

Infoclio_2015-livre_DRUCK.indd 35

06.08.15 09:10

J. Bertin précise que « la construction graphique est un réseau lorsque des correspondances dans le plan peuvent s’établir entre tous les éléments d’une même composante » et il propose à la suite de cette définition toute une « grammaire » de représentations associées. Nous l’avons vu, les travaux pionniers concernant la visualisation des réseaux sociaux proposent d’adopter une convention de dessin simple et intuitive : des points et des lignes représentent respectivement les sommets et les arêtes du graphe mathématique associé au réseau social. La première qualité de ces diagrammes nœud-liens 33 est cette correspondance stricte. Le caractère intuitif de leur lecture par des tiers est un gage de l’efficacité de la communication des informations, cela sous réserve toutefois que la configuration de points et de lignes reste suffisamment « lisible ». La sémantique des objets graphiques étant définie, il est nécessaire de préciser les conventions graphiques qui vont concrètement permettre de réaliser le dessin. La convention la plus simple est de représenter un lien par une ligne droite. Il ne faut cependant pas perdre de vue qu’un lien peut être figuré par des objets plus complexes : plusieurs segments, une suite de segments alternativement horizontaux et verticaux (ce qui est utile pour tracer les arbres généalogiques), ou bien encore par une courbe (ce qui permettra de figurer plus facilement les liens réciproques). De même, il y a plusieurs façons d’organiser la représentation, c’est-à-dire l’agencement des points (layout), qui supposent le développement d’algorithmes adaptés : faire un dessin sur un plan (Planar drawing), plaquer le graphe sur une grille (Grid drawing) ou bien organiser le dessin de façon hiérarchique (Upward/Downward drawing). Sur cette question, J. Bertin se contente de déclarer que l’on peut « placer les figures dans un plan sans signification, et chercher ensuite la disposition qui offre le minimum de croisements ou la figure la plus simple. Après cette transformation, la représentation graphique doit offrir l’efficacité la plus grande. » 34. Produire une représentation graphique suppose en dernier lieu de définir des règles esthétiques à appliquer à cette représentation. Dans le cas des diagrammes nœud-liens que l’on désire placer sur un plan, l’idée est de reprendre les règles énoncées par Moreno et Sparrow à partir de leurs expériences. Elles visent avant tout à ordonner sur la figure l’information relationnelle afin de la rendre compréhensible et lisible : les sommets connectés doivent être proches et il faut éviter les croisements de lignes et les superpositions. D’autres contraintes esthétiques peuvent être envisagées par exemple pour valoriser l’affichage de symétries, ou bien 36

Infoclio_2015-livre_DRUCK.indd 36

06.08.15 09:10

Réseaux / Netzwerke

minimiser la surface occupée par le dessin. L’ensemble de ces contraintes pourra être invoqué pour juger de la « qualité » des figures produites 35. Il faut ensuite déterminer concrètement comment réaliser une figure en respectant le mieux possible ces règles et ces contraintes, c’est-àdire trouver un algorithme permettant de calculer une configuration de points (layout) afin de visualiser le graphe selon ces préceptes. Un pas décisif a été accompli de ce point de vue au début des années 1990 avec l’importation, dans le domaine des réseaux sociaux, d’algorithmes issus des sciences physiques (algorithmes d’énergie).

Utiliser l’information topologique pour construire le dessin d’un réseau Les algorithmes par modèles de force (force directed algorithms) sont fondés sur une analogie avec le modèle physique d’un système masseressort (Spring embedders) 36. Tutte propose en 1963 un premier modèle de ressort fondé sur des forces attractives (méthode des barycentres). Cette approche est approfondie par P. Eades en 1984 quand il définit une méthode de dessin par ressort combinant forces attractives et répulsives. Elle repose sur l’analogie suivante : les sommets sont des boules chargées électriquement et se repoussant mutuellement tandis que les arêtes sont des ressorts de taille constante qui ne peuvent être étirés au-delà d’un certain point. Une telle modélisation privilégie l’esthétique du dessin – « aesthetically pleasing » – en cherchant à satisfaire deux critères : la non superposition de points et la taille relativement uniforme des lignes entre les sommets connectés. Dans cette classe d’algorithmes, le critère principal de positionnement des points privilégie l’information topologique, c’est-à-dire le comportement relationnel des sommets du graphe. Chaque sommet, du fait de sa connexion ou non connexion aux autres sommets, est soumis à des « forces » respectivement attractives ou répulsives qui déterminent son positionnement dans le système global composé de l’ensemble des sommets et forces agissantes. Tout le travail des algorithmes consiste alors à rechercher une position d’équilibre du système de forces qui satisfasse le mieux possible l’ensemble des contraintes relationnelles pesant sur chacun des sommets. Une tension globale du système de forces est mesurée par une fonction particulière adaptée aux conventions fixées par chaque algorithme (ex : fonction d’énergie, stress…). Cette fonction peut aussi intégrer dans son 37

Infoclio_2015-livre_DRUCK.indd 37

06.08.15 09:10

calcul des forces mineures qui contraindront la configuration (force de gravité, effets d’inertie, etc.). Les algorithmes cherchent à minimiser cette fonction selon une procédure itérative et cumulative. Partant d’une configuration donnée, un vecteur de déplacement peut être calculé pour chaque sommet en tenant compte du champ de forces auxquelles il est soumis : un ressort comprimé repousse les nœuds qu’il relie, alors qu’un ressort étiré les rapproche. Les points sont déplacés en conséquence pour obtenir une nouvelle configuration dont la tension aura ainsi été réduite. Le même processus est répété selon un nombre d’itérations défini ou bien jusqu’à ce que la minimisation de la tension du système ne puisse plus être améliorée de manière significative. Le résultat proposé en sortie est donc une configuration acceptable du point de vue du critère d’équilibre du système de forces, bien qu’il ne s’agisse le plus souvent que d’un minimum local dépendant des conventions et paramètres de départ (configuration initiale aléatoire ou pré-calculée) et d’un certain nombre de choix des algorithmes (déplacement synchrone ou asynchrone des points par exemple). Le principal apport de l’algorithme de Fruchterman & Reingold (1991) réside précisément sur ce point : il utilise des méthodes issues de la thermodynamique (Simulated Annealing) pour rechercher directement le minimum global du système de forces dont le modèle associé est celui de corps célestes exerçant d’autant plus leurs tensions-répulsions qu’ils sont proches les uns des autres. L’algorithme de Kamada & Kawai (1989) se différencie par un choix particulier de conceptualisation du système de force : la taille idéale du ressort entre deux sommets est définie par la distance géodésique, c’est à dire le nombre minimum d’arcs existant entre ces deux sommets (plus court chemin). Cet algorithme revient alors à minimiser la différence entre la distance euclidienne calculée sur le système de points et la distance topologique, ce qui s’apparente de fait aux techniques d’échelonnement multidimensionnel (MDS). De nombreuses autres variantes de ces algorithmes ont été développées depuis 20 ans. L’algorithme Reseaulu proposé par M. Gribaudi & A. Mogoutov en 1993 construit la configuration de manière cumulative en introduisant les points un à un (des plus connectés aux moins connectés) 37. Plus récemment, l’algorithme Force Atlas implémenté dans le logiciel Gephi intègre un paramétrage détaillé de nombreuses contraintes qui permettent de régler finement l’algorithme afin de l’adapter à la structure du réseau à représenter. Les spécialistes du dessin de graphe s’accordent à reconnaître l’utilité de ces algorithmes pour générer des figures efficaces de graphes de taille 38

Infoclio_2015-livre_DRUCK.indd 38

06.08.15 09:10

Réseaux / Netzwerke

« raisonnable » 38. Kobourov souligne leurs principales qualités : « their natural simplicity, elegance, and conceptual intuitiveness » 39. Cellesci sont bien servies par les deux critères esthétiques qu’ils mettent en œuvre : l’uniformisation des distances entre les points connectés et la tendance à afficher des symétries. Relativement simples à implémenter, ils constituent désormais des outils standards intégrés dans tout logiciel proposant des visualisations de réseaux. Soucieux d’obtenir de « belles images » de réseaux, V. Bataglev & A. Mvrar intègrent ainsi dès la première version de Pajek les algorithmes Fruchterman-Reingold et Kamada-Kawai. Ils ajoutent à l’implémentation de ces algorithmes des contraintes visant à améliorer la qualité du dessin : éviter les croisements de lignes et les angles trop petits entre deux lignes ayant un sommet en commun, et s’assurer que toutes les lignes vont avoir à peu près la même taille et que les points ne sont pas trop proches des lignes 40.

Impact de la configuration du dessin sur la perception du lecteur Plusieurs critiques soulignent que ces algorithmes ne proposent en général pas de moyen pour juger de la qualité et de la pertinence des dessins qu’ils produisent. Plusieurs expériences ont tenté de mesurer l’impact de la configuration du dessin sur la perception d’un lecteur. L’expérience de Mc Graph & Al. 41 réalisée auprès d’un panel d’étudiants vise à explorer l’influence de l’arrangement spatial d’un graphe sur la perception des notions et mesures classiques issues de l’analyse des réseaux sociaux (popularité, intermédiarité et groupes cohésifs). L’enquête confirme que l’arrangement spatial d’un réseau a une influence significative sur la perception des lecteurs, et qu’en la matière il faut prendre garde à dessiner de « bonnes images ». Le meilleur dessin est souvent celui qui illustre les caractéristiques structurelles du réseau étudié, ou du moins une de ses caractéristiques principales. L’analyse des erreurs d’interprétation des personnes est aussi riche en enseignements. Et, de ce point de vue, il est clair que la représentation circulaire a tendance à cacher les différences entre les nœuds. Huang & Al. 42, spécialistes de la visualisation de l’information, organisent une enquête pour juger de la performance de cinq types de représentations d’un graphe en termes d’efficacité de la communication des informations. Le bilan de cette expérience donne lieu à une série de « recommandations » qui confirment les principes de construction mis en place dans les algorithmes, tout en permettant d’envisager des améliorations significatives. Il apparaît clairement qu’un placement au hasard des sommets, générateur de lignes de longueur différente et de multiples croisements n’est pas efficace 39

Infoclio_2015-livre_DRUCK.indd 39

06.08.15 09:10

pour transmettre l’information contenue dans le graphe. Le dessin sera d’autant plus « performant » qu’il s’attache à souligner et à séparer les points importants des autres, au besoin en disposant le point le plus important au centre (ou en haut). L’étude de l’impact des croisements de lignes souligne qu’il est utile de réduire leur nombre. L’expérience montre toutefois que ces règles générales peuvent-être aménagées sans nuire à la qualité de la représentation : il peut être très utile de raccourcir les arêtes quand les relations se concentrent, d’assembler les nœuds d’un même « groupe » et d’autoriser le croisement des arêtes au sein de ces « groupes ». Enfin, la lecture d’ensemble de la figure est plus aisée si ces groupes de sommets connectés sont séparés spatialement. Cette dernière remarque introduit une dimension supplémentaire pour juger des figures de réseaux. Il s’agit de leur faculté à être efficace et à garantir des principes constants à différentes échelles d’observation. De ce point de vue, U. Brandes 43 constate que les algorithmes par modèle de force, malgré leur succès et leur utilisation généralisée, sont aujourd’hui insuffisants et dépassés. Il évoque d’autres algorithmes conservant la même philosophie, inspirés de variantes des méthodes d’échelonnement multidimensionnel, pour lesquels les propriétés d’échelle et la rapidité de calcul permet d’obtenir des figures de qualité y compris pour de très grands réseaux 44. Cette catégorie d’algorithmes est aujourd’hui peu à peu implémentées dans les logiciels : Gephi propose l’algorithme multi-niveau d’Yifan Hue, NodeXl l’algorithme Harel Koren Fast Multiscale et Pajek a récemment intégré Pivot MDS 45.

40

Infoclio_2015-livre_DRUCK.indd 40

06.08.15 09:10

Réseaux / Netzwerke

Lectures et usages des dessins de réseaux Une qualité communément accordée aux diagrammes nœud-liens est le caractère intuitif de leur lecture. Les algorithmes par modèle de force leur confèrent un intérêt supplémentaire en raison de l’adéquation des principes qu’ils intègrent avec le phénomène qu’ils se proposent de représenter : un système interdépendant composé d’objets en interaction. Cette correspondance entre la technique de visualisation et le contexte théorique de son utilisation est un gage de l’efficacité des dessins de réseaux. Elle n’est pas sans rappeler les rapports existants entre l’analyse factorielle des correspondances et la théorie des champs sociologiques de Bourdieu 46. Cette relative simplicité d’accès a conduit à l’impression diffuse que les images de réseaux auraient un caractère moins scientifique que d’autres outils, et que l’on pourrait en tirer « tout au plus de vagues impressions » 47. Pour dépasser cette critique, il convient de préciser la façon d’aborder les dessins de réseaux et d’examiner leurs diverses utilisations dans le cadre de travaux de recherches en sciences humaines et sociales, notamment les tendances récentes qui en font de véritables outils heuristiques.

Le statut des dessins de réseaux : une représentation parmi d’autres d’une structure relationnelle Le statut des dessins de réseaux doit être envisagé en rapport avec les principes directeurs des procédures automatisées qui les ont produits. La configuration de points organisant le dessin du réseau n’est pas une solution unique : plusieurs figures, toutes aussi « légitimes » les unes que les autres, peuvent être produites à partir d’un même graphe de relations. Pour un algorithme donné, le résultat final dépendra des modalités de son implémentation dans les logiciels, des contraintes plus ou moins sophistiquées qui peuvent y être intégrées, de la configuration adoptée en entrée (constante ou fondée sur la configuration en cours) et des possibilités de paramétrage laissées à l’utilisateur. Le caractère itératif et incrémental de certains algorithmes est susceptible de produire des configurations globales assez différentes en changeant la valeur d’un seul paramètre. Le dessin obtenu est en effet « influencé » par l’algorithme choisi, ses caractéristiques et ses conventions. Certains algorithmes vont être plus ou moins adaptés à la structure du graphe qui leur est soumis et leur efficacité en dépendra. Il est nécessaire de faire un choix raisonné de l’algorithme de dessin en fonction de ses qualités reconnues ou des propriétés structurelles que l’on désire mettre en exergue, comme le suggèrent les concepteurs du logiciel Gephi 48. Un dessin de réseau ne diffère pas des autres procédures de traitement des données, qui, des plus simples aux plus sophistiquées, sont fondées sur de tels choix arbitraires. 41

Infoclio_2015-livre_DRUCK.indd 41

06.08.15 09:10

Enfin, chaque configuration a le statut d’un « dessin » et non d’un résultat précis, ferme et définitif. La majorité des logiciels propose des outils d’édition manuelle du diagramme obtenu. Ils permettent de retoucher la configuration en déplaçant les sommets (auxquels sont attachés les liens). Il est bien sûr préférable que cette correction manuelle respecte dans la mesure du possible l’idée générale de construction du graphe portée par l’algorithme original, mais de fait, le dernier mot est laissé à l’utilisateur. Le dessin d’un graphe est, de la même manière qu’une carte, « une technique, un mode d’écriture » des données. Le principal attrait des diagrammes de réseaux est de transposer la totalité des informations composant le réseau initial – sa structure – sur un espace limité. Il y a équivalence entre la matrice décrivant le graphe et les objets graphiques présentés sur le diagramme. Il faut donc absolument éviter de surinterpréter les diagrammes. Le pouvoir de suggestion des images est tel que c’est un piège tentant qui guette les lecteurs enthousiastes ou mal informés, mais aussi les créateurs même du diagramme, ce qui est beaucoup plus gênant. Les diagrammes ne contiennent finalement que ce que l’on a défini lors de la construction des données du réseau. Rien de plus, rien de moins. Un bon moyen pour tenter de limiter le risque de surinterprétation est de s’astreindre à décrire ce que signifient concrètement un point et une ligne sur le dessin. Dans l’idéal, une phrase simple devrait accompagner en légende toute présentation publique d’un graphique de réseau, de la même manière que la production d’une légende est indissociable de la production d’une carte. Il est en effet nécessaire de préciser la nature des sommets et des liens et les limites de leur échantillonnage respectif pour appréhender correctement un diagramme.

Quelques clefs de lecture des dessins de réseau La lecture du diagramme sera d’autant plus aisée que le sujet du dessin de réseau, les objets et la relation qu’il représente seront clairement précisés. D’autres principes généraux de lecture propres à ce type de représentation peuvent être formulés. Ils sont liés à leur mode de construction. La lecture du dessin doit se faire indépendamment des coordonnées des sommets (en général, les axes ne sont pas présentés sur la figure). D’un dessin à l’autre, un sommet peut se retrouver aux quatre coins de l’écran sans que cela nuise à l’interprétation de sa position dans la structure du graphe. Seule la position des points relativement les uns aux autres est importante pour l’interprétation. Considérer seulement le nuage des points n’est pas suffisant et peut être source d’erreurs. Il est impératif de tenir compte de la topologie, c’est-à-dire des connections existantes (ou 42

Infoclio_2015-livre_DRUCK.indd 42

06.08.15 09:10

Réseaux / Netzwerke

non) entre les points et de les traduire en termes d’attraction/répulsion pour lire convenablement le dessin. La lecture des dessins de réseau peut être organisée selon plusieurs niveaux : on peut envisager le dessin dans son ensemble, s’intéresser à des parties du graphe ou à des régions du dessin et enfin se concentrer sur des sommets particuliers. L’ensemble de ces points de vue se complète pour appréhender la structure relationnelle. Ils constituent une trame générale analogue à celle qui organise la panoplie de « mesures » des graphes proposées par la communauté scientifique. Chaque niveau d’observation peut être abordé selon plusieurs angles. Pour les dessins issus des algorithmes d’énergie, il s’agit de décrire la façon par laquelle un élément (un sous-ensemble, un sommet,…) s’insère dans la configuration globale et d’analyser sa position et son comportement relationnel au sein du système topologique local d’attractions et de répulsions. Il est utile de juger de l’aspect général de la figure, de sa densité (concentration de sommets et de liens) et de son organisation. Est-ce que des sous-ensembles d’éléments connectés se dégagent, est-ce que des parties plus ou moins denses sont repérables ? Comment ces parties se distinguent via des axes de symétrie repérables sur le dessin et quelles relations entretiennent-elles les unes par rapport aux autres ? Une autre voie de lecture consiste à repérer visuellement des formes élémentaires ou des ensembles de sommets équivalents (cliques, étoiles, chemins, circuits, hiérarchies…). L’appréciation de toutes ces informations est soumise aux propriétés du graphe de départ. La persistance d’un nombre important de croisements de lignes peut rendre le dessin inefficace et sa lecture très difficile. C’est le cas dès qu’un graphe est par nature très dense ou bien lorsque que l’algorithme de dessin se révèle inadapté à la structure mathématique particulière du graphe considéré. De même, la lisibilité décroît évidemment avec l’augmentation du nombre d’objets à représenter sur un même plan – les grands graphes d’interactions sont aujourd’hui fréquents – sauf à ce que leur structure se prête particulièrement bien aux critères des algorithmes. Cette dernière série de remarques ne remet pas en cause la pertinence de la production de représentations graphiques de réseaux, mais invite simplement à en expérimenter de nouvelles plus adaptées ou à les utiliser d’une autre manière comme nous le verrons.

43

Infoclio_2015-livre_DRUCK.indd 43

06.08.15 09:10

Illustration 6 « Relations » (alliance et économie) entre les positions structurelles repérées lors de l’analyse de l’équivalence structurale dans les réseaux des 92 familles florentines. (Source Padjett & Ansell, Note 30, p. 1276)

44

Infoclio_2015-livre_DRUCK.indd 44

06.08.15 09:10

Réseaux / Netzwerke

Les différents usages des dessins de réseaux Comme l’a rappelé L. Freeman, on trouve de nombreux dessins de réseaux dans la littérature sur les réseaux sociaux. Il est possible de distinguer quelques usages typiques de ces dessins : ils dépendent de la nature des informations sur lesquelles ils se fondent et de l’objectif assigné à la représentation dans le cours du processus de recherche et/ou de communication des résultats de la recherche. Une première série d’usage d’images de réseaux relève d’une visée de communication. ×× Les dessins de réseaux ont souvent été utilisés pour illustrer – manuellement – l’observation de relations interindividuelles dans un ensemble donné. Cet usage métaphorique de la notion de réseau ne suppose pas d’avoir organisé la recherche de manière relationnelle, mais offre la possibilité de produire un résultat sous cette forme. H. Millet propose par exemple un schéma des connections mises au jour entre ermites et réformateurs de la seconde moitié du XIVème siècle, ce qui lui permet d’illustrer son hypothèse de l’existence d’un « réseau » et l’influence de celui-ci sur la diffusion de nouvelles idées sur la spiritualité 49. ×× Un autre usage observé fréquemment est de produire des dessins de graphes avec une visée théorique. Il s’agit en général de dessins de petite taille qui servent – presque schématiquement – à illustrer une idée, ou une « intuition » relationnelle. Ce type d’image est souvent utilisé dans les manuels d’analyse de réseaux ou de graphes pour illustrer notions et concepts. De tels dessins de réseaux peuvent aussi être fondés sur des études empiriques. On trouve par exemple ce genre de « schémas » dans les articles de M. Granovetter exposant sa théorie de la force des liens faibles ou bien dans ceux d’E. Bott comparant l’effet de cohésion différentielle des réseaux de sociabilité des couples sur la distribution des rôles conjugaux 50. Des dessins de ce type sont aussi produits pour décrire et modéliser une source, un protocole d’enquête ou un concept relationnel qui servira ensuite de matrice au recueil de données empiriques. ×× Certains dessins présentent des données relationnelles ayant subi des traitements préliminaires. Ils sont un moyen, parmi d’autres, d’illustrer les résultats de ces premières analyses. À ce titre, ils ne portent donc pas la même information et n’ont pas le même statut que ceux produits sur des données relationnelles « brutes ». Padget & Ansell étudient l’arrivée au pouvoir des Medici à Florence au XVème siècle à partir de la compilation de multiples sources documentaires 51. Ils définissent un réseau des élites florentines à partir des 45

Infoclio_2015-livre_DRUCK.indd 45

06.08.15 09:10

liens d’alliance matrimoniale et des liens économiques et financiers observés entre ces familles. Ils procèdent à une analyse structurale de ce réseau (Blockmodels). Le résultat de cette analyse est une série de positions (blocks) rassemblant des familles ayant des comportements relationnels similaires (le nom de chacun de ces groupes est celui de la famille la plus représentative du groupe) et une matrice des relations existantes entre ces différentes « positions » est produite. C’est à partir de ce « réseau réduit » qu’ils élaborent – manuellement – une représentation graphique. Les sommets et les liens représentés graphiquement dans cette étude sont donc de nature complexe, et ne correspondent pas aux données initialement récoltées mais à un point de vue structural synthétisant ces données. Le dessin de réseau associé est une simple illustration de ce résultat. ×× L’automatisation des procédures de dessin de réseaux a permis leur usage dans le processus même du travail de recherche. Un diagramme de réseau peut être utilisé pour représenter visuellement des données relationnelles empiriques. Il s’agit de projeter sur un espace réduit (ou sur un écran) l’ensemble des données (sommets et liens) réunies au cours d’un processus d’enquête. Cette mise en image est utile car elle donne à voir l’ensemble des connections « individuelles » entre les objets, sans le filtre d’une sélection ou d’une synthèse préalable sur ces données. L’étude sur l’évolution de la stratification sociale en France au XIXeme siècle proposée par M. Gribaudi intègre plusieurs représentations graphiques (par période) des configurations de liens observées entre les professions déclarées par les époux et leurs pères dans les actes de mariages 52. L’utilité des dessins de réseaux fondés sur des données empiriques est de permettre un parcours et une exploration de ces données. De telles représentations ont une vertu heuristique et invitent à un allerretour constant entre le dessin et les données afin de repérer des connexions inattendues, des erreurs ou bien encore d’expérimenter des hypothèses. Ce type de dessins ne demande pas forcément à être publié, car sa principale utilité reste l’exploration des données et souvent quelques extraits choisis suffisent à illustrer le discours du chercheur. ×× Dans ce cas où des dessins de réseaux représentant des données empiriques sont publiées, plusieurs fonctions peuvent être distinguées. Le graphique peut servir de socle pour une présentation organisée des données relationnelles dans une description, la structuration du graphique fonctionnant comme un plan d’analyse. Dans leur ouvrage consacré à l’ethnographie d’une famille andalouse, A. Cottereau & M. Marzok ont reconstitué le réseau de sociabilité du couple de migrants 46

Infoclio_2015-livre_DRUCK.indd 46

06.08.15 09:10

Réseaux / Netzwerke

marocains qu’ils étudient. Ils publient et utilisent le dessin de ce réseau comme fil conducteur pour présenter différentes dimensions de la biographie et de la sociabilité de la famille en rapport avec l’ensemble de l’enquête ethnographique 53. Un dessin de réseau peut aussi être convoqué en tant qu’outil de publication de source. La représentation est alors équivalente à l’index d’un ouvrage ou à un dictionnaire : elle restitue les données dans un espace limité, selon un ordre particulier et permet un parcours de ces données. Cette utilisation est appelée à se développer avec les possibilités offertes par la publication en ligne et un usage pertinent des liens hypertextes. Une autre fonction désormais classique des dessins de réseaux représentant des données empiriques est de les considérer comme un fond de carte sur lequel sont projetées des informations supplémentaires issues des données. Ces données concernant les sommets ou les arêtes du réseau sont efficacement visualisées en tenant compte des préceptes de la sémiologie graphique (variation de couleurs, de formes et de tailles). C. Lipp et son équipe proposent des représentations graphiques du paysage social de la ville d’Esslingen au moment des révolutions de 1848 à partir de la compilation d’un grand nombre de sources historiques et de pétitions et en distinguant à l’aide d’une variable visuelle les divers corps sociaux impliqués 54. F. Ghitalla, dans un autre domaine, conceptualise une véritable carto graphie des disciplines scientifiques fondée sur des dessins de réseaux exploitant les co-citations de revues 55. Cette utilisation des dessins de réseaux comme fonds de carte est aussi au cœur des visualisations proposées dans les travaux issus des enquêtes sur les réseaux egocentrés de M. Gribaudi ou de C. Bidart 56. Elle se double dans ce cas d’une dimension supplémentaire qui vise à susciter la comparaison des formes et du contenu de ces collections de figures de réseaux egocentrés. Cette comparaison peut être fondée sur l’observation de réseaux d’individus différents ou bien sur le recueil de différents états du réseau d’un individu à plusieurs moments de son existence.

47

Infoclio_2015-livre_DRUCK.indd 47

06.08.15 09:10

Illustration 7 Pétitions et pétitionnaires distingués selon leur profession à Esslingen, (1848–49) (Source C. Lipp & L. Krempel, Note 54, p. 15)

Illustration 8 Exploration visuelle d’une structure relationnelle selon les concepteurs du logiciel Pajek (Source Batagelj, Note 58, p. 22)

48

Infoclio_2015-livre_DRUCK.indd 48

06.08.15 09:10

Réseaux / Netzwerke

Du dessin de graphe à la visualisation de l’information : l’évolution des logiciels de visualisation. Les multiples usages des dessins de réseaux en font désormais un outil incontournable des études de réseaux sociaux. J. Moody précise ainsi l’apport des visualisations 57 : « For me, good network images help build our intuition about all those things that make networks special: the ability to see local detail embedded in macro structures, to distinguish intuitively those at the heart of a social system from those at the periphery, or to make clear the unstated schisms that divide social life. It is this ability to provide a richly contextualized micro-macro view that can span multiple dimensions that makes network visualizations worth the space. » Dans ses fonctionnalités et dans sa philosophie d’utilisation 58, Pajek est un des premiers logiciels à donner explicitement à la visualisation un statut à part entière pour l’analyse d’un réseau. Il intègre dès sa création toute une panoplie d’algorithmes de dessin automatique de graphes (circulaire, hiérarchique, modèle de force, valeurs propres…), les outils nécessaires à la manipulation de ces dessins (transformations, édition manuelle, exports vectoriels intégrant des procédures interactives) et un certain nombre de traitements graphiques performants (dessins avec contraintes, calques, fisheye, 3D,…). Le principe même de fonctionnement du logiciel est d’offrir la possibilité de visualiser chacun des résultats de l’analyse de la structure du graphe sur le dessin grâce aux différents types d’objets (partitions, clusters, vecteurs et hiérarchies). Les auteurs développent un discours construit et réaliste sur la fonction exploratoire des visualisations, et leurs conclusions anticipent les développements futurs « A possible answer are interactive layouts where the user controls what (s)he wants to see ». Cette démarche exploratoire s’est peu à peu généralisée à l’ensemble des données qui peuvent être associées à une structure relationnelle, notamment les informations sur la nature et les propriétés des objets que cette dernière met en jeu (sommets et liens). Les logiciels récents (Gephi, NodeXL) proposent désormais des interfaces de gestion de données performantes et intuitives en comparaison de celles de leurs précurseurs Pajek et Ucinet-Netdraw. Ils permettent notamment d’utiliser de manière simplifiée la composante visuelle du dessin pour construire des figures complexes intégrant ce contexte d’une structure relationnelle. Le rendu visuel des dessins de réseaux peut être grandement amélioré par une gestion fine des attributs graphiques classiques tels que la taille, la forme, la couleur, la texture (discrétisations, combinaisons), mais aussi par l’usage 49

Infoclio_2015-livre_DRUCK.indd 49

06.08.15 09:10

approprié des labels de sommets ou de liens, la possibilité de jouer sur la transparence ou sur différentes couches d’objets, ou bien encore l’opportunité d’exporter les images sous des formats graphiques vectoriels ouverts. Ces images profitent aussi de fonctionnalités supplémentaires permettant d’optimiser la représentation sous forme de contraintes intégrées dans les algorithmes ou d’algorithmes de post-traitement (placement des labels, non superposition des informations, gestion de l’ordre d’affichage,…). Cet ensemble de détails visuels désormais maîtrisables contribue à rendre les dessins de réseaux « agréables » et font basculer ces représentations dans la sphère de l’art et du Design 59. Les logiciels actuels sont ainsi devenus de véritables outils de cartographie automatisée de réseaux, capables de manipuler des ensembles complexes de données relationnelles et d’en faire des présentations synthétiques scénarisées. Mais plus encore, ils mettent en œuvre les préceptes de la visualisation interactive de l’information définis par B. Shneiderman 60 : « Overview first, zoom and filter, then details-on-demand ». Du dessin de graphe principalement dédié à la communication, on passe ainsi à la manipulation d’images interactives pour guider le plus efficacement possible l’exploration des réseaux sociaux et de leur contexte. De tels outils et procédures peuvent être appliqués plus généralement à toute structure relationnelle, et de ce point de vue, les dessins de réseaux ont acquis un statut analogue aux graphiques statistiques. Le dessin d’un réseau conserve donc une vraie pertinence en tant que vue générale permettant de se situer et de se déplacer dans la structure relationnelle correspondante. L’efficacité de ce type d’image est plus que jamais recherchée et les algorithmes évoluent en conséquence. Pour améliorer la qualité des représentations et faciliter l’exploration, ces derniers tiennent compte désormais des propriétés de la structure relationnelle et intègrent les contraintes supplémentaires imposées par les exigences de l’interactivité : la rapidité de calcul et la capacité au changement d’échelle (scalability) des algorithmes.

50

Infoclio_2015-livre_DRUCK.indd 50

06.08.15 09:10

Réseaux / Netzwerke

L’évolution des algorithmes : intégration des informations structurelles et approche matricielle L’étude de la structure d’un réseau est aujourd’hui mobilisée de plusieurs façons dans le but de servir efficacement à la production ou à l’exploitation des représentations graphiques. Certains indicateurs structurels peuvent être considérés comme de véritables aides à la lecture d’un dessin de réseau. Il est souvent utile par exemple d’afficher les centralités de proximité ou d’intermédiarité pour repérer plus facilement quelques sommets importants qui organisent de fait la configuration graphique. De même, les algorithmes de recherche de communauté (modularité) peuvent jouer un rôle similaire, d’autant plus s’ils sont couplés à des configurations obtenues par des algorithmes accentuant les symétries (Open Ord dans Gephi, pivot MDS dans Pajek) 61. Les informations structurelles peuvent être directement prises en compte par les algorithmes de dessin de réseau afin d’optimiser la représentation. L’algorithme Kamada-Kawai est efficace et rapide pour calculer une représentation de réseau, mais une de ses faiblesses est qu’il est adapté à un réseau constitué d’un seul morceau (graphe connexe). Si la structure du graphe ne respecte pas cette propriété, les configurations de chacune des composantes connexes sont calculées en référence à l’espace global de référence et sont de ce fait enchevêtrées dans la configuration finale qui les rassemble. Pendant longtemps, le chercheur n’avait d’autre solution que de repérer les composantes à l’aide des algorithmes dédiés et à les séparer manuellement sur le dessin. Désormais, les logiciels proposent – directement ou en option – de dessiner automatiquement chacune des composantes connexes dans des espaces (cases) adaptés à leur taille et dont l’assemblage constitue un dessin de réseau final beaucoup plus lisible. Ce modus operandi est valable pour d’autres propriétés structurelles (détection de sous-ensembles de sommets ou recherche de motifs) 62. Un autre usage des informations structurelles consiste à les prendre comme base pour calcul de la représentation graphique en privilégiant ces contraintes structurelles. Insatisfaite des sociogrammes, M.-L. Northway 63 propose dès 1951 une méthode alternative de représentation des données sociométriques appelée sociogramme en cible. Cette figure de réseaux est organisée selon 4 cercles concentriques déterminés en fonction des quartiles de la distribution des degrés des sommets du graphe (choix sociométriques). Les sommets les plus choisis sont placés au centre de la figure. Ensuite, pour améliorer la clarté du graphique, seuls les liens vers les niveaux les plus élevés sont conservés 64. Certains algorithmes actuels s’inspirent de ce choix de construction comme principe directeur organisant la représentation : les sommets sont assignés dans des « régions » 51

Infoclio_2015-livre_DRUCK.indd 51

06.08.15 09:10

Illustration 9 Configurations d’un réseau générées en tenant compte des différentes mesures de centralité (Source U. Brandes, Note 29, p. 48)

Illustration 10 Une représentation hybride d’un réseau conçue avec NodeTrix. (Source Henry et al. , Note 70, pages annexes)

52

Infoclio_2015-livre_DRUCK.indd 52

06.08.15 09:10

Réseaux / Netzwerke

de la figure en fonction de leur score de centralité et leur placement est ensuite optimisé dans cet espace contraint 65. Un logiciel tel que Visone permet de mettre en œuvre ce type d’algorithmes, en privilégiant notamment la centralité de proximité 66. Un danger demeure toutefois que les indices structurels de l’analyse d’un graphe soient « naturalisés » par leur visualisation, et ne soient plus questionnés en regard des principes de leur construction. D’autres initiatives proposent des solutions alternatives pour représenter des réseaux sociaux. Estimant que les sociogrammes peuvent semer la confusion chez le lecteur dès que le nombre de sommet est grand, Forsyth & Katz 67 lancent un débat sur la visualisation dans la revue Sociometry et introduisent une approche matricielle de la visualisation des réseaux. Il s’agit d’utiliser la matrice d’adjacence en tant que représentation graphique à part entière. Les sociomatrices ont l’avantage de préserver l’ensemble des données et laissent la possibilité de les présenter de manière ordonnée par un simple réarrangement des lignes et des colonnes. De cette manière, « All the information has equal weight, no relation being obscured by raison of unfortuned placing of individuals. ». Si Moreno persiste à penser que les sociogrammes sont plus utiles dès que l’on s’intéresse aux liens indirects et aux structures complexes, il imagine qu’une synthèse des deux formalisations graphiques est possible et serait profitable à tous 68. L’utilisation de tableaux en tant que représentations graphiques a été développée par les travaux de J. Bertin en sémiologie graphique (matricesBertin). Ces pistes sont poursuivies aujourd’hui par J.-D. Fekete et l’équipe Aviz de l’INRIA spécialistes dans la visualisation de l’information et qui dressent un bilan comparatif des deux approches graphiques 69. Ils proposent des procédures permettant d’obtenir des visualisations matricielles efficaces et ont aussi développé des représentations de réseaux hybrides combinant les deux approches graphiques (NodeTrix 70) : un diagramme nœud-liens organise la figure et des matrices remplacent les groupes de sommets fortement connectés (clusters), ce qui permet de visualiser plus efficacement la nature des connections existant à l’intérieur de ces groupes. Plus que la visualisation d’un réseau, l’objectif des outils produits par cette équipe est de permettre la navigation interactive au sein de la structure relationnelle : l’approche matricielle se révèle performante (Matlink), surtout lorsqu’elle se conjugue avec les diagrammes nœud-liens (MatrixExplorer) alors que d’autres applications facilitent l’exploration des données attributaires associées aux réseaux (GraphDice). 53

Infoclio_2015-livre_DRUCK.indd 53

06.08.15 09:10

Conclusion : Visualiser les interactions pour les comprendre Bien qu’elles jalonnent de nombreux travaux sur les réseaux sociaux depuis des décennies, les images de réseaux ont eu du mal à passer d’un statut d’objet quasi-exotique à celui d’une représentation de données à part entière, analogue à un tableau ou à une carte. L’évolution du statut de ces images a été grandement facilitée par l’apparition au début des années 1990 des algorithmes par modèle de force qui ont permis une production en série d’images fondées sur des critères esthétiques et respectueuses d’une conceptualisation relationnelle des phénomènes sociaux. L’application de ces techniques de visualisation à des données relationnelles empiriques a ouvert la voie à une véritable exploration visuelle interactive dont les plus récents logiciels facilitent la mise en œuvre. Débarrassé des contraintes techniques de la production des images et de la manipulation des données, le travail du chercheur peut désormais se concentrer sur les phases de création et de modélisation, ainsi que sur la formulation de questionnements pertinents à soumettre aux données relationnelles – ce qui ne l’exempte pas toutefois d’un apprentissage des outils et d’une connaissance de leurs procédures et postulats. L’interactivité permet de contrôler ce que l’on veut voir de la structure relationnelle et des données qui lui sont associées et, pour paraphraser U. Brandes, il est alors possible de construire des explications à travers la visualisation, sous réserve de respecter les principes de l’excellence graphique 71. Ainsi, les évolutions constatées depuis les premiers dessins manuels ont placé les dessins de réseaux au sein d’un ensemble conceptuel général de visualisation de l’information qui contribue à leur légitimation et à leur contextualisation. À ce titre, les dessins de réseaux sont un des supports efficaces – parmi bien d’autres – pour permettre l’exploration visuelle de l’information contenue dans des données nativement complexes et pluridimensionnelles.

54

Infoclio_2015-livre_DRUCK.indd 54

06.08.15 09:10

Réseaux / Netzwerke

1

2

3

4

5

6

7

8

9

10 11

Linton C. Freeman, Visualizing social networks, in : Journal of Social Structure, 1, 2000. Ce texte a été élaboré à partir de diverses communications : journée d’étude « La représentation graphique des réseaux » (EHESSINED, 2005) et les écoles d’été : « Réseaux sociaux : enjeux, méthodes, perspectives » (CNRS, 2008), « Étudier les réseaux sociaux » (CNRS, 2012) ; « Analyse des réseaux sociaux » (QuantiLille, 2013). Alden S. Klovdahl, A note on images of networks, in : Social Networks, 3, 1981, pp. 197–214. Voir David Knoke, James H. Kuklinski (Eds.), Network analysis (Quantitative applications in the social sciences, 28), Beverly Hills 1982 ; John Scott, Social Network Analysis, London, 1991 ; Alain Degenne, Michel Forsé, Les réseaux sociaux, Paris 1994. Un des premiers programmes dédié à la visualisation des réseaux produit à la fin des années 1980. Cf. http://www.andrew.cmu. edu/user/krack/krackplot.shtml (dernière consultation 2/10/2014). Le Journal of Social Structure (JoSS) est une revue électronique (http://www.cmu.edu/ joss) associée à l’International Network for Social Network Analysis (INSNA). Jim Moody, “Welcome ! An introduction to the JoSS Visualization Symposium 2010”, June 23, 2010. Cf. http://www.cmu.edu/ joss/content/issues/vizsymposium.html (dernière consultation 2/10/2010). Les derniers manuels publiés par la communauté des analystes de réseaux comportent désormais des parties spécifiquement dédiées à la visualisation des réseaux. Cf. John G. Scott, Peter J. Carrington (Eds.), The SAGE handbook of social network analysis, London 2011; Marina Hennig, Ulrik Brandes, Jürgen Pfeffer, Ines Mergel, Studying Social Networks. A Guide to Empirical Research, Frankfurt et New York 2012. Linton C. Freeman, Social network visualization, methods of, in : Robert A. Meyers (Ed.), Encyclopedia of complexity and systems science, New York, 2009, pp. 8345–8363; Nathalie Henry, Jean-Daniel Fekete, Représentations visuelles alternatives pour les réseaux sociaux, in : Réseaux, 26 (152), 2008, pp. 59–92. Manuel Lima, Visual complexity. Mapping patterns of information, New York 2011. Weiwei Cui, A survey on graph visualization, 2010, http://www.citeulike.org/group/1986/ article/8480546 (dernière consultation 2/10/2014) ; Sébastien Heymann, Bénédicte Le Grand, Graph Viz 101. a blog post series on the visual exploration of graphs, http:// linkurio.us/graph-viz-101/ (dernière consultation 2/10/2014) ; Françoise Bahoken, Laurent Beauguitte, Serge Lhomme, La visualisation des réseaux. Principes, enjeux et perspectives, 2013, http://halshs.

12

13 14

15

16 17

18

19

20 21 22

23

24 25

26 27

28

archives-ouvertes.fr/FMR/halshs-00839905 (dernière consultation 2/10/2014). Vladimir Batagelj, Wouter de Nooy, Andrej Mrvar, Exploratory social setwork analysis with Pajek, Cambridge 2005. Pour une revue des outils actuellement utilisés en SHS, voir P. Mercklé, Des logiciels pour l’analyse des réseaux, Quanti-Lille 2013, http://quanti. hypotheses.org/845/ (dernière consultation 27/6/2013). Certains sont apparus au début des années 2000 : Inflow, Netminer, Aisee,… Par exemple, GraphVis. On trouve en France plusieurs outils : Tulip (données relationnelles), Pigale (graphes planaires), et les outils développés par Jean-Daniel Fekete et l’équipe Avis à l’INRIA (MatrixExplorer, NodeTrix, GraphDice). Lothar Krempel, Network visualization, in : John G. Scott, Peter J. Carrington (Eds.), The SAGE handbook of social network analysis, London 2011, pp 558–577. Norbert Elias, Qu’est-ce que la sociologie ?, Paris 1970. Linton C. Freeman, The development of social network analysis: A study in the sociology of science, Vancouver 2004 ; Maurizio Gribaudi (dir.), Espace, temporalités, stratifications, exercices sur les réseaux sociaux, Paris 1998. Par exemple Maurizio Gribaudi, Alain Blum. Des catégories aux liens individuels : l’analyse statistique de l’espace social, in : Annales. Économies, Sociétés, Civilisations, 45, 1990, pp. 1365–1402. Stefan Bornholdt, Heinz Georg Schuster (Ed), Handbook of Graphs and Networks: From the Genome to the Internet, New York 2003. Cf. Mark E. J. Newman, Networks. An introduction, Oxford 2010. Roberto Tamassia (Ed.), Handbook of graph drawing and visualization, London 2013. Jean-Daniel Fekete, Visualiser l’information pour la comprendre vite et bien, in : ADBS éditions (Ed.), L’usager numérique, 2010, pp. 161–194. Jacques Bertin, Sémiologie graphique. Les diagrammes – les réseaux – les cartes, Paris 1967, p. 8. Edward Tufte, The visual display of quantitative information, Cheshire 1983. Jacob L. Moreno, Who Shall Survive ?, Washington, DC 1934. Voir aussi Jacob L. Moreno, Sociogram and sociomatrix. A note to the paper by Forsyth and Katz, in : Sociometry, 9, 1946, 348–349. Cf. Freeman (Note 1). C’est le cas de Structure, produit par R. Burt, qui à cette époque est emblématique de la Structural Network Analysis. Distances euclidiennes, covariances, similarités, dissimilarités…

55

Infoclio_2015-livre_DRUCK.indd 55

06.08.15 09:10

29

30

31

32 33

34 35

36

37

38

39 40

Ulrik Brandes, Layout of graph visualizations, Thèse, Université de Constance, Constance 1999. John F. Padgett, Christopher K. Ansell, Robust action and the rise of the Medici, 1400-1434, in : American Journal of Sociology, 98, 1993, pp. 1259–1319. Malcolm K. Sparrow, The application of network analysis to criminal intelligence. An assessment of the prospects, in : Social Networks, 13, 1991, pp. 251–274. Cf. Bertin (Note 23) et Brandes (Note 29). Cf. Fekete (Note 22). Nous reprenons ici le vocabulaire des informaticiens et théoriciens des graphes qui permet de distinguer clairement ces figures en regard d’autres types de représentation de données relationnelles. Voir aussi Jean-Daniel Fekete, Mohammad Ghoniem (EMN), Mise à jour de l’état de l’art sur les techniques de visualisation pour l’analyse visuelle de phénomènes dynamiques, Nantes 2003. Cf. Bertin (Note 23), p. 269. Corey Kosak, Joe Marks, Stuart Shieber, Automating the layout of network diagrams with specified visual organization, in : IEEE Transactions on Systems, Man and Cybernetics, 24, 1994, 440–454; Chaomei Chen, Information visualization. Beyond the horizon, London 2006. Ulrik Brandes, Drawing on physical analogies, in : Michael Kaufmann, Dorothea Wagner (Eds.), Drawing graphs. Methods and models, Berlin 2025, 2001, 71–86 ; Stephen G. Kobourov, Spring embedders and force directed graph drawing algorithms, 2012. http://arxiv.org/ abs/1201.3011v1 (dernière consultation 2/10/2014). Maurizio Gribaudi, Andrei Mogoutov, Social stratification and complex systems. A model for the analysis of relational data, in : Kevin Schurer, Herman Diederiks (Eds), The use of occupations in historical analysis, Göttingen 1993. Maurin Nadal, Guy Melançon, Dessin de graphe assisté par un algorithme génétique, in : 9ème édition de la conférence MAnifestation des JEunes Chercheurs en Sciences et Technologies de l’Information et de la Communication – MajecSTIC 2012, 2012. Kobourov (Note 33). Vladimir Batagelj. Andrej Mrvar, Pajek Workshop, in : Sunbelt XXIX, San Diego, CA 2009.

41

42

43

44

45

46

47

48 49

50

51 52

53

54

Cathleen McGrath, Jim Blythe, David Krackhardt, The effect of spatial arrangement on judgments and errors in interpreting graphs, in: Social Networks, 19, 1997, p. 223–242. Weidong Huang, Seok-Hee Hong, Peter Eades, Layout effects: comparison of sociogram drawing conventions, Sydney 2006. Ulrik Brandes, Why everyone seems to be using spring embedders for network visualization, and should not. Keynote address, Pacific Visualization Symposium (PacificVis), 2011 IEEE. Pour une revue de ces algorithmes voir Stefan Hachul, Michael Jünger, An experimental comparison of fast algorithms for drawing general large graphs, in : Proc. Graph Drawing, 2006, pp. 235–250. David Harel, Yehuda Koren, Graph drawing by high-dimensional embedding, in : Proc. Graph Drawing, 2002, pp. 207–219. Björn-Olav Dozo, Données biographiques et données relationnelles, in : COnTEXTES, 3, 2008; Duval Julien, «L’analyse des correspondances et la construction des champs, in: Actes de la recherche en sciences sociales, 5, Paris 2013, pp. 110-123. Claire Lemercier, Paul-André Rosental, « Pays » ruraux et découpage de l’espace. Les réseaux migratoires dans la région lilloise au milieu du XIXe siècle. Population, 55, 2000, pp. 691–726. Cf. https://gephi.org/users/publications/ (dernière consultation 2/10/2014). H. Millet, Un réseau international d’ermites et de réformateurs en quête d’une nouvelle spiritualité dans la seconde moitié du XIVe siècle, in : Henri Bresc, Fabrice d’Almeida, JeanMichel Sallmann (Eds.), La circulation des élites européennes. Entre histoire des idées et histoire sociale, Paris 2002, p. 100–122. Mark S. Granovetter, The strength of weak ties, in : The American Journal of Sociology, 78, 1973, pp. 1360–1380; Elizabeth Bott, Urban Families: Conjugal Roles and Social Networks, Human Relations, 1955; 8(4):345. Padgett, Ansell (Note 30). Maurizio Gribaudi, Les discontinuités du social. Un modèle configurationnel, in : Bernard Lepetit (dir.), Les formes de l’expérience. Une autre histoire sociale, Paris 1995. Alain Cottereau, Mokhtar Mohatar Marzok, Une famille andalouse. Ethnocomptabilité d’une économie invisible, Paris 2011. Carola Lipp, Lothar Krempel, Petitions and the social context of political mobilization in the revolution of 1848/49. A microhistorical actor-centred network analysis, in : International Review of Social History, 46, 2001, pp. 151–169; Lothar Krempel, Michael Schnegg, Exposure, networks, and mobilization. The petition movement during the 1848/49 revolution in a German town, 1999, voir : http://www.mpi-fg-koeln.mpg.de/~lk/ netvis/exposure/mobv5.html (dernière consultation 2/10/2014).

56

Infoclio_2015-livre_DRUCK.indd 56

06.08.15 09:10

Réseaux / Netzwerke

55 56

57 58

59 60

61

62

63

64

65 66

67

68

69 70

71

Cf. http://ateliercartographie.wordpress. com/ (dernière consultation 2/10/2014). Gribaudi (Note 17) ; Claire Bidart, Alain Degenne, Michel Grossetti, La vie en réseau. Dynamique des relations sociales, Paris 2011, 356 p. Moody (Note 7). Vladimir Batagelj, Some visualization challenges from SNA. Workshop at GD’ 05, Limerick, Ireland 2005. Lina (Note 10). Ben Shneiderman, The eyes have it. A task by data type taxonomy for information visualizations, in : Proceedings 1996 IEEE Symposium on Visual Languages, 1996, pp. 336–343. Shawn Martin, W. Michael Brown, Richard Klavans, Kevin W. Boyack, OpenOrd. An open-source toolbox for large graph layout, in : Proceedings SPIE Conference on Visualization and Data Analysis (VDA), San Francisco Ariport 2011; Vincent D. Blondel, Jean-Loup Guillaume, Renaud Lambiotte, Etienne Lefebvre, Fast unfolding of communities in large networks, in : Journal of Statistical Mechanics, 2008, P10008. Nadal, Melançon, (Note 35); Ben Shneiderman, Cody Dunne, Interactive network exploration to derive insights: filtering, clustering, grouping, and simplification, in: Proceedings of the 20th international conference on Graph Drawing, Redmond 2013, pp. 2-18. Mary L. Northway, A method for depicting social relationships obtained by sociometric testing, in : Sociometry, 3, 1940, pp. 144–150. À la suite de multiples critiques cette dernière règle sera abandonnée au profit d’une différenciation visuelle des liens permettant de conserver toute l’information relationnelle. Krempel (Note 15). Ulrik Brandes, Jörg Raab, Dorothea Wagner, Exploratory network visualization. Simultaneous display of actor status and connections, in : Journal of Social Structure, 2, 2001. Elaine Forsyth, Leo Katz, A matrix approach to the analysis of sociometric data, in : Sociometry, 9, 1946, pp. 340–347, p. 344. Jacob L. Moreno, Sociogram and sociomatrix. A note to the paper by Forsyth and Katz, in : Sociometry, 9, 1946, pp. 348–349. Henry, Fekete (Note 9). Nathalie Henry, Jean-Daniel Fekete, Michael J. McGuffin, NodeTrix. A hybrid visualization of social networks, in : IEEE Transactions on Visualization and Computer Graphics, 13, 2007, 1302–1309. Ulrik Brandes, Patrick Kenis, Jörg Raab, Explanation through network visualization, in : Methodology. European Journal of Research Methods for the Behavioral and Social Sciences, 2, 2006, pp. 16–23.

57

Infoclio_2015-livre_DRUCK.indd 57

06.08.15 09:10

Infoclio_2015-livre_DRUCK.indd 58

06.08.15 09:10

Réseaux / Netzwerke

Les mondes savants et leur visualisation, de l’Antiquité à aujourd’hui Anthony Andurand, Laurent Jégou, Marion Maisonobe, René Sigrist

59

Infoclio_2015-livre_DRUCK.indd 59

06.08.15 09:10

Abstract

As a social activity dedicated to the production and diffusion of knowledge, science generates over time an extensive amount of material and documentary evidence, which can be analysed to explore the organization and dynamics of various scholarly worlds. The combination of spatial approach with social network analysis thus provides a relevant basis to capture the specific configuration and geography of scientific activities, from Plutarch’s learned banquets to contemporary Web of Science.

60

Infoclio_2015-livre_DRUCK.indd 60

06.08.15 09:10

Réseaux / Netzwerke

La visualisation et le traitement de l’information scientifique ont connu des développements spectaculaires au cours des vingt dernières années. Les figures tracées à la main en 1994 par John F. Padgett et publiées récemment dans la revue REDES rappellent combien est récent le recours systématique à l’informatique pour le traitement de données quantitatives 1. Aujourd’hui, nous disposons de logiciels spécialisés dans l’analyse et la visualisation des données, qui, manipulés avec une certaine expérience, produisent des résultats de grande qualité, tant sur le plan scientifique que sur celui de l’aspect visuel. Cette nouvelle dimension de la recherche pourrait susciter des inquiétudes. Il ne faudrait pas que le passage par la visualisation devienne une coquetterie, mais au contraire qu’il soit un outil de l’analyse et de l’argumentation. Il existe désormais, pour répondre à cette nécessité, des experts en visualisation d’informations. Un exemple : Jean-Daniel Fekete (INRIA) travaille avec des chercheurs de différentes disciplines pour affiner les usages possibles des logiciels et effectuer les meilleurs choix en matière de visualisation des données 2. Ce processus est incontournable quand le volume de données à analyser dépasse l’entendement (on parle alors de big data). L’image offre dans ce cas un moyen de synthétiser l’information en la simplifiant. Visualiser sur un plan en deux dimensions oblige en effet à sacrifier certaines dimensions. Récemment, l’engouement des physiciens, informaticiens et autres spécialistes des systèmes complexes pour les big data a contribué à améliorer la prise en compte simultanée du temps et de l’espace. Ainsi, à titre d’exemple, la modélisation spatio-temporelle est l’objet d’un nombre croissant de thèses (42 thèses ont pour mot-clef « modélisation spatio-temporelle », en France, en 2006–2007, contre 294, en 2011–2012 3). À côté de ces récents progrès, la référence en matière de sémiologie graphique, y compris pour les informaticiens comme Jean-Daniel Fekete, reste Jacques Bertin, cartographe de formation. C’est d’ailleurs un peu grâce à lui que les géographes sont parmi les chercheurs en sciences sociales les plus sensibilisés aux questions de visualisation. Les géographes s’intéressent d’autant plus à la géo-visualisation qu’il existe de nouveaux moyens informatiques adaptés à leurs besoins, au sein d’un domaine de recherche à part entière, qui propose des méthodes de représentation efficaces et innovantes 4. Aussi l’intérêt pour la visualisation touche-t-il maintenant d’autres sciences sociales. Avec le tournant quantitatif en sociologie et en histoire, et le développement de logiciels d’analyse de réseaux, l’intérêt pour la visualisation des données dans ces disciplines a gagné en importance 5. L’analyse des réseaux et son pendant mathématique, la théorie des graphes, sont des domaines de recherche qui permettent de scruter des données relationnelles. Puisque nous y avons recours dans les pages qui suivent pour appréhender des communautés savantes, nous en proposons d’emblée une brève définition. 61

Infoclio_2015-livre_DRUCK.indd 61

06.08.15 09:10

Les tenants de l’analyse de réseau appellent « réseaux » les graphes produits à partir des données du monde réel. En mathématiques, un graphe est un ensemble de points qui peuvent être reliés entre eux. Un graphe admet plusieurs types de représentations parmi lesquelles la représentation matricielle et le diagramme nœuds-liens. Ce dernier est le mode de visualisation privilégié par les analystes de réseaux. Les lignes symbolisent alors les relations. Elles sont plus ou moins épaisses, orientées ou non au moyen d’une flèche, et relient entre eux des points qui symbolisent les unités de base de l’analyse : cas, éléments ou individus. Le graphe est un objet mathématique. Le chercheur qui juge intéressant d’extraire un graphe à partir des données relationnelles dont il dispose postule que la structure du phénomène capturé par ses données peut le renseigner sur la nature de ce phénomène. En ce sens, rien n’oblige à ce que les points du diagramme ou « nœuds » soient des individus, et les lignes ou « liens », la matérialisation des rapports interpersonnels qu’ils partagent à un temps donné. Au contraire, les graphes sont utilisés dans un grand nombre de disciplines différentes, pour analyser une pluralité de phénomènes. Aussi, quand on choisit de se focaliser sur la dimension temporelle d’un phénomène, est-il tout à fait permis de définir un graphe qui, à rebours de ceux auxquels on est habitué, décrit les relations entre des événements dans le temps ou bien des changements d’état 6. Le phénomène qui a mobilisé notre attention dans cet article est celui des communautés savantes. À divers moments de l’histoire, on repère des traces de communications et de relations entre les détenteurs de savoir. Celles-ci peuvent être analysées et interprétées comme révélateurs des « mondes savants ». On désigne par « mondes savants » les espaces où s’organisent la production et la circulation des idées, des savoirs et des savoir-faire scientifiques. Cette organisation n’étant pas gravée dans le marbre, l’image d’un « collège invisible » a été suggérée pour la désigner. Cette formulation, dont les premières occurrences remontent au XVIIe siècle 7 a été remise au goût du jour par Diana Crane dans les années 1970 ; elle est régulièrement mobilisée aujourd’hui pour faire référence à la globalisation de l’activité scientifique. Caroline Wagner, notamment, l’utilise dans son récent ouvrage The New Invisible College, où elle défend l’idée d’une certaine autonomisation du chercheur vis-à-vis des cadres institutionnels traditionnels que sont les États 8. Son raisonnement s’appuie sur l’hypothèse que les savants du XVIIe siècle s’associeraient librement, de façon informelle, à une époque où le niveau d’institutionnalisation de l’activité scientifique était limité. Une telle lecture des faits mériterait d’être approfondie, de même que le postulat selon lequel le monde scientifique contemporain se rapprocherait de cet état 9. Mais tel n’est pas ici le propos. En travaillant sur des corpus de données issus de trois 62

Infoclio_2015-livre_DRUCK.indd 62

06.08.15 09:10

Réseaux / Netzwerke

époques différentes, nous souhaitons rendre compte de trois mondes scientifiques à géométrie variable, préciser leur organisation spatiale et en repérer les logiques, y compris institutionnelles. Pour chaque jeu de données, on expliquera les choix opérés et la démarche adoptée pour produire une visualisation évocatrice du phénomène étudié. L’objectif final est de mettre en regard trois photographies de mondes savants prises à des moments très éloignés les uns des autres dans l’histoire, en faisant le pari que la visualisation comparée fournira un surcroît d’intelligibilité au niveau heuristique et herméneutique. Ajoutons encore quelques mots sur l’utilité de la carte et du diagramme nœud-liens pour représenter les informations disponibles. Aux trois époques considérées, l’activité savante est localisable, d’où le recours à la cartographie. Par ailleurs, chaque chercheur disposant d’informations relationnelles dans son corpus de travail, un mode de visualisation non spatialisé des relations peut également se justifier. Pour analyser la structure ou l’organisation d’un monde, la visualisation cartographique, qui tient compte de la distance physique entre lieux dans l’espace géographique, n’est pas la seule qui soit digne d’intérêt 10. L’intensité de la relation entre les lieux ou les individus peut aussi servir de métrique pour la représentation. C’est justement ce que permet de réaliser le diagramme nœuds-liens en donnant une image simplifiée de la structure relationnelle étudiée. Pour résumer, avec les cartes, on se propose de comparer la répartition spatiale de l’activité savante à trois époques différentes et avec les diagrammes nœuds-liens, d’analyser l’organisation de l’activité savante aux trois époques envisagées 11.

63

Infoclio_2015-livre_DRUCK.indd 63

06.08.15 09:10

Le monde plutarquéen des banquets savants : essai d’approche spatiale Quelle place et quel rôle les réseaux culturels de l’hellénisme occupent-ils dans la formation d’un Empire « gréco-romain », cette première expérience de globalisation que Paul Veyne a définie comme « fait de culture grecque et de pouvoir romain 12 » ? Dans quelle mesure l’héritage et les traditions helléniques participent-ils de l’épanouissement, sous l’autorité de Rome et à l’échelle de la Méditerranée, d’une koinè culturelle, envisagée comme le langage commun des milieux lettrés et des cultures de l’Empire ? Pour interroger, sur le terrain des mondes savants, l’impact de ces phénomènes, le parcours et l’œuvre de Plutarque (ca. 46–125 ap. J.-C.) constituent un champ d’investigation privilégié. Par ses écrits autant que par sa pratique d’érudit et de notable, le philosophe apparaît comme le témoin et l’artisan de la rencontre entre Rome et l’hellénisme, et de l’unité de civilisation dont elle est porteuse aux Ier et IIe siècles ap. J.-C. L’itinéraire de ce savant, grec de naissance et de culture, est directement lié au destin de Rome, et s’inscrit dans cet espace mobile et ouvert que forme l’empire des Flaviens et des Antonins. Si Plutarque demeure toute sa vie attaché à sa patrie de Chéronée, où il choisit de résider « afin qu’elle ne devienne pas plus petite encore » (Vie de Démosthène, II.2), son activité d’érudit et les responsabilités politiques dont il assume la charge l’amènent à fréquenter, dès sa prime jeunesse, les hauts-lieux de l’hellénisme (Corinthe, Athènes, Delphes) et les grands centres culturels de l’Empire (Alexandrie, Asie Mineure). Il intègre également, lors de séjours romains, les cercles les plus proches du pouvoir impérial. Son parcours et son œuvre se situent ainsi à la croisée de l’hellénisme, dont le philosophe s’applique à entretenir la mémoire vivante et la prééminence, et de la collaboration active à la paix romaine. Ils témoignent, dans le même temps, d’une intense activité savante et sociale, nourrie par « la vie intellectuelle de l’Empire entier 13 » et inscrite dans les cercles de sociabilité, lettrés et politiques, de son temps. De cet aspect de l’activité du philosophe rendent compte, mieux qu’aucune autre œuvre du corpus plutarquéen, les Propos de table (Sumposiaka). Rédigé dans les premières années du IIe siècle ap. J.-C., ce texte se présente comme un recueil de souvenirs, composé à la demande d’un ami romain, Sosius Sénécion, dédicataire de l’œuvre. Les Propos de table se proposent, selon le programme esquissé dans le prologue initial, de consigner par écrit « toutes les discussions qui ont pu avoir lieu tant chez vous autres à Rome que chez nous en Grèce, quand les tables étaient dressées et quand les coupes circulaient » (612E). Profondément imprégnée des pratiques culturelles et des traditions littéraires liées à la sphère du banquet, cette œuvre, par ailleurs – et c’est là tout son intérêt dans la perspective d’une histoire de la sociabilité et des réseaux savants 64

Infoclio_2015-livre_DRUCK.indd 64

06.08.15 09:10

Réseaux / Netzwerke

de l’époque impériale –, puise directement son inspiration dans l’expérience de l’auteur. De façon plus riche et plus vivante encore que d’autres textes du corpus plutarquéen, les Propos de table mettent en scène les personnages qui composent le « cercle 14 » de Plutarque, ce groupe de familiers, de philosophes, d’artistes, de notables et de hauts dignitaires de l’Empire, se réunissant à l’occasion de moments de convivialité, à la manière d’une « petite université où tous se sentent à l’aise 15 ». Si l’évocation de ces réunions, dans une atmosphère intimiste et chaleureuse, placée sous le signe de la « mise en commun » (koinônia) des savoirs et des plaisirs, s’appuie, pour une part difficile à évaluer, sur la mémoire de l’auteur – on sait notamment que Plutarque conservait soigneusement des notes (hupomnêmata) de ses échanges et de ses lectures –, elle n’exclut aucunement, loin s’en faut, le recours aux stratégies et aux procédés de la fiction. Puisant dans l’imagination livresque et encyclopédique du philosophe, la mise en récit des banquets et des conversations cultivées auxquels ils donnent lieu fait des Propos de table une véritable polyphonie savante, où la distribution des rôles et de la parole, l’agencement des questions et des réponses, la circulation des savoirs et des traditions sont réglés par une habile scénographie. Le monde plutarquéen des banquets savants, dont la carte 1 entend proposer une vue synoptique, forme, pour ainsi dire, un « petit monde ». Il fait intervenir 89 individus se réunissant, à intervalles réguliers et par petits comités, lors de 56 banquets donnés dans plusieurs cités de ce qui forme alors la province d’Achaïe 16. Les recherches prosopographiques 17 menées dans le champ des études plutarquéennes ont permis d’affiner la connaissance des personnages mis en scène dans les Propos de table (confirmant ainsi, dans bien des cas, la fiabilité de l’information transmise dans cette œuvre). Si, pour 23 d’entre eux, connus par leur seule présence dans le texte plutarquéen, les éléments biographiques dont dispose l’historien se résument à un nom, 66 peuvent être rattachés à une cité ou, à défaut, à une région 18. Ce travail de localisation des personnages permet un premier niveau d’agrégation des données : la surface des points identifiés sur la carte est proportionnelle au nombre d’individus par lesquels la cité ou région concernée est représentée dans les Propos de table. La représentation des données relatives aux banquets obéit à une même logique : si l’absence totale ou l’insuffisance, dans l’œuvre, d’éléments de contextualisation ne permettent pas d’établir avec assurance la localisation de 25 réunions, 31 d’entre elles peuvent en revanche être placées sur une carte.

65

Infoclio_2015-livre_DRUCK.indd 65

06.08.15 09:10

66

Infoclio_2015-livre_DRUCK.indd 66

06.08.15 09:10

Conception : Anthony Andurand, réalisation : Laurent Jégou

0

8 6 1

Régions hors de l’Empire romain sous Trajan

2 1

18 12

Rome

Étrurie

500

Carthage

Milan

Personnages Banquets

Arles

Lyon

1 000 Km

Leptis Magna

Thasos

Sparte

Cyrène

Hyampolis Thermopyles Aidepsos Hypata Nicopolis Chéronée Céphise Coronée Tithorée Thespies Delphes Patras Athènes Sicyone Corinthe Éleusis Élis

Thessalie

Macédoine

r

anée

Alexandrie

r Mer Médite

xin

Ancyre

-Eu

Prousias Nicée

Smyrne Éphèse Tralles

Pergame

Byzance

nt Po

Chypre Tyr

Jérusalem

Palmyre

Antioche

Réseaux / Netzwerke

EUTHYDEMOS

NICIAS MESTRIUS FLORUS

VII.2

VII.1

PLUTARQUE

PATROCLEAS

PROTOGENES

Conception et réalisation : Anthony Andurand

Graphe 1

NICIAS

PROTOGENES 1

1

1

PLUTARQUE

1

1

MESTRIUS FLORUS

2

1

1

PATROCLEAS

Conception et réalisation : Anthony Andurand

1

1

1

EUTHYDEMOS

Graphe 2

← Carte 1 Répartition géographique des personnages et des banquets

Graphe 1 Réseau bipartite de fréquentation (banquets VII.2 et VII.1)

Graphe 2 Réseau unipartite de fréquentation (banquets VII. 1 et VII.2)

67

Infoclio_2015-livre_DRUCK.indd 67

06.08.15 09:10

Élis

Coronée Chéronée

Athènes

Macédoine Tithorée

54

Étrurie

18

Nicée

6 10

1

1 Co-présences aux banquets

Participants Conception : Anthony Andurand, réalisation : Marion Maisonobe

Graphe 3 Réseau de fréquentation des cités

Co-présences aux banquets

d

31 10 1 Personnages 18 6 1

Plutarque Épire/Thessalie*

Macédoine

Peloponnèse* Étrurie

Chéronée

Conception : Anthony Andurand, réalisation : Marion Maisonobe

Graphe 4 Réseau de fréquentation des cités et groupes régionaux

68

Infoclio_2015-livre_DRUCK.indd 68

06.08.15 09:10

Réseaux / Netzwerke

Comment ressaisir et représenter, pour éclairer cette répartition géographique, les dynamiques relationnelles qui structurent, dans la trame narrative des Propos de table, l’univers plutarquéen des banquets savants ? Pour ce faire, nous nous proposons de mobiliser les outils de modélisation et de visualisation propres à l’analyse des réseaux sociaux. Abordés sous l’angle des lieux ou des personnages qu’ils mettent en relation, les récits de banquets réunis dans les neuf livres des Propos de table permettent en effet de construire, selon le critère retenu, plusieurs réseaux de convivialité 19. Nous avons choisi de nous intéresser ici, dans une démarche attentive aux logiques spatiales qu’il dessine, au réseau de fréquentation décrit par l’œuvre plutarquéenne. L’élaboration de ce réseau s’effectue en plusieurs moments. La première étape consiste à associer chacun des personnages au(x) banquet(s) au(x)quel(s) il prend part, selon la logique décrite sur le graphe 1 pour les deux premiers banquets du livre VII. L’opération est répétée pour l’ensemble des banquets, afin d’obtenir un réseau bipartite (two-mode network) complet. La deuxième opération consiste à transformer ce réseau bipartite en un réseau unipartite (one-mode network). Le réseau ainsi obtenu, dont la logique est illustrée par le graphe 2, n’associe plus désormais que des personnages, reliés par ce que nous proposons d’appeler des liens de « co-présence » : deux personnages sont reliés s’ils participent à un même banquet ; la valeur du lien qui les unit correspond au nombre de co-présences enregistrées pour l’ensemble des banquets. L’étape suivante vise à intégrer dans le réseau de fréquentation les données liées à la localisation des personnages. La représentation qui en résulte (graphe 3) décrit les liens de co-présence qui unissent les cités ou régions auxquelles les personnages ont été associés sur la carte 1. La surface des sommets est proportionnelle au nombre de personnages par lequel chaque cité ou région est représentée dans les Propos de table. La valeur du lien qui unit deux sommets correspond au nombre cumulé de co-présences enregistrées, pour l’ensemble des banquets, entre deux personnages appartenant aux cités ou régions concernées. Les données liées aux personnages dont la cité ou région d’origine n’est pas connue ne sont pas prises en compte. Attentif aux relations qui unissent les différents cercles de sociabilité présents dans les Propos de table, nous n’avons pas inclus dans ce graphe les « boucles », c’est-à-dire les liens de co-présence qui concernent deux personnages issus d’une même cité ou région 20. Le jeu des couleurs, enfin, permet d’identifier le groupe régional auquel il est possible de rattacher certains sommets, en vue de l’agrégation des données. 69

Infoclio_2015-livre_DRUCK.indd 69

06.08.15 09:10

Le dernier graphe (graphe 4) vise à affiner la représentation, au moyen de deux opérations. Les sommets associés à un même groupe régional sur le précédent graphe ont été réunis. Le personnage de Plutarque, par ailleurs, comme narrateur de l’œuvre et seul personnage à prendre part à l’ensemble des banquets, a été extrait du cercle chéronéen pour constituer un sommet à part entière, dans le but de faire apparaître les liens de co-présence qu’il partage avec les différents groupes intervenant dans les Propos de table. Les graphes 3 et 4, que l’on mettra en regard de la carte 1, offrent ainsi une visualisation synthétique des logiques spatiales qui structurent l’univers plutarquéen des banquets savants, tel qu’il s’inscrit, à travers le regard et les choix d’énonciation du philosophe, dans la matière textuelle des Propos de table. Ces représentations sont destinées à en éclairer l’organisation, en termes de répartition géographique et de dynamiques relationnelles. Quels sont les principaux enseignements que l’on peut en tirer ? La communauté savante mise en scène dans l’œuvre de Plutarque évolue dans un monde à la fois ouvert sur les différentes régions de l’Empire romain, de l’Asie Mineure à l’Afrique du Nord 21, et profondément enraciné dans le microcosme des cités d’Achaïe. Sur cette toile de fond, qui articule le très local à un horizon plus vaste, deux groupes se détachent nettement : réunis par de forts liens de fréquentation 22, le cercle chéronéen, essentiellement formé par les familiers et les disciples de Plutarque, et le cercle athénien, plus « intellectuel » dans sa composition, se présentent comme les pôles structurants de l’espace de sociabilité configuré dans les Propos de table. De ces deux groupes, cependant, seul le premier étend significativement ses relations à l’ensemble régional formé par les cités de Grèce centrale, au sein duquel Delphes, aux côtés de cités comme Tithorée ou Coronée, occupe une place de premier plan. La cité de Corinthe, centre administratif de la province d’Achaïe, semble en revanche quelque peu en retrait. Fort cohésif, ce premier cercle de la sociabilité plutarquéenne, centré sur la région comprise entre Athènes et les Thermopyles, intègre partiellement dans son réseau de convivialité d’autres composantes des mondes grecs, comme les cités d’Asie Mineure, du Péloponnèse ou les régions situées au nord de la Grèce (Épire, Thessalie, Macédoine). Plus ponctuellement représentées dans les Propos de table, les cités ou régions situées dans la partie occidentale de l’Empire romain (Carthage, Leptis Magna, Arles, Étrurie) ne s’insèrent que marginalement – et, dans la plupart des cas, par l’intermédiaire de Plutarque – dans la société grecque des banquets savants, et semblent davantage tournées vers Rome 23. Dans 70

Infoclio_2015-livre_DRUCK.indd 70

06.08.15 09:10

Réseaux / Netzwerke

cette configuration, enfin, l’Urbs, centre du pouvoir politique, occupe une position singulière : par ses fréquentations et malgré l’éloignement géographique, le groupe romain est comme intégré dans les réseaux culturels de l’hellénisme 24, dont les références, les codes et les pratiques façonnent le modèle élaboré dans les Propos de table. Ce sont les dynamiques de cette mise en scène littéraire, précisément, que l’exercice de formalisation réalisé dans cette présentation vise à explorer. Les supports de visualisation qu’il mobilise, par conséquent, ne peuvent être conçus que comme un outil, au service de la compréhension de l’œuvre plutarquéenne et du contexte historique dans lequel elle s’insère. Si une telle démarche permet d’approcher le fonctionnement des cercles de sociabilité qui composent le microcosme plutarquéen, elle soulève, dans le même temps, la question de l’écart qui sépare la configuration effective de ces réseaux et leur représentation dans le champ littéraire. Elle invite donc à interroger, à partir d’autres éclairages documentaires (correspondances, recueils biographiques, témoignages autobiographiques) et dans d’autres contextes, les stratégies et les traditions qui sous-tendent, dans l’Empire des premiers siècles de notre ère, l’écriture de la sociabilité et des relations savantes.

Les communautés de chimistes de la période 1810–1860 Le deuxième champ à partir duquel nous nous proposons d’aborder les questionnements liés à la visualisation des mondes savants et de leurs modes de structuration est celui de la chimie européenne du XIXe siècle. Comme discipline, la chimie est une quête relativement ancienne. Faut-il remonter à l’Alchemia d’Andreas Libavius (1597), premier traité moderne de chimie ? Ou invoquer Paracelse (1493–1541), l’inventeur du terme même de chimie ? Quoi qu’il en soit, la nécessité de classer les ouvrages relatifs à cette science a facilité l’identification de la discipline, dans et en dehors des bibliothèques. Aucune nécessité semblable n’existant pour le chimiste, il est plus difficile encore de dire quand celui-ci a véritablement acquis droit de cité. Pendant longtemps, la pratique de la chimie fut d’ailleurs une affaire de médecins et de pharmaciens, ou alors d’« artistes », ingénieurs des mines, métallurgistes, essayeurs, teinturiers, verriers, « distillateurs », ou encore potiers. C’est sans doute au cours du XVIIe siècle, en marge de la « Révolution scientifique », qu’apparaît le terme de « savant chymiste » qui, contrairement à l’alchimiste, ne fait pas mystère de son savoir et s’efforce de fonder ses spéculations sur des observations et des expériences. Quelques-uns de ces savants trouvent bientôt à s’employer au Jardin du Roi à Paris, ou dans des manufactures de 71

Infoclio_2015-livre_DRUCK.indd 71

06.08.15 09:10

glaces et de porcelaine allemandes. D’autres figurent parmi les premiers membres de l’Académie des sciences de Paris, fondée en 1666. Lors de sa réorganisation en 1699, cette académie réserve même l’une de ses six sections aux chimistes. Mais cela ne les distingue guère du reste de la corporation des académiciens, qui dans certains pays intègre même des hommes de lettres, principalement des érudits et des représentants des sciences morales et politiques 25. Tout au long du XVIIIe siècle, le chimiste demeure un technicien, célébré par l’Encyclopédie, à moins qu’il ne s’identifie, à l’exemple de Lavoisier, au savant académicien, au « learned gentleman », au « Gelehrter » et finalement à tous les individus qui se reconnaissent dans l’idéal de libre collaboration de la République des lettres. En tant que spécialiste de l’étude de la matière, il n’acquiert une identité propre que dans le dernier quart du siècle, lorsque se généralise l’usage du substantif « chimiste », en même temps d’ailleurs que ceux de naturaliste, physicien ou botaniste 26. Au-delà du cas particulier des chimistes, ces incertitudes terminologiques traduisent la difficulté éprouvée par les contemporains à se représenter la communauté des savants, dans son ensemble d’ailleurs aussi bien que dans ses différentes subdivisions 27. L’historien peut-il être plus précis ? Les outils cartographiques et informatiques dont il dispose, et qui lui permettent de développer des analyses de réseaux, sont-ils en mesure de décrire l’émergence des communautés de chimistes des XVIIIe et XIXe siècles, et d’en caractériser la structure ? C’est ce que nous allons voir.

Les premiers chimistes modernes (1700–1890) : définition d’un corpus Il n’y a guère que trois manières d’esquisser les contours de la communauté naissante des chimistes, comme de n’importe quelle autre communauté savante : s’appuyer sur l’opinion des contemporains, sur celle des historiens ou sur une combinaison des deux. L’opinion des contemporains s’est sans doute le mieux exprimée à travers les élections académiques, celle des historiens à travers les dictionnaires et les index biographiques. Dans chaque cas, la pertinence du critère de sélection dépendra de sa capacité à produire un échantillon représentatif, mais aussi analysable sur la base de documents accessibles. Déjà utilisé dans les années 1870 et 1880 par Alphonse de Candolle 28, l’un des pionniers de la sociologie des sciences, le critère académique se justifie à la fois par l’importance du mouvement académique dans le développement de la science occidentale du XVIIIe siècle 29 et par la persistance de ce système comme mode de reconnaissance des mérites scientifiques au cours du XIXe. Nous avons montré, dans un précédent article, qu’un 72

Infoclio_2015-livre_DRUCK.indd 72

06.08.15 09:10

Réseaux / Netzwerke

recensement des savants affiliés aux six principales académies de l’époque (Londres, Paris, Berlin, Saint-Pétersbourg, Stockholm, Bologne) donnait une image assez fidèle des forces vives de la science européenne de la fin du XVIIIe siècle 30. Ce résultat n’est guère surprenant dans la mesure où les grandes académies du XVIIIe siècle étaient effectivement les véritables foyers du progrès scientifique et de la collaboration entre chercheurs, à une époque où les universités, prioritairement chargées de transmettre une vision cohérente du monde, demeuraient soumises à des contrôles religieux. C’est d’ailleurs en grande partie au sein des académies, et particulièrement des grandes académies royales, que s’est forgée l’identité sociale du savant. Chaque État, voire chaque province digne de ce nom, se devait alors d’avoir son académie 31. La forme prise par celle-ci était néanmoins différente dans les monarchies absolues (France, Prusse, Russie), dans les monarchies tempérées (Grande-Bretagne, Suède) ou les républiques (Pays-Bas), ou encore dans les États dotés d’une université de premier plan (Bologne dans les États du pape, Göttingen dans le Hanovre). La difficulté pratique ne réside donc pas dans le choix des académies les plus représentatives, qui est relativement facile à déterminer 32, mais dans l’élimination des non-scientifiques dans les académies où cette distinction n’existe pas, en particulier à la Royal Society de Londres. Une autre consiste à discriminer les savants dont la chimie constituait l’activité principale de ceux pour qui elle ne représentait qu’une activité secondaire. Les registres d’académies et les index historiques nous ont finalement permis d’établir une liste de 443 chimistes académiciens actifs entre 1700 et 1890, et nés en l’occurrence avant 1851. L’autre critère, celui du jugement historique, est trop restrictif si l’on s’en tient à des registres de notabilité, tels que le Dictionary of Scientific Biography (DSB en abrégé) 33. Il est trop large s’il inclut tous les auteurs d’articles scientifiques, car une grande partie de ces chercheurs occasionnels ne peut être documentée à travers des sources accessibles. Une voie de compromis consiste donc à sélectionner les savants qui ont publié au moins un ouvrage ou une série d’articles, de manière à figurer dans A Historical Catalogue of Scientists and Scientific Books de Robert M. Gascoigne (1984) 34. 1106 chimistes de la période qui nous intéresse se trouvent dans ce cas. La combinaison des deux critères produit un corpus de 1356 chimistes, dont seuls 250 ne figurent pas dans le Catalogue de Gascoigne. Ces savants académiciens non reconnus par la postérité en tant qu’auteurs sont néanmoins importants à prendre en compte. Il s’agit effet de secrétaires d’académies, d’éditeurs, de mécènes et d’hommes de lettres qui effectuaient de nombreuses tâches importantes pour la collectivité savante de leur époque, telles que l’envoi d’observations inédites, la 73

Infoclio_2015-livre_DRUCK.indd 73

06.08.15 09:10

répétition d’expériences, la transmission d’informations et la critique de résultats ou de théories, l’édition d’ouvrages, la fourniture d’instruments, le financement de recherches ou encore l’hébergement de collègues. L’importance de ces tâches qui, au XVIIIe siècle, n’étaient prises en charge par aucune institution adéquate, justifiait l’intégration de ces individus dans les cercles académiques. Et de fait, ces « hommes de réseaux » étaient fréquemment au cœur des échanges, notamment épistolaires, entre savants. On notera pour terminer que notre combinaison de critères produit une liste de chimistes germaniques du XVIIIe siècle qui, avec 63 noms sur 65, coïncide remarquablement bien avec celle établie par Karl Hufbauer sur la base de 82 témoignages historiques différents 35 !

Une constellation complexe d’acteurs Même en ne considérant que les chimistes spécialisés, soit ceux dont la chimie fut en quelque sorte l’activité principale, il apparaît immédiatement qu’un petit nombre d’entre eux était l’auteur de l’essentiel des publications, et sans doute des « découvertes », tandis qu’une grande majorité a peu publié. De la même manière, quelques chimistes cumulèrent les affiliations académiques alors que la plupart n’en ont eu qu’une ou même pas du tout. Il y a manifestement des degrés d’implication, et de réussite, fort différents dans l’entreprise chimique, comme d’ailleurs dans toute forme de recherche. Lorsqu’il fit l’inventaire de sa « République astronomique », à la fin des années 1770, Jean III Bernoulli y distingua pas moins de 14 catégories différentes d’acteurs, depuis les « observateurs ordinaires » et les « calculateurs laborieux » jusqu’aux « astronomes mathématiciens » et « à la classe la plus sublime d’astronomes, celle du petit nombre des esprits supérieurs » 36. La communauté des chimistes était probablement moins complexe dans sa structure, mais sans doute plus diversifiée encore dans ses orientations thématiques. Elle avait naturellement ses amateurs, ses pratiquants occasionnels, ses dilettantes aussi bien que ses spécialistes ou ses génies. Toute analyse formelle est nécessairement réductrice. Encore faut-il trouver un moyen de la fonder. Le nombre de publications n’offre pas de solution pratique, du fait de la complexité du système en vigueur à l’époque 37. Même un registre comme celui de Poggendorff (1873), d’ailleurs germano-centré, n’est guère utilisable en raison de l’impossibilité de comparer les types de publications et de discriminer celles qui relèvent à proprement parler de la chimie. En revanche, le nombre d’affiliations aux grandes académies est facile à établir, de même que la présence dans les dictionnaires historiques les plus universels tels que DSB ou le Macmillan Dictionary of the History of Science (1981) 38. 74

Infoclio_2015-livre_DRUCK.indd 74

06.08.15 09:10

Réseaux / Netzwerke

Une option minimale consiste à répartir nos chimistes en deux catégories A et B, que nous appellerons, faute de mieux, les savants de premier et de second plan, ou de façon plus directe encore les grands et les petits savants 39. Peut être considéré comme grand savant (savant A) tout individu faisant l’objet d’une notice dans le Dictionary of Scientific Biography, ou qui aurait été affilié à deux au moins des six académies savantes mentionnées ci-dessus. Pour l’ensemble des chimistes de la période 1700–1890, cela représente 351 individus. Les autres (savants B) ne sont affiliés au mieux qu’à une académie ou figurent tout simplement dans le Catalogue de Gascoigne. Ils sont au nombre de 1014. Mais la catégorie A se prête encore à des subdivisions plus fines, fondées sur des critères quantitatifs qui traduisent une accumulation d’appréciations intersubjectives. En pratique, ces critères combinent le nombre d’affiliations académiques (qui témoignent de la réputation auprès des contemporains), avec l’inclusion dans le DSB et l’index du Macmillan Dictionary, censés exprimer le jugement de la postérité. Concrètement, cela donne : 1° Une élite de 29 chimistes de tout premier plan (A++), qui figurent dans le DSB et le Macmillan tout en étant affiliés à 4 académies au moins, ou figurent seulement dans le DSB en étant affiliés à 5 académies au moins 40. 2° Un groupe de 68 chimistes d’importance majeure (A+), qui soit figurent dans le DSB et le Macmillan, soit figurent dans le DSB tout en étant affiliés à 3 académies, soit étaient affiliés à 4 académies indépendamment de tout autre critère 41. 3° Un groupe de 254 chimistes d’importance moyenne (A– ), qui figurent simplement dans le DSB ou étaient affiliés à 2 académies. Ces distinctions trouvent tout leur intérêt lorsqu’il s’agit de déterminer l’importance des activités scientifiques des individus en l’absence d’inventaire fiable de leurs publications.

75

Infoclio_2015-livre_DRUCK.indd 75

06.08.15 09:10

Infoclio_2015-livre_DRUCK.indd 76

Reste du monde

Reste du monde Reste du monde

Royaume du Portugal

États-Unis

Hors-europe

Conception : René Sigrist, réalisation : Laurent Jégou

76

États-Unis

Hors-europe

Carte 2 Lieux d’activité des principaux chimistes européens de la période 1810–1860 (les frontières indiquées sont celles de 1830)

06.08.15 09:10

Royaume d’Espagne

Madrid

Alger

Pays Bas

Lyon

Turin

Berlin

Florence

Munich

Roy. de Sardaigne

0

Rome

500

Royaume des Deux-Siciles

Naples

Vienne

Budapest

Mt

Serbie

Empire d’Autriche

Graz

Prague

Mittau

Pologne

Königsberg

Stockholm

Breslau

Prusse

États de l’Église

Bavière

Saxe

Toscane

Milan

Zurich

Suisse

Roy. de Sardaigne

Genève

Hdlbg.

Giessen

Kiel

Copenhague

Roy. de Danemark

Belgique

Toulouse Montpellier

Bordeaux

Paris

Royaume de France

Londres

Edimbourg

Royaume Manchester de Grande-Bretagne et d’Irlande

Dublin

Glasgow

Royaume de Suède

Oslo

Valachie

1 000 km

Grèce

Athènes

Empire Ottoman

Moscou

Kharkov

1810-1860 233 113 57 10 1

Empire de Russie

Moldavie

St Petersbourg

Réseaux / Netzwerke

Localisation d’une communauté de chercheurs (1810–1860) Faute de place, nous limiterons désormais nos investigations aux acteurs de la période 1810–1860, autrement dit à la cohorte des chimistes nés entre 1771 et 1820. La façon dont elle a pu s’articuler en communautés locales et nationales sera d’abord examinée à travers la localisation cartographique de ses acteurs, puis à travers une analyse de leurs principaux liens de coopération. On peut supposer qu’à défaut de documentation adéquate, la proximité géographique de spécialistes d’un même domaine, qui appartiennent de plus à une même cohorte, offre une indication sur leur potentiel de collaboration, surtout à une époque où la mobilité des chercheurs reste assez limitée. Pour établir cette cartographie de la recherche, nous avons aussi pris le parti de tenir compte de l’importance relative des chercheurs, afin de faciliter l’identification des principaux centres. Les chimistes du groupe A++ ont ainsi été affectés d’un coefficient 8, à répartir entre leurs résidences successives, évidemment selon la durée de chacune d’entre elles. Un coefficient de 6 a été attribué aux chimistes du groupe A+, un de 4 aux chimistes du groupe A– et un de 2 aux membres de la catégorie B. Les données biographiques nécessaires à cette enquête ont été extraites d’une multitude de sources imprimées, en particulier du DSB, du WBIS 42 ainsi que d’une dizaine de dictionnaires nationaux de biographie. La carte 2, qui localise les chimistes de la période 1810–1860, ne prend en réalité tout son sens qu’à travers une comparaison avec la période qui précède – celle de la « Révolution chimique » – ou avec celle qui suit, marquée par le grand essor de la chimie industrielle. De telles comparaisons permettraient de mesurer les dynamiques des différentes communautés nationales, et surtout les nombreuses évolutions à l’intérieur même des États ou des nations, en particulier les changements de centres dominants, les concentrations ou les déconcentrations, ainsi que d’autres évolutions plus inattendues. D’une manière purement statique, cette carte montre néanmoins la concentration de la chimie française sur Paris, la relative concentration de la chimie britannique sur Londres, et au contraire l’extrême déconcentration de la chimie allemande, ou italienne. Une lecture ville par ville révèle la prééminence maintenue des anciennes métropoles académiques (Paris, Londres, Berlin, Stockholm, Saint-Pétersbourg), ainsi que l’importance prise par certaines villes universitaires (Glasgow, Heidelberg, Giessen, Göttingen, Édimbourg) et par certaines capitales moins attendues (Munich, Vienne, Philadelphie). Elle montre aussi la relative rareté des grandes concentrations de chimistes dans des villes industrielles comme Manchester. 77

Infoclio_2015-livre_DRUCK.indd 77

06.08.15 09:10

Liens de collaboration les plus significatifs (1810–1860) Il y a deux siècles, comme aujourd’hui, la collaboration scientifique type est celle qui aboutit à une co-publication. La documentation biographique que nous avons réunie les mentionne souvent, mais pas de façon systématique. Elle signale aussi, de façon tout aussi ponctuelle, les travaux effectués en commun, qu’il s’agisse d’expériences de laboratoire, de recherches de terrain (voyages) ou encore de « découvertes ». Plus rarement évoquées sont les collaborations institutionnelles, en particulier les relations maîtreassistanat dans le cas de la chimie universitaire. Elles peuvent cependant être reconstituées a posteriori dans bien des cas, même si leur durée demeure souvent inconnue. L’historien dispose donc de données sur les collaborations scientifiques qui se situent sur trois plans différents, et qui tantôt se complètent, tantôt se recoupent, tant il est vrai qu’un assistanat produit presque nécessairement des collaborations susceptibles de déboucher à leur tour sur des « découvertes » ou au moins sur des publications. Sur chacun de ces plans, il est possible de définir une échelle d’intensité des liens qui irait de 1 à 3 selon : ×× le nombre de co-publications : 1. une ou deux ; 2. plusieurs ; 3. nombreuses. ×× la durée de la relation d’assistanat : 1. entre un semestre et deux ans ; 2. de trois à cinq années ; 3. plus de cinq ans. ×× le nombre ou la durée des recherches effectuées en commun (idem), ou encore l’importance des découvertes effectuées (1. mineure ; 2. importante ; 3. fondamentale). Ce dernier aspect est évidemment sujet à interprétation. Les collaborations documentées sur l’un de ces trois plans sont extrêmement nombreuses. Dans le cadre d’une analyse globale, on peut donc s’en tenir aux plus significatives d’entre elles, soit celles qui sont attestées et caractérisées sur deux plans au moins. Dans ce cas, l’intensité de la relation sera celle du plan où elle apparaît comme la plus élevée. Cela revient en fait à considérer que les éventuelles différences de degré s’expliquent essentiellement par des lacunes dans la documentation relative à l’un ou l’autre aspect de la relation. Quoi qu’il en soit, l’analyse de ces relations vise essentiellement à déterminer si les communautés de chercheurs du premier XIXe siècle avaient un caractère national ou non. C’est pourquoi nous avons choisi de mettre ce facteur en évidence en attribuant aux chimistes du graphe 5 une couleur qui correspond à leur nationalité d’origine, ou, dans quelques cas, au pays où ils se sont établis au début de leur carrière. Sur ce graphe relationnel, les chimistes sont rangés verticalement selon un ordre chronologique (les plus anciens en haut) et distribués horizontalement selon 78

Infoclio_2015-livre_DRUCK.indd 78

06.08.15 09:10

Réseaux / Netzwerke

leur nation. La période 1810–1860, qui va de l’apogée de l’Empire napoléonien à la veille de l’ère Bismarck est en effet celle de l’affirmation des nations. Elle est aussi celle de la montée en puissance de la révolution industrielle, de la réforme des universités allemandes et du développement de l’enseignement de la chimie en laboratoire. Le graphe 5 confirme qu’en règle générale, les communautés de chimistes de la période 1810–1860 ont un caractère très fortement national. C’était déjà le cas au cours de la période précédente (1765–1810), notamment en France et en Suède, alors que plusieurs groupes de chimistes coexistaient en Grande-Bretagne et dans les pays germaniques 43. Au XIXe siècle, la fréquence et l’intensité des collaborations augmentent encore, surtout après 1830 (partie basse du graphe). On note aussi, après les années 1830 surtout, un timide début de coopération internationale. En Allemagne, cette période marque en fait le passage d’un système de coopération académique entre pairs (collaborations « horizontales ») à un système de relations universitaires maître-élève (collaborations « verticales »). Ce système est transféré en Angleterre par August Wilhelm von Hofmann, qui est nommé en 1845 à la Royal School of Chemistry de Londres. On remarque également ce modèle de collaboration verticale dans l’empire des Habsbourg (en violet). Dans le détail, la chimie française du début du siècle apparaît toujours comme la plus intégrée, autour des figures de Vauquelin, Thénard, Gay-Lussac ou encore Pelletier. À la même époque, les connexions de chimie anglaise sont essentiellement londoniennes, centrées autour de la Royal Institution (groupe Davy-Faraday-Brande), ce qui marque une évolution par rapport à la période précédente, où existaient également des groupes structurés dans les Midlands et en Écosse. Dans les pays germaniques, c’est essentiellement Berlin qui coordonne les recherches, d’abord autour du journaliste éditeur Gehlen, puis autour de Mitscherlich et de Heinrich Rose. Ces deux derniers sont influencés par la chimie suédoise, qui connaît un nouvel âge d’or grâce à Berzelius et à la création en 1807 du Karolinska Instituet de Stockholm. Un autre groupe germanique, qui implique les universités de Heidelberg et de Göttingen, est visible autour de Leopold Gmelin. Vers 1830, la nomination de Liebig et la mise sur pied d’un enseignement en laboratoire à Giessen marquent, on le sait, un nouveau départ pour la chimie allemande, et européenne. Malgré tout, Liebig collabore relativement peu avec ses élèves, à l’exception de Kopp, préférant travailler avec ses collègues Wöhler à Göttingen ou William Gregory à Édimbourg. Mais ses échanges avec Dumas pour l’élaboration de la théorie des radicaux feront époque. Inspirés par Liebig, Wöhler, Bunsen, Hofmann et 79

Infoclio_2015-livre_DRUCK.indd 79

06.08.15 09:10

80

Infoclio_2015-livre_DRUCK.indd 80

06.08.15 09:10

Réseaux / Netzwerke

Graphe 5 Liens entre chimistes de la période 1810–1860 Conception : R. Sigrist, réalisation : M. Maisonobe

81

Infoclio_2015-livre_DRUCK.indd 81

06.08.15 09:10

Kolbe vont à leur tour contribuer à transformer les liens entre chimistes, en développant la relation maître-assistant. Son impact se fait sentir jusqu’aux États-Unis, où Wöhler et Bunsen ont quelques disciples. Le renouveau de la chimie anglaise est également à relever. Grâce à la création, sur le modèle allemand, du Royal College of Chemistry (1845), ce renouveau s’effectue essentiellement à Londres, où opère également William Allen (King’s College). De plus petits groupes de chimistes sont encore visibles autour de Thomas Anderson (université de Glasgow) et de Lyon Playfair (université d’Édimbourg). Il est à noter que les centres industriels jouent, paradoxalement peut-être, un rôle moins important qu’au cours de la période précédente. Il est vrai qu’un nombre croissant de chimistes britanniques fréquentent désormais les universités allemandes. En France, où les collaborations entre pairs restent dominantes, Dumas et Wurtz deviennent les personnages dominants de la période d’après 1830–1840. Ils développent un certain nombre de collaborations internationales, en particulier avec des ressortissants de puissances de second plan, telles que l’Italie (Pria, Sobrero), la Belgique (Stas, Melsens), la Suisse (Prevost), le Danemark (Lewy) ou encore le Portugal (Da Silva). L’Allemagne pour sa part poursuit ses collaborations avec la Russie, dont la chimie se développe d’une façon plus autonome que par le passé. L’empire des Habsbourg sur la droite du graphique et les États-Unis sur la gauche commencent eux aussi à étoffer leurs propres traditions. Ils demeurent néanmoins pauvres en chimistes de premier plan. Les autres pays (Italie, Suisse, Pays-Bas, Belgique, Danemark) jouent les seconds rôles 44.

82

Infoclio_2015-livre_DRUCK.indd 82

06.08.15 09:10

Réseaux / Netzwerke

La science visible dans le Web of Science en 2006–2008 La troisième période que nous envisagerons au terme de ce parcours, la période contemporaine, est aussi celle pour laquelle le volume de données est le plus important. Cette étude s’appuie sur l’exploitation d’une base de données bibliométriques, le Web of Science, dont l’analyse appelle la mise en œuvre de questionnements et de procédures spécifiques. Compte tenu du fait que l’article est devenu le mode privilégié de communication des chercheurs et que les collaborations scientifiques donnent de plus en plus souvent lieu à des articles co-signés par les divers partenaires, nous considérons que l’exploitation de données bibliométriques est pertinente pour rendre compte des logiques d’organisation scientifique. Le Web of Science, détenu par le groupe américain Thomson Reuters, regroupe plusieurs index de citations : le Science Citation Index, le Social Science Citation Index et l’Art and Humanities Citation Index. La couverture de la base démarre en 1900 et ne cesse d’augmenter pour arriver à près de 10 000 revues recensées par an sur les 5 dernières années, soit près d’un million et demi d’articles par an. La sélection des revues recensées par le Web of Science repose sur différents critères : il s’agit en priorité de revues faisant l’objet de citations dans les revues déjà couvertes, dont le format répond aux standards internationaux. Parce qu’au départ, Eugene Garfield, de l’Institute for Scientific Information (ISI), où la base a été développée, a commencé par la production scientifique en biomédecine, ce biais initial a été entretenu à mesure que grandissait la base. Dans les faits, celle-ci surreprésente les revues de biomédecine et les revues du monde anglo-saxon. Ce second biais s’explique par le fait que l’ISI est un organisme basé à Philadelphie, mais aussi par le fait que, lors de sa fondation dans les années 1960, l’anglais était en train de s’imposer comme langue internationale de communication scientifique. Eugene Garfield, convaincu de la supériorité de la recherche américaine, voyait comme irrémédiable l’avènement de l’anglais au niveau mondial 45. En fait, à partir du moment où le Web of Science est devenu la base de donnée de référence, des chercheurs de plus en plus nombreux ont souhaité être visible dans la base, ou ont été incités à l’être. Figurer dans la base, compte tenu du très faible nombre de revues non anglophones qui y sont incluses, suppose de publier en anglais. Les chercheurs chinois l’ont bien compris qui ont produit presque autant de publications recensées dans la base que les Américains au cours des cinq dernières années. Puisque le nombre de revues chinoises en chinois indexées dans la base est très faible, cela n’a été possible que parce que les chercheurs chinois se sont mis à publier dans des revues étrangères ou chinoises en anglais. Cet exemple illustre bien le fait que le Web of Science ne permet de 83

Infoclio_2015-livre_DRUCK.indd 83

06.08.15 09:10

représenter qu’une fraction de la production scientifique mondiale : on parle parfois pour l’évoquer de la science « visible » ou science « mondiale ». Ce second qualificatif est utilisé par opposition à une science qui serait « locale ». En fait, il ne faut pas s’y méprendre, la distinction entre la science « mondiale », à visée prétendument plus universelle, et la science « locale », destinée à un public plus restreint, est largement exagérée. Il y a beaucoup de revues indexées dans le Web of Science qui, alors même qu’elles sont en anglais, pourraient être qualifiées de « locales », compte tenu de leur thématique et du public qu’elles touchent. Pour cette raison, nous préférons le qualificatif « visible » pour évoquer le monde scientifique que ces données nous donnent à voir. Pour synthétiser, nous pensons que le Web of Science est un miroir du monde scientifique sous influence américaine, dans la mesure où l’on y repère les parutions des chercheurs qui publient en anglais dans des revues dont la ligne éditoriale répond aux critères de l’ISI. Pour notre étude de cas, il suffit de convenir que le Web of Science permet de visualiser un monde scientifique contemporain parmi d’autres. Ce monde scientifique est le premier des trois mondes à avoir une dimension « mondiale » puisque pour cartographier l’information, nous avons besoin d’un planisphère entier. Dans les années 2000, on recense dans la base des publications scientifiques issues de 194 pays différents.

Description de la méthode de traitement des données bibliométriques Nous décrivons ci-dessous la procédure qu’il a fallu suivre pour passer des données brutes à leur mise en forme afin de procéder à la représentation et à l’analyse. Dans la base sont stockées des publications (articles, notes de recherche) et, pour chacune d’entre elles, plusieurs informations sont renseignées comme la date, la source, les auteurs et leurs adresses ou affiliations. C’est l’information géographique contenue dans les adresses que nous exploitons. Elle n’est pas normalisée, ce qui rend son traitement difficile. Ainsi, une procédure de géocodage automatisée a été mise en œuvre pour récupérer les coordonnées géographiques des localités désignées dans les adresses. Des opérations de vérification des données, en partie automatisées, ont ensuite été réalisées pour corriger les erreurs de géocodage. À l’arrivée, les publications se répartissent dans plus de 18 655 localités au niveau mondial. Il est difficile de travailler à un niveau de détail aussi fin au niveau mondial car, si la localité correspond le plus souvent à une municipalité, les critères de découpage des municipalités sont très différents d’un pays à l’autre. Pour visualiser l’information au niveau mondial, il est apparu nécessaire d’agréger ensemble des localités proches pour obtenir ce que nous avons appelé des « agglomérations 84

Infoclio_2015-livre_DRUCK.indd 84

06.08.15 09:10

Réseaux / Netzwerke

scientifiques ». L’idée est de pouvoir mesurer et analyser l’activité scientifique au niveau mondial en prenant comme unité de base celle qui est la plus précise possible, tout en étant dotée d’un degré d’homogénéité permettant la comparaison. Ce niveau est, d’après nos analyses, celui de l’agglomération urbaine. Le découpage des agglomérations a été fait en tenant compte de la répartition de la population qui est un critère dont on connaît la valeur sur toute l’étendue du globe terrestre avec une assez bonne précision. En tout, nous avons obtenu 10 730 agglomérations scientifiques 46. Après avoir défini les unités de base, l’étape suivante consiste à associer les données de production scientifique extraites du Web of Science aux unités d’analyse que nous avons définies. Il s’agit de l’opération de synthèse de l’information qui demande de faire des choix méthodologiques indispensables pour passer à l’analyse et à la représentation. En ce qui concerne la façon dont les contributions aux publications scientifiques ont été comptabilisées pour associer des stocks de publications aux agglomérations scientifiques, il faut rappeler qu’il existe plusieurs méthodes pour compter les publications écrites en collaboration (celles dont le ou les auteurs signalent au moins deux adresses). Nous avons choisi la méthode dite de Whole Normalized Counting : whole, ou « entière », parce qu’on tient compte, non du nombre d’adresses, mais du nombre d’agglomérations différentes ayant contribué à la publication (l’unité de base étant l’agglomération) ; normalized, parce que l’on attribue une valeur fractionnée à chaque agglomération ayant contribué à la publication (chaque agglomération reçoit une fraction comme crédit pour cette publication qui est égale à un divisé par le nombre d’agglomérations impliquées) 47. En faisant la somme des crédits cumulés par toutes les agglomérations, on retrouve le nombre total de publications. Préciser la méthode utilisée pour le comptage des publications est important car, selon le choix qui est fait, les résultats obtenus sont différents, en particulier pour les villes situées au milieu de la hiérarchie. Tout comme nous fractionnons les publications pour réaliser les comptages au niveau des agglomérations, nous fractionnons la valeur des liens de collaboration pour générer des graphes de collaboration entre agglomérations. Pour chaque article, la valeur associée aux liens entre les agglomérations dépend du nombre d’agglomérations impliquées. Cela permet de donner plus d’importance aux collaborations deux à deux. Le postulat d’une telle démarche est que l’importance scientifique de la relation est proportionnelle au nombre de partenaires qui ont collaboré pour produire l’article. Si n est le nombre d’agglomérations pour un article donné, la valeur du lien de collaboration unissant deux à deux les agglomérations partenaires vaut 1/((n*(n‑1)/2). Ainsi, la somme de la valeur des liens de collaboration est égale au nombre 85

Infoclio_2015-livre_DRUCK.indd 85

06.08.15 09:10

total d’articles écrits en collaboration entre au moins deux agglomérations. Puisque nous avons choisi de prendre les agglomérations scientifiques comme unité d’analyse, nous avons aussi choisi d’extraire de nos données relatives à la co-signature d’articles des graphes de relations entre agglomérations. Il existe de nombreuses autres possibilités pour construire des réseaux de collaborations scientifiques, la plus courante étant de prendre comme unité d’analyse le chercheur et de générer des graphes de co-signature ou de citation entre chercheurs. Dans notre cas, puisque c’est l’organisation d’un système-monde qui nous intéresse, le but est de capturer les tendances lourdes qui pèsent sur les associations de chercheurs au niveau mondial. Compte tenu du volume de données dont nous disposons, le réseau de chercheurs qu’il est possible d’en extraire est démesurément volumineux. Un réseau d’une telle taille doit donc être simplifié pour être analysé. Travailler au niveau de l’agglomération permet de capturer bien plus d’informations. Le réseau de collaboration des agglomérations obtenu à l’arrivée est également trop dense pour être visualisé tel quel.

Les représentations du monde scientifique contemporain Pour offrir une image lisible du monde scientifique contemporain, nous avons choisi de nous concentrer sur les 200 agglomérations urbaines qui ont publié le plus en 2007. De ces 200 agglomérations proviennent 2/3 des publications indexées dans le Web of Science en 2007 (environ 1 million d’articles sur 1,5 million d’articles par an en moyenne mobile 2006–2008). Elles sont situées dans 42 pays différents. Ci-dessous figure une carte (carte 3) permettant de localiser ces agglomérations et de rendre compte du nombre de publications qu’elles ont abritées. La moyenne mobile permet de lisser la distribution des publications sur trois ans (2006–2008) et ainsi de rendre les données moins sensibles à de faibles variations annuelles. La carte du monde obtenue témoigne d’un très faible niveau de publication en Afrique et dans une moindre mesure en Amérique du Sud. L’Asie est le continent dont l’activité visible a le plus progressé ces dernières années. Ainsi, la Chine compte autant d’agglomérations que le Royaume-Uni et l’Allemagne parmi les 200 premières agglomérations mondiales en 2007 (15 agglomérations). Cette représentation (graphe 6) des collaborations scientifiques est obtenue à partir du graphe des co-signatures d’articles en 2007 (moyenne 86

Infoclio_2015-livre_DRUCK.indd 86

06.08.15 09:10

Réseaux / Netzwerke

mobile 2006–2008). Ne sont conservées que les relations d’une valeur supérieure à 200. Très peu de relations internationales ont une valeur supérieure à ce seuil. Ainsi, les agglomérations néerlandaises, russes, suédoises, taiwanaises, polonaises, turques et brésiliennes n’entretiennent aucune relation internationale de cette intensité. De ce fait, ces agglomérations ne sont pas reliées à la composante principale du réseau de co-signature qui est représentée ici. Il y a une couleur différente par pays. Ce partitionnement est intéressant car il permet de mettre en évidence la forte composante nationale des collaborations scientifiques contemporaines. Les collaborations internationales représentent toujours une faible part des collaborations scientifiques. En particulier, sur l’intégralité des co-signatures entre villes, elles ne constituent que 15 % du total des collaborations. Enfin, on constate assez nettement, sur cette représentation, que le monde scientifique « visible » s’articule autour des États-Unis. En effet, une part considérable des forts liens internationaux sont des liens de collaboration avec les États-Unis. La surface des cercles correspond à l’indice de degré pondéré qui est égal, pour chaque ville, au nombre total de collaborations qu’elle entretient avec les autres villes. L’information représentée sur ces images est extrêmement allégée par rapport à l’information dont on dispose. Tant sur la carte que sur le diagramme nœud-lien, il est plus pertinent de filtrer l’information pour la rendre lisible. Pour explorer plus en détail les données relationnelles de notre corpus, nous avons mis au point (à l’aide de bibliothèques java script), une plateforme interactive permettant de faire varier les modes de visualisation, les périodes étudiées et l’échelle (comportant notamment un dispositif permettant de zoomer sur la carte et les diagrammes nœuds-liens) : http://www.coscimo.net/.

87

Infoclio_2015-livre_DRUCK.indd 87

06.08.15 09:10

Infoclio_2015-livre_DRUCK.indd 88

Conception : Marion Maisonobe, réalisation : Laurent Jégou

19 500 7 600 1 900

30 000

Publications 2007

San-Francisco Los-Angeles

Boston New-York

Sao Paulo

Londres Paris

Le Cap

Moscou

Téhéran

Séoul

Singapour

Hong-Kong

Beijing

Tokyo

Sydney

Carte 3 Répartition géographique des publications scientifiques dans le monde en 2007

88

06.08.15 09:11

Réseaux / Netzwerke

Collaborations

16060 11300 7170 2500

Conception et réalisation : Marion Maisonobe

Graphe 6 Composante principale du réseau des collaborations scientifiques mondiales en 2007

89

Infoclio_2015-livre_DRUCK.indd 89

06.08.15 09:11

En formulant l’hypothèse que l’activité scientifique s’inscrit, à chaque époque, non dans un espace figé et abstrait, mais dans une configuration spatiale singulière et fluide, dont elle façonne les contours et la physionomie, les contributions présentées dans cet article se sont proposées d’explorer l’organisation de trois « mondes savants », dans un parcours menant de l’Antiquité au très contemporain. Développée à partir de propositions méthodologiques communes, la démarche s’est appliquée à mettre en lumière les enjeux et les défis particuliers qu’implique, selon les dossiers abordés, la cartographie des activités scientifiques. La confrontation des approches a permis de s’interroger sur les procédures auxquelles peut faire appel la représentation des données liées aux diverses formes de structuration des mondes savants, envisagée à partir d’une pluralité d’éclairages documentaires (récits de banquets, dictionnaires et registres d’académies, sources bibliométriques). Ancrée dans les spécificités des corpus mobilisés (nature et provenance de l’information, volume des données, échelles et contextes), l’enquête s’est voulue particulièrement attentive aux critères, aux opérations et aux ressources permettant de modéliser les espaces savants et leurs dynamiques. Elle s’est donnée pour objectif d’illustrer, à partir de trois études de cas, l’apport et les limites de la visualisation, conçue à la fois comme un outil d’intelligibilité et comme une composante de l’analyse. Cet article peut ainsi apparaître comme une contribution à la réflexion sur le science mapping (ou « cartographie », au sens large, de la science), qui constitue aujourd’hui un domaine de la recherche en sciences sociales en pleine expansion. Cette littérature se concentre sur la représentation de données bibliométriques issues des bases de données contemporaines comme le Web of Science ou Scopus (son équivalent européen, porté par l’éditeur néerlandais Elsevier) 48. Par rapport à une telle approche, notre contribution présente deux intérêts majeurs. D’une part, elle invite à envisager la représentation des données sur la science et les questions qu’elle soulève dans une démarche résolument diachronique et comparative. D’autre part, la dimension spatiale des données mobilise, dans notre article, une véritable expertise. Les données, en effet, ont été cartographiées en respectant les règles de sémiologie graphique : en particulier, les cartes et les diagrammes ont été réalisés selon une représentation graphique objective et disposent d’une légende. Les légendes, comme nous avons pu le constater, sont systématiquement oubliées par les spécialistes de science mapping. La difficulté que représente la figuration graphique des informations concernant des relations, des collaborations entre des chercheurs ou des villes localisés dans l’espace peut en outre être en partie contournée par l’utilisation de graphes de réseaux, en complément des cartes classiques. Enfin, pour la période contemporaine, l’hétérogénéité 90

Infoclio_2015-livre_DRUCK.indd 90

06.08.15 09:11

Réseaux / Netzwerke

de l’information géographique a justifié la délimitation d’entités géographiques comparables au niveau mondial, le souci d’agréger les données à une échelle pertinente pour la comparaison et l’analyse étant jusqu’alors négligé par les spécialistes du science mapping 49.

91

Infoclio_2015-livre_DRUCK.indd 91

06.08.15 09:11

1

2

3

4

5

6

7

8 9

10

John F. Padgett, Marriage and elite structure in Renaissance Florence, 1282-1500, in : REDES – Revista hispana para el análisis de redes sociales, 21, 2011, pp. 71–97. Jean-Daniel Fekete, Laurent Beauguitte, La parole à Jean-Daniel Fekete, in : Carnet de recherche du groupe FMR, 2012, URL : http://groupefmr.hypotheses.org/626 (dernière consultation 2/10/2014). Résultat d’une requête réalisée sur le moteur de recherche en ligne Thèses.fr, le 13/09/2013. Alan M. MacEachren, Menno-Jan Kraak, Research challenges in geovisualization, in : Cartography and Geographic Information Science, 28, 2001, pp. 3–12. Scott Orford, Daniel Dorling, Richard Harris, Review of visualization in the Social Sciences. A state of the art survey and report, in: Report for the advisory group on computer graphics, 1998, p. 152, URL : http://www.agocg.ac.uk/sosci/review/review.html (dernière consultation 2/10/2014) ; Claire Lemercier, Analyse de réseaux et histoire, in : Revue d’histoire moderne et contemporaine, 52, 2005, pp. 88–112 ; Claire Lemercier, Sandro Guzzi-Heeb, Michel Bertrand, Introduction. Où en est l’analyse de réseaux en histoire ?, in : REDES – Revista hispana para el análisis de redes sociales, 21, 2011, pp. 12–23. Marion Maisonobe, Analyses dynamiques et longitudinales de réseaux, in : Synthèse du groupe fmr, 2013, [S. ?] URL : http://halshs. archives-ouvertes.fr/FMR/halshs-00811672 (dernière consultation 2/10/2014). Elle fait sa première apparition dans un manifeste signé par le mystérieux ordre de Rose-Croix. Elle est reprise à la fin du XVIIe siècle par les membres de la Royal Society en Angleterre. Caroline Wagner, The new invisible college. Science for development, Washington 2008. Rigas Arvanitis, Que des réseaux ! Compte rendu de Caroline Wagner. The new invisible college. Science for development, in : Revue d’anthropologie des connaissances, 5, 2011, pp. 178–185. Représenter des liens sur une carte revient à donner beaucoup d’importance à la distance physique entre les lieux qui sont en relation : ainsi, les liens entre des lieux très éloignés sont davantage mis en valeur que les liens entre des lieux proches. V. Myriam Baron, Denis Eckert, Laurent Jégou, Peut-on démêler l’écheveau mondial des collaborations scientifiques ?, in : M@ppemonde, 102, 2011, [non paginé].

11

12 13 14 15

16

17

18

19

20

21

Les cartes proposées dans le présent article ont été confectionnées par Laurent Jégou, ingénieur d’étude au Département de Géographie de l’Université de Toulouse-Le Mirail et membre du laboratoire LISST. Les graphes ont été réalisés par Marion Maisonobe et adaptés par Laurent Jégou. Paul Veyne, L’Empire gréco-romain, Paris 2005, p. 10. Jean Sirinelli, Plutarque de Chéronée. Un philosophe dans le siècle, Paris 2000, p. 14. Sirinelli, (Note 13), p. 167. François Fuhrmann, Introduction, in : Plutarque, Propos de table. Livres I-III, Paris 1972, pp. VII-XXVI, p. XVIII. À l’exception notable, cependant, du banquet de bienvenue (VIII, 7-8) organisé à Rome par le Carthaginois Sextius Sylla, à l’occasion d’un séjour de Plutarque dans l’Urbs. Konrat Ziegler, Ploutarchos von Chaironeia, in: Realencyclopädie der classischen Altertumswissenschaft, vol. XXI.1, Stuttgart 1951, col. 636-962 et, plus récemment, Bernadette Puech, Les amis de Plutarque, in : Aufstieg und Niedergang der römischen Welt, vol. II, 33.6, Berlin 1992, pp. 4831– 4893. On trouve également une précieuse description des cercles de sociabilité plutarquéens dans les monographies de Christopher P. Jones, Plutarch and Rome, Oxford 1972, p. 39–64 et de Sirinelli (Note 13), p. 167–198. Pour chacun des personnages, nous avons retenu soit la cité ou région d’origine, soit, lorsque l’information est connue, la cité de résidence. Ce choix ne permet pas de prendre en compte les phénomènes de mobilité ou d’appartenance multiple, qui appellent la mise au point d’une méthode d’analyse spécifique. Il eût par exemple été possible de représenter, sous la forme d’un graphe orienté, un réseau des invitations, associant chacun des hôtes de banquets à leurs invités. Le réseau de fréquentation permet toutefois d’intégrer dans l’analyse les banquets dont l’hôte ou la localisation ne sont pas mentionnés, et de travailler sur un volume de données plus significatif. Précisons cependant – cette donnée est loin d’être insignifiante – qu’une part substantielle des liens de co-présence, dans les Propos de table, s’établissent au sein d’une même cité (à titre indicatif : 38 % pour les personnages du groupe athénien, 22 % et 10 %, respectivement, pour ceux des groupes chéronéen et romain). On relèvera l’absence, dans cette répartition géographique, d’importants centres culturels de l’Empire romain, comme Smyrne ou Éphèse, hauts lieux de la Seconde Sophistique, ainsi qu’Alexandrie, où Plutarque avait pourtant effectué un séjour d’étude.

92

Infoclio_2015-livre_DRUCK.indd 92

06.08.15 09:11

Réseaux / Netzwerke

22

23

24

25 26

27

28

29

30

31 32 33

La comparaison des graphes 3 et 4, sur ce point, montre qu’une part non-négligeable des liens de co-présence enregistrés entre les groupes athénien et chéronéen ne concerne pas le personnage de Plutarque. C’est par exemple au banquet donné à Rome par le Carthaginois Sextius Sylla (VIII, 7-8) que Lucius, un disciple du pythagoricien Moderatus de Gadès originaire d’Étrurie, ainsi qu’un certain Nestor, de Leptis Magna, font leur unique apparition. Une hypothèse que l’analyse du texte plutarquéen – cette question mériterait cependant de faire l’objet d’une étude particulière – tend à confirmer. D’une manière générale, en effet, les personnages qui composent le groupe romain, dans les Propos de table, interviennent moins en tant que représentants des traditions romaines ou du pouvoir impérial – les réalités de la domination romaine sont comme absentes du discours plutarquéen –, que comme membres d’une élite « gréco-romaine » ou « hellénisée », profondément imprégnée, en tout cas, des pratiques et des codes culturels de l’hellénisme. C’est notamment le cas à Londres, Berlin et Saint-Pétersbourg. Le mathématicien, le géomètre et l’astronome étaient des figures consacrées depuis longtemps, tandis que le minéralogiste, l’anatomiste et le géologue ne se révéleront qu’après 1800. « Savant », qui s’appliquait à l’origine à toutes les catégories de chercheurs, n’est réservé aux pratiquants des sciences de la nature que vers la seconde moitié du XVIIIe siècle. « Naturforscher » et « natural philosopher » (qui s’applique plus proprement aux physiciens) ne se généralisent que peu avant 1800. « Scientist », forgé par William Whewell en 1833, est traduit et se généralise dans les principales langues européennes vers 1850. Alphonse de Candolle, Histoire des sciences et des savants depuis deux siècles [1873], Genève 1885 (2e éd.). James E. Mac Clellan, Science reorganized. Scientific societies in the eighteenth century, New York 1985. René Sigrist, Les communautés savantes européennes à la fin du XVIIIe siècle. Essai de cartographie, in : M@ppemonde, 110, 2013, [non paginé], URL : http://mappemonde.mgm.fr/num38/articles/art13204. html (dernière consultation 2/10/2014). La démonstration repose sur la bonne coïncidence entre la localisation de ces savants académiciens et celle des astronomes actifs à la même période, établie sur la base : Jean (III) Bernoulli, Liste des astronomes connus actuellement vivants, Berlin 1776. Seules l’Autriche et l’Espagne firent longtemps exception. Sigrist (Note 30), fig. 1 [non paginé]. Charles Coulston Gillispie (éd.), Dictionary of scientific biography, New York 1970-1980 (16 vol.).

34

35

36 37

38

39

40 41 42

43

44 45

Robert M. Gascoigne, A historical catalogue of scientists and scientific books. From the earliest times to the close of the nineteenth century, New York 1984. Karl Hufbauer, The formation of the German Chemical Community (1720-1795), Berkeley 1982, Appendix I. Jean Bernoulli (Note 30), p. 5-10. Avant l’apparition, dans les années 1770, des premières revues spécialisées, le système des publications scientifiques était fondé sur les livres et sur les articles insérés dans quelques recueils académiques (Philosophical Transactions, Mémoires de l’Académie des sciences) ou dans les périodiques universels de la République des lettres (Journal des Savans, Mémoires de Trévoux, etc.). Le basculement vers le système de la revue scientifique avec comité d’experts est pratiquement achevé dans les années 1830, mais la multiplicité des revues spécialisées, publiées dans un nombre croissant de langues, défie toute tentative de recensement systématique. De plus, la publication de traités de synthèse ou de manuels pédagogiques se poursuit à un rythme accéléré. William F. Macmillan-Bynum, E. Janet Browne, Roy Porter, The Macmillan Dictionary of the history of science, London 1981. Une troisième catégorie, regroupant les amateurs (C), inclurait notamment les autres savants signalés par Johann Christian Poggendorff, Biographisch-literarisches Handwörterbuch zur Geschichte der exacten Wissenschaften, Leipzig 1863 (2 vol.). Une académie de moins était requise pour les chimistes morts avant 1745. Ibid. WBIS – World Biographical Information System, online and microfiche editions by Saur AG, Munich. À vrai dire, Paris elle-même abritait, en plus du groupe principal centré autour de Lavoisier, Guyton-Morveau et consorts, deux groupes de chimistes, l’un regroupant plutôt des pharmaciens (autour de Parmentier), l’autre plutôt des techniciens (autour de Darcet). La présente recherche a été menée avec le soutien du FNS, subside no 100.011-137.579. Eugene Garfield, English – an international language for science ?, in: Current Contents, 26 Décembre 1967, pp. 19-20.

93

Infoclio_2015-livre_DRUCK.indd 93

06.08.15 09:11

46

47

48

49

Denis Eckert, Myriam Baron, Laurent Jégou, Les villes et la science. Apports de la spatialisation des données bibliométriques mondiales, in : M@ppemonde, 110, 2013, [non paginé]. URL : http://mappemonde.mgm.fr/ num38/articles/art13201.html (dernière consultation 2/10/2014). Marianne Gauffriau et al., Comparisons of results of publication counting using different methods, in: Scientometrics, 77/1, 2008, pp. 147-176. Cette thématique a récemment fait l’objet de plusieurs publications, parmi lesquelles on signalera en particulier : Olmeda-Gomez, Carlos, Antonio Perianes-Rodriguez, M. Antonia Ovalle-Perandones, Vicente P. Guerrero-Bote, Felix de Moya Anegon, Visualization of scientific co-authorship in Spanish universities from regionalization to internationalization, in: Aslib Proceedings, 61, 2009, pp. 83–100; Loet Leydesdorff, Olle Persson, Mapping the geography of science. Distribution patterns and networks of relations among cities and institutes, in: Journal of the American Society for Information Science and Technology, 61, 2010, pp. 1622– 1634; Zaida Chinchilla-Rodriguez, Benjamin Vargas-Quesada, Yusef Hassan-Montero, Antonio Gonzalez-Molina, Felix MoyaAnegon, New approach to the visualization of international scientific collaboration, in: Information Visualization, 9, 2010, pp. 277– 287; M. J. Cobo, A.G. Lopez-Herrera, E. Herrera-Viedma, F. Herrera, Science mapping software tools. Review, analysis, and cooperative study among tools, in: Journal of the American Society for Information Science and Technology, 62, 2011, pp. 1382– 1402; Lutz Bornmann, Ludo Waltman, The detection of “hot Regions” in the geography of science – a visualization approach by using density maps, in: Journal of Informetrics, 5, 2011, pp. 547–553; Ali Gazni, Cassidy R. Sugimoto, Fereshteh Didegah, Mapping world scientific collaboration. Authors, institutions, and countries, in: Journal of the American Society for Information Science and Technology, 63, 2012, pp. 323–335. Lutz Bornmann, Loet Leydesdorff, Christiane Walch-Solimena, Christoph Ettl, Mapping excellence in the geography of science. An approach based on Scopus Data, In: Journal of Informetrics, 5, 2011, pp. 537–546; Lutz Bornmann, Andrew Plume, Is it necessary to consider suburbs (or small cities in the close proximity) and name variants in a citation impact analysis for bigger cities? An investigation using Munich as an example, in : Journal of Informetrics, 5, 2011, pp. 695–697.

94

Infoclio_2015-livre_DRUCK.indd 94

06.08.15 09:11

Réseaux / Netzwerke

Préparer l’insurrection : le réseau relationnel des carbonari lors de la conspiration de la Rochelle Vivien Faraut

95

Infoclio_2015-livre_DRUCK.indd 95

06.08.15 09:11

Abstract

During the French Restoration, political opponents were gathering in the Charbonnerie française, the secret society for liberal people. In this context, the affair of Quatre sergents de la Rochelle, a conspiracy prepared by French carbonari, forms the basis for a social network analysis. Looking at the testimonies of three of the leaders, this contribution sets out to analyse the difference between theoretical model of operation and reality. Network analysis tools are used as a medium for questioning the positions of all four leaders among members of the vente and other carbonari who were outside the 45th regiment.

96

Infoclio_2015-livre_DRUCK.indd 96

06.08.15 09:11

Réseaux / Netzwerke

Introduction En 1848, alors que la France vient de connaître son troisième épisode révolutionnaire en l’espace de soixante-dix ans, Ulysse Trélat, homme politique de la Seconde République, écrit : « Le temps était venu [en 1830] où la France entière, qui n’avait fait que pleurer quand la tête républicaine de [Jean] Bories avait roulé sur l’échafaud, devait s’associer au triomphe de la Charbonnerie » 1. Cette « tête républicaine » n’est pas la seule à avoir roulé ce jour-là. Les sergents Joseph Pommier, Charles Goubin et Marius Raoulx ont en effet été eux aussi exécutés en place de Grève à Paris, le 21 septembre 1822. Ces quatre sous-officiers, plus connus sous le nom des « Quatre sergents de la Rochelle », sont des figures de l’opposition politique libérale des premiers temps de la Restauration. À ce titre, ils sont les boucs-émissaires désignés par les ultraroyalistes alors au pouvoir et déterminés à endiguer l’épidémie conspiratrice qui se propage dans les années 1821–1822. Cette vague conspiratrice est le fait de la Charbonnerie française, société secrète devenue le point de rencontre des différentes franges de la population qui sont à la fois hostiles aux Bourbons et ouvertes aux idées nouvelles issues de la Révolution 2. Les quatre sergents de la Rochelle sont des martyrs de cette société secrète. De nombreuses études leur sont consacrées dès la seconde moitié du XIXe siècle et ce mouvement éditorial se poursuit jusqu’au début du siècle suivant 3. Au tournant des années 1950–1960, de nouveaux travaux sont publiés sur cet événement, attestant d’un intérêt renouvelé pour cet épisode pourtant oublié de l’histoire française 4. En nous appuyant sur les outils informatiques actuellement à disposition de la recherche historique, l’objet de notre contribution est d’aborder quelques aspects des modalités organisationnelles du mouvement conspiratif de la Rochelle. Le développement récent qu’ont connu les logiciels de représentation visuelle de données, et notamment des données relationnelles, offre un éventail de possibilités pour appréhender des éléments constitutifs de cet épisode. Cependant, au préalable, on ne pourra faire l’économie d’un rappel de « l’affaire » proprement dite ainsi que du contexte de production des trois dépositions faites par les carbonari et sur lesquelles se fonde la reconstitution du réseau 5. Puis, successivement, il s’agira de comparer un modèle théorique de fonctionnement de la Charbonnerie avec les modalités pratiques telles que décrites dans les règlements, pour in fine analyser, dans une optique relationnelle, le rôle des « Quatre sergents ».

97

Infoclio_2015-livre_DRUCK.indd 97

06.08.15 09:11

Historique de la vente de carbonari L’affaire des Quatre sergents de La Rochelle marque l’apogée de la répression policière contre les acteurs des sociétés secrètes et notamment de la principale : la Charbonnerie française. En effet, vingt-cinq individus, majoritairement des carbonari du 45e régiment de ligne de l’armée française, sont accusés soit de participation à un complot, soit de non-révélation de la préparation de ce dernier. Or, la particularité de cette affaire se trouve justement dans le plan du complot 6. Achille Vaulabelle souligne que « l’accusation poursuivait moins des conjurés proprement dits qu’un projet de conjuration […] » 7. En d’autres termes, il n’existe pas de plan clairement défini auquel les carbonari du 45e régiment de ligne vont d’emblée adhérer. Les propos de l’historien libéral doivent cependant être pondérés, car les carbonari du 45e régiment de ligne semblent en effet être intégrés dans un plan plus vaste. Initialement, leur « vente » 8 doit seconder le soulèvement orchestré par le général Berton. J. Pommier précise : « Nous sommes partis de Paris le 22 Janvier [1822] pour la Rochelle, et en partant nous étions convaincus que nous attaquerions, en route, à dix ou douze lieues de Saumur [ville où le général Berton a été stoppé le 24 février 1822] ». Et le sergent de préciser : « un officier d’artillerie devait nous suivre avec deux pièces de Canon et que ce château était déjà gagné, nous entrerions comme nous voudrions ». Or, l’échec subi par les troupes rebelles à Saumur entraîne, entre autres, la fuite du général Berton. Dès ce moment, la vente devient le fer de lance d’un mouvement insurrectionnel en préparation qui doit débuter à La Rochelle. Or, tous les témoignages convergent pour insister sur le fait que la trame est fixée sans pour autant connaître un début d’exécution puisque les révélations de César Goupillon ont lieu le jour où la conspiration aurait dû débuter. En effet, l’arrestation de plusieurs membres de la vente de carbonari du 45e régiment de ligne mais également de personnes ayant été en contact avec eux fait suite à ces déclarations. Dès lors l’appareil judiciaire se met en route. Les révélations de Goupillon sont complétées par les déclarations de deux sergents carbonari : J. Pommier et C. Goubin. Ce sont donc trois témoignages qui vont servir de base à l’enquête policière. Ils constituent également la matrice de la reconstitution du réseau. Alors que la masse documentaire semble considérable, nous avons fait le choix de ne retenir que les trois documents « primitifs ». Ce choix a été dicté notamment par le fait que les trois discours ont été produits spontanément : Goupillon livre les faits de son plein gré aux autorités ; C. Goubin et J. Pommier, quant à eux, même s’ils ont été arrêtés à la suite des révélations du premier, se retrouvent, tour à tour, face-à-face avec le général Despinnois. Ce dernier réussit « à capter la confiance [de C. Goubin et J. Pommier] en se donnant à eux comme un Carbonaro, comme un complice chargé lui-même de soulever la ville de 98

Infoclio_2015-livre_DRUCK.indd 98

06.08.15 09:11

Réseaux / Netzwerke

Nantes ». Dès lors, ils expliquent et détaillent l’organisation de la vente ainsi que les différentes rencontres auxquelles ils ont participé. Ce sont ces révélations qui ont été considérées dans cette étude. Par la suite, se rendant compte de la supercherie, les deux militaires « [se sont] renfermés dans le silence le plus ferme et le plus absolu sur [les] relations » 9. Outre la composition interne de la vente, ces trois individus livrent également les noms des conspirateurs qu’ils ont rencontrés lors des déplacements des bataillons de leur régiment. Ainsi, ce sont vingt-etune personnes extérieures aux carbonari du 45e régiment qui sont mentionnées. Onze d’entre-elles sont clairement identifiées ; on reconnaît notamment parmi elles le fils du baron de Nagle, Jean-Marie, qui, de 1849 à 1851, siègera comme représentant de la Charente Inférieure à l’Assemblée législative 10. Dix personnes sont mentionnées sans que le voile sur leur identité précise ne soit levé 11. Tous ces individus ont comme point commun d’être membres de la Charbonnerie française. D’emblée, le constat d’une dissymétrie de l’information doit être appréhendé comme faisant partie intégrante du réseau reconstitué. En ce sens, les informations recueillies et traitées par la suite sont, en grande partie, relatives à la seconde phase de la préparation du complot, correspondant aux lendemains du départ de Paris. Cependant, les sergents C. Goubin et J. Pommier ayant été présents lors des rencontres informelles entre carbonari à Paris, des informations peuvent être recueillies.

Fonctionnement théorique et réalité empirique de la Charbonnerie française Ces trois documents regorgent de données relationnelles à collecter. Ils sont un moyen de pénétrer les pratiques des membres de la Charbonnerie française 12. Une confrontation entre l’organigramme théorique, tel qu’il est prescrit par le règlement de la société secrète, et une réalité observable par le prisme de ces trois dépositions, est possible. Si différents règlements se succèdent, complexifiant, au fur et à mesure, le modèle organisationnel 13, il semble bien que la vente du 45e régiment de ligne, soit régie par l’Organisation des carbonari 14. Ce modèle est alors en vigueur sinon dans toute la France, du moins dans l’ouest du pays. Le schéma ci-dessous [Illustration 1] résume l’organisation de la société telle que préconisée. On note une structure pyramidale à trois degrés. Les relations entre les différentes ventes particulières sont assurées au sein de la vente centrale. Cette dernière regroupe les députés issus de chacune des ventes de l’échelon inférieur. Le même cas de figure s’observe entre les ventes centrales et les hautes ventes 15. Le personnage central de l’organisation est donc le député. 99

Infoclio_2015-livre_DRUCK.indd 99

06.08.15 09:11

Haute Vente

Député

Vente Centrale

Député

Vente particulière

Illustration 1 Schéma d’organisation de la Charbonnerie française d’après l’Organisation des carbonari

Illustration 2 Modèle de fonctionnement théorique des relations entre les charbonniers de trois ventes d’après l’Organisation des Carbonari.

Illustration 3 représentation de l’espace relationnel de la vente de carbo nari du 45e régiment de ligne et de ses interactions avec les membres extérieurs

100

Infoclio_2015-livre_DRUCK.indd 100

06.08.15 09:11

Réseaux / Netzwerke

Illustration 4 Représentation de l’espace relationnel des carbonari du 45e régiment de ligne selon le coefficient d’intermédiarité

Illustration 5 Espace relationnel des carbonari du 45e régiment de ligne sans J. Bories

101

Infoclio_2015-livre_DRUCK.indd 101

06.08.15 09:11

Le schéma d’organisation théorique reconstruit ici prend en compte uniquement les structures de réunion. S’il permet une compréhension rapide de la structure de la société d’opposition, il propose en revanche une représentation fondée sur la vente, et non sur les carbonari eux-mêmes. Une seconde représentation peut donc être proposée, en se fondant non plus sur la vente comme cellule élémentaire du système charbonnier, mais sur les individus qui la composent. Pour ce faire, le fonctionnement théorique des relations entre trois ventes a été modélisé dans la figure ci-dessus [Illustration 2]. Cette représentation atteste du cloisonnement du secret puisque, hormis les trois individus présents au milieu du graphique, les autres membres de chacune des ventes ne peuvent avoir aucune connaissance des membres extérieurs 16. Le rôle de pivot endossé par le député est central car il se situe au milieu de « trous structuraux » du réseau 17. Ces derniers sont, dans le cas de la Charbonnerie, un élément central. En effet, il est nécessaire de segmenter l’ensemble du « réseau carbonari » pour permettre à la société secrète de bien fonctionner 18. En insérant le député au sein de ces trous, ce dernier endosse le rôle de broker 19. Ce modèle reconstitué peut être mis en comparaison avec la réalité telle que la décrivent les militaires dans leur déposition. Chacune des dépositions a été traitée séparément, les données relationnelles ont été « extraites » des documents 20, pour ensuite être insérées dans une base de données relationnelle. Une fois cette procédure achevée, un logiciel d’analyse de réseaux 21 a été utilisé pour produire le graphique ci-dessus [Illustration 3]. Les liens entre les sommets indiquent une rencontre physique. Les formes de ces derniers changent suivant la variable suivante : un militaire du 45e régiment de ligne aura une forme carrée, tandis qu’un individu extérieur aux carbonari de ce régiment sera représenté par un rond. Visuellement, l’espace relationnel se structure autour d’un centre densément connecté, correspondant aux membres de la vente, et une périphérie caractérisée par une faiblesse du volume des liens et un isolement de chacun des protagonistes 22. De plus, plusieurs individus jouent simultanément le rôle de député-broker, à la différence du modèle théorique qui n’en prévoit qu’un seul. Ces quatre brokers identifiés sont en contact avec trois ventes situées respectivement à Paris, Niort et La Rochelle ; mais également avec des carbonari dont la vente de rattachement n’est pas précisée. La multiplicité des liens établis que nous venons de figurer amène à relativiser la question du cloisonnement et du secret au sein de la Charbonnerie. Mais, dans le cas retenu ici, l’identification des brokers pose la question de leur engagement dans ce réseau. 102

Infoclio_2015-livre_DRUCK.indd 102

06.08.15 09:11

Réseaux / Netzwerke

Le rôle des Quatre sergents dans l’espace relationnel Cet engagement des quatre sergents peut être quantifié grâce à l’indicateur de la centralité d’intermédiarité, également appelée betweenness 23. De plus, en couplant cet indicateur avec les outils de représentation graphique [Illustration 4], il est possible de faire ressortir les individus qui agissent comme brokers. Ainsi, la taille du nœud est fonction du résultat du calcul : plus il est important, plus l’individu est un acteur intermédiaire de la relation. À différents degrés, quatre sommets sont portés à notre attention. Dans l’ordre décroissant du coefficient calculé, ils correspondent à C. Goubin (1), J. Pommier (2), J. Bories (3) et enfin, M. Raoulx (4). Ce sont deux caractères particuliers du fonctionnement pratique de la société secrète qui sont ainsi mis en exergue. Premièrement, il n’existe pas un individu, comme le prévoit le règlement, mais quatre qui sont en contact avec les autres membres de la société secrète. Deuxièmement, ce n’est pas J. Bories, président-député de la vente, qui est le plus en contact avec les autres membres extérieurs, mais C. Goubin. Ces deux constats peuvent être expliqués à la lumière de la documentation disponible. Ainsi, l’existence de quatre carbonari en relation avec les autres membres de la société s’explique par différents facteurs, relevant d’une part du contexte de production de l’information, et d’autre part de la situation dans laquelle évoluent les protagonistes. Mentionnée précédemment, la « qualité » des informations délivrées par les trois informateurs oriente obligatoirement la représentation graphique. César Goupillon intègre la vente du 45e régiment de ligne tardivement puisque, de son propre aveu, il est initié lorsque le régiment est à La Rochelle, soit dans les derniers temps de la préparation du complot. Les deux autres individus, quant à eux, révèlent principalement des informations liées à des épisodes dont ils ont été les témoins directs, ignorant par là même, toute la première partie de la préparation du complot, qui a eu lieu dans la capitale. Le second facteur explicatif se trouve dans le contexte. L’évolution de la situation personnelle du sergent J. Bories est un moteur majeur de changement qui modifie l’organisation interne de la vente. En effet, alors que le 45e régiment quitte Paris pour La Rochelle, la ville d’Orléans s’impose comme une étape marquante pour les carbonari du 45e : dans un débit de boisson de cette ville, J. Bories a une altercation avec un soldat d’un régiment suisse. Une bagarre entre soldats français et helvétiques s’en suit, J. Bories perd connaissance et est mis aux arrêts jusqu’à l’arrivée du régiment à La Rochelle, le 14 février 1822 24. Or, cette détention n’est pas 103

Infoclio_2015-livre_DRUCK.indd 103

06.08.15 09:11

due uniquement à la rixe qu’il a provoquée à Orléans : des confidences sur la Charbonnerie ont été faites à un sous-officier qui en a rendu compte à ses supérieurs pour les mettre au fait des activités secrètes de J. Bories 25. L’éloignement du leader entraîne la nécessité de réorganiser la vente et surtout de trouver de nouveau(x) chef(s). Le réajustement que connaît la vente peut alors être représenté graphiquement [Illustration 5]. Pour ce faire, toutes les données relationnelles concernant J. Bories ont été retirées. La représentation suivante est celle des relations entre les carbonari du 45e sans J. Bories et ceux qu’ils rencontrent durant le déplacement des deux bataillons composant le régiment. La représentation graphique de la centralité d’intermédiarité des acteurs du réseau est également intégrée dans cet espace relationnel. Deux personnages ressortent : C. Goubin et J. Pommier. Si leur situation respective semble identique 26, les données qualitatives permettent de nuancer cette impression. En effet, chacun occupe un rôle différent. Pour le premier, son implication importante est due au fait qu’il est devenu président et député de la vente. J. Pommier déclare : « J. Bories étant conduit à la Tour, c’est là où il remit ses fonctions [de président et de député] au sergent Goubin […] » 27. Pour J. Pommier, la situation est plus complexe puisqu’il assume, en quelque sorte, le rôle de député sans pour autant être reconnu comme tel. À Niort et à La Rochelle, il multiplie les rencontres avec les émissaires locaux : il participe à un dîner avec C. Goubin et M. Raoulx à Niort, il est logé chez un nommé Garot, carbonaro niortais, il fréquente Bellegarde. Dès que le régiment est présent à La Rochelle, c’est lui qui s’entretient avec Jean-Marie Nagle, puis il noue un contact avec un bourgeois de cette ville pour ensuite rendre visite à deux reprises (dont une avec C. Goubin également) au président de la vente locale : Marcins 28. A contrario, un individu voit son importance diminuer : M. Raoulx. Les trois témoignages pris en compte pour cette étude révèlent un faible nombre de liens entre lui et les carbonari extérieurs au 45e. Alors que les deux autres comparses succèdent à J. Bories dans les préparatifs, et notamment lors de l’activation des contacts avec les relais locaux, M. Raoulx se « contente » de concentrer son action dans la ville de Niort où il participe à un dîner en compagnie de C. Goubin, J. Pommier, et un bourgeois niortais dans le nom est inconnu 29. Quelques jours plus tard, toujours avec C. Goubin, Raoulx rencontre un autre bourgeois niortais qui est désigné comme « gros bourgeois niortais » 30. Le sergent est pourtant constamment présent aux réunions internes de la société ; son faible investissement externe apparent ne peut donc s’expliquer ainsi. Il faut en effet prendre en compte le poids du secret. Les différents informateurs ont en effet pu, soit pour protéger le sergent, soit par méconnaissance de son 104

Infoclio_2015-livre_DRUCK.indd 104

06.08.15 09:11

Réseaux / Netzwerke

rôle réel, ne pas en dire plus aux autorités. Les informations concernant M. Raoulx doivent (cela est également valable pour les autres situations appréhendées) être mises en relation avec celles issues d’autres sources.

Conclusion À la fois outil de validation d’une hypothèse mais également point de départ de nouveaux questionnements, l’analyse de l’espace relationnel des carbonari du 45e régiment de ligne apporte un éclairage complémentaire aux travaux préexistants sur cet épisode. En ce sens, l’accent mis sur les trois dépositions primitives renseigne les modalités pratiques de l’engagement clandestin. Or, cet engagement individuel contredit le règlement dont le groupe entend se doter. Les graphiques présentés constituent, nous semble-t-il, un point de départ pour une étude qui entendrait considérer l’ensemble des sources à disposition sur ce complot, et qui amènerait indéniablement à affiner l’impact de chaque protagoniste dans l’espace relationnel créé à l’occasion de cette affaire. Les réseaux projetés ici offrent également des outils pour une étude comparée avec les autres complots entrepris par la Charbonnerie française. Les outils de visualisation, dans le cas d’une société secrète, restent tributaires d’une parole qui peine, pour différents motifs, à se libérer. En effet, le poids du secret, les enjeux politiques, les trajectoires personnelles des individus (qu’ils soient informateurs ou cités par ces derniers) amènent indéniablement l’historien des réseaux à composer avec les silences des acteurs, fussent-ils assourdissants.

105

Infoclio_2015-livre_DRUCK.indd 105

06.08.15 09:11

1

2

3

4

5

6 7 8

9 10

Ulysse Trélat, La Charbonnerie, in : Godefroy Cavaignac (éd.), Paris Révolutionnaire, Paris, 1848, p. 258. Sur la Charbonnerie, voir : Jean-Noël Tardy, Les catacombes de la politique : conspiration et conspirateurs en France (1818-1870), Thèse de doctorat sous la direction de Dominique Kalifa, Université PanthéonSorbonne, Paris, 2011 ; Pierre-Arnaud Lambert, La charbonnerie française : 18211823. Du secret en politique, Lyon 1995 ; Alan B. Spitzer, Old hatred and young hopes. The French carbonari against the Bourbon restoration, Cambridge 1971. Clémence Robert, Les Quatre Sergents de la Rochelle, Paris 1849 ; T. de Robville, Les Quatre Sergents de la Rochelle, Paris 1861 ; Alfred Delaveau Françoise, Chapitre inédit de l’histoire des quatre sergents de la Rochelle, Paris 1864 ; Anaxagore Guilbert, Les Sergents de la Rochelle, Paris 1864 ; Léonce Grasilier, L’aventure des Quatre Sergents de la Rochelle, Paris 1929. Jean Lucas-Dubreton, Les quatre sergents de la Rochelle, in : Historia, 1959 ; Jean Baylot, Complot des sergents de la Rochelle, Paris 1969. Ces trois documents se trouvent aux Archives Nationales de France. Il s’agit de copies de dépositions. Le dossier comporte une quatrième déposition, celle de Nicolas Hénon (orthographié parfois Hennon), instituteur à Paris, membre de la Charbonnerie (franc-maçon également). Il fait partie de la vente centrale de Paris après avoir été militaire. Arrêté lors des investigations relatives à l’affaire de la Rochelle, il livrera de nombreuses informations durant son interrogatoire. ANF, F7, 6659, 152 François Castille. L’interrogatoire de N. Hénon n’a pas été retenu car il ne concerne pas l’action de la vente du 45e régiment de ligne. Pour un aperçu plus détaillé du plan, voir Spitzer (Note 02), pp. 119–128. Achille Vaulabelle, Histoire des Deux Restauration, Paris 1860, p. 51. La vente est, dans la Charbonnerie française, l’équivalent de la loge maçonnique. Elle regroupe les différents carbonari qui y sont affiliés. Vaulabelle (Note 07), p. 51. Gaston Cougny, Adolphe Robert, Dictionnaire des Parlementaires français comprenant tous les membres des Assemblées françaises et tous les Ministres français depuis le 1er mai 1789 jusqu’au 1er mai 1889, avec leurs noms, état civil, états de service, actes politiques, votes parlementaires, Paris 1889, tome IV, p. 467.

11

12

13

14

15

16

17

18

19 20

21

22

Il s’agit principalement d’individus dont les carbonari du 45e régiment ne connaissent pas l’identité par rapport au leader local. Par exemple à Niort, Pommier et C. Goubin rencontrent Bellegarde, le président de la Haute Vente locale ainsi que des « bourgeois » niortais. Ils dînent tous ensemble. ANF, F7, 6659, 152, Copie de la déposition du sergent Goubin concernant le projet de complot de la Rochelle. L’étude de cas que nous nous proposons à partir de la conspiration de La Rochelle n’entend pas offrir un modèle d’interprétation de l’ensemble des actions de la société secrète. Alain B. Spitzer, P.-A. Lambert et J.-N. Tardy ont, chacun et par différents moyens, démontrés la multiplicité des pratiques existantes au sein de l’organisation. Pour un aperçu sur les évolutions organisationnelles de la société et notamment les influences d’autres structures, voir PierreArnaud Lambert (Note 02). Cours d’Assise de la Vienne, Procès des conspirateurs de Thouars et de Saumur, Poitiers 1822. Les termes employés pour désigner les ventes (particulière, centrale et haute vente) diffèrent sensiblement entre les règlements et les propos recueillis. En ce sens, l’on ne peut s’appuyer sur les propos des carbonari pour comprendre la hiérarchie des ventes. Par exemple, tous les carbonari s’accordent pour parler de l’existence d’une vente suprême. Or, d’un point de vue strictement réglementaire, elle n’existe pas. Pour plus de lisibilité, nous avons légèrement remanié la distribution des sommets dans l’espace graphique. Sur les trous structuraux, voir : Ronald S. Burt, Le capital social, les trous structuraux et l’entrepreneur, in : Revue française de sociologie, 1995, pp. 599 628. Nous employons ce terme pour désigner un réseau qui serait composé de l’ensemble des membres de la société secrète. Ronald S. Burt (Note 17), p. 602. Il s’agit de ne retenir que l’information et de rejeter, par là même, les jugements et autres digressions présents dans le récit. Sur cette méthode, voir : Pierre Karila-Cohen, Les préfets ne sont pas des collègues. Retour sur une enquête, in : Genèses, 79, 2010, pp. 116 134 Il s’agit en l’occurrence d’Ucinet et de Netdraw (pour la représentation graphique) : S. P. Borgatti, M. G. Everett, L. C. Freeman, Ucinet for Windows : Software for Social Network Analysis. Harvard 2002. La répartition des points dans l’espace a été faite par le logiciel lui-même suivant l’attraction et la répulsion des points. Sur la question de la représentation, voir : Françoise Bahoken, Représentation graphique des matrices. Graphe et/ou carte des flux ?, in : HalSHS, en ligne, 2011, https://halshs.archivesouvertes.fr/halshs-00641733/document.

106

Infoclio_2015-livre_DRUCK.indd 106

06.08.15 09:11

Réseaux / Netzwerke

23

24 25 26

27

28

29

30

L’indicateur de « centralité d’intermédiarité (betweenness) est une mesure de l’importance de la position intermédiaire occupée par les acteurs d’un graphe », Matthieu Ouimet, Vincent Lemieux, L’analyse structurale des réseaux sociaux, Bruxelles 2004, p. 24. Achille Vaulabelle (Note 07), p. 46. Ibid. La tendance visuelle observée dans ce graphique se trouve confirmée par le score de l’indicateur de betweenness : C. Goubin est crédité de 294,298 ; Pommier de 209,798. ANF, F7, 6659, dossier 152 François Castille, copie d’une déposition de Pommier concernant la vente de la Charbonnerie dans le 45e régiment de ligne, 25 mars 1822. ANF, F7, 6659/ 152 François Castille, Copie d’une déposition de J. Pommier concernant la vente de la Charbonnerie dans le 45e régiment de ligne, 25 mars 1822. ANF, F7, 6659/ 152 François Castille, Copie d’une déposition de J. Pommier concernant la vente de la Charbonnerie dans le 45e régiment de ligne, 25 mars 1822. ANF, F7, 6659/ 152 François Castille, Copie d’une déposition de J. Pommier concernant la vente de la Charbonnerie dans le 45e régiment de ligne, 25 mars 1822.

107

Infoclio_2015-livre_DRUCK.indd 107

06.08.15 09:11

Infoclio_2015-livre_DRUCK.indd 108

06.08.15 09:11

Réseaux / Netzwerke

Introduction à la visualisation de données : l’analyse de réseau en histoire Martin Grandjean, Université de Lausanne

109

Infoclio_2015-livre_DRUCK.indd 109

06.08.15 09:11

Abstract

The use of data visualization in history leads to contradictory reactions: some are fascinated by its heuristic potential and forget their critical faculties while others reject this practice, suspecting it of hiding explanatory weaknesses. This paper proposes a distinction between demonstration visualization and research visualization, reminding that scholars should not only use data visualization for communication purposes, but also for the research itself. It is particularly in its more complex form that this research visualization category will be approached here: network analysis.

110

Infoclio_2015-livre_DRUCK.indd 110

06.08.15 09:11

Réseaux / Netzwerke

Avant-propos : fascination et préjugés Inclure une visualisation de données dans une présentation académique fait courir au conférencier deux risques antagonistes liés à l’hétérogénéité de son assistance. D’une part, le risque de perdre la moitié du public qui, fasciné par les images, quitte la linéarité des propos du discourant et évacue tout esprit critique sur la source et l’apport épistémologique du matériel présenté. D’autre part, le risque que l’autre moitié du public rejette par principe cette manière de présenter un processus ou un résultat sur le simple soupçon que la démarche visuelle attrayante ne cache une faille méthodologique ou un vide explicatif. Il va s’agir ici de répondre à la fascination comme aux craintes en pesant les potentialités comme les risques de la visualisation de données en histoire, en particulier dans sa forme la plus complexe et plus aboutie, l’analyse de réseaux. Le réseau, entre tentation de la beauté pour ellemême et difficile lisibilité, est un outil de recherche plus qu’une fin et c’est à ce titre que l’historien doit apprendre à l’apprivoiser pour en tirer profit en en évitant les principaux écueils. En ce qu’elle pose également les bases d’une typologie et qu’elle liste des erreurs courantes, cette démarche a un caractère introductif. Par respect pour les auteurs et pour conserver cette dimension didactique, il ne s’agit donc pas d’y construire une bibliographie exhaustive d’exemples et contre-exemples.

La visualisation de données en histoire aujourd’hui Si la réputation de la visualisation de données est si teintée de cette ambiguïté entre fascination et préjugés, c’est probablement parce qu’elle est desservie par l’incompréhension profonde d’un public traditionnellement peu habitué à ce type de vecteur d’information. En outre, de nombreux exemples si ce n’est désastreux du moins fautifs parsèment la littérature scientifique et lui portent préjudice. Avant de s’attacher à combler le manque de compréhension qui entoure la visualisation (et son utilité pour les sciences historiques) et surtout de détailler certains des abus les plus fréquents, un retour aux fondamentaux s’impose. Bien que le terme de visualisation renvoie aujourd’hui à une mise en image du traitement d’informations, la tendance à illustrer une argumentation par un objet visuel est très probablement aussi ancienne que l’écriture elle-même. Il n’est pas ici question de refaire une énième chronologie des traditions narratives qui ont abouti aux objets multiformes et multimédias qui nous servent aujourd’hui à dérouler nos propos, mais plutôt de rappeler que les enluminures, gravures, peintures et autres photographies, bien qu’étant comme on va le voir plus loin d’un autre ordre que les « visualisations de données », n’en sont pas moins des moyens de 111

Infoclio_2015-livre_DRUCK.indd 111

06.08.15 09:11

soutenir l’expression d’un raisonnement. Même si elle se développe en particulier dès l’avènement des mathématiques modernes, la visualisation de données n’est en effet pas une pratique récente : des cartographies célestes aux traités d’anatomie en passant par les arbres généalogiques de monarques, les exemples ne manquent pas. Emblématique depuis sa popularisation par Edward Tufte 1, la « Carte figurative des pertes successives en hommes de l’armée française dans la campagne de Russie 1812–1813 » de Charles Joseph Minard, datée de 1869, est fréquemment citée 2 comme la première visualisation de données en raison de la très grande lisibilité dont elle fait preuve malgré son importante densité d’informations. Sur un fond de carte géographique représentant la distance entre Kaunas et Moscou se déroule le trajet allerretour des armées napoléoniennes. L’épaisseur de la ligne varie en fonction de l’effectif diminuant des soldats français alors que le tragique trajet du retour est augmenté de repères indiquant les températures endurées par la Grande Armée. Cette image tire sa puissante valeur narrative du fait qu’on y lit en un seul coup d’œil plusieurs mois de campagne et qu’on en tire rapidement un enseignement fondamental pour la compréhension de cet épisode historique : les effectifs napoléoniens ont subi une diminution relativement constante due aux maladies, au froid, aux escarmouches avec les troupes russes, alors qu’aucune bataille majeure n’a été perdue. Sans volonté de déconstruire le modèle de Minard et encore moins de porter atteinte au succès de cette réalisation, on notera que cette image n’est pas une « visualisation de données » au sens strict, un graphique sur lequel des points sont reportés en respectant fidèlement les valeurs qui leur sont associées mais plutôt un dessin sur la base de données, d’ailleurs évidemment incomplètes (puisqu’il s’agit de relevés d’effectifs ponctuels et irréguliers). Sur les traces de réalisations réussies et visuellement efficaces comme celles de Minard et portée par l’essor des études statistiques et quantitatives, la pratique de la visualisation de données connaît un développement tout à fait remarquable dans le courant du XXe siècle. Cette généralisation du graphique comme moyen d’expliciter un corpus de données s’accompagne, en particulier dans les disciplines peu familières au traitement d’informations chiffrées, de nombreux contre-exemples, souvent involontaires, qu’il s’agit ici de mettre à l’index pour mieux en éviter la répétition 3. ×× Le tableau de chiffres absolus. Par négligence ou par manque de données à comparer, il n’est pas rare d’exprimer un phénomène en chiffres absolus sans discours critique. La figure 2 montre une augmentation nette du nombre de malades : il est toutefois extrêmement réducteur d’en conclure que la maladie est en progression 112

Infoclio_2015-livre_DRUCK.indd 112

06.08.15 09:11

Réseaux / Netzwerke

sur vingt ans (le nombre de malades a doublé) sans superposer à ces données la population totale, qui elle a été multipliée par quatre pendant le même intervalle. ×× La carte de population non pondérée. Cartographier les possesseurs de téléphones portables sur un territoire donné n’a aucun intérêt si les données ne sont pas pondérées en fonction de la population des subdivisions concernées. Sans pondération, et à moins que la répartition de la population-cible ne soit très irrégulière, le résultat ne sera qu’une carte de population globale (à ce titre, la figure 3 peut aussi bien représenter les possesseurs de téléphones portables que les cas de grippe ou la consommation totale d’hydrocarbures). Cette erreur est extrêmement fréquente et témoigne de la fascination visuelle exercée par la cartographie de manière générale. Elle montre aussi à quel point ce genre de visualisation n’a pas fait l’objet d’un regard critique de la part de son concepteur. ×× Le nuage de mots-clés incompris. Les conférences et couvertures d’ouvrages agrémentées de ces fameux wordclouds sont légion. Mais cette visualisation, pour autant que le corpus textuel ait été défini rigoureusement et les choix de dictionnaires (langue, mots à exclure, détection des expressions) effectués avec soin, apporte-t-elle une réelle valeur ajoutée vis-à-vis de la liste sèche du nombre d’occurrences de chaque notion (figure 4) ? Sans compter les visualisations obtenues à l’aide d’outils en ligne à de simples fins illustratives. ×× Le recours aveugle à Google Ngram 4. S’il est une mode dont les historiens ne semblent pas prêts de s’affranchir, c’est bien celle de céder à la griserie du prétendu big data de la bibliothèque numérisée du géant Google et de son outil de compilation d’occurrences. Non seulement l’opacité de la base de données (il est impossible de savoir quels sont les ouvrages pris en compte) de Google Books devrait décourager le chercheur de l’utiliser dans le cadre scientifique, mais celui-ci ne prend souvent même pas la peine d’en comprendre les fonctionnalités. Ainsi, il arrive fréquemment que soient comparés des termes incomparables : la figure 5, directement inspirée d’une communication scientifique, compare « bible » à « Shakespeare » en oubliant la majuscule du premier terme, alors que le moteur de recherche est sensible à la casse. Une erreur aux conséquences lourdes puisque le terme « Bible » (avec sa majuscule) est massivement plus utilisé que son équivalent en bas de casse 5. On retiendra, à propos de la visualisation de données en histoire, qu’elle n’est efficace que si elle est accompagnée d’un discours critique qui en explicite les sources (et la méthode dans le cas de visualisations complexes). 113

Infoclio_2015-livre_DRUCK.indd 113

06.08.15 09:11

114

Infoclio_2015-livre_DRUCK.indd 114

06.08.15 09:11

Réseaux / Netzwerke

FIGURE 1 « Carte figurative des pertes successives en hommes de l’armée française dans la campagne de Russie 1812–1813 », Charles Joseph Minard, 1869.6

115

Infoclio_2015-livre_DRUCK.indd 115

06.08.15 09:11

population totale nombre de malades

3M

2M

1M

1990

2000

2010

fig. 2

fig. 3

FIGURE 2 Le tableau de chiffres absolus

Ce

de

Nuage

mots

mais

est attrayant est-il très utile ? fig. 3

vraiment

fig. 4

0.3%

Google bible Bible

0.2%

0.1%

1800 fig. 5

2010

s

fig. 3 FIGURE 3 La carte de population non pondérée

0.3%

Google books Ngram Viewer bible Bible

116

Shakespeare

0.2% Infoclio_2015-livre_DRUCK.indd 116

06.08.15 09:11

Réseaux / Netzwerke

Ce

Nuage

mots mais

est attrayant est-il très utile ? vraiment

FIGURE 4 Le nuage de mots-clés incompris

2010 fig. 3

ots

s

de

t est-il e?

0.3%

Google books Ngram Viewer bible

Shakespeare

Bible

0.2%

0.1%

1800

1900

2000

fig. 5 FIGURE 5 Le recours aveugle à Google Ngram

117

Infoclio_2015-livre_DRUCK.indd 117

06.08.15 09:11

Sans ce discours qui révèle ce qu’il y a derrière le produit fini visuel, elle perd son intérêt, voire son sens.

Quelle visualisation ? Esquisse d’une typologie Toutes les visualisations ne se valent pas, toutes ne se prêtent pas à la mise en image de tous les types de données. Au-delà d’aspects esthétiques subjectifs (qui ne sont évidemment pas à négliger puisqu’un visuel bâclé peut être rédhibitoire), le chercheur en histoire doit disposer d’une typologie qui guide et facilite ses expérimentations visuelles : ×× L’usage, entre démonstration et recherche. Il faut distinguer les visualisations qui découlent d’un savoir scientifique et les visualisations qui créent un savoir scientifique. Cette bipartition entre visualisation de « démonstration » et visualisation de « recherche » est tout à fait fondamentale et permet de se mettre au clair avec le but explicite de la démarche visuelle. Bien qu’il n’y ait pas de gradation de valeur entre ces deux types, il apparaît évident que, bien qu’on puisse avoir recours avec succès à la visualisation de démonstration à des fins pédagogiques (rendre un savoir compréhensible à une audience), c’est son pendant de recherche qui va attirer notre attention ici. Contrairement à l’idée reçue et comme on va avoir l’occasion de s’en rendre compte plus bas dans le cadre de l’analyse de réseau, la visualisation est parfois un moyen de faire surgir de nouvelles questions de recherche d’un jeu de données très complexes et à première vue inintelligibles. Ces visualisations ne sont donc pas toujours destinées à être publiées ou présentées mais simplement à soutenir le chercheur dans sa réflexion, lui ouvrant des perspectives inédites. ×× La source, entre information et données. La nature des sources qui composent la visualisation est un critère qui détermine la nature du produit fini lui-même. Un organigramme de comité de direction renseigne son lecteur en lui fournissant des informations alors qu’un histogramme renseigne son lecteur en lui mettant à disposition l’expression de données. Triviale dans l’exemple organigramme/ histogramme, cette typologie s’avère importante dans le contexte du partage de connaissances puisque fleurissent sur Internet et dans les médias les « infographies », ces images qui tiennent souvent plus de l’art graphique que de l’expression de données. L’infographie comparant trois modèles de voitures, quand bien même elle inclut des données chiffrées permettant de comparer les véhicules, n’est pas une visualisation de données mais un simple vecteur informatif. ×× La complexité, entre simplicité et illisibilité. Bien qu’elle différencie les objets visuels selon des critères différents, cet élément 118

Infoclio_2015-livre_DRUCK.indd 118

06.08.15 09:11

Réseaux / Netzwerke

de typologie rejoint parfois la question de l’usage en ce que les visualisations les plus compliquées sont généralement impropres à la « démonstration ». C’est le cas d’une partie des graphes de réseaux qui, bien qu’ils dégagent une apparence globale de cohérence, demandent une analyse minutieuse dont la complexité dépasse le lecteur non averti. Toutefois, cette typologie n’est pas dénuée d’un certain sens pour catégoriser les visualisations de données puisqu’il arrive que des corpus de données très conséquents puissent se résumer en un graphique en courbes tout à fait lisible et démonstrativement efficace. La typologie esquissée ici n’est pas exhaustive, elle se veut une base de réflexion pour le chercheur face à ses données.

Analyse de réseau : le cas des archives de la coopération intellectuelle de la SDN Dès 1919, et pendant l’immédiat après-guerre, des scientifiques européens cherchent à réactiver les nécessaires réseaux de communication académique. Alors que le continent se remet petit à petit des séquelles du premier conflit mondial, la Société des Nations (SDN) offre à ces chercheurs un espace de dialogue : la Commission Internationale de Coopération Intellectuelle (CICI). Présidée par le philosophe Henri Bergson et réunissant des éminences grises aux carrières internationales et aux attaches disciplinaires variées 7, la CICI tente de se poser en rassembleuse dans un milieu très éprouvé par cinq années d’absence de relations. Entre projets d’enquêtes, soutiens à des institutions scientifiques en difficultés, rassemblements académiques et publications, la CICI a tout pour devenir un acteur incontournable de la restructuration des réseaux intellectuels. Envisager l’étude de cette commission, cette nouvelle venue dans la scène traditionnellement très structurée des échanges académiques (entre revues, lieux de congrès et universités), fait poindre la nécessité de comprendre l’enchevêtrement des relations qu’elle tisse avec la toile préexistante. Puisque c’est vers l’analyse de réseau que l’historien se tourne pour cette étude, il est nécessaire de distinguer deux approches : ×× Le réseau reconstruit. Sur la base des nombreuses monographies et études documentant l’entre-deux-guerres scientifique, ainsi qu’avec les informations contenues dans les publications internes de la SDN, il est possible de reconstituer l’organigramme des institutions actrices de la coopération intellectuelle : sociétés savantes avec leurs comités et leurs membres, syndicats des travailleurs intellectuels, universités et leurs commissions de recherche, faîtières internationales et leurs sections, instituts indépendants et initiatives privées. Cette 119

Infoclio_2015-livre_DRUCK.indd 119

06.08.15 09:11

approche plutôt traditionnelle permet de reconstruire un tableau global des relations entre acteurs (institutions et personnes) sur la base d’informations 8. ×× Le réseau des données. Plutôt que de tenter un panorama global et interprété de la situation européenne, il s’agit ici de laisser parler un corpus d’archives. Le fonds de la CICI contient des milliers de correspondances internes et externes qui offrent une perspective nouvelle sur les relations entretenues par ses membres avec les autres acteurs du champ académique de l’entre-deux-guerres. Ces données (auteur-destinataire) s’offrent à une exploitation systématique en « réseau ». On notera que ces deux approches reprennent à dessein la bipartition informations/données évoquée plus haut. Plutôt que de les opposer, l’intérêt est évidemment de comparer le réseau global reconstitué avec le réseau de correspondances de la CICI. On s’attardera ici sur la seconde, à savoir l’approche archivistique 9. Concrètement, c’est en listant tous les documents contenus dans les sections du fonds SDN qui traitent de la CICI 10 avec leurs métadonnées standardisées que l’on obtient une base de données que l’on peut mettre en relation avec un index des acteurs des documents en question (leurs auteurs et destinataires). Avant même la visualisation du réseau formé par ces documents et leurs acteurs, la base de données relationnelle est déjà un réseau utilisable : il est aisé d’y lister toutes les occurrences communes de deux personnes ou de voir par quel document se concrétise le lien entre deux entités. C’est toutefois dans son exploitation visuelle que cette démarche trouve sa plus-value. Cette base de données relationnelle peut être visualisée sous la forme d’un graphe bipartite (figure 6) où chaque document est relié à ses acteurs. On procède ensuite à une « projection » qui va simplifier le graphe en résumant les connexions d’acteurs à un document commun en une relation simple entre acteurs. Dans la figure 6, le document 31596 implique Marie Curie, Hendrik Lorentz et Henri Bergson. Cette situation est résumée dans la figure 7 par une arête entre chacune de ces trois personnes (l’arête entre Marie Curie et Henri Bergson est plus épaisse car ils apparaissent simultanément dans trois documents dans cet exemple). Vient l’heure de la visualisation du réseau complet (figure 8), où tous les acteurs sont spatialisés sous la forme d’une galaxie à première vue inintelligible. La répartition des sommets n’en est pas pour autant aléatoire : ce force-directed layout 11 calcule les positions de façon à éloigner 120

Infoclio_2015-livre_DRUCK.indd 120

06.08.15 09:11

Réseaux / Netzwerke

Einstein

Curie

33685

11040 10574

21013 28289

20827

Destrée 31596

Bergson 28343

Lorentz

Reynold

18698

Rocco

39878

13326

FIGURE 6

Curie

Einstein

Destrée

Reynold

Rocco

Bergson

Lorentz

FIGURE 7

FIGURES 6 – 7 Un exemple de réseau de documents12, mis en lien avec les personnes qui y figurent (fig. 6, en haut), puis « projeté » vers un réseau (fig. 7, en bas) où seules les personnes apparaissent, connectées aux autres acteurs des documents communs.

121

Infoclio_2015-livre_DRUCK.indd 121

06.08.15 09:11

122

Infoclio_2015-livre_DRUCK.indd 122

06.08.15 09:11

Réseaux / Netzwerke

FIGURE 8 Le graphe du réseau obtenu après dépouillement (encore partiel) de plusieurs milliers de documents : plus de 800 personnes reliées par près de 6000 arêtes (représentant plus de 10000 relations, les arêtes s’épaississent proportionnellement au nombre d’apparitions simultanées de personnes comme acteurs d’un même document). La taille des cercles est fonction du degré de centralité des

personnes (le nombre de connexions qu’elles entretiennent) alors que la couleur indique leur centralité d’intermédiarité (mesure, sur tous les chemins possibles dans le réseau, la proportion de chemins qui passent par cet acteur et renseigne ainsi sur sa potentielle fonction de « pont » dans le réseau en question).

123

Infoclio_2015-livre_DRUCK.indd 123

06.08.15 09:11

FIGURE 9 Un autre regard sur le réseau de métro parisien.

le plus possible les sommets les uns des autres, à l’exception des sommets reliés par une arête (auquel cas il tient compte du poids de celle-ci). Les positions sont donc calculées et recalculées afin de trouver, comme lorsqu’on déposerait un grand nombre d’aimants de même charge sur une table, une position d’équilibre. Cette visualisation est tout sauf un produit fini. On imagine d’ailleurs mal comment s’en contenter puisque même si des communautés semblent se dégager du centre complexe de cette « galaxie », aucune conclusion ne peut en être tirée dès le premier coup d’œil. C’est l’exemple parfait de la visualisation de recherche évoquée plus haut : une visualisation destinée à attirer l’attention du chercheur sur une irrégularité, un phénomène global ou une relation étonnante. D’un point de vue documentaire, ce 124

Infoclio_2015-livre_DRUCK.indd 124

06.08.15 09:11

Réseaux / Netzwerke

type de visualisation peut évidemment être utilisé pour mettre en image le réseau de correspondance d’un individu 13 (en le mettant en valeur par une couleur particulière, lui et les individus avec lesquels il est connecté, par exemple) ou d’un groupe d’individus, mais son réel intérêt réside dans les outils mathématiques qui s’offrent désormais à l’historien pour faire parler ces données dans un nouveau registre épistémologique. Cette visualisation et les perspectives d’analyse de réseau qu’elle porte en puissance doit toutefois être elle aussi soumise à la critique du chercheur. Le principal malentendu véhiculé par ce type de visualisation est qu’elle représenterait une forme de « vision complète » d’un objet historique, alors qu’il ne s’agit que d’un artefact graphique visualisant une base de données qui a ses limites implicites. Le réseau donne en effet l’impression d’un objet fini, total. Il n’en est rien puisqu’on ne visualise que les données qui sont à disposition, nous heurtant à l’incomplétude des archives et au fait que les relations entre les scientifiques de l’entre-deuxguerres ne se résumaient pas à des échanges épistolaires. L’occasion une fois de plus de rappeler que l’analyse de réseau n’est qu’un outil. Un outil d’un très grand intérêt puisqu’il offre à l’historien une vision distante de son objet, pour mieux s’y plonger en détail ensuite.

Le réseau, au-delà de l’aspect visuel L’analyse de réseau n’a pas besoin de son illustration visuelle pour être effective. Sa visualisation ne fait que contribuer à réduire son niveau d’abstraction, en particulier lors de son utilisation dans le cadre de recherches en histoire. Ses particularités en font un objet mathématique très bien balisé dans le domaine de la théorie des graphes 14. Lors de la création de nouvelles lignes de transports publics, c’est entre autres à cette théorie que l’on fait appel pour comprendre les flux de passagers et les tensions d’horaires. La figure 9 représente le réseau de métro de Paris dans une configuration relativement différente du plan que l’usager quotidien à l’habitude de trouver sur le panneau d’affichage de l’entrée la plus proche : les arrêts ne sont pas répartis en fonction de leurs coordonnées géographiques mais simplement ordonnés spatialement selon un algorithme force-directed. La taille des marqueurs des stations n’est pas fonction de l’importance des monuments qu’elles desservent, ni du nombre d’utilisateurs recensés lors du dernier relevé de la RATP, mais du nombre de lignes qui les traversent. C’est dans ce type d’application que les indices de centralité 15 vont permettre de vérifier ou d’infirmer le calcul intuitif de l’usager régulier en recherche du plus court trajet entre son domicile et son lieu de travail : ici, la distance géographique compte moins que le nombre d’arrêts. 125

Infoclio_2015-livre_DRUCK.indd 125

06.08.15 09:11

On dénombre plusieurs mesures de centralité dont il s’agit ici d’évoquer quelques-unes des plus probantes dans le cadre d’études de réseau de transport public comme dans le cadre de l’analyse archivistique menée plus haut. La plus intuitive est la centralité de degré, déjà évoquée, qui classe les nœuds du réseau en fonction de leur nombre de connexions16. Mais avoir un nombre élevé de relations ne fait pas pour autant de l’élément en question un élément central du réseau, ce que la centralité de proximité mesure en évaluant la distance qui sépare chaque nœuds du réseau un à un, pour mettre en valeur ceux qui ont la distance moyenne la plus courte. Dans le cadre d’une étude sur un réseau épistolaire (le réseau des archives de la CICI s’y prête très bien), c’est une mesure de centralité d’intermédiarité qui va indiquer au chercheur quelles sont les personnes qui font office de « ponts » entre les communautés en présence. Ces individus, collectionnant les « liens faibles » 17, ne sont pas nécessairement les personnalités les plus connectées du réseau. C’est leur position à l’intérieur de celui-ci qui leur confère cette importance. Cette mesure est d’autant plus intéressante que ces individus ne sont pas toujours des personnalités de premier plan ; il est donc difficile de les détecter par un autre biais. On y découvre par exemple, dans les marges d’un réseau dense d’acteurs très médiatisés, des scientifiques dont le nom n’aura pas été retenu pour leurs travaux mais qui jouent efficacement ce rôle d’intermédiaires en occupant plusieurs positions administratives dans des sociétés savantes. S’il est un réseau inextricable et impossible à visualiser dans toute sa complexité, c’est la bien nommée « toile » de l’Internet. Alors que les milliards de pages qui la composent contiennent elles-mêmes des liens vers d’autres pages, le moteur de recherche Google fait lui aussi usage de la théorie des graphes pour détecter les pages les plus dignes d’intérêt. C’est en effet à l’aide d’une mesure de centralité de prestige 18, que Google attribue une note de 1 à 10 (échelle logarithmique), son fameux pagerank, aux sites web, qui impacte ensuite sur leur référencement. Cet algorithme attribue un score de « prestige » à chaque nœud du réseau (chaque page web dans cet exemple) qui va varier en fonction des scores des nœuds qui pointent sur lui. Une page web citée depuis des pages très bien référencées va donc voir son score augmenter, tout en distribuant ce « prestige » nouvellement acquis aux pages qu’elle cite elle-même (le score est donc constamment recalculé 19). Dans cette nouvelle relation qu’instaurent les outils mathématiques (et les outils statistiques déjà largement adoptés par la communauté des sciences historiques), il convient toutefois de faire preuve d’une certaine prudence vis-à-vis de la transformation de la source en une donnée chiffrée et interrogeable : ces aspects mathématiques, ces mesures de centralités 126

Infoclio_2015-livre_DRUCK.indd 126

06.08.15 09:11

Réseaux / Netzwerke

et leurs potentialités n’ont pas toujours à voir avec les comportements humains que décrivent les sources originales. Toutes ces démarches ont donc leur place dans la dimension exploratoire de la recherche et doivent passer le filtre critique du chercheur avant d’être érigées en conclusions automatisées. Ce n’est pas parce qu’un des acteurs du réseau de la CICI obtient un score d’intermédiarité important qu’il est pour autant un personnage-clé des relations entre des sous-parties du réseau. Cette conclusion ne doit être tirée que par l’historien qui, alerté par ce résultat statistique, a replongé dans les correspondances de cet individu pour constater qualitativement sa position particulière.

Conclusion : organiser et visualiser l’information en réseau Alors que le proverbe « une image vaut mieux que mille mots », attribué à Confucius, semble appuyé par les récents développements de la visualisation de données, on rappellera que sans discours critique cette visualisation n’a pas toute sa légitimité narrative ou explicative. Mais si l’image est effectivement parlante, pour illustrer un article scientifique comme pour guider un chercheur dans un questionnement, c’est probablement parce que la visualisation est un langage qui s’impose à son lecteur de manière quasi organique, viscérale et instinctive, en instaurant une nouvelle relation avec les données. D’ailleurs, l’organisation de la connaissance en réseau, que ce soit dans de grandes bases de données de recherche, dans des encyclopédies participatives en ligne comme Wikipédia ou concrétisée par les réseaux sociaux de chercheurs sur des nouveaux médias comme Twitter, est une réalité du monde académique d’aujourd’hui qu’on ne saurait amputer de sa dimension visuelle. Prêchons donc pour que l’historien ne sous-traite pas les composantes techniques de sa recherche, mais qu’il se saisisse lui-même de la visualisation de données dans une démarche exploratoire et méthodologique pour réaliser que la mise en réseau de ses données est déjà un moyen de créer de nouveaux savoirs.

127

Infoclio_2015-livre_DRUCK.indd 127

06.08.15 09:11

1

2

3

4 5

6 7

Tufte, Edward R., The visual display of quantitative information, Graphics Press, Michigan, 1983. Robinson, Arthur H., The thematic maps of Charles Joseph Minard, in : Imagio Mundi, 21, 1, 1967, pp. 95–108 ou Palsky, G., Des chiffres et des cartes : naissance et développement de la cartographie quantitative française au XIXe siècle, CTHS, Paris, 1996, p. 331. Les exemples qui suivent sont tout quatre inspirés de communications scientifiques récentes. books.google.com/ngrams. Le paradoxe du case-sensitive et de la possibilité de rechercher des expressions de plusieurs mots est d’ailleurs lui-même entretenu par Google puisque l’exemple donné par son outil Ngrams (note précédente) montre que « Frankenstein » est plus utilisé que « Albert Einstein » et « Sherlock Holmes »... alors que « Einstein » et « Holmes » (sans leurs prénoms, puisque Viktor Frankenstein est cité sans son prénom) font des scores en réalité dix fois plus élevés que « Frankenstein » ! Illustration vectorisée par l’auteur. Pour illustrer cette diversité, on y trouve des représentants d’une large palette d’intérêts académiques, comme Marie Curie, Albert Einstein, Hendrik Antoon Lorentz, Robert Andrew Millikan, Jules Destrée ou encore Gonzague de Reynold. À propos de la CICI, voir Renoliet, Jean-Jacques, L’UNESCO oubliée, la Société des Nations et la coopération intellectuelle (1919-1946), Publications de la Sorbonne, Paris, 1999 et les articles de Laqua, Daniel, Transnational intellectual cooperation, the League of Nations and the problem of order, in: Journal of Global History, 6, 2, 2011, pp. 223-247 et Pernet, Corinne A., Les échanges d’informations entre intellectuels: la conférence comme outil de coopération intellectuelle à la Société des Nations, in: Clavien, Alain et Vallotton, François, Devant le verre d’eau. Regards croisés sur la conférence comme vecteur de la vie intellectuelle 1880-1950, Antipodes, Lausanne, 2007, pp. 91-106.

8

9

10

11

12

13

14

15

16

17

18 19

À l’exemple de l’excellente base de données LONSEA. Sibille, Christiane, LONSEA – Der Völkerbund in neuer Sicht. Eine Netzwerkanalyse zur Geschichte internationaler Organisationen, in : Zeithistorische Forschungen, 8, 2011, Online : http://www. zeithistorische-forschungen.de/ site/40209190/default.aspx (consultation septembre 2013). Cette approche a déjà été abordée dans Grandjean, Martin, La connaissance est un réseau, perspective sur l’organisation archivistique et encyclopédique, in: Les Cahiers du Numérique, 10, 3, 2014, pp. 37-54. On parle ici des archives de la SDN conservées à Genève (United Nations Library, Palais des Nations), en particulier des sections 5 et 13 du secrétariat. Ne sont pas concernées les archives de l’Institut International de Coopération Intellectuelle (IICI), conservées à l’UNESCO (Paris). En l’occurrence l’algorithme « Force Atlas 2 » (Jacomy, Mathieu, Venturini, Tommaso, Heymann, Sebastien et Bastian, Mathieu, ForceAtlas2, a Continuous Graph Layout Algorithm for Handy Network Visualization Designed for the Gephi Software, in : PLoS ONE, 9, 6, 2014) du logiciel open source Gephi (Bastian, Mathieu, Heymann, Sebastien et Jacomy, Mathieu, Gephi: an open source software for exploring and manipulate networks, in: International AAAI Conference on Weblogs and Social Media, 2009, pp. 361-362). Archives SDN, cotes 13C/14297/20827 ; 13C/14297/21013 ; 13C/20085/28289 ; 13C/20085/31596 ; 13C/20085/33685 ; 5B/2975/11040 ; 5B/2975/18698 ; 5B/5353/10574 et 5B/5353/39878. Un exemple de réflexion à ce sujet chez De Nooy, Wouter, Fields and networks : correspondence analysis and social network analysis in the framework of field theory, in : Poetics, 31, 2003, pp. 305–327. U. Brandes, M. Hennig, I. Mergel, J. Pfeffer, Studying Social Networks : A guide to empirial research, Frankfurt am Main, 2012, pp. 149–182. Linton C. Freeman, Centrality in social networks: Conceptual clarification, in : Social Networks, 1, 1979, pp. 215–239. À propos des mesures de centralité, voir Freeman, Linton C., Centrality in social networks: conceptual clarification, in: Social Networks, 1, 3, 1978, pp. 215-239 et en particulier Koschützi, Dirk, Lehmann, Katharina Anna, Peeters, Leon, Richter, Setfan, Tenfelde-Podehl, Dagmar et Zlotowski Oliver, Centrality indices, in: Brandes, Ulrik et Erlebach, Thomas, Network Analysis, Springer, Berlin, 2005, pp. 16-61. Mark S. Granovetter, The strength of weak ties, in: American Journal of Sociology, 78, 6, 1973, pp. 1360–1380. Ou Eigenvector centrality. Ce qui n’est pas tout à fait le cas dans l’exemple de Google qui procède à des réajustements ponctuels.

128

Infoclio_2015-livre_DRUCK.indd 128

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Des cartes de pratiques à une meilleure pratique graphique. Bénéfices d’une utilisation consciente de l’informatique Damien Thiriet

129

Infoclio_2015-livre_DRUCK.indd 129

06.08.15 09:11

Abstract

Religious practices statistics are highly valuable sources to comparative studies of working class Catholicism. Graphical tools are commonly used to interpret such data. When there are not mastered, one wastes however much more than lot of time and energy; many interesting facts are simply overlooked. This papers shows the negative impact of poor computer knowledge. New discoveries allowed by a better understanding of graphical tools are then emphasized. Two issues are described: statistical analysis of baptism and generating maps showing the worship of saints in Upper Silesia.

130

Infoclio_2015-livre_DRUCK.indd 130

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

« Et si c’était à refaire, je ne referais pas ce chemin…». Tant de temps perdu par ignorance informatique… Aurais-je pu décrire « la religion des milieux ouvriers catholiques dans les bassins houillers franco-belges et haut-silésiens (1922–printemps 1939) » sans outils statistiques 1 ? Sans doute, mais j’ai estimé que le recours non exclusif aux graphiques m’aiderait à mieux décrire la palette des convictions religieuses de ces ouvriers, hâtivement décrits comme unanimement athées ou fervents selon les régions. Les graphiques peuvent aussi aider à répondre à cette question centrale : prise au sens littéral, la foi du charbonnier témoignerait-elle d’une acculturation du catholicisme à l’univers des houillères ? Cet article entend souligner les bénéfices d’un large détour par l’image qui ne s’imposait pas a priori. La première partie s’intéresse aux représentations statistiques des délais de baptême, et une seconde partie traite de la cartographie statistique des cultes ouvriers. J’insisterai toutefois sur les impasses auxquelles peut conduire une mauvaise maîtrise de l’outil informatique. Seule une prise en main récente des bases de données, Systèmes d’Information Géographiques, et logiciels de traitement statistique m’a permis de lever ces blocages.

1. Pourquoi tant de graphiques ? 1. Au carrefour de deux historiographies Mes recherches doivent beaucoup à la « phénoménologie élémentaire » de la « religion populaire » d’Alphonse Dupront. Elles lui empruntent deux dimensions : religion du quotidien et extraordinaire. La troisième (religiosité) n’a pas été retenue car elle regroupe tous les gestes non reconnus par l’Église. Comme si le croyant, dont Dupront souligne le peu d’intérêt pour la théologie, attachait un grand prix au caractère orthodoxe ou non de ses pratiques 2… L’idée de comparer des bassins miniers, elle, doit beaucoup aux cartes de pratique. La « carte Boulard » (1947) divisant les campagnes françaises en régions de « pratique majoritaire », de « pratique minoritaire » et « à minorité détachée du catholicisme » a inspiré une importante production scientifique 3. Nombre de travaux de qualité 4 reposent sur l’analyse minutieuse des enquêtes paroissiales remplies tous les 5–7 ans à l’occasion des visites pastorales de l’évêque, et tout particulièrement de leur volet statistique (Combien de communions ? De pratiquants ? etc.). Pourquoi s’être inspiré à ce point de deux courants dont l’âge d’or remonte au tournant des années 1970–1980 ? Les nombreuses réflexions sur la foi populaire ont produit peu d’études pratiques, sans doute faute de sources écrites. Deux pistes permettent de contourner ce problème : la 131

Infoclio_2015-livre_DRUCK.indd 131

06.08.15 09:11

Graphique 1 Délais de baptême, Chropaczów (Haute-Silésie), 1923

Graphique 2 Délais de baptême, Gołonóg (bassin de la Dombrowa), 1924

132

Infoclio_2015-livre_DRUCK.indd 132

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

conduite d’entretiens et la cartographie. Sarah Williams a pu montrer au moyen d’entretiens que les ouvriers du quartier londonien de Southwark donnaient au même acte une signification sociale (le mariage religieux signe de respectabilité), orthodoxe (la bénédiction comme protection divine) et magique (le bon déroulement de la cérémonie garantissait une vie conjugale réussie) 5. Restait l’autre piste signalée par Alphonse Dupront : la cartographie 6. À condition de changer de focale, en prenant pour base une catégorie sociale et en comparant plusieurs espaces nationaux. Maniant plus facilement la carte 7 que l’entretien, j’ai logiquement choisi de comparer plusieurs bassins houillers situés à cheval sur quatre pays : la France (bassins du Pas-de-Calais et du Nord), la Belgique (Borinage, Centre, pays de Charleroi, Entre-Sambre-et-Meuse) d’une part, l’Allemagne (région de Beuthen) et la Pologne (région de Katowice, bassin de la Dombrowa) d’autre part. J’étais bien loin de me douter à quel point je m’abusais en croyant maîtriser la cartographie…

2.Les impasses des premières représentations statistiques des délais de baptême Plusieurs raisons incitent à étudier les « délais de baptême », c’est-à-dire le temps écoulé entre la naissance d’un enfant et son baptême. Tout d’abord, ils engagent les « conformistes saisonniers ». La formule de Gabriel Le Bras est trompeuse : elle désigne ceux qui ne fréquentent l’église qu’aux grandes « saisons de la vie » : baptême, communion, mariage, enterrement. Contrairement à ce que sous-entendent bien des sources ecclésiales, la religion n’est pas pour autant absente de leur quotidien. Ils se considéraient en effet catholiques de plein droit, comme le montrent leurs conflits avec le clergé polonais réservant les funérailles religieuses aux pratiquants. L’étude de ces délais permet aussi d’introduire des variables socioprofessionnelles fines. Enfin, depuis l’étude pionnière de Fernand Charpin 8, ils sont considérés comme un indice du respect de la discipline ecclésiastique. Du point de vue de l’Église catholique, un enfant mort avant d’avoir été baptisé se voyait fermer les portes du paradis. Durant l’entredeux-guerres, les prêtres répétaient qu’un délai de plus de quinze jours relevait d’une grave négligence parentale, huit jours étant déjà beaucoup 9. D’autant que les taux de mortalité infantile restaient élevés : 22 % des défunts enterrés dans la paroisse minière de Bruay St-Martin en 1931 avaient moins d’un an… Le problème était de mettre ces données en image : je ne maîtrisais pas d’autres outils pour les interpréter. De ce fait, je me condamnais à ne tirer de ces données que ce que mes figures laisseraient voir. Il fallait donc représenter aussi précisément que possible un intervalle de plusieurs 133

Infoclio_2015-livre_DRUCK.indd 133

06.08.15 09:11

Graphique 3 Délais de baptême, Bruay-en-Artois (Pas-de-Calais), paroisse St-Martin, 1924

milliers de jours, tout en mettant en évidence les quinze premiers, pour évaluer la proportion de fidèles « ecclésiaux » respectant les recommandations officielles. Les courbes de répartition s’avérant peu adaptées au grand nombre de zéros, j’ai préféré la formule des Figures 1, 2 et 3. Les baptisés y sont divisés en quatre groupes : familles de mineurs (en noir), ouvrières (en gris foncé), non ouvrières (gris clair), origine sociale indéterminée (jaune). L’histogramme central restitue la distribution des délais de baptême inférieurs à six mois. En haut à droite, la fréquence globale divisée selon quatre groupes (0–185 jours, 186–365 jours, 366– 4380 jours, au-delà). S’il y a lieu, un diagramme camembert représente l’origine sociale des baptisés au-delà du sixième mois. Le Graphique 1 montre qu’à Chropaczów, on se conformait aux règles canoniques. Des histogrammes du bassin de la Dombrowa ne ressort pas la même discipline. À l’image de celui du Graphique 2, ils présentent une forte asymétrie positive (la courbe est plus étalée à droite de son sommet qu’à gauche), avec un sommet au 3e–5e jour et une solide proportion de délais supérieurs à 15 jours. Ceux du Nord-Pas-de-Calais (Graphique 3) se distinguent par une moindre asymétrie positive, avec 134

Infoclio_2015-livre_DRUCK.indd 134

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

un pic autour du 20e jour, signe d’une assez nette indépendance vis-à-vis de l’Église. On peut affirmer que les mineurs donnaient le ton, fidèles parmi les fidèles en région catholique, plus réfractaires que les autres ailleurs. En France, où les délais sont sensiblement élevés, ils baptisaient leur enfant plus tard que les autres groupes. Les houilleurs polonais immigrés étaient l’exception, mais leurs délais se rallongèrent durant les années trente, signe d’une adoption du mode de vie français. En Haute-Silésie, les gueules noires dérogeaient rarement à la règle des deux semaines. L’essentiel des délais supérieurs à 15 jours étaient le fait de familles non ouvrières, éventuellement ouvrières 10. Au vu de ces graphiques, il est malheureusement beaucoup plus difficile d’analyser avec précision le comportement des familles ouvrières. En effet, s’il est relativement aisé de comparer l’histogramme des mineurs avec celui du total de la population, il s’avère difficile de déduire de ces schémas la forme de l’histogramme ouvrier, à moins que l’on observe le quasi-unanimisme du Graphique 1. Un autre inconvénient provient de l’impossibilité d’avoir sous les yeux un grand nombre de graphiques. Pour les comparer, il faut mémoriser une figure somme toute complexe, tourner la page, en observer une autre… Dans ces conditions, ces données statistiques péniblement accumulées restent sous-exploitées. Je n’ai pris conscience de ces limites que bien après la soutenance, sous l’effet d’une réelle initiation aux tableurs (comment ? Je n’étais pas obligé de calculer mes délais à la main ?). En lisant le manuel d’histoire quantitative de Claire Lemercier et Claire Zalc 11, je découvrais ensuite que mes recoupements d’actes de baptême et d’état civil, indispensables en France pour obtenir la profession des parents, n’étaient pas optimisés. J’aurais donc dû constituer des échantillons professionnels puis rechercher ces parents dans les actes de baptême. Cela aurait permis d’avoir plus de commerçants, sans parler des ingénieurs, et moins de mineurs, parmi les 1500 délais patiemment recueillis (cf. Graphique 6). Chacun des groupes comparés devrait en effet atteindre une taille critique. Sauf que cette option n’aurait pas pu être mise en pratique. Techniquement, il aurait fallu constituer deux tables séparées avec les entrées des registres, puis les joindre sur des critères communs (le père et la mère de famille). Je connaissais trop peu les bases de données pour procéder ainsi. J’étais donc condamné à un aller-retour permanent entre un registre et une liste alphabétique, perdant, au passage, du temps, de l’argent (frais de déplacements) et la possibilité de partir des actes civils. Compte tenu de l’existence de délais tardifs et de la mobilité des ouvriers français, un recoupage manuel était exclu.

135

Infoclio_2015-livre_DRUCK.indd 135

06.08.15 09:11

3. Les délais selon les paroisses, en un coup d’œil Grâce aux logiciels de traitement statistique, je peux néanmoins représenter plus efficacement ces données (Graphiques 4 et 5). On n’a ainsi retenu, pour chaque paroisse, que trois courbes significatives. Le « total », en rouge, représente la distribution de tous les délais de baptême. Les deux autres courbes correspondent aux deux cohortes professionnelles les plus représentées. Ces courbes de fréquence cumulées, plus aisées à comparer, associent à une valeur son centile. Un point de coordonnées (20 ; 0,30) signifie que 30 % des baptêmes du groupe interviennent dans les 20 jours suivant la naissance. Par souci de lisibilité, j’ai décidé de me concentrer sur les 65 premiers jours. L’orientation ultérieure des courbes peut être déduite de l’inflexion finale. L’intérêt de leurs escaliers est de donner une idée des effectifs du groupe, un paramètre à ne pas sous-estimer, sous peine d’accorder une importance exagérée à des éléments anecdotiques. Le cas extrême de la chapelle polonaise de Bruay (Graphique 4) l’illustre bien. En guise de deuxième groupe, nous avons… un commerçant ! Ce cas témoigne de la spécificité de la communauté polonaise du bassin minier. Recrutés au pays, ces immigrés étaient conduits aux charbonnages dès leur arrivée en France. Seule une infime minorité changeait ensuite de métier. Les écarts des courbes professionnelles à la courbe « total » permettent de se faire une idée assez précise de la composition sociale de la paroisse. La mine faisait ainsi vivre l’essentiel des paroissiens de Bruay St-Martin. On devine la population de Lens St-Léger plus mixte. Puisque les deux premières cohortes sont situées sous la courbe de synthèse, il faut bien que d’autres groupes viennent les contrebalancer. D’autant que les mineurs, les plus nombreux, s’écartent sensiblement du total. Si l’on compare les paroisses, on observe plusieurs contrastes. Entre les clochers de Valenciennes (Graphique 5) dont la fréquence cumulée à 65 jours dépasse sensiblement 75 %, et les autres (à l’exception de la chapelle polonaise de Bruay, Graphique 4), qui tendent vers ce taux. Entre deux modèles de courbes. La distribution des fréquences est régulière avec un infléchissement final à Valenciennes (faubourgs nord, vieille ville et St-Vaast-la-haut) et Lens St-Léger, paroisses de profil social diversifié. À Aniche, Bruay St-Martin, Lens Ste-Barbe ou Trith, elle est incurvée aux extrêmes, signe d’une sous-représentation des délais de baptême précoces, et d’une surreprésentation des tardifs. Quant aux sous-groupes atteignant une masse critique, on note souvent une divergence entre les courbes ouvrières et les autres. Fait intéressant, elle est en général plus marquée entre le 15e et le 30e jour que durant la période « légale ». Cela confirme l’impact modéré des consignes ecclésiastiques sur les comportements… Notons enfin la spécificité d’Aniche, 136

Infoclio_2015-livre_DRUCK.indd 136

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Bruay St−Martin

1.00

Bruay St−Joseph

0.75 0.50 0.25

N= 321

0.00

Bruay Polonais

fréquence cumulée

1.00

N= 107 Lens Ste−Barbe

0.75 0.50 0.25

N= 108

0.00

N= 70

Lens St−Léger

1.00

Aniche

0.75 0.50 0.25

N= 185

0.00 0

20

commerce

40

60 0

N= 106 20

délais de baptême (jours) mineurs

ouvriers

40

ouvriers (mines)

60

total

Graphique 4 Fréquence cumulée des délais de baptême de 1931 pour les 65 premiers jours de vie : paroisses du Nord-Pas-deCalais avec groupes sociaux les plus représentés.

137

Infoclio_2015-livre_DRUCK.indd 137

06.08.15 09:11

Trith

1.00

Valenciennes faubourgs nord

0.75 0.50 0.25

N= 67

0.00

Valenciennes vieille ville

fréquence cumulée

1.00

N= 40 Valenciennes St−Vaast−l.h.

0.75 0.50 0.25

N= 170

0.00

Valenciennes Ste−Croix

1.00

N= 66 Valenciennes N.−D. du S.−C.

0.75 0.50 0.25

N= 35

0.00 0

20

commerce

40

60 0

N= 103 20

délais de baptême (jours) employés

mineurs

40

ouvriers

60

total

Graphique 5 Fréquence cumulée des délais de baptême de 1931 pour les 65 premiers jours de vie : paroisses du Valenciennois avec groupes sociaux les plus représentés.

138

Infoclio_2015-livre_DRUCK.indd 138

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Graphique 6 Distribution des délais de baptême observés dans un échantillon de paroisses du Nord-Pas-de-Calais en 1931 en fonction de l’origine sociale du baptisé.

139

Infoclio_2015-livre_DRUCK.indd 139

06.08.15 09:11

seule paroisse où les mineurs baptisent leurs enfants plus vite que les ouvriers. Une réalité dont je n’avais pas même eu l’intuition lors de ma thèse, me contentant de noter que les verriers avaient un délai médian plus élevé que les autres ouvriers 12.

4. Boîtes à moustache et groupes professionnels La prise en main d’un logiciel statistique m’a fait découvrir les « boîtes à moustache » de John Tukey 13, d’un usage courant en sciences expérimentales (Graphique 6). Pour les constituer, on trie la population par ordre croissant puis la divise en quatre groupe d’effectifs égaux, dits quartiles. La boîte représente les scores des deuxième et troisième quartiles, la barre verticale correspond à la médiane. Les « moustaches » extérieures correspondent aux valeurs attendues d’une population standard, dont les scores suivent une courbe de Gauss. Les autres valeurs sont représentées par des points isolés. Ces graphiques permettent de repérer les valeurs aberrantes, et de voir si elles ne sont pas le fruit d’erreurs de manipulation. Ce n’est guère le cas ici. Dans les bassins du Nord-Pas-de-Calais, les baptêmes tardifs n’étaient pas une pratique résiduelle, mais la norme pour une partie de la population. Le Graphique 6 a été obtenu en accolant boîtes à moustache sans points aberrants et un nuage de points. En rouge, les délais acceptables du point de vue de l’institution ; en turquoise, les autres. On a éliminé les groupes comprenant moins de trente observations et tiré un échantillon aléatoire de 100 valeurs lorsque les effectifs dépassaient 100 individus. Deux ensembles se distinguent franchement. Les chefs d’entreprise et ingénieurs forment le seul groupe dont le délai médian est inférieur à deux semaines. Leur boîte se situe sous la médiane des autres groupes. Les mineurs français, eux, se démarquent par des délais de baptême tardifs. Le fait de travailler pour les mines ou l’industrie n’a pas d’impact significatif sur les délais de baptême ouvriers ; les mineurs polonais, les cheminots et les contremaîtres peuvent être rattachés au groupe des ouvriers. La distinction entre petit commerce et emplois commerciaux semble fondée. Elle gagnera à être complétée par une analyse profession par profession, afin de procéder à d’éventuelles recompositions, une remarque qui vaut pour le groupe le plus hétérogène, celui des artisans (on y retrouve aussi bien les coiffeurs que les entrepreneurs en bâtiment). Il faudra néanmoins introduire des tests statistiques pour vérifier si l’on peut isoler ce groupe de celui des ouvriers.

140

Infoclio_2015-livre_DRUCK.indd 140

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

2. La cartographie statistique des cultes ouvriers et ses difficultés 1. Un blocage radical À ma grande surprise, les plus grosses difficultés de la thèse sont venues de leur point de départ : les cartes. Je pensais savoir produire des cartes statistiques. En fait, il s’agissait d’un savoir passif, tributaire d’un logiciel particulier, pratiqué sans comprendre le sens des opérations effectuées. Je me suis retrouvé incapable de le reproduire le moment venu. Cela aurait tourné au désastre si Jean-Paul Barrière – qu’il en soit encore remercié – ne les avait pas produites (bénévolement !). Après la soutenance, elles sont devenues un fardeau : impossible de publier ma thèse sans en convertir certaines en noir et blanc ; impossible de réaliser cette conversion. Deux tentatives d’initiation aux Systèmes d’Information Géographiques (SIG) ont eu pour résultat des semaines de travail stériles, faute de maîtriser des notions trop évidentes pour être expliquées dans les fichiers d’aide. À force de voir mes polygones disparaître de l’écran, j’avais compris qu’il fallait géolocaliser mon fond de carte, c’est-à-dire en inscrire chaque pixel dans un espace géographique. La précision du résultat dépend du système géodésique choisi. WGS84 couvre tout le globe. Plus précis, les systèmes locaux ne quadrillent qu’une portion de territoire. Ainsi, selon que le scan est indexé en PUWG 1992 ou WGS84, l’église de Gołonóg aura pour coordonnées (516723,83 ; 274613,48) ou (50,33771 ; 19,23289). J’avais saisi sous forme décimale les latitudes et longitudes de points de repère — un algorithme en déduit les coordonnées de chaque pixel – mais en mélangeant par inadvertance les notations françaises et anglaises. Le résultat ? Ma carte rectangulaire, une fois géoréférencée, devenait nœud papillon… Découragé par mes échecs antérieurs, je capitulais devant une coquille à laquelle mes lacunes théoriques avaient fait prendre une proportion énorme. C’est en fin de compte une formation spécialisée qui m’a tiré de cette impasse et permis d’aller plus loin.

2. Apport des SIG : les cultes professionnelsen Haute-Silésie Par rapport aux cartes présentées dans le mémoire de thèse, les Figures 1, 2 et 3 présentent des améliorations. Le fond de carte est une trame de points, pas de polygones. Mieux adapté à la réalité décrite (les saints sont dans des églises, pas sur un territoire paroissial), ce choix réduit considérablement le temps de numérisation. D’autant que l’on peut alors exploiter ce qui fait l’essence des SIG : associer un type géométrique (point, ligne ou polygone) à des coordonnées géographiques et à une base 141

Infoclio_2015-livre_DRUCK.indd 141

06.08.15 09:11

Figure 1 Autels et statues consacrés à sainte Barbe en HauteSilésie minière et industrielle en 1939

Figure 2 Autels et statues consacrés à saint Florian en Haute-Silésie minière et industrielle en 1939

142

Infoclio_2015-livre_DRUCK.indd 142

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

de données. Dans notre cas, chaque point est une église géoréférencée avec quelques attributs (date de création de la paroisse, présence ou nom d’autel ou statue de sainte Barbe…). Il est ainsi possible de sélectionner les paroisses créées avant 1939, et, sur cette base, de créer un fond de carte idéalement adapté à nos besoins. Une trame polygonale, elle, devrait être recomposée à chaque évolution du maillage paroissial. Les cartes du mémoire utilisaient ainsi l’un des deux fonds de carte disponibles (trame paroissiale 1924 ou 1938), avec les imperfections que cela implique. Sur les cartes de 1934, certaines paroisses étaient ainsi signalées comme « valeurs manquantes » pour la seule raison qu’elles n’existaient pas encore 14. Les Figures 1, 2 et 3 ont été construites grâce à des requêtes automatisées. Elles renseignent les cas où le saint occupe une position auxiliaire, comme statue latérale d’un autel. Les cas où la datation est établie (rouge : entre-deux-guerres ; rose : avant 1920) sont désormais distincts de ceux où elle ne l’est pas (en gris). Comme toutes les églises ne sont pas étudiées, nous avons représenté les valeurs nulles et les zones d’habitation. Il est ainsi possible de localiser quelques secteurs moins bien étudiés, le plus souvent en périphérie de la région. On a enfin généré des zones tampons englobant tous les points situés à moins de 1 km des mines de charbon ou des mines de zinc et fer (Figure 1) ou des usines sidérurgiques ou de métallurgie non ferreuse (Figure 2). Ces cartes confirment le caractère professionnel des cultes de sainte Barbe et de saint Florian. Il s’agit d’un bon indice d’un effort d’acculturation du catholicisme aux réalités minières, dont il convient de mesurer l’efficacité. La majorité des églises proches des mines ont une statue ou un autel Sainte-Barbe. Hors de cette zone, la plupart n’en ont pas. De plus, une bonne part des six églises avec représentations de sainte Barbe situées à plus d’un kilomètre d’un puits de mines ont été des paroisses minières à l’époque où le maillage paroissial était plus lâche. Témoin des traditions minières antérieures à l’exploitation du charbon, l’autel SainteBarbe de Bobrowniki remontait même au XVIIIe siècle. Le type de minerai exploité n’a guère d’impact sur le culte de sainte Barbe. Cela n’a rien d’étonnant : la culture des gueules noires était pour bonne part faite d’emprunts à celle des mineurs de fer, telles ces légendes décrivant le travail du houilleur comme s’il dépendait du fait de trouver le « bon filon» 15. La forte corrélation entre proximité d’une fonderie et culte de saint Florian était encore plus frappante (Figure 2). Les zones sidérurgiques 143

Infoclio_2015-livre_DRUCK.indd 143

06.08.15 09:11

Figure 3 Situation relative des représentations de sainte Barbe et saint Florian dans le bassin minier et industriel de Haute-Silésie.

concentrent tous les autels Saint-Florian, ainsi que toutes les statues autonomes. Là ou l’on travaillait le zinc ou le plomb, il n’était au mieux qu’auxiliaire d’un autre saint. Reste à savoir lequel : peut-on trouver une régularité dans ces mises en scène de Florian, saint secondaire ? Mon expérience de terrain m’a poussé à répondre en étudiant les interactions iconographiques de sainte Barbe et de saint Florian. La Figure 3 montre que pour peu qu’ils soient représentés dans la même église, ils sont presque toujours associés. On recense seulement deux cas où ils sont indépendants l’un de l’autre. Saint Florian est alors saint secondaire d’un autre autel. On trouve relativement peu d’autels « ouvriers » où le patron du métier dominant est entouré d’autres saints professionnels. Deux autels Sainte-Barbe accueillent saint Florian ; sainte Barbe orne un seul autel Saint-Florian. La configuration la plus populaire est celle d’un jeu de miroir. À Bogucice deux autels de 1894, en vis-à-vis, respectent la même iconographie : le saint, représenté sur fond de ville industrielle, surplombe des 144

Infoclio_2015-livre_DRUCK.indd 144

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

ouvriers au travail, dans une galerie de mine pour l’un, à la fonderie pour l’autre. Le cas des doublons secondaires n’est pas le moins intéressant. Il montre que le couple Barbe/Florian était devenu aux yeux du clergé le symbole d’une identité industrielle. On le retrouve ainsi dans deux églises d’entre-deux-guerres, où il n’aurait pas eu sa place si les autels n’étaient qu’un reflet de la sociologie locale. 52 % des habitants de Pawłów vivaient de la mine en 1931, contre 13 % de l’industrie. On notait des proportions inverses à Józefowiec (19 et 49 %) 16. L’autel du Sacré-Cœur de l’église Christ-Roi de Gliwice reprenait ce programme. Dans cette paroisse dénuée de mines, mais adossée aux gares de Gliwice, c’est toutefois sainte Catherine, patronne des cheminots, qui remplaçait sainte Barbe.

3. Conclusion Mes tribulations informatiques laissent à penser qu’il n’y a pire situation que celle où l’on utilise un programme sans comprendre pourquoi. Arrive le moment où l’on tire des graphiques au mauvais format, où l’on utilise le tableur comme un traitement de texte, où l’on est incapable de produire des cartes. Si l’on ne se résout pas à concevoir l’ordinateur comme une machine à écrire, il vaut mieux passer du temps à comprendre le fonctionnement de ses outils de travail. Il y aura retour sur investissement, puisque l’on verra naître de nouvelles hypothèses de recherche, surgir de nouveaux résultats. Non que le chercheur soit condamné à tout produire seul. Le travail en équipe est utile, mais il ne sera profitable que si l’on peut entrer en dialogue avec les personnes chargées de la mise en forme des données. Quoi qu’il en soit, on se gardera d’un dernier écueil. Celui d’oublier que l’on ne peut pas tout faire dire à un graphique. Bien des schémas, à l’image du Graphique 6, demandent à être complétés par une analyse statistique. Quitte à laisser cette dernière au second plan pour ne pas faire fuir les lecteurs et éditeurs…

145

Infoclio_2015-livre_DRUCK.indd 145

06.08.15 09:11

1

2

3

4

5

6 7

8

9

10 11

12

13 14 15

16

Damien Thiriet, La religion des milieux ouvriers catholiques dans les bassins houillers franco-belges et haut-silésiens (1922− printemps 1939), thèse de doctorat, Lille 2007, http://www.normalesup.org/~dthiriet/these. pdf ou http://www.normalesup.org/ ~dthiriet/atlas.pdf. Alphonse Dupront, De la « religion populaire », in : Du Sacré. Croisades et pèlerinages. Images et langages, Paris 1987, pp. 419–466, p. 427, 422–423. Cf. Fernand Boulard, Yves-Marie Hilaire, Gérard Cholvy (éd.), Matériaux pour l’histoire religieuse du peuple français, Paris 1982, 1987, 1992. Gérard Cholvy, Géographie religieuse de l’Hérault contemporain, Paris 1968 ; YvesMarie Hilaire, Une chrétienté au XIXe siècle ? La vie religieuse et les populations du diocèse d’Arras (1840–1914), Villeneuve d’Ascq 1977. Sarah Williams, Urban popular religion and the rites of passage, in : Hugh Mac Leod, European religion in the age of great cities (1830–1930), Londres 1995, pp. 216–236. Alphonse Dupront, Temporel et éternel, in : (note 2), pp. 467–537, p. 515. J’avais produit plusieurs cartes didactiques ou scientifiques. Seules deux d’entre elles avaient fait l’objet d’un traitement statistique. Marx czy Maryja? Komuniści i Jasna Góra w apogeum stalinizmu (1950–1956), Varsovie 2002, p. 191, 246. Fernand Charpin, Pratique religieuse et formation d’une grande ville. Le geste du baptême et sa signification religieuse, [Marseille 1806–1958] Paris 1964. Le manteau de saint-Martin. Bulletin mensuel de la paroisse Saint-Martin de Bruayen-Artois, n. 29, 1932, p. 7. Thiriet (Note 1), p. 297–308, 317–326. Claire Lemercier, Claire Zalc, Méthodes quantitatives pour l’historien, Paris 2008, p. 24–33. Thiriet (Note 1), p. 156–157, 306. Je ne disposais pas à l’époque des données qui m’ont permis de diviser les ouvriers selon leurs employeurs (mines ou autre industrie). David C. Howell, Méthodes statistiques en sciences humaines, Paris 1998, pp. 60–61. Thiriet (Note 1), carte LIV, p. 56. Józef Ligęza, Demonologia, in : Józef Ligęza, Maria Żywirksa, Zarys kultury górniczej. Górny Śląsk, Zagłębie Dąbrowskie, Katowice 1964, pp. 182–208, p. 192. Śląskie Wiadomości Statystyczne, 1936, p. 394, 398. Les statistiques de Józefowiec sont regroupées avec celles du quartier voisin de Wełnowiec.

146

Infoclio_2015-livre_DRUCK.indd 146

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Étudier et cartographier un phénomène dynamique : le peuplement de la Touraine du XVIIe au XXe siècle Matthieu Gaultier

147

Infoclio_2015-livre_DRUCK.indd 147

06.08.15 09:11

Abstract

Using Jean-Michel Gorry’s book “Paroisses at communes de France. Dictionnaire d’histoire administrative et démographique : Indre-et-Loire”, this contribution illustrates a methodology for mapping the development of population and settlements in the Indre-et-Loire area (France, région Centre) from the 17th century until today. Detailing the various steps from obtaining raw data to creating the cartography of the population growth rate over the centuries, the method addresses how we can render ill-assorted data comparable and put it to statistical use.

148

Infoclio_2015-livre_DRUCK.indd 148

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Ce projet est né à la lecture de la publication par J.-M. Gorry 1 des données des comptages par feux 2 de l’Ancien Régime et des recensements de la période contemporaine pour l’ensemble des paroisses et communes du département d’Indre-et-Loire. Cet ouvrage s’inscrit dans l’importante liste des travaux de démographie historique 3 initiés par Jacques Dupâquier pour la région parisienne en 1974 4 et sur lesquels il s’appuiera pour diriger la publication d’une Histoire de la population française éditée en 1988. Notre travail s’inscrit donc dans un champ de la recherche historique qui s’intéresse aux populations anciennes dans leur ensemble. D’une manière générale, les recherches en démographie historique sont fondées sur l’analyse de documents anciens qui renseignent sur l’état de la population dans un territoire donné et permettent d’en mieux comprendre les conditions de vie à travers l’étude, par exemple, de la mortalité, de la fécondité… Ces travaux fournissent un contexte démographique pour d’autres études historiques relatives à l’économie, aux techniques… La série Paroisses et communes de France rassemble, par département, des données quantitatives livrées brutes (comptage de population). Il nous a semblé utile de retravailler les chiffres publiés par J.-M. Gorry pour l’Indre-et-Loire afin de nous permettre d’obtenir une vision continue de l’évolution du peuplement de la Touraine lors des trois derniers siècles du dernier millénaire. Cette étude a donné lieu à la publication d’un article pour l’Atlas archéologique de Touraine 5. Dans la publication de J.-M. Gorry, le lecteur peut consulter des fiches communales sur lesquelles sont reportées les données démographiques, les informations administratives tant pour l’Ancien Régime que pour la période contemporaine, ainsi que des notes et informations diverses, notamment celles relatives à l’évolution du territoire communal. L’ensemble constitue une formidable base de données que des outils récents : Système de gestion de bases de données relationnelles (SGBDR), Systèmes d’informations géographiques (SIG), permettaient de ré-exploiter. Le corpus de l’ouvrage compte 322 fiches alors qu’actuellement, l’Indreet-Loire compte 277 communes. Il y a eu entre l’Ancien Régime et la fin du XXe siècle, un processus de simplification du découpage administratif territorial (regroupement, suppression d’enclaves…). Les comptages de feux sous l’Ancien Régime remontent, pour les plus anciens, à 1614 et s’achèvent avec la Révolution française. Les premiers dénombrements par habitants débutent en 1790 et se poursuivent à un rythme relativement régulier jusqu’en 1831 ; après cette date, on utilise plutôt le terme de recensement 6. Dans l’ouvrage de J.-M. 149

Infoclio_2015-livre_DRUCK.indd 149

06.08.15 09:11

Varia%on du nombre de collectes enquêtées entre 1685 et 1747 350

300

250

200

150

100

50

0 1747

1745

1744

1743

1742

1741

1740

1739

1734

1732

1730

1726

1725

1724

1720

1715

Année

1713

1710

1709

1700

1696

1691

1688

1687

1685

Graphique 1 Exemple de la variation du nombre de collectes traitées par année sous l’Ancien Régime en Indre-et-Loire (période allant de 1685 à 1747)

N collectes

1685

1

1743

2

1687

298

1744

11

1688

45

1745

104

1691

304

1747

1

1696

192

1700

48

1709

314

1710

29

1713

313

1715

54

1720

303

1724

305

1725

306

1726

306

1730

91

1732

204

1734

2

1739

1

1740

201

1741

2

1742

62

150

Infoclio_2015-livre_DRUCK.indd 150

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Gorry, les derniers recensements enregistrés sont ceux de 1982, nous avons complété avec les données en ligne de l’Insee pour les années 1990 et 1999. Plusieurs biais inhérents aux données peuvent être identifiés. En premier lieu, l’irrégularité des comptages sous l’Ancien Régime. Toutes les paroisses ne sont pas traitées simultanément et il n’y a pas de périodicité des dénombrements (graphique 1). Un autre biais réside dans la variabilité des méthodes de comptage de la population. Tout d’abord entre l’Ancien Régime et la période contemporaine puisque l’on passe d’un comptage de feux fondé sur des documents fiscaux (rôle de taille ou de gabelle 7) à des dénombrements d’individus. La différence d’unité de compte entre l’Ancien Régime et la période contemporaine peut être corrigée de manière à rendre les données directement comparables, nous verrons comment par la suite. En revanche, il convient d’être prudent lors de la consultation des sources des comptages, dénombrements et recensements. Si dans l’ensemble, les enquêtes sont conduites avec sérieux, il est préférable de ne pas fonder son analyse sur certaines années. Par exemple, les chiffres donnés par certaines enquêtes sous l’Ancien Régime sont fondés sur des listes de feux parfois beaucoup plus anciennes. Ainsi, le Dénombrement du Royaume du libraire Saugrain publié en 1709 représente l’état des feux de 1680. Pour la période contemporaine, J.-M. Gorry a vérifié les données publiées des dénombrements et recensements issus de différentes sources, notamment parce que jusqu’en 1846 les résultats des enquêtes n’ont jamais été publiés sérieusement. Enfin, même lorsque l’on dispose de recensements réalisés et publiés avec une grande qualité, il faut rappeler que les méthodes de compte de la population ont évolué entre le milieu du XIXe et la fin du XXe siècle en fonction du comptage ou non de la part de la population absente au moment de l’enquête ayant son domicile légal dans la commune.

151

Infoclio_2015-livre_DRUCK.indd 151

06.08.15 09:11

Tableau 1 extrait du tableau de comparaison des séries de l’ancien régime et de la période contemporaine entre 1787 et l’An II

Communes

1787

Chisseaux

124

1789

1790

Chouzé-sur-Loire

780

Cigogné

89

Cinais

89

Civray-de-Touraine

228

An II 468

3314 409 499 835

Civray-sur-Esvre

76

353

Cléré-les-Pins

290

1061

Couesmes

126

544

Courçay

200

832

Couziers

57

229

Cravant-les-Côteaux

180

793

Crissay-sur-Manse

82

370

La Croix-en-Touraine

239

Crotelles

90

960 372

Crouzilles

100

Mougon

29

Dame-Marie-les-Bois

410 122

70

353

Descartes

230

997

Tableau 2 Années retenues pour l’étude de l’évolution du peuplement

1687

1713

1732

1756

1776

1801

1826 1846 1866 1886 1906 1926 1946 1968 1990

dénombrées

298

313

204

61

90

310

290

interpolées

12

2

114

253

224

interpolation impossible

5*

281

281

282

281

282

282

278

277

1

* dont la commune de Tours

152

Infoclio_2015-livre_DRUCK.indd 152

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Acquisition et préparation des données brutes Afin de formaliser la saisie des données et d’en faciliter le traitement, une base de données a été élaborée. Simple au départ, elle s’étoffera au fur et à mesure de la progression de l’analyse des données. Les données brutes sont saisies dans une table au sein de laquelle chaque fiche communale constitue un enregistrement avec un identifiant unique. Chaque année d’enquête est enregistrée dans un champ spécifique. La deuxième étape consiste à rendre comparables les données de l’Ancien Régime et de la période contemporaine. Il s’agit de déterminer le meilleur coefficient qui permettrait d’obtenir, à partir des feux de l’Ancien Régime, la valeur du dénombrement correspondant. Il est généralement admis que les feux de l’Ancien Régime rassemblent, en moyenne, entre 4 et 5 personnes. Plutôt que de choisir arbitrairement un coefficient entre ces deux valeurs, nous avons recherché le meilleur pour notre corpus. Pour cela nous avons comparé les données des comptages par feux et des dénombrements autour des années 1789/1790. Afin d’augmenter le nombre de communes pour lesquelles des données étaient disponibles autour de cette charnière, nous avons retenu les années allant de 1787 à l’An II 8 en considérant que la population des communes concernées n’avait pas, sauf exceptions, brusquement variée sur ce court laps de temps (tableau 1). Ainsi 245 collectes ont été sélectionnées sur l’ensemble de notre corpus. La projection des données sur un graphique montre qu’il y a une relation linéaire entre feux et dénombrements (figure 1). Le calcul de la droite de régression 9 passant par l’origine du graphique 10 (y=a*x) permet d’obtenir la valeur de [a] qui, appliqué à [x] (nombre de feux), permet de prédire la valeur de [y] (dénombrement). Le coefficient de corrélation 11 associé est assez bon : R²=0,901. On observe que le nuage de points est assez resserré autour de la droite de régression mais que quelques-uns sont situés à l’écart. Plusieurs causes, non exclusives, peuvent être à l’origine de cette dispersion : présence de feux avec un nombre moyen de personnes très différent de ce qui est habituellement constaté combiné à la petite taille de la collecte, variation exceptionnelle du nombre d’habitants entre 1787 et 1795, enquête effectuée avec manque de sérieux… Le calcul du résidu de chaque point par rapport à la droite 12 permet d’isoler les communes qui s’éloignent fortement du modèle. Nous avons 153

Infoclio_2015-livre_DRUCK.indd 153

06.08.15 09:11

Figure 1 Projection du nuage de points des valeurs, par communes, du comptage par feux (abscisse) et du dénombrement (ordonnée) entre 1787 et l’An II (245 individus) et courbe de tendance associée

6000 y = 4,2268x R² = 0,901

5000

Dénombrements

4000

3000

2000

1000

0 0

200

400

600

800

1000

1200

1400

1200

1400

Feux

6000 y = 4,1994x R² = 0,974

5000

4000 Dénombrements

Figure 2 Projection, après exclusion des données aberrantes, du nuage de points des valeurs, par commune, du comptage par feux (abscisse) et du dénombrement (ordonnée) entre 1787 et l’An II (207 individus) et courbe de tendance associée

3000

2000

1000

0 0

200

400

600

800

1000

Feux

154

Infoclio_2015-livre_DRUCK.indd 154

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

alors décidé d’effectuer un deuxième calcul en retenant les points dont le résidu était inférieur à 200. Le corpus est alors de 207 communes ; le calcul d’une nouvelle droite de régression permet d’obtenir une nouvelle valeur de [a] (4,1994) ; le nouveau coefficient de corrélation est amélioré (R²=0,974) (figure 2). Une nouvelle table est alors ajoutée à la base de données. À partir de la saisie de la valeur de [a], les comptages par feux sont convertis en nombre d’habitants. Il s’agit bien sûr d’une approximation du nombre d’habitants par collecte durant l’Ancien Régime. Le calcul d’une droite de régression a permis de minimiser l’erreur de cette approximation par la méthode des moindres carrés 13. En procédant ainsi, on postule également que le nombre moyen de personnes par feux est constant entre 1614 et 1789 ce qui ne reflète peut être pas la réalité. Comme nous l’avons précisé plus haut, les comptages sous l’Ancien Régime n’étaient pas réalisés simultanément dans toutes les collectes de l’Indre-et-Loire. La dernière étape de préparation des données a consisté à combler ces lacunes. Pour cela, nous avons choisi de retenir un pas chronologique aussi régulier que possible et nous avons opté pour la génération (autour de 20–25 ans). Ceci a paru comme le meilleur compromis entre précision de l’analyse et quantité de données à manipuler. Nous avons privilégié les années pour lesquelles un maximum de collectes avait fait l’objet d’une enquête (tableau 2). Pour les collectes avec des données manquantes, il s’est agit d’interpoler les valeurs placées de part et d’autre des années retenues afin d’extrapoler la valeur théorique du nombre d’habitants dans la collecte. L’interpolation s’est faite en considérant que l’évolution du nombre d’habitants était linéaire.

155

Infoclio_2015-livre_DRUCK.indd 155

06.08.15 09:11

Graphique 2 Évolution de la moyenne, du minimum et du maximum entre 1687 et 1990

Année

moyenne

min

max

écart-type

population totale

1687*

726.2

86

4174

601

225113

1713

755

67

26742

1565

237830

1732

787.2

62

24165

1448

250337

1756

787.1

76

22791

1388

247157

1776

811.5

81

21626

1340

254818

1801

867.5

92

20240

1319

268914

1826

997.4

120

20920

1403

290062

1846

1111.4

221

30766

1947

312310

1866

1156.6

205

42450

2597

325013

1886

1208.9

167

59585

3576

340921

1906

1198.4

161

67601

4044

337947

1926

1186

138

77192

4623

334446

1946

1240.1

128

80044

4823

349705

1968

1575.4

127

128120

7841

437960

1911

97

129509

8264

529345

1990

* pas de données pour la collecte de Tours

156

Infoclio_2015-livre_DRUCK.indd 156

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Élaboration d’indicateurs de la distribution et de l’évolution du peuplement L’exploitation des données préparées a consisté à faire le calcul de statistiques descriptives, à élaborer des outils de classement des communes, et à calculer des taux d’accroissements.

Les statistiques descriptives Pour le calcul de statistiques, une nouvelle table est ajoutée à la base de données. Elle permet de synthétiser les données à l’échelle départementale (lien de 1 fiche départementale vers N fiches communales). Quelques calculs simples permettent d’aborder assez rapidement les données dans leur globalité et de faire ressortir quelques pistes d’analyses ultérieures. Dans un premier temps nous avons calculé, par année, la moyenne et l’écart-type, le total, le minimum et le maximum du nombre d’habitants (tableau 3, graphique 2 et 3). On observe d’abord que la tendance générale est à l’augmentation sauf en ce qui concerne le minimum (baisse entre 1687 et 1732 puis augmentation jusqu’au milieu du XIXe siècle et finalement baisse régulière jusqu’à nos jours). On constate également qu’une progression très forte de la population caractérise les deux derniers recensements (graphique 3). Elle est liée à l’augmentation de la commune la plus peuplée : Tours (graphique 2), mais pas seulement puisque la courbe du maximum décrit un palier entre 1968 et 1990 alors que la population totale continue à augmenter. On observe également que l’absence de données pour Tours en 1687 affecte la courbe du maximum mais n’influe pas de manière significative sur la moyenne ni sur la courbe de la population totale. C’est donc que la part que représente la commune la plus peuplée dans la population totale a varié dans le temps. Plus généralement, le poids en nombre d’habitants que représentent les communes peu et très peuplées a varié en trois siècles. Afin d’évaluer dans quelle mesure, nous avons utilisé des outils de classement des communes.

157

Infoclio_2015-livre_DRUCK.indd 157

06.08.15 09:11

600000

500000

400000

300000

200000

100000

0 1687*

1713

1732

1756

1776

1801

1826

1846

1866

1886

1906

1926

1946

1968

1990

popula2on totale

Graphique 3 Évolution de la population totale entre 1687 et 1990

Année

population totale

1687*

225113

1713

237830

1732

250337

1756

247157

1776

254818

1801

268914

1826

290062

1846

312310

1866

325013

1886

340921

1906

337947

1926

334446

1946

349705

1968

437960

1990

529345

* pas de données pour la collecte de Tours

158

Infoclio_2015-livre_DRUCK.indd 158

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Graphique 4 Évolution du poids en nombre d’habitants de chaque percentile des communes (exprimé en % de la population totale)

dec sup

quart sup

med sup

med inf

quart inf dec inf

1687

29.06

52.26

76.78

23.22

7.57

2.09

1713

35.6

55.95

78.32

21.68

7.21

1.97

1732

35.05

55.91

78.17

21.83

7.31

1.98

1756

35.02

55.33

77.78

22.22

7.6

2.1

1776

34.46

55.15

77.83

22.17

7.54

2.03

1801

35.15

55.88

78.38

21.62

7.2

2.03

1826

33.17

53.65

76.7

23.3

8.1

2.35

1846

34.39

55.06

77.01

22.99

8.48

2.6

1866

36.54

56.27

77.87

22.13

8.14

2.51

1886

39.84

58.65

79.11

20.89

7.65

2.35

1906

42.4

60.36

79.89

20.11

7.34

2.24

1926

46.95

63.74

81.67

18.33

6.72

2.05

1946

49.55

66.08

82.91

17.09

6.25

1.95

1968

61.02

74.9

87.59

12.41

4.33

1.28

1990

63.26

78.92

90.4

9.6

3.09

0.88

159

Infoclio_2015-livre_DRUCK.indd 159

06.08.15 09:11

Outils de classement des communes Deux outils principaux de classement ont été utilisés : l’écart à la moyenne et les percentiles. Le premier permet de situer, en valeur positive ou négative, la position relative de chaque commune par rapport à une valeur de référence départementale variable d’une année à l’autre. Le second permet d’exprimer, pour chaque année, la position de chaque commune par rapport à des bornes que sont, par exemple, la médiane (percentile 50), le quartile inférieur et le supérieur (percentiles 25 et 75) et le décile inférieur et le supérieur (percentiles 10 et 90) 14. La base de données a, à nouveau, été mise à profit pour l’élaboration de ces classements.

Les écarts à la moyenne L’écart à la moyenne permet d’exprimer le déséquilibre de la répartition de la population au sein du territoire. Plus les écarts observés sont importants et plus le nombre de communes présentant un écart important augmente, plus les déséquilibres sont grands. Cet outil permet d’illustrer les déséquilibres entre différentes parties d’un même territoire et l’évolution de ces déséquilibres.

Les percentiles L’exploitation des valeurs de percentiles permet d’illustrer la concentration, ou non, des habitants de l’Indre-et-Loire dans quelques communes. Le classement des communes permet de mesurer la part que représente chaque percentile dans le total de la population par année (graphique 4). Ainsi, par exemple, en 1801, la moitié des communes les plus peuplées regroupent 78,38 % de la population tandis que les autres ne « pèsent » que 21,62 % du total. À la même date, 25 % des communes les plus peuplées (percentile 75) regroupent 55,88 % de la population totale et les 10 % les plus peuplées, 35,15 % (percentile 90). On constate que le phénomène de concentration de la population débute après 1826. Auparavant, la part de chaque groupe de communes, exprimée en pourcentage de la population totale, reste relativement stable 15. On observe également une accélération de ce phénomène de concentration (tendance non linéaire) entre le milieu du XIXe et la fin du XXe siècle. De plus, le resserrement de l’écart entre les courbes supérieures (percentile 50+, 75 et 90) ou entre les trois courbes inférieures (percentile 50-, 25, 10) montre que la concentration de la population se fait inégalement. 160

Infoclio_2015-livre_DRUCK.indd 160

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Le déséquilibre entre les communes les plus peuplées et les autres a tendance à augmenter. Enfin, à l’examen des courbes des percentiles 10 et 25, on constate que la concentration grandissante de la population dans les communes appartenant aux percentiles 75 et 90 se fait plutôt au détriment des communes situées entre le percentile 25 et le percentile 75. En effet, la forte augmentation des courbes « p75 » et « p90 » n’est pas contrebalancée par une baisse équivalente des courbes « p10 » et « p25 ».

Les taux d’accroissement Ils permettent de déterminer l’ampleur de l’augmentation ou de la diminution de la population d’une année à l’autre. La valeur du taux est fonction de la taille de la population en année [n] et en année [n+1] mais également de l’écart entre les deux années comparées. Le calcul se fait ainsi : ((Nhab2/Nhab1) ^ (1/Tps)-1), soit la différence entre le nombre d’habitants entre l’année 1 et l’année 2 élevée à la puissance 1/nombre d’années entre l’année 1 et l’année 2 moins 1. Par exemple, pour la commune de Tours entre 1946 et 1968, le nombre d’habitants passe de 80 044 à 128 120 sur un intervalle de 23 ans 16 soit un taux d’accroissement de 0,02066 exprimé pour 1000 habitants (20,66 ‰). Le taux d’accroissement est calculé pour chaque commune. Il peut l’être également pour l’ensemble du territoire (taux départemental). Par ailleurs, on trouve dans certaines publications des estimations du taux d’accroissement de la population française pour l’Ancien Régime et la période contemporaine 17. On peut ainsi comparer des valeurs communales et départementales ou des valeurs départementales et nationales.

Cartographie des données Au-delà de l’analyse sous forme de tableaux et graphiques de données chiffrées renseignant sur l’évolution du peuplement sur trois siècles, il nous a semblé indispensable de cartographier ces données. Tout d’abord, chaque valeur est associée à une entité territoriale précise : le ressort de la collecte. Par ailleurs, la cartographie des données permet de visualiser des phénomènes communs à un ensemble de collectes en s’affranchissant de limites territoriales imposées. En effet, lorsque l’analyse d’une tendance est faite au sein de la base de données, elle ne peut concerner que l’ensemble des collectes (le département) ou l’une d’entre elle. D’autres modalités de regroupements pourraient être utilisées en fonction des données administratives de l’Ancien Régime (élection, baillage, grenier à sel…), mais dans tous les cas, l’emprise géographique 161

Infoclio_2015-livre_DRUCK.indd 161

06.08.15 09:11

s’impose à l’utilisateur. En reportant les données sur un fond cartographique pour les visualiser, on peut s’affranchir dans une certaine mesure de cette contrainte et travailler sur d’autres modes de regroupement de collectes sur la base des relations topographiques qu’elles entretiennent. La cartographie a été réalisée dans un Système d’Information Géographique (SIG) où les informations de la base de données peuvent être directement intégrées dans des tables attributaires associées aux objets géographiques. Les valeurs brutes ou statistiques peuvent être ainsi directement exploitées pour la réalisation de cartes. La cartographie des recensements anciens a été réalisée dans le cadre de la publication d’une notice pour le Projet Collectif de Recherche « Atlas Archéologique de Touraine » 18. Afin de satisfaire aux exigences du format de la publication, nous avons choisi un nouveau pas temporel, plus large que celui de la génération : le siècle. Trois dates ont été retenues parmi les 15 initialement traitées dans la base de données : 1713, 1806, 1906. À chacune de ces étapes, nous avons choisi de représenter les recensements « bruts », les densités de peuplements et les écarts à la moyenne. Un quatrième volet de la notice a été dédié aux taux d’accroissements. Puisque ceux-ci représentent, par définition, une variation entre deux années, celle de 1713 ne pouvait être présentée. Nous avons donc décalé le pas et retenu les années 1806 (taux d’accroissement de 1713 à 1806), 1906 (de 1806 à 1906) et 1999 (de 1906 à 1999). La première phase a consisté à établir, pour chaque année retenue, la carte des collectes : paroisses de l’Ancien Régime et communes contemporaines. Deux fonds cartographiques de référence peuvent servir de base pour cela : la carte actuelle des communes, disponible auprès de l’Institut Géographique Nationale, et le cadastre du début du XIXe siècle, disponible aux Archives Départementales d’Indre-et-Loire 19. À partir de ces deux fonds de référence et en prenant en compte les nombreuses modifications de limites ayant marqué chaque commune, on peut établir les cartes des limites de collectes au début des XVIIIe, XIXe et XXe siècles. Celle de 1999 correspond strictement aux données de l’IGN. L’ensemble des modifications territoriales qui affectent chaque commune est listé dans l’ouvrage de J.-M. Gorry 20. Elles sont connues par diverses sources d’archives : procès-verbaux de délimitation, ordonnances royales, décrets, arrêts du parlement de Paris, arrêtés préfectoraux... Nous avons pu utiliser la carte des communes de 1790 réalisée au sein du Laboratoire Archéologie et Territoires 21 à partir des travaux de 162

Infoclio_2015-livre_DRUCK.indd 162

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

J.-M. Gorry pour la publication « Des paroisses de Touraine aux communes d’Indre-et-Loire. La formation des territoires » 22. Cette carte est globalement valable pour l’année 1713. En effet, l’essentiel des modifications territoriales qui affectent les limites des collectes intervient entre 1790 et 1850. Pour les cartes de 1806 et 1906, les modifications territoriales survenues entre 1790 et ces dates ont été prises en compte. Lors de la publication de cartes, une certaine sémiologie graphique doit être respectée en fonction de la nature des données. Ainsi, pour la représentation de données discontinues (recensements, écarts à la moyenne), les valeurs doivent être présentées sous la forme de points de taille variable. En fonction de l’amplitude de variation des valeurs, on peut soit les regrouper en classes, soit avoir une variation proportionnelle de la taille du point en fonction de la valeur stockée dans la table attributaire. On peut combiner à ce mode de représentation des gradients de couleur pour distinguer des valeurs négatives et positives (figure 3). Pour la représentation de données continues comme la densité d’habitants, on peut utiliser une graduation d’aplats de couleur (les valeurs étant regroupées en classes). Enfin, pour les taux d’accroissement, nous avons combiné deux modes de représentation afin que le lecteur puisse mettre en relation les données relatives à l’accroissement et celles relatives au nombre d’habitants dans la commune. La première information est représentée sous la forme d’aplats de couleur allant du bleu (valeurs négatives) au rouge (valeurs positives), la seconde par anamorphose des contours des communes 23 (figure 4). Ces cartes permettent de montrer que, si la population départementale augmente régulièrement, il n’en va pas de même pour chaque commune même lorsqu’il s’agit de villes importantes comme Tours. L’anamorphose montre également à quel point Tours et sa banlieue prennent peu à peu de l’importance pour finir par concentrer la majeure partie de la population départementale à la fin du XXe siècle.

163

Infoclio_2015-livre_DRUCK.indd 163

06.08.15 09:11

1713

Position de chaque collecte / moyenne

supérieur à la moyenne

au delà de 10000

inférieur à la moyenne

(exprimée en nombre d’habitants)

moy. = 747,6 hab.

0 à -100 -101 à -500

5001 à 10000 2001 à 5000 501 à 2000 101 à 500 inf à 100

-501 à -2000 -2001 à -5000 -5001 à -10000

1801

moy. = 867,5 hab.

1906

moy. = 1198,4 hab.

0

25

50 km

Figure 3 Cartographie des écarts à la moyenne des collectes d’Indre-et-Loire en 1713, 1801 et 1906.

164

Infoclio_2015-livre_DRUCK.indd 164

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

1801

valeurs d'accroissement de la population inf à -2 ‰ -2 à 0 ‰ 0à3‰ 3à6‰ 6 à 10 ‰ sup à 10 ‰

1906

1999

1999 : communes présentant un taux d’accroissement supérieur au taux départemental pour la période 1906-1999

Figure 4 Cartographie du nombre d’habitants par communes par anamorphose en 1801, 1906 et 1999 et représentation des taux d’accroissement de la population de 1713 à 1801, de 1801 à 1906 et de 1906 à 1999.

165

Infoclio_2015-livre_DRUCK.indd 165

06.08.15 09:11

Conclusion La cartographie du peuplement de la Touraine entre le début du XVIIIe siècle et nos jours est l’aboutissement d’un long travail de saisie, retraitement et manipulation de données au sein d’une base de données puis dans un SIG. L’étude s’appuie sur la publication des données sources par J.-M. Gorry en 1985 et sur l’élaboration d’un référentiel cartographique au sein de l’UMR CITERES – LAT. La base de données recèle encore un fort potentiel d’analyse et de cartographie puisque nous nous sommes cantonnés jusqu’à présent à la publication de grandes tendances sur trois siècles. Des zooms temporels et géographiques pourraient être faits pour étudier avec plus de détails l’évolution du peuplement de certains secteurs du département. De même, les informations relatives aux percentiles des communes les moins et les plus peuplées ne sont encore que peu exploitées sous forme de cartes. Le travail présenté ici pourrait être reproduit sur les quarante-sept autres départements français publiés dans la collection « Paroisse et communes de France ». La structure de la base de données utilisée pour l’Indre-et-Loire peut être adaptée aux spécificités d’autres départements, essentiellement en ce qui concerne les années de comptage des feux sous l’Ancien Régime. Cela permettrait, par exemple, de comparer les coefficients des droites de régression permettant de transcrire les feux en dénombrements pour différents départements afin de voir si les valeurs obtenues diffèrent fortement ou pas. Par ailleurs, la cartographie des données à l’échelle régionale ou au-delà donnerait sans doute une autre vision de l’évolution de la population française et du peuplement du territoire à la fin de l’Ancien Régime ou à l’époque de la révolution industrielle…

166

Infoclio_2015-livre_DRUCK.indd 166

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

1

2

3

4

5

6

7

8

9

10

11 12

Jean-Michel Gorry, Paroisses et communes de France. Dictionnaire d’histoire administrative et démographique : Indre-et-Loire, Paris 1985. La collection « Paroisses et communes de France » est dirigée par le Laboratoire de démographie historique de l’École des Hautes Études en Sciences Sociales : http://www.ehess.fr/ldh/theme_ dictionnaires/Theme_dictionnaires.htm. Le terme de feu désigne, sous l’Ancien Régime, initialement le foyer puis par extension l’ensemble des personnes rattachées à ce foyer. Le feu est l’unité qui sert de base au calcul et à la perception des impôts. Discipline « inventée » par Louis Henry (19111991), elle se situe à l’interface entre histoire et démographie. Jacques Dupâquier, Paroisses et communes de France. Dictionnaire d’histoire administrative et démographique : région parisienne, Paris 1974. Matthieu Gaultier, L’évolution démographique entre le 18e et le début du 20e siècle, in : Elisabeth Zadora-Rio (ed.), Atlas archéologique de Touraine, Tours 2009 : http://a2t. univ-tours.fr/notice.php?id=28 (dernière consultation 2/10/2014). Cette publication en ligne vise à rendre accessible, à un large public, « un bilan des connaissances actuelles sur l’évolution de l’habitat, des paysages et des cadres administratifs sur le territoire qui aujourd’hui est celui de l’Indre-et-Loire ». Son champ chronologique s’étend de la Préhistoire à l’époque contemporaine. L’évolution démographique entre le 18e et le début du 20e siècle est l’un des dossiers thématiques de la première partie de cet atlas : Milieux, populations et territoires. Ceci est lié à la plus grande précision des enquêtes, notamment à cause de l’établissement de listes nominatives. La taille est un impôt direct levé sur les personnes ou sur les biens, La gabelle est taxe sur le sel, il s’agit d’un impôt indirect. Les rôles de ces deux impôts sont les listes des feux qui y sont soumis. Ces rôles permettent donc de connaître le nombre de feux par paroisse sous l’Ancien Régime. Année républicaine à cheval sur 1793 et 1794 : du 22 septembre 1793 au 21 septembre 1794. Frédéric Saly-Giocanti, Utiliser les statistiques en histoire, Paris 2005. Le lecteur pourra se reporter au chapitre IX, page 119 à 133, sur les droites de régression pour l’analyse des séries bivariées. Une équation du type y=ax+b n’aurait pas de sens car lorsque le nombre de feux [x] est égal à 0 alors la valeur de [y] est également de 0. Saly-Giocanti (note 4), pp. 129–133. Le résidu correspond à la valeur de la distance au carré entre le point et la droite, c’est-à-dire la différence au carré entre la valeur réelle et la valeur théorique résultant de l’équation y=ax.

13 14

15

16

17

18 19

20 21

22

23

Saly-Giocanti (note 4), pages 119 et 120. La médiane sépare la moitié des communes les moins peuplées de l’autre, les plus peuplées. Dans ce cas, toutes les communes sont prises en compte. Il n’en va pas de même pour les percentiles 25 et 75 qui regroupent respectivement le quart des communes les moins et les plus peuplées. C’est le même principe pour les percentiles 10 et 90 qui regroupent respectivement 10 % des communes les moins et les plus peuplées. L’année 1687 est atypique à cause de l’absence de données pour la commune de Tours ce qui influe fortement sur les valeurs du décile et du quartile supérieur. En années révolues, c’est-à-dire en comptant un intervalle allant du 1er janvier 1946 au 31 décembre 1968. Jacques Dupâquier (dir.), Pierre Chaunu, Histoire de la population française 2. De la Renaissance à 1789, Paris 1991 ; René Le Mée, Joseph Goy, Jacques Dupâquier (dir.), Maurice Garden, Histoire de la population française 3, de 1789 à 1914, Paris 1988 ; Alain Drouard, Maurice Garden, Jacques Dupâquier (dir.), Histoire de la population française 4. De 1914 à nos jours, Paris 1988 ; Yves Blayo, Louis Henry, La population de la France de 1740 à 1860, in : Population, 30-1, 1975, p. 71–122. Gaultier (note 5). En Indre-et-Loire, les plans cadastraux sont levés entre 1807 et 1838 selon les communes. Gorry (note 1). CNRS, UMR 7324 : MSH Val de Loire, Tours – http://citeres.univ-tours.fr/ (dernière consultation 2/10/2014). Elisabeth Zadora-Rio, Des paroisses de Touraine aux communes d’Indre-et-Loire. La formation des territoires. Tours 2008 ; sur la méthode d’élaboration de la carte des communes en 1790, le lecteur consultera la troisième partie de l’ouvrage. Transformation par un procédé optique ou géométrique d’un objet que l’on rend méconnaissable, mais dont la figure initiale est restituée par un miroir courbe ou par un examen hors du plan de transformation. L’anamorphose est un terme qui se rapporte également à l’image issue d’une telle transformation. Les anamorphoses sont utilisées en cartographie statistique pour montrer l’importance d’un phénomène donné. La carte ne représente alors plus la réalité géographique mais la réalité du phénomène. Par exemple, une commune sera agrandie par rapport aux autres si elle contient plus d’habitants que la moyenne des autres.

167

Infoclio_2015-livre_DRUCK.indd 167

06.08.15 09:11

Infoclio_2015-livre_DRUCK.indd 168

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Reduction, Approximation, and Omission: Preparing a Dataset for Visualization Laura Hornbake

169

Infoclio_2015-livre_DRUCK.indd 169

06.08.15 09:11

Abstract

This paper demonstrates how creating digital visualizations for small historical datasets can lead to new interpretations that challenge existing periodizations and narratives. It takes as an example an animated map representing events over time and space. Describing the transformation of historical sources into a standardized dataset, it explores problems inherent in this process: the loss of detail through the reduction and standardization of data and the implications of this loss. It shows that sensitivity to these problems while creating a visualization can itself prompt new insights.

170

Infoclio_2015-livre_DRUCK.indd 170

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Introduction In the age of big data, what will be the fate of the kind of research that requires painstakingly looking through boxes of ephemera, extracting information from a tiny collection of sources, connecting the dots between varied, fragmentary sources? What can the digital visualization of data offer historians working not with large digital datasets, but with only a handful of sources? This paper presents a case study of a smallscale project in which fragments of information from primary sources are processed to create a standardized dataset and to generate a dynamic visualization, in order to examine the possibilities of these methods. While not every research project is suited to generate digital visualizations, many historians would do well to consider what might be gained by preparing a small dataset and representing it visually. Visualization offers the possibility of making clear the complex patterns in chronology, in geography, in interactions between actors in a network, and in many other aspects of archival sources in ways that can challenge existing periodizations and narratives. 1 This paper champions small datasets and visualizations generated from them. It encourages historians to consider the conversion of primary sources into a dataset, examining both the promises and the pitfalls of such representations of information.

“State-ordered Evictions”: A Case Study “State-ordered Evictions” is an animated digital map that represents a campaign of evictions of associations in Cold War Italy, 1953–1955 (figure 1). 2 It uses the JavaScript library D3.js to generate a Scalable Vector Graphic (SVG) of a base map of Italy and to graph data points that represent evictions onto that map at the coordinates of the events. 3 Moreover, the map uses animation to present the chronology of the events. Initially, the map shows only Italy and its internal provincial boundaries. When the animation is initiated with a button, the points become visible over a period of a few minutes. The timing of these appearances is scaled to the dates of the historical events. Thus the animation represents temporal-spatial data, displaying points that appear on the map in condensed animation time as the events unfolded in historical time. 4 It demonstrates that this campaign of evictions targeted specific central Italian provinces, and that these evictions were concentrated in a short-lived but intense period between the summers of 1954 and 1955.

171

Infoclio_2015-livre_DRUCK.indd 171

06.08.15 09:11

Figure 1 “State-ordered Evictions of Associations, 1953–1955”, pictured mid-animation.

172

Infoclio_2015-livre_DRUCK.indd 172

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

This project to map evictions began while I was writing a dissertation on associations in central Italy, while working through a chapter on the importance of the experience of the 1950s in creating solidarity around embattled associations. 5 As I came across repeated references to evictions of associations, often described as a symptom of the “hard years” for the Italian left in the 1950s, I began to collect the details in a list. The list itself was unenlightening, a series of dates and descriptions that offered no clear insight, but that very obscurity prompted me to think about how I might analyze such information. Was there some pattern in these evictions that could help explain this campaign? Why were these evictions executed in central Italy in particular? How could I evaluate historical sources that explained the campaign as a politically-motivated strike at the communist heart of Italy? What kind of evidence could I muster to support or refute such claims? Were there correlations between distinctly political phenomena, for example, the electoral results of 1953 and the pattern of towns affected by evictions? In presenting the campaign in my writing, it was not sufficiently compelling to simply sum up that dozens of evictions were executed in Emilia Romagna and Tuscany, yet I did not want to overwhelm readers with a deluge of place names and dates. Moreover, the places cited in my sources were small towns with names that would certainly be unfamiliar to most readers: Portile, Lastra a Signa, Baricella. Thus the first priority would be to represent the geographic distribution of events on a map of Italy, demonstrating that these place names corresponded to towns and villages in central Italy, predominantly in the provinces Bologna, Modena, Reggio Emilia, and Firenze. My hypothesis was that the evictions occurred in these places, which, I intended to explain in accompanying text, were also the areas of greatest support for the Italian Communist Party (PCI). From the initially modest ambition to illustrate my research with a map, grew a more fruitful project as I experimented further with preparing my original source material for analysis and with generating more complex digital visualizations. I discovered that the process of creating visualizations was both more problematic and more promising than I had originally anticipated. This paper foregoes discussion of the technical aspects of generating the visualization to focus on the manipulation of data that must precede the creation of the visualization. The following sections explore the development of “State-ordered Evictions” and the problems of each phase, first detailing the stages of collecting data and processing it to create a dataset from primary sources, then discussing the further refinement of the data by testing the visualization and editing the dataset, and finally offering some conclusions. 173

Infoclio_2015-livre_DRUCK.indd 173

06.08.15 09:11

Converting primary source material to a dataset In order to perform any kind of analysis, the sources first had to be transformed into a standardized dataset, a process that began with assessing the source materials. I had uncovered a variety of contemporary newspaper articles, parliamentary papers, and secondary sources commenting on the evictions. 6 These sources ranged from lengthy descriptions of a single eviction, for example, extensive articles and photographs of the confrontation between police and protesters at the Casa del Popolo of Crevalcore in local and national newspapers, to passing notes of a town where evictions had also been enforced, without mention of a precise date or specific organization. While writing in narrative form on the subject, this heterogeneity created no problems: I could simply privilege the richer sources as examples, using the detail they offered to enrich my descriptions of the evictions and their aftermath while relegating the less specific sources to serve in statements about general trends, perhaps mentioning that evictions touched “dozens of other towns” in a province. This leeway with sources is a great advantage of textual over visual representation, particularly when working with archival sources. However, I hoped that by also analyzing my sources with the aid of a visualization, I might better understand how these evictions fit together not as isolated incidents, but as a pattern of similar events. In order to do that, I needed to reduce the varied details to a limited set of data fields. That implied suppressing the rich detail of some documents, but it also promised new insight that might be obscured by the particulars of any single event. I had to determine the common features of the sources, the extent and limits of the data, and select an appropriate format that respected these characteristics and suited the desired type of visualization. Before launching into questions of the final data structure, I gathered up the various bits of information in an intermediate form, a spreadsheet (itself a form of visualization), where I could easily manipulate and revise fields, assess the data as it was entered, and export data in a variety of formats. 7 There I recorded the lists I had made about the evictions as I came across them in my research. For each of the more than seventy examples, I noted the place names that indicated the town in which an eviction occurred; the date it was executed; the organizations being evicted; any information about how the eviction was executed such as how many police officers were sent to enforce the order, whether citizens resisted the police, any resulting property damage or violence; the source of the information; and any additional notes. Fortunately these events were relatively simple and did not pose any complex questions such as date ranges or events involving multiple locations. 8

174

Infoclio_2015-livre_DRUCK.indd 174

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

However, as I noted above, this information was gleaned from scattered and extremely varied sources, and thus the quality and quantity of available details ranged widely. The authors of available sources did not always provide more than a place name; they often had simply compiled lists of the many towns where evictions had ousted voluntary associations from their seats in order to emphasize how widespread the phenomenon was. Yet others recorded painstaking detail about a single eviction. These asymmetries in the sources translated to asymmetry in the data. As a result, the spreadsheet of information gathered from these sources was full of blank fields where detailed information was absent. Because the fate of the dataset was to be input into a visualization that required a geographic location and a date, any points without at least these two properties had to be discarded. All other details became extraneous, recorded in a field of miscellaneous notes. It would remain attached to the data but without purpose, a vestigial trace of the original sources. These processes of simplification and standardization of the data for the purposes of visualization do represent a loss. 9 They suppress the kinds of rich detail that many historians, myself included, use to create compelling narratives that describe how events unfold, not just where and when. In this case, these evictions were traumatic events for the communities that lost access to the rooms that were often their only public meeting spaces. To do justice to those experiences demands more than tallying the numbers of evictions, it requires extracting as much detail as possible from the few representative examples available. For this one facet of the historical analysis, however, we must throw out that detail, and hopefully come back to it with accompanying texts or other methods. I had already written at length about these events, and thus losing these details was not a concern.

175

Infoclio_2015-livre_DRUCK.indd 175

06.08.15 09:11

Processing data Once the information from primary sources was transformed into a standardized set of fields, I could begin to consider the way the data would function in the visualization and how the strings of text recorded in the spreadsheet might be interpreted. The biggest challenge in processing the data for visualization was the transformation of place names into geographic coordinates that could be mapped. Fortunately, there are many services that can geocode addresses and place names, making the conversion of text strings to coordinates a simple matter of choosing an API, scripting a request to it and handling the response. 10 However, because the input data was cobbled together from a variety of types of sources, the process of making sense of the recorded place names could not be fully automated. It required some manual pre- and post-processing to disambiguate the names and control the quality of the output. For example, authors of the historical sources I was using sometimes used colloquial, shortened versions of the name of a town which would have been understood only by their intended contemporary readers. A reference to the place “Ozzano” means little to anyone except those familiar with the small towns of the province of Bologna; while to the rest of the world the place is known as “Ozzano dell’Emilia”. Moreover, it might not refer to Ozzano dell’Emilia at all, but to Ozzano Monferrato, a town in the northern region of Piemonte. This problem is likely to arise in other projects, which might be also complicated by using multilingual sources that use exonyms, by dealing with longer historical periods during which place names shift, or by using references to obsolete place names that have not been included in modern geographical databases. In order to automate the process of geocoding, the next step in producing mappable data, these ambiguities must be resolved. I found it necessary to return to the notes on my sources, to read for contextual cues to identify several ambiguous names. Fortunately most of my sources were specific to an Italian province. Once the additional field of province was added to the data, I could search for an unequivocal name and province combination, returning a single latitude and longitude coordinate pair. However, by geocoding the place name, indicating a town or village where an eviction occurred, I was approximating the location of events. These evictions actually occurred at a specific building, an exact street address within the towns noted. However, that information was unavailable for all but a handful of items. This could have been a more serious problem for mapping on a smaller scale, for example, a map with an extent of one or a few towns. In such a case, imprecision in location could introduce significant uncertainty in the results. However, on a map of all of Italy, 176

Infoclio_2015-livre_DRUCK.indd 176

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

using a town as an approximate location for an event produces results indistinguishable from more precise coordinates. The decision about whether a proposed approximation will significantly alter the results of an analysis, must be done on a case by case basis. For the purposes of this project, a town was a reasonable approximation of location, allowing me to append an approximated geographic coordinate pair to each event. With all the data fields completed, the dataset could finally be exported in a format that functioned with the desired visualization tools. I chose to export the data as a GeoJSON file, and created a script to convert my spreadsheet into well-formatted GeoJSON. 11 This allowed me to use this dataset with a base map in ESRI shapefile format, a geospatial vector data format, using Geographic Information System (GIS) software.

Test Visualization and Refinement With the dataset prepared in a format appropriate for visualization, I could then check the results with a test visualization and re-process data in as many iterations as were needed to achieve satisfactory results. This step should make any glaring errors clear, for example, if the process of geocoding has not produced acceptable results, points might appear in unexpected places. More significantly for the purposes of analysis, the first visualization of the dataset should clarify the general trends in the data and identify any outliers, points that are significantly distant from the other data. In the case of the “State-ordered evictions” map, the test visualization revealed points that were significantly distant from the others in both of the two variables represented, time and space. While most of the events represented on the map of Italy clustered around cities in Emilia Romagna and Tuscany, a handful were in other regions. This deviation in the geographic distribution was of little concern: a few exceptions could not diminish the clear trend, that the evictions were overwhelmingly located in central Italy. Given this geospatial trend, I might have considered omitting the points outside Emilia Romagna and Tuscany and changing the extent of the map to zoom in on only central Italy. However, by using a map of all of Italy, the argument of the visualization is decidedly different from that of a detailed area. My thesis is that these events represent national political maneuvers and illustrate something of fundamental importance about the relationship between central Italian political subcultures to national Italian politics. Thus the map answers not the question in which towns in central Italy were evictions enforced, but what parts of Italy bore the brunt of a particular national political agenda. Considering the temporal data prompted similar questions of what to include or omit, which would frame the interpretation of the dataset. 177

Infoclio_2015-livre_DRUCK.indd 177

06.08.15 09:11

The animation of the points appearing on the map showed a few initial events, followed by a long pause of no events, then an explosion of most of the events in a burst, followed by another extended pause and finally one single event. The long pauses indicated the temporal distance of the first few and last one of the events from the vast majority of the data, suggesting that the leading and trailing outliers should be more closely examined. The question of how to handle the late outlier was an easy matter. The notes attached to the data point indicated that the eviction was not executed at all, but postponed. Its inclusion in the dataset was, in fact, an error, and it could be omitted without concern. The early group of outliers was more puzzling. What did these deviations from the general pattern mean? Were they relevant? To decide how to handle them, I first considered the assumptions I had made in researching and preparing the dataset: were there lacunae in the research that might have produced gaps in the data? While my research was thorough, I could never claim any certainty that it represented the complete record of all evictions. Were the sources for the outlying data different in some way from the sources for the other data? Were there problems in the way I conceived of the category “eviction”? Perhaps not all of these events belonged together as examples of a single phenomenon. Were there other ways of grouping this data? Was further research likely to uncover differences between these outliers and the rest of the data? As I formulated and considered these questions, I contemplated the periodization of the project. A possible explanation for the long pause in evictions between July 1953 and June 1954 might be found in national politics: the successive reshuffling of governments that removed Mario Scelba, architect of the strategy of evictions, from the office of Minister of the Interior in July 1953 for seven months, and then his resumption of that office when he also became Prime Minister (February 10, 1954 – July 6, 1955). In support of this interpretation there is the highly suggestive coincidence of the last date of evictions among the early group, which is the same as the last day of Scelba’s leadership at the Ministry of the Interior. This interpretation suggests that the early points were not outliers at all, but important indicators of Scelba’s role in pushing the campaign of evictions. This correlation was not clear, however, from the test visualization itself, which lacked labels or other links to this political periodization. In order to improve the visualization, I could remove the outliers from the dataset, thereby avoiding the pauses of inactivity that might lose readers’ attention or be misread as a technical error; or I might incorporate more information to link the periods of activity and inactivity to political tenures. Such decisions will be different for every project and 178

Infoclio_2015-livre_DRUCK.indd 178

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

every dataset, but a good guideline might be simply to be scrupulous: to not use omission of data points to silence alternative interpretations of the information. In this case, I initially chose to omit early and late outliers, to refocus the project on 1954–1955 to make the animated visualization proceed smoothly. However, I reconsidered this decision while writing the paragraphs above, concerned that I had privileged the neatness of the visualization over the historical arguments that had originally inspired the creation of the visualization. Another of the great benefits of these methods is that they are flexible, allowing such experimentation and revision. This experimentation prompted me to consider the data in new ways, generating unexpected and important observations. 12

Conclusions The phases described above have brought up several important concerns for historians who wish to prepare a data visualization from their research. The theme that ties together these concerns is loss: the loss of details in reducing sources to limited data fields, the loss of accuracy in accepting approximate locations, the loss of exemplars in trimming outliers from the dataset. Such sensitivity to what any particular method requires us to give up is well-founded, though it should not become an obstacle to experimentation with new methods. As this case study demonstrates, information was not as much lost as it was traded for different kinds of insights that writing about the integral sources did not reveal. In fact, one of the promises of data visualization for historical research is that it can be inclusive: datasets can incorporate information from more sources than one could possibly reference in a purely textual form. While writing about the period of evictions, I wrote at length about what I viewed as the best sources, those that offered the most vivid detail, the most interesting phrases to cite, while relegating the less well-documented cases to a passing mention or footnote. Those lesser examples stand on equal footing in the data visualization. In this sense, the dataset is in fact richer than the textual presentation of the same sources. Moreover, as this paper has demonstrated, the promise of data visualization is that it makes visible obscured patterns. Preparing data for visualization prompted me to significantly revise my interpretations. In my attempts to understand the gap between an initial early cluster and the remainder of events, I discovered a correlation between the political tenure of Christian Democrat Mario Scelba as Minister of the Interior and the campaigns of evictions. This highlights the influence of Scelba in shaping policies that pitted the national government against the local forces that represented its most defiant opposition. It demands that we 179

Infoclio_2015-livre_DRUCK.indd 179

06.08.15 09:11

look more closely at struggles between local and national authorities and at the role of personal antagonisms which may challenge interpretations of Cold War politics. The potential to generate such insights makes visualizations far more valuable than mere illustrations. While these methods are not lacking difficulties, I believe that even with small amounts of data, the trade-off between integrity of historical sources and the analytic potential of a reduced dataset may often prove valuable. I would encourage other historians to undertake the processes of data entry and processing for small datasets, thereby enriching both their own research projects with new interpretations of their sources as well as securing a place in field of digital history for smaller studies.

180

Infoclio_2015-livre_DRUCK.indd 180

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

1

2

3

4

5

6

7

There are by now many great examples of the use of visualizations to reveal patterns in large datasets. See for example: “Mapping the Republic of Letters” project at Stanford University’s Center for Spatial and Textual Analysis (CESTA), , or the “Mapping Texts” project produced in cooperation between Stanford University and the University of North Texas, . This article refers throughout to version 1.3, which will remain available at: (last visited 2/10/2014). The latest deployment of the project, which will continue to be revised, is: (last visited 2/10/2014). Michael Bostock, Vadim Ogievetsky, Jeffrey Heer, D3: Data-Driven Documents, in: IEEE Trans. Visualization & Comp. Graphics (Proc. InfoVis), 2011, (last visited 2/10/2014). For critical view of the limitations of these types of representations see Ian N. Gregory, A map is just a bad graph. Why spatial statistics are important in historical GIS, in: Anne Kelly Knowles (ed.), Placing history. How maps, spatial data and GIS are changing historical scholarship, Redlands, California 2008, pp. 123–149. Laura Jeanne Hornbake, Community, place, and cultural battles. Associational life in central Italy, 1945-1968. New York 2013, (last visited 2/10/2014). Sources such as Luigi Arbizzani’s contemporary article on the phenomenon, see: Luigi Arbizzani, Lunga vita alle case del popolo, in: Emilia, Bologna 1955; and Nilde Jotti, I lavoratori in difesa della Case del Popolo, Reggio Emilia 1955; provided the lists of evictions in Emilia Romagna that inspired further research into the topic. To uncover more details on those reported evictions and to obtain a more complete list of similar events elsewhere in Italy, I searched the digitized archives of parliamentary records: Camera dei deputati, Lavori Parlamentari, and Camera dei deputati, Atti e Documenti: (last visited 2/10/2014); the digital archives of the national newspapers L’Unità (last visited 2/10/2014), and La Stampa (last visited 2/10/2014); and researched secondary sources on associationism throughout Italy. Further research on the incidents that were the results of these searches included local periodicals and archives, when available. While more complex projects involving relations between various fields and data points might require careful structuring of data in databases, a spreadsheet is a sufficient tool for processing non-relational data.

8

9

10

11

12

On the problems of representing historical time, see Manfred Thaller, Which? What? When? On the virtual representation of time, in: Mark Greengrass (ed.), The virtual representation of the past, Surrey 2008, pp. 115– 124. For a more sophisticated approach to time, see the reports of the “Temporal Modeling Project” at the University of Virginia, (last visited 2/10/2014). Lev Manovich discusses reduction in information visualization and proposes methods that do not require reduction in: Lev Manovich, What Is Visualization?, in: Visual Studies, 26(1), 2011, pp. 36–49. I experimented with both the GeoNames geographical database API and the Google Geocoding API. I published this tool as a web application to make it available to anyone who wishes to replicate this process of mapping. See Laura Hornbake, GSS to GeoJSON, (last visited 2/10/2014). William G. Thomas argues that the unexpected, the outcome of speculative assays is at the heart of digital humanities work. He suggests, paraphrasing Jerome McGann that, “…if you have produced what you thought you would, perhaps you’ve not created anything really…” in: William G. Thomas, What we think we will build and what we build in Digital Humanities, in: Journal of Digital Humanities, 2012, (last visited 2/10/2014).

181

Infoclio_2015-livre_DRUCK.indd 181

06.08.15 09:11

Infoclio_2015-livre_DRUCK.indd 182

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Eigene Erhebung oder «fertige» Daten? Zu Möglichkeiten und Grenzen der visuellen Darstellung statistischer Daten Katrin Henzel, Stefan Walter

183

Infoclio_2015-livre_DRUCK.indd 183

06.08.15 09:11

Abstract

There are two options for data visualization: Either the use of ready-made statistics or one’s own data collection. Both approaches have their advantages and disadvantages which will be discussed using the example of the Google service “Ngram” respectively a statistical data collection of autograph books. Whereas the advantage of “Ngram” is seen in its stimulation of further research, self-made statistical data collections offer a variety of visualization options which go far beyond the mere presentation. In this respect, we seek to encourage researchers to collect and analyze their own data.

184

Infoclio_2015-livre_DRUCK.indd 184

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

1. Visualisierungstechniken in der Geschichtswissenschaft Die Geschichtswissenschaft ist eine Fachdisziplin, die sich seit jeher auch der visuellen Wissensvermittlung bedient. 1 Gerade beim Nachvollziehen umfangreicher und komplexer Zusammenhänge erhöht der Einsatz von Bildmedien die Erkenntnis – man denke etwa an die bereits im Schulunterricht verwendeten Hilfsmittel wie Landkarten 2 oder Zeitstrahl. Dabei ist der Rückgriff auf die visuelle Sichtbarmachung des ZeitRaum-Verhältnisses nicht nur in vermittelnder Funktion, sondern auch gegenstandsbezogen nur konsequent: Bedienten sich doch die Geschichtsschreiber von Beginn an einprägsamer (Sprach-)Bilder, um dem Erzählten Lebendigkeit und Tiefe zu verleihen, aber auch, um eine (Deutungs-) Perspektive vorzugeben. 3 Wert und Funktion der Bilder für Geschichtsschreibung, -wissenschaft und -vermittlung sowie die kritische Hinterfragung scheinbar objektiver Bilder sind in der jüngeren Forschung erkannt und ausgeführt worden. 4 Dies trifft unseres Erachtens jedoch weniger auf den Teilbereich innerhalb der Visual History zu, der die bildhafte Darstellung von Daten und Wissenszusammenhängen als Hilfsmittel oder Ergebnis historischer Forschungen beinhaltet. 5 Woher rührt dieses Defizit? Zwei mögliche Ursachen sind zu vermuten: Erstens ist die Förderung kognitiver Erkenntnis durch bildliche Veranschaulichung mittlerweile so selbstverständlich, dass eine theoretische Auseinandersetzung speziell in diesem Bereich nicht zu lohnen scheint; ja, dass der Einsatz von Kurven und Diagrammen und ähnlichen visuellen Instrumenten in der Geschichtswissenschaft eventuell sogar als unangemessen missverstanden werden könnte. 6 Zweitens besteht ein Defizit an bestimmten methodischen Zugängen zum Quellenmaterial. Erst bei der Untersuchung grosser Datenmengen stellt sich in der Regel die Frage der adäquaten visuellen Veranschaulichung der analysierten Ergebnisse. Die vorherrschende Nichtbeschäftigung mit der Visualisierung von Datenergebnissen kann als ein Indiz für die offensichtlich unterrepräsentierte quantitative Forschung innerhalb der Geschichtswissenschaft gesehen werden. Diese Aussage bezieht sich freilich auf den allgemeinen Stand der Geschichtswissenschaft, nicht einzelne Fachdisziplinen. Hier sind bekanntermassen stark quantitativ ausgerichtete Bereiche seit einigen Dezennien vertreten und bereichern die Geschichtswissenschaft um methodische Zugänge und neue Forschungsergebnisse. Zu nennen sind hier in erster Linie die Historische Statistik und die Historische Demographie. Dabei gilt, was Manfred Thaller treffend formuliert, eben nicht nur für die spezifisch quantitativ ausgerichteten Teildisziplinen: «Manche Arten historischer Quellen sind nur quantitativ zu interpretieren. Werden sie dies nicht, entstehen Artefakte.» 7 185

Infoclio_2015-livre_DRUCK.indd 185

06.08.15 09:11

Vom Unbehagen gegenüber quantitativen Methoden in der akademischen Geschichtsdidaktik Obwohl die Bedeutung quantitativer Quellen seit langer Zeit bekannt ist, lässt sich die Vermittlung entsprechender Methoden in der allgemeinen Ausbildung für Historiker an den Hochschulen hingegen weiterhin als defizitär beschreiben. Ein Blick in Einführungen 8 in die Geschichtswissenschaft wirkt ernüchternd: Nur vier von insgesamt zehn untersuchten Einführungen setzen sich überhaupt mit quantitativen Methoden ausein ander, und nur eine einzige – Ernst Opgenoorths und Günther Schulz’ «Einführung in das Studium der Neueren Geschichte» – führt auch tatsächlich in diesen Bereich umfassend ein 9 und betont den komplementären Charakter quantitativer und qualitativer Verfahren. 10 Ansonsten wird andernorts, wenn überhaupt von quantitativen Methoden die Rede ist, in der Regel lediglich der Dualismus qualitativer und quantitativer Verfahren konstatiert und sogar gelegentlich auf die Gefahren der einseitigen Nutzung quantitativer Methoden hingewiesen. 11 Möglicherweise scheinen statistische Verfahren methodisch für die Geschichtswissenschaft wenig relevant. Die seit dem Historismus methodisch traditionell in den Geisteswissenschaften stark verankerte und damit bevorzugte Anwendung (rein) hermeneutischer Analyseverfahren, insbesondere in der deutschen Geschichtswissenschaft, scheint hierfür ein plausibler Grund zu sein. 12

Gegenwärtige Tendenzen der Visualisierung in den Sozialwissenschaften Fragen der Visualisierung von Forschungsergebnissen betreffen heute in gleichem Masse alle mit umfangreichem Datenmaterial, insbesondere quantitativ arbeitenden Fachbereiche. Zu nennen wären die Netzwerkforschung (vorrangig qualitativ arbeitend), 13 die Historische Geographie 14 und die Historische Linguistik. So liesse sich die Aufreihung fortsetzen. Was dabei deutlich wird: Es handelt sich um Spezialgebiete, die in ausserordentlichem Masse als interdisziplinär zu bezeichnen sind und sich in der Regel nur schwer einem wissenschaftlichen Fach klar zuordnen lassen. Aus diesen Beobachtungen zum Verhältnis der Geschichtswissenschaft zur visuellen Aufbereitung erhobener und analysierter Daten lässt sich die These ableiten, dass Fachbereiche, die von jeher stark interdisziplinär ausgerichtet waren, stärker mit Daten arbeiten, deren Ergebnisse fachübergreifend und allgemeinverständlich zu präsentieren sind, da sie sich zwischen mindestens zwei eigenständigen traditionellen Fächern bewegen.

186

Infoclio_2015-livre_DRUCK.indd 186

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Die Visualisierung in den Digital Humanities Ein Blick auf die 2012 in Hamburg stattgefundene DH-Tagung «Digital Diversity: Cultures, Languages and Methods» 15 bestärkt diesen Eindruck. Geistes- und Sozialwissenschaftler haben bezogen auf die Datenerhebung und -auswertung sowie deren Darstellung unabhängig von ihren fachspezifischen Fragestellungen ähnlich gelagerte Probleme zu lösen; und so ist es nur folgerichtig, diese gemeinsam anzugehen. 16 Sinnvoll ist daher die fachübergreifende Bündelung wie beispielsweise in der zum «Network for Digital Methods in the Arts and Humanities» (NeDiMAH) gehörenden Arbeitsgruppe «Information Visualisation». 17 Gerade im Bereich der Textwissenschaften/Editionen werden zunehmend Institutionen gegründet und Portale eingerichtet, die als Austauschplattform dienen, die gemeinsame Entwicklung von Tools und dabei auch die Nutzung von Software für die Visualisierung ermöglichen. 18 Die digitale Verfügbarkeit von Texten macht es nun zunehmend möglich, diese für quantitative Analysen zu nutzen und für die Visualisierung zu erschliessen.

Zwei mögliche Strategien des Historikers Von unseren Überlegungen zum Gebrauch von Visualisierungstechniken in der Geschichtswissenschaft leiten wir nun den Blick auf zwei Möglichkeiten, die sich dem Historiker im Umgang mit Daten bieten: 1. Eine Möglichkeit besteht darin, auf den vornehmlich hermeneutischen Ansätzen zu verharren. Demgemäss erfolgt ein Rückgriff auf «fertige» Daten lediglich in unterstützender Funktion. Hierbei können grundsätzlich auch Daten von kommerziellen Anbietern wie zum Beispiel Google mit dem «Google Ngram Viewer» herangezogen werden. 19 Die Möglichkeiten der Visualisierung sind dabei allerdings aufgrund fester Vorgaben eingeschränkt. Es lässt sich vermuten (und wird weiter unten zu zeigen sein), dass der Interpretationsspielraum der Daten sowie deren Formen der Visualisierung damit ebenfalls begrenzt sind. 2. Die andere Möglichkeit stellt den unvoreingenommenen Zugriff auf geeignete Methoden der Sozialforschung dar. Wie schon deutlich gemacht wurde, stellen Datenerhebung und -auswertung keine an Einzeldisziplinen gebundenen Methoden dar. Statistische Auswertungsmethoden finden sich sowohl in den Natur- als auch den Geisteswissenschaften. Quantitative und qualitative Methoden sind jeweils auch für historische Fragestellungen nutzbar, ihre Anwendung ist an die Frage der Quellen-/Datenlage gekoppelt. 20 Entsprechend lassen sich die Möglichkeiten der Visualisierung und des Interpretationsspielraums erweitern. 187

Infoclio_2015-livre_DRUCK.indd 187

06.08.15 09:11

Im Folgenden sollen beide Vorgehensweisen an Beispielen diskutiert werden. Wir vertreten hierbei die Ansicht, dass es für Historiker bei bestimmten Fragestellungen durchaus sinnvoll sein kann, eher eigene statistische Analysen durchzuführen als auf «fertige» Daten zurückzugreifen. Statistische Analysen sind mit einer Vielzahl von Visualisierungsoptionen verbunden, die weit über die Möglichkeiten der Darstellung extern bereitgestellter Daten hinausgehen. Sie dienen nicht nur der unterstützenden Präsentation, sondern zugleich der Analyse des erhobenen Datenmaterials. Dadurch können sie zu überraschenden Erkenntnissen führen und neue Fragestellungen generieren. Historiker sollten deshalb aus unserer Sicht keine Scheu haben, sich auch quantitativer Methoden und der daran geknüpften Visualisierungstechniken zu bedienen.

188

Infoclio_2015-livre_DRUCK.indd 188

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

2. Der «Ngram Viewer» als «Werkzeug des Historikers»? Am Beispiel des von Google bereitgestellten Dienstes «Ngram Viewer» 21 soll ein typischer Fall extern bereitgestellter Daten, die vom Nutzer also nicht selbst erhoben werden, erörtert werden. 22 An diese Vorstellung knüpft sich die Frage, inwieweit der Ngram-Viewer als ein «Werkzeug des Historikers» gelten kann. 23 Dieses von Google bereitgestellte Tool und dessen Datengrundlage (Google Books) ist mit seinen Voraussetzungen und Funktionen schon umfangreich vorgestellt und zusammengefasst worden. 24 Es sollen trotzdem die wichtigsten Punkte, sofern sie für die Argumentation dienlich sind, noch einmal zusammengefasst werden. Am besten lässt sich dies mithilfe eines Beispiels erläutern. Google Books hatte im Jahr 2011 über 15 Millionen Bücher digitalisiert, von denen circa fünf Millionen 25 mit einem Umfang von über 500 Millionen Wörtern aus sieben Sprachen 26 für den Ngram-Viewer genutzt werden. 27 Eine Abfrage funktioniert dergestalt: «Usage frequency is computed by dividing the number of instances of the n-gram in a given year by the total number of words in the corpus in that year.» 28 In der Linguistik bezieht sich das N-Gram-Modell auf einzelne Zeichen/-ketten (vor allem Buchstaben) aus einer Sequenz, die die Grundlage für statistische Analysen bilden. 29 Mit seiner Anwendung soll das N-Gram-Modell Vorhersagen über die Umgebung eines Buchstabens errechnen. 30 Der Ngram-Viewer von Google begrenzt die Zerlegung von Sätzen auf den Wortumfang, sodass sich Wörter und Wortgruppen in einem vom Nutzer bestimmbaren Zeitraum abfragen lassen. Illustrieren wir eine typische Abfrage mit Google Ngram anhand eines Beispiels: In die Maske werden die Autorennamen «Marx» und «Goethe» eingegeben. Die von Google eingestellte Default-Annahme der «Smooth»-Stufe 3 wird auf 0 herabgesetzt, 31 als Korpus wird das deutschsprachige im Zeitraum von 1800 bis 2000 (ebenfalls als Standard voreingestellt) ausgewählt. Der Ngram-Viewer von Google gibt dabei das relative Vorkommen eines N-Grams («Marx», «Goethe») in einer Auswahl von Publikationen eines Jahres wieder, wobei die berechneten Daten mit Hilfe eines Liniendiagramms visualisiert werden. An «Goethe» lässt sich dabei sehr schön zeigen, dass es hier um einen berühmten Autor geht, bei dem erwartungsgemäss an Jahrestagen deutliche Ausschläge der Kurve aufgrund vermehrter Publikationen festzustellen sind (so beispielsweise 1932, dem 100. Todestag, oder 1949, dem 200. Geburtstag des Dichters). Bei «Marx» sind die «Peaks» ebenfalls vorhanden (beispielsweise im Todesjahr 1883 und genau 100 Jahre später sowie 1972 mit Erscheinen des Probebandes 189

Infoclio_2015-livre_DRUCK.indd 189

06.08.15 09:11

Abbildung 1 Abfrage der Begriffe «Marx» und «Goethe» im Google-Ngram-Viewer aus dem Korpus «German» im Zeitraum «1800 bis 2000» mit «Smooth»-Stufe 0

Abbildung 2 Abfrage der Begriffe «Marx» und «Goethe» im Google-Ngram-Viewer aus dem Korpus «German» im Zeitraum «1800 bis 2000» mit «Smooth»-Stufe 50

190

Infoclio_2015-livre_DRUCK.indd 190

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

191

Infoclio_2015-livre_DRUCK.indd 191

06.08.15 09:11

der deutschen Karl-Marx-und-Friedrich-Engels-Gesamtausgabe), wenngleich in weniger grossen Ausschlägen; hier verläuft die Kurve glatter. Diese ersten Beobachtungen geben nun Anlass, sich genauer mit den möglichen Gründen für diese Kurven, aber auch den Abfragemodi auseinanderzusetzen. 32 Die Deutung der «Peaks» als Hinweise auf Jubiläen sind zunächst einmal nur plausibel erscheinende Hypothesen, die weiter erforscht werden müssen. Vertiefende Analysen sind allerdings mit dem Google-Programm selbst – zumindest bisher – nicht möglich. So wissen wir nicht, ob ein Mann oder eine Frau, ein Professor oder ein Parteifunktionär, ob ein Publizist aus der DDR oder aus Österreich jeweils der Autor ist, ob das Medium ein wissenschaftlicher Aufsatz in einem Sammelband oder ein fiktionaler Roman ist, ob ein grösserer oder ein kleiner Verlag das Buch gedruckt hat, und so weiter. Insofern ist es auch kaum möglich, mit dem Google Ngram-Viewer Informationen über die Verbreitung von interessierenden N-Grams bei einer Bevölkerungsgruppe zu gewinnen. Denn aus einer Publikation über Marx, etwa in den wortreichen SED-Konvoluten oder in einem abseitigen Artikel, folgt nicht «automatisch» deren breite Rezeption. Auch die vielfach von Michel et al. vorgebrachte Argumentation, der NgramViewer eigne sich zur Identifizierung zensierter Werke, 33 ist aus unserer Sicht nicht haltbar. Eine weitere Unklarheit liegt in der Korpusauswahl. Derzeit stehen zwei unterschiedliche Korpora, nämlich «German» und «German 2009», zur Verfügung, die den kontinuierlich fortgesetzten Digitalisierungsaktivitäten und dem entsprechenden Anstieg des verfügbaren Materials Rechnung tragen. Worin sich beide Korpora konkret unterscheiden, ist jedoch nicht erkennbar. Auch ist eine Zufallsauswahl der gesamten Texte aufgrund der weitgehend homogenen Herkunft (Universitätsbibliotheken ohne Bestandsaufschlüsselung) und der erfolgten Vorauswahl (keine Zeitschriften) nicht gegeben. 34 Repräsentative Aussagen über den allgemeinen Sprachgebrauch innerhalb einer Gesellschaft sind deshalb nicht möglich. 35 Zudem ist das angewandte OCR-Scanverfahren fehleranfällig und reduziert das Korpus – die Ergebnisse werden verwässert. 36 Ein weiteres Problem, welches allerdings eher beim Nutzer als beim Datenanbieter liegt, ist der Umstand, dass das Tool eine simple Bedienung suggeriert (die es zweifelsohne auch hat), der Nutzer allerdings Gefahr läuft, «schnelle», also flüchtige und damit fehleranfällige Abfragen durchzuführen. So gibt es bei den Suchbegriffen «Marx» und «Goethe» natürlich auch die naheliegenden Möglichkeiten der Suche samt Vornamen und weiterer Varianten (um beispielsweise Namensvetter auszuklammern). Jede abweichende Abfrage erzeugt dabei auch andere Ergebnisse. Der 192

Infoclio_2015-livre_DRUCK.indd 192

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Nutzer muss sich also im Klaren sein, wie seine Fragestellungen lauten, wie das Korpus und die Suchoptionen beschaffen sind. 37 Einen weiteren Kritikpunkt stellt neben der intransparenten Datenauswahl und -bereitstellung die Produktion von «Gefälligkeitsergebnissen» dar. Diese ergeben sich durch die «Smooth»-Funktion. Hierbei wird der Wert X mit X+n und X-n zu einem Mittelwert zusammengefasst. Der Nutzer kann beim «Smoothen» zwischen den Stufen 0 bis 10, dann in Zehnerschritten auf einer Skala bis 50 wählen. Je höher die Stufe ist, desto glatter werden die Ergebnisse und desto flacher die Kurven. Stellt man in einer erneuten Abfrage mit den Kriterien, die auch für Abbildung 1 gelten («Marx» und «Goethe», Korpus «German», Zeitraum «1800 bis 2000)», nun aber statt der Stufe 0 die höchste Stufe (50) ein, bleibt zwar der grundsätzliche Kurvenverlauf (die Grundtendenz, dass «Goethe» bis Anfang der 1950er Jahre weitaus häufiger vorkommt als «Marx», sich dann «Marx» vor «Goethe» absetzt und die Häufigkeit von «Goethe» ab diesem Punkt relativ konstant bleibt) erhalten. Doch gehen durch die Glättung wichtige Detailinformationen, auf denen sich Interpretationen stützen, verloren: Das wichtige Jahr 1972 (siehe oben) ist nicht mehr als «Peak» zu erkennen, die Kurve verläuft stattdessen kontinuierlich «sanft» nach oben. Glättungsfunktionen wie die «Smooth»-Funktion sind im Rahmen graphischer Datenanalyse nicht ungewöhnlich. Sie werden angewandt, um verdeckte, bisher unbekannte Strukturen in den erhobenen Daten zu entdecken, wodurch neue Fragestellungen aufgeworfen werden können. Allerdings kann man diese Fragestellungen mit dem Google NgramViewer kaum weiter vertiefen. Vielmehr liegt die Versuchung nahe, mit der «Smooth»-Funktion erwünschte und somit «gefällige» Strukturen, die als Beleg für eine Hypothese dienen könnten, durch Auswahl eines geeigneten Glättungsgrades erst zu erzeugen. Der Nutzen des Tools scheint uns deshalb vor allem in der Anregung, nicht aber im Beleg für eine Hypothese zu liegen. Möchte man eine aufgeworfene Fragestellung indes weiter vertiefen, reicht ein Rückgriff auf «fertige», aggregierte Daten kaum aus.

193

Infoclio_2015-livre_DRUCK.indd 193

06.08.15 09:11

3. Eine zweite Strategie: Eigene quantitative Analysen Damit rückt eine zweite Strategie in den Fokus des Historikers, bei der er selbst geeignete schriftliche Dokumente heranzieht und eigene quantitative Analysen durchführt. Hierbei hat er die Möglichkeit, über die Visualisierung zeitlich gereihter Daten, wie sie der Google NgramViewer letztendlich nur bietet, hinauszugehen. Statistik-Software bietet hierzu einerseits standardmässig eine Vielzahl von Graphikoptionen für eine ansprechende, die Interpretation unterstützende Präsentation der Daten. 38 Andererseits offerieren dieselben Statistik-Tools zusätzliche Visualisierungsmöglichkeiten, die allein der Analyse und weniger der späteren Präsentation der Daten vorbehalten sind. In diesem Zusammenhang ist zu bemerken, dass fast immer die Beschäftigung mit quantitativ erhobenen Daten zunächst mit einer visuellen Inspektion der erhobenen Merkmale beginnt. Man visualisiert hierzu die Verteilungen, untersucht Häufigkeiten, sucht nach groben, die späteren Schätzungen womöglich beeinflussenden «Ausreissern» in den erhobenen Merkmalen. Über diese univariate Diagnostik mithilfe geeigneter Visualisierungsformen (Histogramme, Boxplots, Fehlerbalken, …) wird allerdings in der Regel in den späteren Publikationen nicht berichtet. Sie erfüllt üblicherweise lediglich den Zweck zu entscheiden, welche statistischen Berechnungen später durchgeführt werden können. Noch häufiger als die univariaten Darstellungsformen kommen allerdings Streudiagramme (Scatterplots) als Hilfsmittel für die graphische Datenanalyse zum Einsatz. Hierbei werden in einem Diagramm die Wertpaare zweier Variablen x und y gegeneinander abgetragen, so dass visuell eine Punktwolke (xi, yi, für i = 1…n) entsteht. Anschliessend wird versucht, mögliche Zusammenhänge zwischen den beiden Variablen zu entdecken. Wir können im Rahmen dieses Aufsatzes nicht die verschiedenen graphischen Darstellungsmöglichkeiten, die sich im Zusammenhang statistischer Analysen ergeben können, erläutern und verweisen auf die relevante Literatur. 39 Wir wollen jedoch im Folgenden am Beispiel einer quantitativen Dokumentenanalyse zeigen, wie sich Präsentation und Analyse, tabellarische und visuelle Darstellung auch im Rahmen historisch angelegter Forschung sinnvoll für die Interpretation der Befunde ergänzen lassen. Dabei wollen wir auch auf Grenzen der Visualisierung statistischer Daten eingehen, die sich insbesondere beim Einsatz multivariater statistischer Berechnungen ergeben.

194

Infoclio_2015-livre_DRUCK.indd 194

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Goethe und Marx im Poesiealbum zwischen 1949 und 1989 In der Zeitgeschichtsforschung wird häufig nach der ideologischen Beeinflussung der Bürger in den beiden deutschen Diktaturen des 20. Jahrhunderts gefragt, jedoch auf den Mangel an entsprechenden Studien verwiesen. 40 Eine Möglichkeit, mehr über eine vom Staat erwünschte ideologische Beeinflussung in einer Bevölkerung zu erfahren, könnte aus unserer Sicht darin bestehen, Poesiealben von Heranwachsenden auf Indizien einer ideologischen Beeinflussung hin zu untersuchen. Gemäss einer volkskundlichen Definition handelt es sich bei einem Poesiealbum um ein Buch, «in das Freunde ihren Namen besonders in Verbindung mit einem Spruch und allerlei Auszierden, so Handzeichnungen u.a.m. eintragen». 41 Hervorgegangen aus der ursprünglich unter Erwachsenen verbreiteten Stammbuchsitte, werden Poesiealben seit Mitte des 19. Jahrhunderts hauptsächlich von Heranwachsenden und hierbei insbesondere von Mädchen geführt. Noch heute ist die Sitte vielerorts im deutschsprachigen Raum zu beobachten. 42 Die Auswertung von Poesiealben als Gegenstand staatlicher Beeinflussung kann dabei mit hermeneutischen Methoden erfolgen, aber auch mit quantitativ-statistischen. Als Einträger in Poesiealben fungieren hauptsächlich gleichaltrige Freunde und Mitschüler, die wir im Folgenden mit Hinweis auf die sozialwissenschaftliche Forschungstradition als Peergroup bezeichnen. Daneben werden jedoch auch Lehrer, Familienangehörige sowie Personen des erweiterten ausserschulischen Bekanntenkreises um Inskriptionen gebeten. Für die Erforschung der Poesiealben folgt hieraus die Forderung, die Zugehörigkeit eines Inskribenten zu einer Einträgergruppe nach Möglichkeit zu klären. Inhaltlich kommen in den eingetragenen Texten oftmals bestimmte Wertvorstellungen zum Ausdruck. Hierzu wird in der Regel auf vorhandene «Sprüche» oder Zitate zurückgegriffen. Diese können zwar der Albumtradition entstammen, werden jedoch häufiger auch ganz anderen Quellen entnommen. Ein Indiz für eine aus Sicht des DDR-Staates als erwünscht erscheinende Beeinflussung könnte der Rückgriff auf einen entsprechend erwünschten Autor in einem Poesieeintrag sein. Dies scheint besonders dann der Fall, wenn durch Nennung des Autorennamens der eingetragene Text als Zitat ausgewiesen wurde. Da wir in der Diskussion des Google Ngram-Viewers nach Marx und Goethe gefragt hatten, wollen wir erneut auf diese Autoren zurückgreifen. Wurde in ein Album ein Marx-Zitat eingetragen, kann dies als Indiz einer staatlich erwünschten Beeinflussung des Einträgerverhaltens interpretiert werden. Wurde ein Eintrag als von Goethe stammend gekennzeichnet, wird dies nicht als staatlich erwünschte Beeinflussung gedeutet, da Goethe vermutlich im gesamten deutschsprachigen Raum allgemeine Wertschätzung geniesst. 43 195

Infoclio_2015-livre_DRUCK.indd 195

06.08.15 09:11

Umfang und Zeitraum der Erhebung der Poesiealben Für die nachfolgenden Analysen greifen wir auf die Untersuchung von 2863 Einträgen in Poesiealben zurück, die im Rahmen eines Dissertationsprojekts im Zeitraum zwischen Mai 2009 und Mai 2011 erhoben wurden. 44 Insgesamt nahmen an der Studie 65 Albumbesitzer teil (58 weibliche und sieben männliche), die zusammen 84 Poesiealben geführt haben. 32 Personen stammen aus der ehemaligen DDR und führten insgesamt 45 Alben. 33 Personen kamen aus den alten Bundesländern und führten insgesamt 39 Alben. 45 Wir möchten darauf hinweisen, dass hierzu Albumhalter aus dem persönlichen Umfeld, über einen Mailverteiler sowie über Archive und Sammler gezielt angesprochen worden sind, so dass hier keine zufallsbasierte, sondern eine bewusste Auswahl der Alben vorliegt. Trotz der hohen Anzahl an untersuchten Einträgen beanspruchen wir deshalb auch keine Repräsentativität unserer Daten. Wir können nur Hinweise auf mögliche Trends geben, die durch repräsentative Erhebungen geprüft werden sollten.

Befund und Visualisierung I: Allgemeine Häufigkeiten Fragen wir zunächst ganz allgemein, wie häufig in den untersuchten, zwischen 1949 und 1989 geführten Alben Einträge gekennzeichnet als von Marx, Goethe oder einem anderen Autor stammend vorkommen. Wir bilden hierzu eine nominale Variable, die vier Merkmalsausprägungen besitzt: Das verwendete Zitat stammt von 1 = Marx, 2 = Goethe, 3 = einem anderen Autor, 4 = keine Angabe des Autorennamens. Tabelle 1 gibt hierüber Auskunft. Es zeigt sich, dass 3,8% aller untersuchten Einträge als Goethe-Zitate ausgewiesen worden sind, jedoch nur 0,3% als von Karl Marx stammende. 12,2% der Texte wurden als Zitat eines anderen Autors gekennzeichnet. TabElle 1 Allgemeine Häufigkeit der Autorenangaben in Poesiealben 1949–1989 Deskriptive Statistiken; Quelle: hier wie im Folgenden Datenkorpus der erhobenen Poesiealben

Zitatkennzeichnung

Häufigkeit

Prozent

Karl Marx

8

0,3

Joh. Wolfgang Goethe

100

3,8

Anderer Autor

323

12,2

Keine Autorenangabe

2222

83,8

Gesamt

2653

100,0

Da sich die Ausprägungen der Variable sinnvoll auf 100% kumulieren lassen, eignet sich zur visuellen Darstellung ein Kreisdiagramm. Diese Form der Darstellung trägt als Präsentationsgraphik zur Veranschaulichung 196

Infoclio_2015-livre_DRUCK.indd 196

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

der Tabellenwerte bei, indem sie die Aufmerksamkeit zum einen auf den Verzicht der Autorenangabe lenkt (83,8%), zum anderen in der Darstellung die proportional starke Präsenz der Goethe-Zitate im Vergleich zu Marx sowie zu den übrigen zitierten Autoren augenfällig macht.

12,2%

Abbildung 3 Visuelle Darstellung der Daten aus Tabelle 1

0,3% 3,8%

Autoren Gesamt (DDR +BRD) keine Angabe Goethe Marx anderer Autor

83,8%

Befund und Visualisierung II: Einträgergruppen im Ost-West-Vergleich Vertiefen wir nun die Analyse und fragen, ob es Ost-West-Unterschiede bei der Autorenauswahl gibt. 46 Hierzu teilen wir die Einträger nach Inskriptionen in ein Album der ehemaligen DDR beziehungsweise der alten Bundesrepublik auf. Tabelle 2 gibt Auskunft über die erzielten Befunde. TabElle 2 Autorenangaben nach Ost und West Deskriptive Statistiken, Kreuztabelle; keine Berücksichtigung von Panel-Einträgen

Einträger aus Zitatkennzeichnung Joh. Wolfgang Goethe

Karl Marx

Anderer Autor

Keine Autorenangabe

Gesamt

Gesamt

BRD

DDR

N

19

81

100

%

1,4%

6,0%

3,8%

N

0

8

8

%

0,0%

0,6%

0,3%

N

148

175

323

%

11,3%

13,1%

12,2%

N

1147

1075

2222

%

87,3%

80,3%

83,8%

N

1314

1339

2653

%

100,0%

100,0%

100,0%

197

Infoclio_2015-livre_DRUCK.indd 197

06.08.15 09:11

Die verfeinerte Analyse anhand des biographischen Ost-/West-Hintergrundes eines Einträgers bringt bedeutsame Unterschiede. Marx wird nur von Einträgern in der DDR verwendet. Dies geschieht jedoch sehr selten, was für eine geringe staatliche Beeinflussung in der DDR spricht. Überraschend ist, dass vor allem DDR-Einträger Goethe-Zitate verwendet haben. Man kann daraus schlussfolgern, dass im DDR-Alltag womöglich die Weimarer Klassik der Klassenkampf-Rhetorik vorgezogen wurde. Die Tabellenwerte können mithilfe eines gruppierten Balkendiagramms, wie in Abbildung 4 geschehen, visuell dargestellt werden. Für die Kategorienachse dient uns dabei unsere nominale Variable. Wir haben sie jedoch für die visuelle Darstellung leicht modifiziert, indem wir auf die Einträger ohne Autorenangabe verzichtet haben. Die Berücksichtigung dieser Balken würde das Gesamtbild der visuellen Darstellung dominieren. Durch das Weglassen wird die Konzentration auf die uns interessierenden Autoren gelenkt, wodurch die Ost-West-Unterschiede in den jeweiligen Kategorien (insbesondere bei Marx und Goethe) eine grössere Betonung erfahren.

Abbildung 4 Visuelle Darstellung der Daten aus Tabelle 2

14%

13,1% 11,3%

12% 10%

Einträger

8%

BRD DDR

6,0%

6% 4% 2% 0%

0,0%

0,6%

Marx

1,4%

Goethe

anderer Autor

198

Infoclio_2015-livre_DRUCK.indd 198

06.08.15 09:11

Cartes & Statistiques / Karten und Statistiken

Befund und Visualisierung III: Multivariate Prüfung der Goethe-Zitate Man sollte an diesem Punkt die statistische Analyse nicht abbrechen. Vielmehr ist stets eine multivariate Prüfung anzustreben, die weitere relevante Einflussfaktoren berücksichtigt bzw. die bisher berücksichtigten Faktoren auf mögliche Scheinkorrelationen kontrolliert. 47 So kann zum Beispiel plausibel angenommen werden, dass die Beliebtheit der Goethe-Zitate unabhängig von der Staatsangehörigkeit vor allem altersabhängig ist und besonders gern von Lehrern verwendet wurde. Wir haben allerdings bisher nur das Vorkommen in der Gesamterhebung sowie anschliessend das Vorkommen in den Teilstichproben der DDR- und BRD-Alben analysiert. Die hierbei gefundenen Ost-West-Unterschiede könnten dabei allerdings auf unsere Art der Erhebung zurückgehen, die nicht zufallsbasiert ist. Wie Google vornehmlich die Spezialbestände von Universitätsbibliotheken eingescannt hat und womöglich dadurch bestimmte Fachdiskurse über- und andere Populärdiskurse unterrepräsentiert in den Ngrams wiedergibt, könnten auch in unserer Gesamtstichprobe aufgrund der nicht zufallsbasierten Erhebungsweise bestimmte Einträgergruppen und damit ihre Lieblingsautoren über- beziehungsweise unterrepräsentiert vorkommen. Die oben abgebildeten Ost-West-Unterschiede könnten folglich nur scheinbar existieren. Aus diesem Grund sollte stets versucht werden, einen möglichen Zusammenhang multivariat zu kontrollieren, was wir anhand der Einträge mit Goethe-Zitaten demonstrieren möchten. Die Gewinnung zusätzlicher relevanter Variablen, von denen wir annehmen, dass sie einen Einfluss auf das Zitierverhalten ausüben, ist durch die weitere Dokumentenanalyse, aber auch durch externe Informationsbeschaffung möglich. Die abhängige Variable liegt allerdings lediglich in dichotomer Form vor (ein gekennzeichnetes Goethe-Zitat liegt im Eintrag vor = 1, liegt nicht vor = 0). Als multivariate Analysemethode kommt deshalb für uns die binär-logistische Regressionsanalyse (Logistische Regression) als geeignetes statistisches Verfahren infrage. Dieses Verfahren schätzt bedingte Wahrscheinlichkeiten für das Eintreten eines Sachverhalts (zum Beispiel Goethe-Zitat = 1) auf Basis der Maximum-Likelihood-Methode. Die Schätzung erfolgt dabei unter Verwendung der sogenannten logistischen Funktion, die einen nicht-linearen Zusammenhang zwischen der Eintrittswahrscheinlichkeit der dichotom abhängigen Variable und den unabhängigen Variablen unterstellt. 48 Speziell für unseren Fall schätzen wir die Wahrscheinlichkeit, mit der ein Eintrag eines Goethe-Zitats in Abhängigkeit der uns relevant erscheinenden Einflussfaktoren (Ost-/ West-Herkunft, Geschlechtszugehörigkeit, Grösse des Heimatortes als Ausdruck für Stadt-Land-Unterschiede, Zugehörigkeit zu einer Einträgergruppe, Alter und Bildungsgrad des Einträgers) zu erwarten ist. 199

Infoclio_2015-livre_DRUCK.indd 199

06.08.15 09:11

Die Interpretation der im Rahmen dieses Verfahrens berechneten Koeffizienten ist nicht intuitiv, da ein nicht-linearer Zusammenhang berechnet wird. Zur Abschätzung des Einflusses der einzelnen Faktoren auf die Eintrittswahrscheinlichkeit des interessierenden Sachverhalts (Goethe-Zitat wurde eingetragen) wird üblicherweise auf den «Effektkoeffizienten» zurückgegriffen, der auch als «odd ratio» bezeichnet wird. Ähnlich wie bei einer Pferdewette gibt der Effektkoeffizient für jeden Faktor ein Chancenverhältnis wieder, das jeweils die Chance für das Eintreffen des interessierenden Sachverhalts (Goethe wurde zitiert) ausdrückt. Um möglichst robust erklärende Einflussfaktoren zu erhalten, berechnen wir insgesamt vier Modelle und variieren dabei die Anzahl der einbezogenen Faktoren. Modell 1 bezieht alle Einträger ein und nimmt zunächst folgende relevante Variablen als erklärende Faktoren in die Schätzung auf: Geschlecht des Inskribenten, Jahr des Eintrags, Wohnortgrösse des Einträgers. 49 In Modell 2 kommt eine abhängige Variable hinzu, mit der die Zugehörigkeit eines Inskribenten zu einer bestimmten Einträgergruppe erfasst wurde. 50 In Modell 3 wird zusätzlich zu den bisherigen Faktoren auch die Ost-/West-Herkunft des Einträgers berücksichtigt. Da wir speziell für die Angehörigen der Peergroup auch das Alter eines Inskribenten zum Eintragszeitpunkt annähernd bestimmen können, berechnen wir mit diesem zusätzlichen Faktor ein viertes Modell, welches allerdings nur die Einträger aus der Peergroup berücksichtigt. 51 Tabelle 3 Logistische Regression: Kennzeichnung eines Goethe-Zitats

Unabhängige Variablen

Abhängige Variable Zitat als von Johann Wolfgang Goethe stammend gekennzeichnet

Geschlecht des Einträgers (weiblich = 1)

1

2

3

4

0,696

0,765

0,843

0,811

Jahr des Eintrags (Kohorteneffekt)

0,995

0,992

1,001

1,004

Ortsgrösse des Einträgers

1,070

1,058

1,068

1,195**

Einträgergruppe

Peer

Ref.**

Ref.**

Familie

1,045

1,152

Lehrer

4,422**

4,610**

1,541

1,786

Sonstige Einträger aus DDR/BRD (DDR = 1)

4,773**

11,6**

0.112**

0.122**

nur Peer: Alter bei Eintrag Pseudo-R2 (Nagelkerke)

1,057 0.007

0.053**

Logistische Regression; odds ratio, ** signifikant

La visuaLisation des donnÃ©es en histoire v isu a L ... - Chronos Verlag

des documents recommandant