Les données collectées par les plates-formes ont une forte valeur scientifique et intellectuelle : leur étude permettrait de mieux comprendre le monde social, politique, épidémiologique. Pourtant, ces informations ne sont pas mises pas en commun.
Bruno Strasser, biologiste et historien des sciences, professeur à l’université de Genève (Suisse) et de Yale (Etats-Unis), est l’auteur de Collecting Experiments, Making Big Data Biology (University of Chicago Press, 392 p, non traduit).
Le monde scientifique fait face à une avalanche de données numériques, appelées « big data ». Ce concept est-il si nouveau ?
Non, le big data, qui évoque tout autant une quantité massive de données qu’une surcharge informationnelle à traiter, est évoqué depuis des siècles dans le monde scientifique. Dans son livre Too Much to Know (Yale University Press, 2011), l’historienne Ann Blair décrit comment, submergés par les quantités d’informations écrites, les savants de la Renaissance inventaient des classements de bandelettes de papiers sur des crochets thématiques. Même sentiment de submersion des naturalistes au XVIe siècle quand les bateaux du Nouveau Monde reviennent avec dix fois plus d’espèces, plantes et animaux, que celles alors connues en Europe. Au XVIIe, Leibnitz se plaint devant cette masse grandissante d’ouvrages, désespéré à l’idée qu’on n’arrivera plus à tout lire…
Ces époques de « big data » sont-elles régulières dans l’histoire ?
Ces moments où surgit le sentiment d’explosions de données s’inscrivent dans des périodes historiques particulières de découvertes, d’accélération technologique, etc. Bien sûr, les quantités de données sont moins importantes que celles évoquées aujourd’hui avec le numérique, mais cela reste massif si on regarde le rapport entre quantités accessibles et capacité de l’époque à les traiter.
Certaines sciences ont-elles été plus rapidement touchées ?
Cela concerne, au départ, des sciences dites de collection – histoire naturelle, paléontologie, archéologie –, et les données se retrouvent dans des musées, jardins botaniques ou bibliothèques. Chaque tradition scientifique va ensuite s’adapter au cours des siècles. Au XIXe, dans les sciences expérimentales, en physique ou en biologie, par exemple, on mesure et on produit du chiffre en grande quantité. Au XXe, l’impact le plus emblématique d’un nouvel outil est le CERN, qui produit des masses de données qui n’existaient pas avant les années 1950.
L’accès aux données n’est pas simple, est-ce nouveau pour le monde scientifique ?
En 1953, le grand naturaliste Ernst Mayr a édicté, dans un livre de bonnes pratiques, les normes et valeurs de son champ. Aux futurs naturalistes, il dit : si vous collectez quelque chose, référencez-la bien et rendez-la accessible publiquement, en la donnant à un musée, par exemple. Puis, s’adressant aux musées : il faut que tout le monde puisse avoir accès à ces données. Vous en êtes les dépositaires, la collection vous appartient, mais paradoxalement pas les éléments qui la composent. L’idée était aussi d’éviter que le spécimen soit enfermé dans le bureau du curateur, qui en tire un profit tout personnel en écrivant une monographie. Ce sont ces règles, tout comme les échanges de spécimens entre musées à des visées de recherche, qui ont permis à l’histoire naturelle de grandir. Le Musée de zoologie des vertébrés en Californie, créé en 1900, est réutilisé actuellement pour comprendre les questions du changement climatique.
Quel est le changement avec les données numériques ?
Ce qui a changé, c’est qu’il semble n’y avoir personne derrière cette collection de données, pas une figure humaine. Au XIXe siècle, l’anatomiste George Cuvier, responsable des collections à la galerie de paléontologie du Muséum national d’histoire naturelle, recevait énormément de données sous formes d’ossements, de descriptions d’organismes. Les personnes qui les lui envoyaient du monde entier avaient confiance en l’utilisation qu’il allait en faire. Aujourd’hui, ce rapport personnel a disparu, tout comme, d’une certaine façon, la figure du curateur. Les données sont prises, traitées par des algorithmes, quelque part dans des serveurs, on ne sait pas très bien où, on ne sait pas qui s’en sert et à quelle fin. On a juste découvert qu’il y a désormais deux types de données personnelles captées, nos actes intentionnels (achats, messages envoyés, mesures et indicateurs de santé…) et nos traces numériques (les effets secondaires de nos actes, comme le type de lieu qu’on aime fréquenter, nos préférences de lecture)…
Une collection dont les citoyens comme le monde scientifique ont du mal à connaître l’ampleur et qui se constitue sans leur volonté propre…
Exactement. Les questions que les GAFA et autres acteurs numériques nous posent en permanence, nous y répondons tout le temps sans jamais qu’elles nous soient posées explicitement. La seule question à laquelle nous répondons, c’est que nous acceptons de signer cette longue liste de conditions générales, un peu compliquée, que personne ne lit. Cela va un peu mieux depuis quelque mois avec le RGPD [Règlement général sur la protection des données, appliqué dans l’Union européenne depuis mai 2018], mais de fait, nous signons quand même ce document tel un chèque en blanc. D’une certaine façon, ces nouveaux collectionneurs ne disent pas leur nom.
La situation actuelle n’est-elle pas liée à un déséquilibre de pouvoir, les GAFA étant dans les premières capitalisations boursières mondiales ?
Les grandes collections de données se sont toujours trouvées dans de grands lieux de pouvoir, telles les grandes villes d’empires économiques ou coloniaux, Paris, Londres, Berlin, New York… Là où les données du monde entier étaient récoltées. Mais malgré tout existait, parfois sous condition certes, une réciprocité vis-à-vis de la recherche. Cette base de réciprocité s’est brisée aujourd’hui, nous sommes dans un autre monde. Ce qui aurait dû être un bien commun, ces traces numériques que nous laissons collectivement comme utilisateur d’Internet, n’en sont pas. Même pour des scientifiques qui veulent les étudier pour la compréhension du monde et la connaissance commune, sans visée commerciale.
Avec quelles conséquences, selon vous ?
Voyez le débat, dans les années 1980, quand on a commencé à breveter des gènes à cause des changements législatifs, notamment aux Etats-Unis. Les arguments avancés pour contrer ce mouvement n’ont pas été seulement une appropriation illégitime de quelque chose qui devrait appartenir aux communs, mais aussi un frein à la production de connaissance. Regardez actuellement 23andMe : cette société vend des kits pour analyser un certain nombre de vos marqueurs génétiques. Ils gardent ensuite ces données et les agrègent avec d’autres. Le fait que la plus grande collection de génomes humains ne soit pas dans la sphère publique mais chez 23andMe pose question.
Voyez-vous d’autres conséquences pour la recherche ?
Le numérique a un impact énorme dans la société. Il suffit de prendre le métro pour voir qu’une majorité de personnes sont sur leurs smartphones en permanence. Une partie de nos vies se passent dans ces espaces-là, mais les scientifiques n’arrivent pas à bien les analyser car ils n’ont pas accès aux données. Les algorithmes qui nous donnent de l’information nous orientent dans des niches de plus en plus étroites pour capter notre attention. De fait, nous ne vivons déjà tous plus dans le même monde, mais dans des mondes différents qui se sont récemment polarisés. Un seul exemple : On ne peut pas comprendre pourquoi une Hispanique vote pour Trump si on ne peut pas analyser ce qu’elle a vu sur les réseaux sociaux. Les données collectées par toutes ces plates-formes ont une valeur scientifique et intellectuelle très forte, car leur étude permettrait de mieux comprendre le monde social, politique, épidémiologique, etc.
Ces données sont rendues intelligibles par une multitude de chercheurs académiques qui passent dans des structures privées. Est-ce nouveau ?
Une analogie pour éclairer ce qui se passe aujourd’hui se trouve dans les travaux de l’historien de la physique Peter Galisson qui s’est penché sur le thème de la connaissance pendant la guerre froide. A l’époque, constate-t-il, les universités et le monde académique publient énormément, mais cela ne représente qu’une infime partie de la connaissance produite pendant cette période-là. L’essentiel est produit par les militaires, par l’industrie, et cette connaissance n’est jamais rendue publique. La configuration actuelle est complètement différente mais le résultat s’en rapproche : nous avons une quantité inimaginable de données et de connaissance produite sur nos habitudes sociologiques, politique, économique, notre rapport à la santé… Cette connaissance n’est pas rendue visible.
Aucun commentaire:
Enregistrer un commentaire