La psychiatrie française en revue, etc.: Covid-19 : en France, le grand gâchis des données issues du séquençage

mercredi 26 janvier 2022

Covid-19 : en France, le grand gâchis des données issues du séquençage

Par David Larousserie Publié le 25 janvier 2022

Le pays est au quatrième rang européen en termes de décryptage génétique des variants, mais 40 % de ces informations ne sont pas transmises aux bases de données internationales.

Un laborantin travaille au séquençage du génome du virus SARS-CoV-2, à l’Institut Pasteur, à Paris, le 21 janvier 2021.

Le 11 janvier, la ministre de l’enseignement supérieur, de la recherche et de l’innovation, Frédérique Vidal, pavoise sur Twitter : « Depuis un an, l’activité [de séquençage française] bat des records, avec 317 521 séquences produites au total… » Notre pays, parti en retard dans cette technique permettant de lire une à une les « lettres » des génomes et seule capable d’identifier les variants, s’est rattrapé depuis la fin 2020, devenant le quatrième « séquenceur » en Europe, derrière le Royaume-Uni, l’Allemagne et le Danemark.

Mais la seconde partie du tweet de la ministre s’avère trompeuse et escamote des ratés du dispositif français : « … et versées dans les banques de données ouvertes aux scientifiques ». La réalité est, en effet, moins glorieuse. Le 19 janvier, l’une des bases de données ENA (European Nucleotide Archive) recensait… 1 681 séquences du SARS-CoV-2 d’origine française. L’autre base, EpiCov, hébergée par l’organisation Gisaid, plus de deux fois plus fournie, avec plus de 7,2 millions de séquences du monde entier, en avait 187 000 venant de France.

Où sont donc passées plus de 40 % des séquences françaises, non « versées » dans les banques de données ? Les réponses sont un mélange de soucis techniques, de désorganisation et de batailles entre bases de données. Elles révèlent aussi une faible motivation à utiliser ces connaissances.

« On est à la limite d’un scandale sanitaire ! Ces données ne sont pas accessibles. Or plus les gens pourront y avoir accès, plus nous pourrons produire des résultats », déclare, agacé, un spécialiste, qui tient à rester anonyme pour préserver ses chances d’accéder à cette ressource. Parmi ces « résultats », il pourrait y avoir l’identification de nouveaux variants, l’anticipation de leur évolution par la mesure des fréquences des mutations, mais aussi la mesure des taux de reproduction (à partir des séquences et non des données épidémiologiques), la datation de l’entrée des variants, l’effet des combinaisons de mutations, la reconstruction de chaînes de contamination…

Qualité variable et désorganisation

Pour comprendre le problème, replantons le décor. En France, le séquençage est réalisé par plusieurs acteurs. Quatre centres font le gros du travail, deux centres nationaux de référence (ou CNR, Pasteur à Paris et les Hospices civils de Lyon), l’AP-HP-Henri-Mondor et l’IHU Méditerranée infection. En janvier 2021, un consortium est constitué, Emergen, sous la houlette de Santé publique France (SPF) et de l’ANRS-maladies infectieuses émergentes, notamment pour constituer une base de données nationale de séquences, Emergen-DB, dans laquelle SPF puise pour publier chaque semaine des bilans. Le consortium a aussi autorisé des CHU à séquencer, puis, en juin 2021, des laboratoires d’analyses privés (soit une bonne cinquantaine de « sources » de séquençage supplémentaires).

La première raison pour expliquer le peu de dépôts français est technique : toutes les séquences d’Emergen-DB ne peuvent rejoindre la base de Gisaid car leur qualité est variable, c’est-à-dire que des « lettres » peuvent manquer, faussant les analyses phylogénétiques (mais pas au point de rater un variant surveillé). Cela peut concerner jusqu’à 10 % des séquences, mais pas expliquer l’ensemble des manques constatés.

La deuxième raison est organisationnelle, liée à la manière dont ces séquences sont envoyées ou non à EpiCov. Gisaid, organisation à but non lucratif, est née en 2008 pour accélérer le partage de séquences des virus grippaux et anticiper leurs évolutions. Les CNR français ou les gros laboratoires avaient donc déjà l’habitude d’y déposer leurs séquences et ont, comme tous les acteurs dans le monde, poursuivi avec le SARS-CoV-2 cette habitude. Celle-ci n’était pas forcément dans les mœurs de tous les CHU, ni des laboratoires d’analyses privés.

Le 30 juin 2021, lors d’un point presse, SPF note un écart d’environ 30 000 séquences entre Emergen-DB et EpiCov, expliqué par « des laboratoires pas connectés » et qui « va être rattrapé ». Six mois plus tard, mi-décembre, dans un courrier au Monde, SPF constate que l’écart est désormais quatre fois plus grand, 120 000 séquences, imputable « à des difficultés rencontrées par certains laboratoires séquenceurs pour assurer la soumission de leurs séquences aux dépôts internationaux ». Sauf qu’en fait cela ne leur est pas demandé. C’est à Emergen-DB qu’ils doivent les envoyer, comme le précisent leurs conventions.

Ajoutons à ce volet organisationnel que, depuis plus d’un an, une charte des utilisateurs d’Emergen-DB est en cours de« finalisation », de sorte que les contributeurs à cette base n’y ont même pas accès, pas plus que de nombreux chercheurs, du reste…

De la friture sur les transmissions

Ce n’est pas tout. Une guéguerre entre bases de données ralentirait le processus. Puisque les séquences vont à Emergen-DB, c’est à elle de les transmettre à EpiCov. Oui, mais, comment ?

Selon ses règles, Gisaid ne permet que des soumissions par des individus et non par des collectifs, afin d’avoir un interlocuteur unique pour corriger des données ou interagir avec son équipe d’une cinquantaine de « vérificateurs » ; ce qui est très fréquent. Emergen, en tant que tel, ne peut donc pas envoyer un paquet de séquences venues de sources différentes. Pourtant, au sein de son équivalent britannique, COG-UK, les équipes qui séquencent le font très bien depuis le printemps… 2020. La solution trouvée paraît simple : un groupe peut soumettre des données d’un autre, en ajoutant au paquet de données envoyées à Gisaid le nom de la personne responsable de chaque séquence.

La balle est donc dans le camp français. Pourtant, une rumeur circule, selon laquelle Gisaid serait responsable de cet échec, en refusant les accès. Un porte-parole de Gisaid explique au Mondequ’aucun accès à sa base n’a été coupé pour des chercheurs français, y compris venant de l’Institut français de bio-informatique responsable d’Emergen-DB, et que personne n’est empêché de soumettre (plus de 70 laboratoires en France le font). Ce n’est que très récemment que la procédure utilisée au sein de COG-UK a été demandée par des Français…

Pour Gisaid, lui faire porter le chapeau serait une tentative pour l’affaiblir. Sa base de données obéit en effet à des règles différentes de celles de l’ENA par exemple. Les déposants ne sont pas anonymes et toute réutilisation de séquences doit mentionner cette source. Cette particularité remonte à la grippe. Les pays en voie de développement participaient à la veille, mais n’en tiraient aucune reconnaissance. « Gisaid marche très bien et protège les droits de ceux qui ont séquencé. Si la paternité d’une séquence disparaît, les gens ne vont plus séquencer », rappelle Marie-Paule Kieny, directrice de recherche à l’Inserm. A l’inverse, les critiques font valoir que l’ENA permet une réutilisation libre des séquences ou le croisement avec d’autres sources, ou encore la réanalyse à partir des données brutes plutôt que « moyennées ». En coulisse, les acteurs défendent chacun leurs solutions, ce qui contribue au retard français.

Au fond, ces dysfonctionnements traduisent aussi le faible intérêt tricolore pour le séquençage comme outil de recherche et de surveillance, contrairement à la culture britannique. Là où SPF compte les variants sous forme d’histogrammes, chaque semaine COG-UK publie des analyses de plusieurs pages reposant sur le séquençage. Celle du 14 janvier dissèque, par exemple, les évolutions de deux lignages d’Omicron, montre l’apparition de mutations au sein du variant, calcule les fréquences de ces mutations…

Séquencer, c’est bien, partager et exploiter les données, c’est encore mieux.