Par David Larousserie Publié le 25 janvier 2022
Le pays est au quatrième rang européen en termes de décryptage génétique des variants, mais 40 % de ces informations ne sont pas transmises aux bases de données internationales.
Le 11 janvier, la ministre de l’enseignement supérieur, de la recherche et de l’innovation, Frédérique Vidal, pavoise sur Twitter : « Depuis un an, l’activité [de séquençage française] bat des records, avec 317 521 séquences produites au total… » Notre pays, parti en retard dans cette technique permettant de lire une à une les « lettres » des génomes et seule capable d’identifier les variants, s’est rattrapé depuis la fin 2020, devenant le quatrième « séquenceur » en Europe, derrière le Royaume-Uni, l’Allemagne et le Danemark.
Mais la seconde partie du tweet de la ministre s’avère trompeuse et escamote des ratés du dispositif français : « … et versées dans les banques de données ouvertes aux scientifiques ». La réalité est, en effet, moins glorieuse. Le 19 janvier, l’une des bases de données ENA (European Nucleotide Archive) recensait… 1 681 séquences du SARS-CoV-2 d’origine française. L’autre base, EpiCov, hébergée par l’organisation Gisaid, plus de deux fois plus fournie, avec plus de 7,2 millions de séquences du monde entier, en avait 187 000 venant de France.
Où sont donc passées plus de 40 % des séquences françaises, non « versées » dans les banques de données ? Les réponses sont un mélange de soucis techniques, de désorganisation et de batailles entre bases de données. Elles révèlent aussi une faible motivation à utiliser ces connaissances.
« On est à la limite d’un scandale sanitaire ! Ces données ne sont pas accessibles. Or plus les gens pourront y avoir accès, plus nous pourrons produire des résultats », déclare, agacé, un spécialiste, qui tient à rester anonyme pour préserver ses chances d’accéder à cette ressource. Parmi ces « résultats », il pourrait y avoir l’identification de nouveaux variants, l’anticipation de leur évolution par la mesure des fréquences des mutations, mais aussi la mesure des taux de reproduction (à partir des séquences et non des données épidémiologiques), la datation de l’entrée des variants, l’effet des combinaisons de mutations, la reconstruction de chaînes de contamination…
Qualité variable et désorganisation
Pour comprendre le problème, replantons le décor. En France, le séquençage est réalisé par plusieurs acteurs. Quatre centres font le gros du travail, deux centres nationaux de référence (ou CNR, Pasteur à Paris et les Hospices civils de Lyon), l’AP-HP-Henri-Mondor et l’IHU Méditerranée infection. En janvier 2021, un consortium est constitué, Emergen, sous la houlette de Santé publique France (SPF) et de l’ANRS-maladies infectieuses émergentes, notamment pour constituer une base de données nationale de séquences, Emergen-DB, dans laquelle SPF puise pour publier chaque semaine des bilans. Le consortium a aussi autorisé des CHU à séquencer, puis, en juin 2021, des laboratoires d’analyses privés (soit une bonne cinquantaine de « sources » de séquençage supplémentaires).
La première raison pour expliquer le peu de dépôts français est technique : toutes les séquences d’Emergen-DB ne peuvent rejoindre la base de Gisaid car leur qualité est variable, c’est-à-dire que des « lettres » peuvent manquer, faussant les analyses phylogénétiques (mais pas au point de rater un variant surveillé). Cela peut concerner jusqu’à 10 % des séquences, mais pas expliquer l’ensemble des manques constatés.
La deuxième raison est organisationnelle, liée à la manière dont ces séquences sont envoyées ou non à EpiCov. Gisaid, organisation à but non lucratif, est née en 2008 pour accélérer le partage de séquences des virus grippaux et anticiper leurs évolutions. Les CNR français ou les gros laboratoires avaient donc déjà l’habitude d’y déposer leurs séquences et ont, comme tous les acteurs dans le monde, poursuivi avec le SARS-CoV-2 cette habitude. Celle-ci n’était pas forcément dans les mœurs de tous les CHU, ni des laboratoires d’analyses privés.
Le 30 juin 2021, lors d’un point presse, SPF note un écart d’environ 30 000 séquences entre Emergen-DB et EpiCov, expliqué par « des laboratoires pas connectés » et qui « va être rattrapé ». Six mois plus tard, mi-décembre, dans un courrier au Monde, SPF constate que l’écart est désormais quatre fois plus grand, 120 000 séquences, imputable « à des difficultés rencontrées par certains laboratoires séquenceurs pour assurer la soumission de leurs séquences aux dépôts internationaux ». Sauf qu’en fait cela ne leur est pas demandé. C’est à Emergen-DB qu’ils doivent les envoyer, comme le précisent leurs conventions.
Ajoutons à ce volet organisationnel que, depuis plus d’un an, une charte des utilisateurs d’Emergen-DB est en cours de« finalisation », de sorte que les contributeurs à cette base n’y ont même pas accès, pas plus que de nombreux chercheurs, du reste…
De la friture sur les transmissions
La balle est donc dans le camp français. Pourtant, une rumeur circule, selon laquelle Gisaid serait responsable de cet échec, en refusant les accès. Un porte-parole de Gisaid explique au Mondequ’aucun accès à sa base n’a été coupé pour des chercheurs français, y compris venant de l’Institut français de bio-informatique responsable d’Emergen-DB, et que personne n’est empêché de soumettre (plus de 70 laboratoires en France le font). Ce n’est que très récemment que la procédure utilisée au sein de COG-UK a été demandée par des Français…
Pour Gisaid, lui faire porter le chapeau serait une tentative pour l’affaiblir. Sa base de données obéit en effet à des règles différentes de celles de l’ENA par exemple. Les déposants ne sont pas anonymes et toute réutilisation de séquences doit mentionner cette source. Cette particularité remonte à la grippe. Les pays en voie de développement participaient à la veille, mais n’en tiraient aucune reconnaissance. « Gisaid marche très bien et protège les droits de ceux qui ont séquencé. Si la paternité d’une séquence disparaît, les gens ne vont plus séquencer », rappelle Marie-Paule Kieny, directrice de recherche à l’Inserm. A l’inverse, les critiques font valoir que l’ENA permet une réutilisation libre des séquences ou le croisement avec d’autres sources, ou encore la réanalyse à partir des données brutes plutôt que « moyennées ». En coulisse, les acteurs défendent chacun leurs solutions, ce qui contribue au retard français.
Aucun commentaire:
Enregistrer un commentaire