LE MONDE SCIENCE ET TECHNO | | Par Denis Delbecq
Quand elles apposaient leurs mains sur les parois de grottes pour peindre au pochoir, les populations de Maros-Pangkep (île de Sulawesi, Indonésie) n’imaginaient pas que des archéologues s’extasieraient quarante mille ans plus tard. Pas plus que les contemporains de Khéops n’auraient espéré que des parchemins décrivant la construction de la grande pyramide de Gizeh puissent être présentés au public, 4 500 ans plus tard.
Face à cette extraordinaire résistance des premiers témoignages de notre histoire, l’espérance de vie des supports de nos données, toujours plus dématérialisées, semble bien dérisoire : moins de dix ans pour les disques durs ou les mémoires flash ; quinze ans – peut-être trente – pour la bonne vieille bande magnétique. Que restera-t-il de notre héritage dans une poignée de générations ?
« Vers 300 avant J.-C., l’humanité produisait l’équivalent de 1 000 bits d’information par habitant, avance Victor Zhirnov, le directeur scientifique de Semiconductor Research Corporation, un organisme de prospective scientifique financé par l’industrie et le gouvernement américains. En l’an mille, le savoir représentait de l’ordre de 100 000 bits d’information par personne, et aujourd’hui, nous en sommes à environ 10 000 milliards de bits par humain. Nous allons rapidement avoir un problème de stockage ! »
En 2011, Martin Hilbert (université de Californie du Sud) et Priscila López (université ouverte de Catalogne) ont calculé que la planète avait produit un zettaoctet (Zo) de données en 2010, soit mille milliards de milliards de caractères – chacun étant codé sur huit bits. Ils ont prédit que nous en créerons entre 300 Zo et 700 000 Zo en 2040.
Se détourner du sable
Face aux difficultés croissantes rencontrées par les fabricants de disques magnétiques et à l’incapacité des méthodes optiques à rivaliser en termes de densité, la voie logique pour répondre à une telle demande semble être la mémoire flash, à base de silicium, à l’instar des composants électroniques et des cellules solaires. Logique, mais loin d’être évidente.
Le silicium ne risque pas de manquer, puisque la silice – ou dioxyde de silicium – représente plus du quart de la masse de l’écorce terrestre. On l’extrait principalement du sable, avant de le raffiner pour obtenir des lingots purs à 99,9999999 %. Un processus particulièrement gourmand en électricité, qui requiert 2 000 kWh par kilogramme de silicium pur.
D’où la tendance grandissante à se détourner du sable pour exploiter des gisements de quartz de haute pureté – il n’en existe qu’une poignée –, qui permettent d’accélérer le processus de fabrication et de réduire les besoins en énergie.
« Martin Hilbert et Priscila López prédisent des besoins en silicium électronique, pour 2040, compris entre 50 millions et 100 milliards de tonnes, à comparer avec les 100 000 tonnes qu’espèrent atteindre les industriels à cette échéance », constate Victor Zhirnov. Le passage attendu de la 2D à la 3D pour la gravure des mémoires flash permettrait de diviser par dix les besoins.
Mais, traduite en électricité, la demande de silicium représenterait quand même l’équivalent de 400 fois la consommation électrique mondiale actuelle ! « Que se passera-t-il pour nos sociétés toujours plus dépendantes du stockage des données si nous ne trouvons pas une autre idée ? »
Stockage à cinq dimensions
A l’université de Southampton (Royaume-Uni), le groupe du physicien Peter Kazansky élabore un procédé innovant, avec la perspective de multiplier par cent à mille la capacité de stockage optique par rapport aux disques Blu-ray. L’inscription des données en volume dans un cristal de quartz avec un laser de forte puissance modifie localement les propriétés géométriques de la propagation de la lumière (biréfringence) et donne 2 degrés de liberté supplémentaires par rapport au seul volume.
Autrement dit, il s’agit d’un stockage à cinq dimensions. « Pour le moment, nous savons écrire 1 mégaoctet (Mo) par heure, c’est dix fois mieux qu’il y a un an, se réjouit Peter Kazansky. On vise 100 Mo par seconde. » Ce support aurait, selon lui, une durée de vie de plusieurs centaines de millions d’années…
« C’est une idée intéressante à court terme, relève Victor Zhirnov. Mais elle se heurte aux limites de l’optique. » En effet, le phénomène de diffraction limite la taille des informations optiques à des dimensions proches de la longueur d’onde de la lumière utilisée, qui est de 405 nanomètres pour le Blu-ray, à comparer aux 10 nanomètres des éléments gravés dans les puces électroniques.
Pour Victor Zhirnov, comme pour un nombre grandissant d’industriels, la solution à long terme est donc ailleurs, dans le stockage moléculaire suggéré dès 1959 par le Nobel de physique Richard Feynman. Le candidat semble tout trouvé : la molécule d’ADN.
L’ADN est un Lego formé de l’assemblage de quatre molécules, les bases ou oligonucléotides : l’adénine, la cytosine, la thymine et la guanine. En 1964, le physicien soviétique Mikhaïl Neiman avait suggéré qu’on utilise ces quatre « lettres », A, C, T et G, pour mimer les 0 et des 1 de nos ordinateurs.
Faute d’outils capables de séquencer (lire) et de synthétiser (écrire) l’ADN, l’idée est restée lettre morte jusqu’à l’apparition du premier séquenceur dans le laboratoire de Leroy Hood, au Caltech, en 1980. Suivi, sept ans plus tard, au même endroit, de la première machine à synthétiser l’ADN.
Ensuite, les choses n’ont pas traîné : la première expérience de codage d’informations non biologiques en ADN a été réalisée dès 1988. Aidé d’une biologiste de Harvard, l’artiste américain Joe Davis avait transcrit un petit dessin – l’équivalent de 35 bits – dans un fragment d’ADN inséré dans une bactérie vivante.
Puis, en 1994, le mathématicien Leonard Adleman (université de Californie du Sud) avait réalisé le premier ordinateur biologique de l’histoire, en utilisant des fragments d’ADN pour représenter les données d’un calcul simple.
Un livre répliqué à 70 milliards d’exemplaires
En 2010, le groupe de Craig Venter, de l’institut américain du même nom, a réalisé la première traduction directe en molécules biologiques d’un contenu informatique extrait d’une base de données : la synthèse d’un génome complet de bactérie introduit, ensuite, dans des organismes vivants. Un génome signé par une série de 7 920 bits d’informations non biologiques, dont les noms des chercheurs.
Puis, en 2012, une étape spectaculaire est franchie : George Church (Harvard) transcrit en ADN le contenu d’un livre qu’il vient de publier. Un fichier de 658 kilooctets dupliqué, en éprouvette, à 70 milliards d’exemplaires ! Quelques mois plus tard, Nature publie les résultats du groupe de Nick Goldman, de l’Institut européen de bio-informatique (EMBL-EBI), installé près de Cambridge (Royaume-Uni). Il a transcrit un ensemble de fichiers (texte, son, image et code informatique), pour un total de 739 Ko. Un résultat soumis aux pairs un mois avant celui de Harvard, mais publié cinq mois après, laissant la vedette à George Church.
Dans ces deux cas, l’ensemble des données doit être séquencé avant qu’on puisse accéder aux informations désirées. Inconvénient corrigé en juillet 2016, avec l’annonce d’un groupe piloté par Microsoft, dont le détail n’a pas encore été publié. Cette fois, pas moins de 200 Mo ont été encodés de manière séquentielle, pour permettre une sélection des informations avant séquençage. La bataille promet d’être belle !
Façonnée par des milliards d’années d’évolution, la molécule d’ADN semble cumuler tous les avantages : sa densité volumique de stockage est mille fois plus élevée que celle de la mémoire flash, et un million de fois plus que celle d’un disque dur. Dans l’hypothèse la plus folle, toutes les données produites par l’humanité en 2040 logeraient dans un seul kilogramme d’ADN ! Cette compacité s’accompagne d’une frugalité énergétique sans égale : il faut seulement 10-10 watts pour lire ou écrire 1 Go de données d’ADN. C’est dix millions de fois moins que les disques durs et les semi-conducteurs !
Une durée de vie qui dépasse l’entendement
Enfin, la durée de vie de ce support dépasse l’entendement, puisqu’on a pu décoder – partiellement – de l’ADN néandertalien vieux d’au moins 60 000 ans. Mieux, un enrobage de l’ADN avec du verre réalisé à froid pourrait porter la durée de conservation à plusieurs millions d’années, si l’on en croit les résultats obtenus en 2015 par Robert Grass, à l’Ecole polytechnique fédérale de Zurich. Sans compter que la pérennité des outils de lecture est assurée : il est raisonnable de penser que tant qu’il y aura des humains, il y aura des machines pour séquencer l’ADN !
Alors, l’ADN serait-il la solution miracle pour étancher notre soif d’informations ? Pas si sûr. « C’est un outil pour l’archivage de données auxquelles on accède peu souvent, il n’offrira probablement jamais la souplesse et la rapidité d’un disque dur ou d’une mémoire flash. Mais là où on stocke généralement deux ou trois exemplaires de nos données informatiques, l’ADN permet d’en produire des milliards de copies pour un prix quasi nul », prévient Nick Goldman.
« Si on parvenait à rendre les données accessibles en quelques heures, et sans intervention humaine, ce serait déjà extraordinaire », renchérit Karin Strauss, qui dirige l’équipe de Microsoft. Car le séquençage et la synthèse reposent sur des processus biochimiques qui exigent du temps et des manipulations.
Encore un million de fois trop cher
Pour la synthèse d’ADN, Microsoft a fait appel à Twist Bioscience, une start-up fondée et dirigée par la biochimiste Emily Leproust. Une opportunité nouvelle pour une activité conçue au départ pour la biologie fondamentale et la recherche médicale et pharmaceutique. « Pour l’expérience de Microsoft, nous avons synthétisé dix millions de brins d’ADN, résume la dirigeante, très avare de détails sur son procédé. Cela représente de longues heures de travail ! » Probablement beaucoup plus, selon Nick Goldman, qui collabore, lui aussi, avec la start-up américaine : « On peut estimer qu’il faut plusieurs heures pour écrire un seul mégaoctet de données. »
Achevé en 2003, le premier séquençage d’un génome humain avait représenté treize ans d’efforts et un budget de 3 milliards de dollars. Aujourd’hui, on décode un génome en vingt-quatre heures pour moins de 1 000 dollars. Les progrès ont été plus rapides encore que dans l’industrie électronique, régie depuis 1969 par la fameuse loi de Moore – un quadruplement des performances et une division par quatre des coûts tous les trois ans. « Aujourd’hui, le séquençage progresse suivant la loi de Moore, et la synthèse un peu plus rapidement. Les progrès seront donc très rapides », se réjouit Emily Leproust.
Mais pour devenir praticable, l’archivage par ADN devra encore multiplier ses performances par un facteur dix mille à cent mille. « Il faudra aussi faire un million de fois moins cher, prévient Karin Strauss. Mais il n’y a pas de raison de ne pas y parvenir. »« Sans compter que les prix baisseraient immédiatement s’il y avait plus d’acteurs sur le marché, car ils sont maintenus à un niveau artificiellement élevé », renchérit un spécialiste du secteur.
Des prototypes « d’ici à cinq ou dix ans » ?
Reste à savoir qui sera le premier client de cette technologie en devenir. « On peut penser à l’industrie du cinéma, pour préserver les films tournés en numérique », souligne Nick Goldman. Technicolor n’a-t-il pas entrepris, assez discrètement, de travailler sur l’ADN ? « On peut aussi penser aux entreprises minières et pétrolières, dont les mesures sur le sous-sol sont parfois conservées pendant des décennies, le temps que des gisements identifiés deviennent économiquement viables. Les banques aussi semblent intéressées, d’autant plus que la destruction de l’ADN se fait de manière irréversible et instantanée. »
Une garantie pour des données sensibles, tandis que les supports magnétiques, même effacés plusieurs fois, conservent encore des traces des informations stockées. Autant d’atouts qui devraient séduire, aussi, les agences de renseignement.
Ce n’est donc pas un hasard si l’« Intelligence Advanced Research Projects Activity » (IARPA) – le bras scientifique des agences américaines de renseignement – a financé l’an dernier le colloque scientifique privé sur le stockage sur ADN organisé par Victor Zhirnov au sein de SRC. « Notre conclusion, c’est qu’on pourrait voir apparaître des prototypes d’ici à cinq ou dix ans. »
Selon nos informations, les Etats-Unis s’apprêteraient à lancer une initiative pour accélérer la recherche et développement sur le stockage biomoléculaire, tandis que l’Europe reste bien discrète. Outre-Manche, Nick Goldman semble d’ailleurs avoir quelques difficultés à sécuriser des financements pour la start-up qu’il a décidé de créer.
Aucun commentaire:
Enregistrer un commentaire