Cette technologie d’apprentissage par les données, qui permet d’améliorer les calculs et d’affiner les instruments, envahit tous les champs de la science. Même les chercheurs les plus sceptiques finissent par se laisser convaincre de son intérêt.
Le prochain Prix Nobel sera-t-il une intelligence artificielle (IA), une machine qui, après avoir ingurgité toutes les connaissances du monde, aura trouvé un nouveau médicament contre le cancer, ou une théorie physique au-delà de la physique quantique, ou démontré une conjecture de maths non résolue ? Nous n’en sommes pas là, mais l’IA est en train d’envahir à grande vitesse les laboratoires pour améliorer les instruments, accélérer les calculs, aiguiller vers des hypothèses fécondes, etc.
Début octobre, une équipe chinoise a amélioré numériquement de dix fois la résolution d’images de microscopie optique en biologie, en rendant plus nettes des prises de vues. Un exemple de plus de l’effervescence des derniers mois. En mai, une équipe de Facebook a fait démontrer des théorèmes mathématiques par une IA. Le mois suivant, le concurrent Google a présenté un logiciel qui a résolu un tiers de 200 problèmes scientifiques de niveau licence en mathématiques, physique, économie, biologie… Le même mois, une équipe franco-allemande confiait à une IA le soin de contrôler un objet quantique à coups de micro-ondes bien dosées pour préserver le plus longtemps possible ses propriétés (succès théorique qui va être tenté expérimentalement).
Et, cet été, l’IA scientifique la plus connue, AlphaFold, sortie en 2021 par DeepMind, filiale de Google, a refait parler d’elle. L’algorithme, qui prédit la forme tridimensionnelle de protéines à partir de leur formule chimique, a ajouté un million de configurations à la base de données de référence, qui ne contenait « que » 200 000 structures déterminées expérimentalement.
Des quantités toujours plus grandes de données
Chaque jour, la liste d’applications de l’IA s’allonge dans tous les domaines de la science. « Ça part dans tous les sens ! En 2016, une base de données sur les applications de l’IA en physique des particules comptait une dizaine d’articles ; désormais, elle grossit d’une dizaine par mois », constate David Rousseau, du Laboratoire de physique des deux infinis Irène-Joliot-Curie, à Orsay, coauteur, en 2022, de l’ouvrage Artificial Intelligence for High Energy Physics (World Scientific, non traduit). L’IA n’a pas trouvé le boson de Higgs en 2012, mais elle aidera sûrement à faire les découvertes suivantes. Car, poussée par les quantités toujours plus grandes de données à traiter, elle servira partout à trier des collisions, à simuler pour comparer théorie et expérience, et même à contrôler des trajectoires au sein de l’accélérateur de particules.
« J’ai beaucoup de demandes d’aide de mes collègues, mais je ne peux pas répondre à toutes », déplore Emmanuel Faure, chercheur CNRS au Laboratoire d’informatique, de robotique et de microélectronique de Montpellier, spécialiste des applications de l’IA en imagerie biomédicale. Il note que « même les plus réticents au départ s’y sont mis ». Au Collège de France, Antoine Georges, professeur de physique de la matière condensée, a intitulé son cours de 2023 « Réseaux de neurones, apprentissage et physique quantique ».
Autre signe qui ne trompe pas : DeepMind a changé son slogan, passé de « Résoudre la question de l’intelligence » à « Résoudre la question de l’intelligence pour faire avancer la science et en faire bénéficier l’humanité ». Un autre géant, Microsoft, a lancé une branche « intelligence artificielle pour la science », en créant des laboratoires en Allemagne, aux Pays-Bas, en Chine et au Royaume-Uni, avec des dizaines de chercheurs.
Fruit de nombreux travaux académiques
Que l’IA envahisse les labos n’est qu’un juste retour des choses, car elle est le fruit de nombreuses recherches académiques depuis les années 1950. Son principe de base est d’apprendre par les données, c’est-à-dire d’ajuster des millions, voire des centaines de milliards de paramètres, jusqu’à trouver la relation qui relie des entrées (images, textes ou variables…) et des sorties (légende d’une image, nouvelle image ou grandeur mesurable…).
Microsoft n’hésite pas à parler de nouveau paradigme pour la recherche scientifique. Historiquement, il y a eu l’observation, puis la modélisation, puis les simulations et maintenant l’IA, qui découvre des structures cachées dans les données, accélère les simulations ou en génère sans avoir besoin de connaître les lois physiques sous-jacentes.
Microsoft n’hésite pas à parler de nouveau paradigme pour la recherche scientifique
Sur le terrain, les chercheurs apprennent à collaborer avec ces nouveaux assistants de pointe. « Quand je me suis lancé, en 2019, c’était comme le début d’une thèse : on fait tout soi-même. Au départ, ça ne marche pas ; on passe ses nuits à coder. Et quand ça marche, c’est la joie ! », se souvient Emmanuel Faure. A Montpellier, le chercheur s’est démené avec les neurones artificiels en réseau – le nom de l’unité élémentaire de calcul des systèmes modernes d’intelligence artificielle – pour rendre service à ses collègues en biologie. Ces derniers cherchaient à suivre individuellement chaque cellule lors du développement d’un organisme, à savoir à quel type elle appartenait, mais aussi comment ses frontières bougeaient et qui étaient ses voisines.
Or, c’est justement l’une des qualités qui ont fait le succès des premiers réseaux de neurones dans l’imagerie lorsque, en 2012, l’algorithme AlexNet a balayé des dizaines d’années d’expertise en vision par ordinateur lors d’un concours de reconnaissance d’images. Le système a la capacité de repérer des structures, des motifs abstraits et de s’en servir pour classer les images qu’on lui montre. Evidemment, la méthode a fonctionné en biologie, car, depuis des années, des thésards, postdocs et permanents s’étaient arraché les yeux pour annoter à la main les différents types de cellules pendant la croissance de l’organisme. Une fois cette connaissance ingurgitée, l’IA les a soulagés. « Il y avait des méthodes classiques pour faire ce travail, mais elles trouvaient leur limite quand nous avions trop de données, dans le temps et en nombre de cellules. Il fallait trouver mieux », résume Emmanuel Faure.
En Occitanie toujours, Nicolas Dobigeon, professeur à l’Institut national polytechnique de Toulouse, cherche aussi à faire mieux dans un tout autre domaine. Le dimanche 11 septembre 2022, il a fait le déplacement au laboratoire, car cette date allait marquer le lancement d’un défi que l’IA devrait lui permettre de relever. Ce jour-là, le télescope spatial James-Webb a envoyé des informations sur la nébuleuse d’Orion, sous forme d’images, dans plusieurs longueurs d’onde, et surtout de spectre, c’est-à-dire des décompositions de la lumière en tranches de longueur d’onde encore plus fines (des milliers de points pour chaque pixel de l’image).
Nicolas Dobigeon veut, grâce à des techniques inédites, « fusionner » ces informations venant de deux instruments différents du télescope afin que la précision de l’un se transfère sur l’autre. « On peut multiplier par trois la précision de l’image de l’instrument spectral, avance le chercheur. Les satellites d’observation de la Terre disposent déjà de telles techniques, sans IA, qui consistent à corriger les données. Mais, là, nous avons trop de longueurs d’onde pour que cela fonctionne. » Le principe général consiste à modéliser le mieux possible l’instrument de mesure, en incorporant le plus de connaissances techniques, afin d’en corriger les défauts sur l’image. Mais ces simulations étant gourmandes en temps de calcul, c’est une IA qui va apprendre à calculer, en s’entraînant sur des milliers de simulations antérieures. Ensuite, les calculs seront plus rapides. Réponse dans quelques mois.
Résoudre des problèmes inverses
A presque un millier de kilomètres de là, en Alsace, cette philosophie fonctionne déjà. « Ça marche étonnamment bien ! », s’enthousiasme Dietmar Weinmann, chercheur CNRS à l’Institut de physique et de chimie des matériaux de Strasbourg. Son sujet est plus terre à terre. Les spécialistes des nanomatériaux et de leurs propriétés électroniques ont fait un constat gênant : malgré les précautions prises par les fabricants, impossible d’obtenir deux échantillons de taille nanométrique aux propriétés similaires, telles que la résistance électrique. La faute à d’inévitables défauts et impuretés qui modifient le comportement des électrons. Le chercheur voudrait donc, à partir des mesures, connaître la répartition des impuretés. Résoudre ce qu’on appelle un « problème inverse » est a priori une tâche parfaite pour l’IA : si elle a suffisamment d’exemples de défauts et de mesures de résistances, alors elle peut apprendre à faire le lien entre les deux et, ensuite, proposer un paysage de défauts connaissant des valeurs de résistances.
« Quand, en 2018, j’ai entendu un collègue faire un exposé très général sur l’IA en physique, j’ai tout de suite voulu trouver un problème où appliquer cette technique », se souvient Dietmar Weinmann. Le chercheur a donc choisi la problématique des défauts dans les matériaux. « Je me suis plongé dans les livres, j’ai visionné plein de tutos sur le Web, et j’ai construit un réseau de neurones adapté à cette tâche », explique Gaëtan Percebois, en thèse sur ce sujet. En août 2021, ils ont résolu une partie du problème. A partir de mesures simulées sur un échantillon, ils en déduisent une caractérisation complète des défauts, mais pas encore à partir de mesures réelles. La technique appartient à la catégorie de l’inférence, fondée sur la simulation. Cela consiste à estimer des paramètres pour reproduire ce qui est mesuré. Une simulation habituelle peut le faire, mais il y a beaucoup de paramètres et beaucoup trop de simulations à faire tourner. L’IA va apprendre sur ces données « réelles » pour pouvoir prédire un résultat rapidement et résoudre un problème jusqu’ici insoluble.
Guillaume Lample est, lui aussi, ravi. Depuis trois ans, au sein de Facebook, le jeune chercheur en informatique enchaîne les progrès en mathématiques et espère doter les IA de capacités à raisonner. « Ce serait cool d’arriver à démontrer des conjectures non résolues grâce à l’IA ! », s’amuse-t-il. A l’écouter, il s’en approche à grands pas. Fin 2019, un de ses algorithmes fait du calcul symbolique, c’est-à-dire qu’il manipule les diverses opérations et les écrit comme le ferait un mathématicien. Le programme sait que la dérivée de la fonction x2 est la fonction 2x, ou que sa primitive est x3/3 (en réalité, des fonctions plus compliquées ont été testées !). Il fait mieux que des logiciels commerciaux, Matlab ou Mathematica. « C’était amusant de voir que le système ne savait pas faire des opérations simples, mais qu’il arrivait à faire des choses compliquées – un peu comme les humains », constate le chercheur.
« Ce serait cool d’arriver à démontrer des conjectures non résolues grâce à l’IA ! » – Guillaume Lample, chercheur en informatique
Enfin, récemment, Guillaume Lample a soumis un nouvel article, qui est un traducteur de preuves informelles en preuves formelles. Les premières sont rédigées dans le langage courant des mathématiciens, comme écrit dans leurs articles, et sont les plus nombreuses. Les secondes sont rédigées dans un langage particulier qui permet aux machines de vérifier que l’enchaînement est correct, mais elles sont rares. « L’idée est d’augmenter la quantité de preuves formelles grâce à ce système de traduction. Ce qui permettrait ensuite de mieux entraîner les machines à faire des preuves formelles. A terme, nous pourrions simplifier l’interface des systèmes dits “d’assistants de preuve”, comme Lean, pour faciliter le travail des mathématiciens », résume le chercheur.
Développement de matériaux et de médicaments
« Je suis super excité !, s’exclame Xavier Waintal, chercheur au Commissariat à l’énergie atomique (CEA) à Grenoble. Depuis la parution, en juillet, de notre dernier article en preprint, nous n’arrêtons pas de recevoir des demandes d’invitations à parler de ces résultats, des demandes de code informatique… » Il n’a pas trouvé la martingale, mais, comme il le dit, « le problème se fendille, ça craque de partout ». C’est LE problème de la physique microscopique, dit « problème à N-corps » : comment arriver à décrire des myriades de particules quantiques en interaction ? Une situation qui est la règle dans la nature, le moindre des matériaux répondant à cette description.
Les calculateurs classiques savent caractériser l’état de 20, 30, peut-être 50 particules, mais pas plus, car la difficulté augmente exponentiellement avec le nombre de particules. Des phénomènes plus collectifs comme certaines formes de supraconductivité échappent donc aux simulations et à leur compréhension. Inversement, disposer de méthodes de calcul efficaces pourrait accélérer le développement de nouveaux matériaux ou médicaments (les interactions chimiques entre molécules relevant de ce genre de mécanismes).
« Nous approchons peut-être du bout du tunnel sur le problème à N-corps, grâce à de nombreuses méthodes. Parmi celles-ci, l’IA est assurément un développement récent très prometteur, sans toutefois avoir encore révolutionné le domaine », estime Antoine Georges, qui a publié, en août, d’importants progrès dans d’autres situations que celles étudiées par son collègue. « Ce serait amusant que l’IA arrive à résoudre un problème qui sert d’argument de vente à l’ordinateur quantique », sourit Xavier Waintal, connu pour son scepticisme sur l’avenir de ces machines qui calculent différemment des supercalculateurs.
Des objections justifiées
L’IA se répand donc sous plusieurs formes : classement ou défloutage des images, détection d’anomalies, simulations à grande vitesse… Mais tout n’est pas parfait. Par exemple, le 5 octobre, trois jours après que Nature a publié une méthode de DeepMind pour accélérer par l’IA la multiplication de grands tableaux de nombre (des matrices), un duo de mathématiciens autrichiens a proposé une méthode classique, qui utilise une opération de moins… Autre déception : lors d’un « concours » en physique des particules pour reconstruire la trajectoire des objets après une collision, un système d’IA a réussi, mais dans un temps rédhibitoire – des jours au lieu de secondes pour d’autres.
Surtout, les chercheurs sont confrontés au vice originel de ces grands systèmes : comment savoir ce qu’ils font ? Comment évaluer la pertinence de leurs réponses ? Les réseaux de neurones font, en effet, souvent figure de « boîtes noires », ce qui peut heurter la rigueur des scientifiques. « Certains freins à l’adoption de l’IA peuvent venir de conservatismes, mais il y a aussi des objections justifiées, rappelle le physicien des particules David Rousseau. Il faut éviter à ces systèmes les “illusions d’optique”, c’est-à-dire de fausses informations. Ou, en tout cas, être capable d’estimer la probabilité que ces événements soient faibles. »
Pour le spécialiste en imagerie Nicolas Dobigeon, « en traitant [les] signaux, on pourrait faire apparaître une raie spectrale alors qu’elle n’existe pas. L’enjeu est d’être sûr que les traitements opérés sont fiables et ne sont pas de nature à avoir “détérioré” les données ». Il note que cette recherche de confiance, de robustesse, voire de certification de qualité, est elle-même un objet de recherche en IA. « Un million ou plus de paramètres ajustables, ça peut en effet faire peur à un physicien !, s’amuse Xavier Waintal. Au début, je trouvais ces techniques un peu idiotes ou évidentes, puis j’ai changé d’avis. Je trouve même qu’elles donnent aux physiciens un nouveau regard : le rapport aux données est différent, par exemple. C’est une façon de penser autrement. »