Un modèle d'IA qui comprend tout le vivant
Des chercheurs ont mis au point un modèle d'intelligence artificielle capable de comprendre l'ADN — celui de chaque être vivant sur notre planète. Ce modèle, baptisé Evo 2, peut anticiper les conséquences de modifications génétiques et concevoir des génomes entiers n'ayant jamais existé auparavant.
L'ADN se compose de quatre "lettres" : les bases azotées adénine (A), thymine (T), cytosine (C) et guanine (G). Ensemble, elles constituent le plan directeur de tout ce qui vit. Si les scientifiques savent aujourd'hui lire et modifier ce code, saisir pleinement les effets de ces modifications reste un défi colossal.
Pour s'attaquer à ce problème d'une complexité extrême, Evo 2 a été entraîné sur 9 billions de briques d'ADN provenant d'organismes issus de tous les coins de l'arbre du vivant. Le modèle le plus imposant compte 40 milliards de paramètres — un ordre de grandeur comparable aux versions antérieures de ChatGPT. Evo 2 peut analyser des séquences d'un million de lettres d'ADN en une seule fois, lui permettant d'établir des connexions sur de très grandes distances au sein d'un génome.
Prédire si une mutation est dangereuse
Le modèle est capable d'évaluer si une modification de l'ADN est nocive, sans avoir jamais consulté le moindre dossier médical. Son fonctionnement repose sur un calcul de probabilité : quelle est la vraisemblance qu'une séquence d'ADN donnée existe naturellement ? Si changer une seule lettre fait chuter cette probabilité de façon drastique, cela indique que cet emplacement est vraisemblablement crucial.
Grâce à cette approche, Evo 2 s'est montré particulièrement performant pour prédire l'impact des variants du gène BRCA1, étroitement associé au cancer du sein. Il a surpassé toutes les autres méthodes testées, notamment pour les mutations situées hors des régions codantes — ces portions d'ADN qui ne codent pas directement pour des protéines, mais qui jouent néanmoins un rôle important.
Ce point est essentiel pour des millions de personnes confrontées chaque jour à cette réalité, comme l'explique Brian Hie, co-auteur de l'étude. "Vous passez un test génétique et le résultat indique : 'variant de signification incertaine'. Votre médecin ne peut alors pas vous dire si cette modification augmente réellement votre risque de cancer. Nos résultats laissent penser qu'à l'avenir, il sera peut-être possible d'obtenir une réponse sans avoir besoin d'une base de données regroupant des milliers de patients porteurs exactement de la même mutation."
Qu'a réellement appris ce modèle ?
Une critique fréquente adressée à l'IA : elle fournit des réponses, mais personne ne comprend comment elle y parvient. Les chercheurs ont donc examiné de près le fonctionnement interne d'Evo 2. Résultat : le modèle a développé de manière autonome des concepts qui correspondent à des réalités biologiques connues.
Sans jamais en avoir été explicitement informé, il reconnaît les frontières entre les segments d'ADN traduits ou non en protéines, les sites de fixation de certaines protéines sur l'ADN, et même des virus intégrés dans le génome de bactéries. Des schémas appris sur l'ADN humain se sont également révélés applicables à l'ADN d'un mammouth laineux. Evo 2 a manifestement assimilé des structures universelles qui transcendent des millions d'années d'évolution.
Selon Hie, c'est une conséquence directe de la méthode d'entraînement choisie. "L'évolution est l'expérience la plus longue de l'histoire — elle dure depuis environ quatre milliards d'années. Chaque gène conservé tout au long de cette période l'a été pour une raison. En s'entraînant sur l'ensemble des domaines du vivant, Evo 2 peut exploiter ce signal d'une façon qu'aucun jeu de données exclusivement humain ne permettrait."
Concevoir des génomes entiers
Au-delà de la prédiction, Evo 2 possède également des capacités de conception. Le modèle génère des séquences d'ADN ressemblant à de véritables génomes de micro-organismes. Pour l'ADN bactérien, il a produit des génomes d'environ 580 000 lettres, dont près de 70 % des gènes prédits présentaient des similitudes avec des familles de protéines connues.
Il est important de préciser que ces génomes conçus par ordinateur n'ont pas encore été prouvés fonctionnels. Ce sont des modèles numériques prometteurs, mais qui n'ont pas encore été testés à grande échelle dans des cellules vivantes.
Ouvert, mais sécurisé
Les chercheurs ont tout rendu public : le modèle, le code, les données d'entraînement et les outils associés. Cela fait d'Evo 2 l'un des modèles d'IA open source les plus complets jamais développés.
La dimension sécuritaire a également été prise au sérieux. Les séquences d'ADN de virus susceptibles d'infecter l'être humain ont été exclues des données d'entraînement. Les tests menés par les chercheurs confirment qu'en conséquence, le modèle produit de mauvaises performances sur les séquences virales humaines. Les tentatives de lui faire générer des protéines dangereuses ont abouti à des résultats inexploitables.
"Nous avons également soutenu une démarche indépendante de red-teaming du modèle et collaboré en permanence avec des chercheurs spécialisés en biosécurité", précise Hie. Le red-teaming consiste à faire appel à des experts indépendants qui tentent délibérément d'exploiter ou de contourner le système pour en identifier les failles et les risques potentiels.
Et maintenant ?
Evo 2 n'est pas un bouton magique permettant de concevoir un nouvel organisme du jour au lendemain. Il faudra des années, voire des décennies, avant que le plein potentiel de tels modèles se révèle clairement. Mais il pose des bases solides pour une quantité considérable de recherches futures.
"Evo 2 représente une véritable avancée dans ce que ces modèles sont capables d'accomplir", affirme Hie. "En même temps, nous n'en sommes qu'aux prémices. Nous déconseillons de sous-estimer le potentiel de l'IA en biologie."













