Aller au contenu principal

Jean-Marc Aury : Les génomes à l’ère du Big data

Portrait de chercheur ou chercheuse Article publié le 07 janvier 2021 , mis à jour le 07 janvier 2021

Ingénieur en informatique tombé fortuitement dans la génomique il y a vingt ans, Jean-Marc Aury dirige l’équipe R&D Bio-informatique et séquençage du Laboratoire d’informatique scientifique du Genoscope (Université Paris-Saclay, CEA). Aujourd’hui, il assemble les génomes complets de plantes et d’animaux grâce à la bio-informatique, une discipline qu’il a fortement contribué à développer ces dernières années.

Depuis deux ans, Jean-Marc Aury figure parmi les chercheurs les plus cités au monde. « C’est une belle reconnaissance du travail accompli, et qui montre que notre domaine est un domaine de pointe ». Il dirige une équipe d’une quinzaine de personnes et composée de chercheurs et d’ingénieurs. Toutes les données produites par les séquenceurs de haute technologie du Genoscope passent par eux : elles sont sécurisées, sauvegardées, puis organisées en vue de leur utilisation par les chercheurs de l’ensemble des projets du Genoscope. « Parfois, nous analysons nous-mêmes ces données, jusqu’à leur publication en collaboration avec les chercheurs », remarque Jean-Marc Aury. 

L’assemblage des génomes

La tâche du directeur du laboratoire et de son équipe consiste en l’assemblage des génomes de plantes ou d’animaux inconnus jusqu’à présent. L’objectif est de créer le génome de référence le plus complet possible. Les chercheurs de l’équipe n’ont pas de thématique liée à une espèce particulière. En fonction des projets qui arrivent, certains d’entre eux travaillent à l’assemblage des génomes, d’autres à leur annotation. « Nous annotons les régions « codantes » du génome, afin de rechercher ensuite des gènes d’intérêt, comme ceux impliqués dans la résistance à certaines maladies. » Pour chaque projet, ils décident de la stratégie, des outils et des méthodes informatiques à adopter pour reconstituer la séquence. Parfois, ils vont jusqu’à les caractériser eux-mêmes. « C’est le côté sympathique du travail de recherche, nous traitons de données que personne n’a jamais eu entre les mains. » 

Lire l’ADN grâce à la technologie Nanopore

Jean-Marc Aury et ses collègues utilisent beaucoup la technologie de séquençage de l’ADN par les « nanopores », qu’ils ont été parmi les premiers à employer il y a quelques années. « Ce séquenceur Nanopore diffère de tous les autres, d’une part parce qu’il est miniature, de la taille d’un harmonica, et permet donc de séquencer sur le terrain, d’autre part parce qu’il produit des types de données très différents des autres séquenceurs, explique le chercheur. Contrairement à la technologie « Illumina », qui séquence des fragments d’ADN de plusieurs dizaines de kilosbases, et bien que le taux d’erreurs demeure très élevé (de l’ordre de 5 % aujourd’hui), le nanopore est capable d’aller jusqu’à des fragments d’un mégabase. » Enfin, alors que les séquenceurs se contentent de synthétiser le second brin de l’ADN pour le reconstituer, le nanopore est véritablement capable de le lire (le brin d’ADN passe à travers un pore ancré dans une membrane).

Poissons, coraux, chênes et tiques

Aujourd’hui, le laboratoire gère une vingtaine de projets à différents stades, dont le référencement des gènes des coraux et de deux poissons de la mission Tara Pacific, ou encore celui de certains arbres. « Nous avons publié le génome du chêne il y a deux ans. Grâce à un assemblage très continu, nous avons découvert qu’il y avait énormément de gènes dupliqués en tandem, des familles hyper abondantes, qui sont essentiellement des gènes de résistance, raconte Jean-Marc Aury. Cela peut expliquer leur longévité. Ne se déplaçant pas, ils ont besoin d’un arsenal de gènes de résistance pour lutter contre les pathogènes, les stress environnementaux… » Les génomes de plantes ou d’animaux sont complexes à assembler à cause de leur taille. Par exemple, le génome de la tique a à peu près la même taille que le génome humain. « Nous venons de finir son assemblage et passons à l’étape de l’analyse dans l’optique de publier nos résultats. »

Un ingénieur au pays de la génomique

Après des études d’informatique à l’Université de Caen, Jean-Marc Aury entre à l’ENSIIE en 2001. En dernière année de cette école d’ingénieur en informatique située à Évry, il s’inscrit en parallèle dans le tout nouveau Master Application des mathématiques et de l’informatique à la biologie de l’Université d’Évry et effectue un stage au Genoscope. « J’ai été fasciné par le séquençage du Tetraodon nigroviridis, un poisson au génome compact (8 fois plus petit que le génome humain mais avec le même nombre de gènes), pour lequel j’ai participé à l’annotation des gènes en développant des logiciels. » Arrivé aux prémices de la génomique moderne qui a besoin d’informaticiens, le chercheur est embauché au Genoscope directement à l’issue de son stage. « À l’époque, la bio-informatique n’existait pas encore. Les gens venaient majoritairement de la biologie, peu de l’informatique. » Au fur et à mesure de l’évolution des technologies de séquençage, la quantité de données produites augmente. Jean-Marc Aury est alors de plus en plus sollicité pour développer des logiciels de traitement efficaces. 

« Demain, nous serons capables de lire l’ADN d’un seul trait, nous n’aurons plus besoin d’assembler les génomes », constate le chercheur. Alors aura-t-on encore besoin de lui dans cinq ou dix ans ? « Oui, répond l’intéressé. Car nous produisons chaque jour davantage d’informations qui réclament d’être traitées. La bio-informatique ne fait que démarrer. Nous aurons besoin de Big data et d’intelligence artificielle lorsque nous commencerons à produire les quantités de données sur le génome humain. C’est un secteur pluridisciplinaire très stimulant. Il faut être capable de collaborer avec des gens d’autres disciplines pour aller plus loin dans l’analyse et l’interprétation. »