Karine Zeitouni : pionnière du data mining spatial en France
Karine Zeitouni est professeure des universités, enseignante-chercheuse au laboratoire Données et algorithmes pour une ville intelligente et durable (DAVID – Univ. Paris-Saclay, UVSQ) et directrice-adjointe Formation de la Graduate School Informatique et sciences du numérique de l'Université Paris-Saclay. Experte en gestion de données massives, elle a été la première à importer le data mining spatial en France.
Originaire du Maroc, Karine Zeitouni entame des études de mathématiques-physique à l'université de Rabat en 1983. Elle suit en parallèle des cours d’informatique de niveau maitrise et se passionne pour ce sujet. Elle poursuit ses études à l’Université de Strasbourg, où elle effectue, de 1984 à 1987, une licence et maitrise en informatique, puis un DEA en traitement graphique et des images. Pour financer ses études, elle enseigne l’informatique à des étudiantes et étudiants de DUT, en tant qu’assistante associée (une charge d’enseignement équivalente à celle d’une maîtresse de conférences). En 1991, elle soutient sa thèse à l’Université Pierre et Marie Curie, qui porte sur l’intégration du raisonnement spatial dans les bases de données géographiques, à des fins de cartographie. Elle la réalise en collaboration avec l'Institut national de l'information géographique et forestière (IGN). Cette même année, Karine Zeitouni obtient un poste d’assistante temporaire d’études et de recherche (ATER) à l’université Paris-Diderot. En 1992, elle devient maîtresse de conférences et rejoint le laboratoire Parallélisme, réseaux, systèmes, modélisation (PRiSM), duquel est issu le laboratoire DAVID créé en 2015. Elle est promue professeure en 2009. Karine Zeitouni poursuit aujourd’hui ses recherches au sein de ce laboratoire et enseigne à l’Institut universitaire de technologie (IUT) de Vélizy, une composante de l'université de Versailles-Saint-Quentin-en-Yvelines (UVSQ).
Les bases de données spatiales
Le domaine de recherche de Karine Zeitouni couvre le traitement de données, l'optimisation de requêtes et la fouille de données massives pour en extraire des connaissances utiles. « Dans ce domaine, les frontières sont assez floues, mais cela inclut aussi l’algorithmique et le machine learning (un sous-domaine de l’intelligence artificielle). » Pour des données spatiales et spatiotemporelles, il s’agit de traiter de questions de modélisation, c’est-à-dire d’abstraction de données complexes à composante spatiale et/ou temporelle, afin de les représenter dans un système ; de sémantique, afin d’exprimer une logique de traitement en langage ; et de réalisation, à savoir traduire ce langage en un algorithme efficace pour traiter des requêtes.
Ce traitement, ou évaluation de requêtes, s'accompagne très souvent, lorsqu’il s'agit de grandes masses de données, de techniques d'optimisation. Ces dernières consistent à définir des index ou méthodes d'accès – c’est-à-dire des structures de données - qui agissent comme des accélérateurs de requêtes et définissent des filtres efficaces. « Mais lorsque les données sont complexes, c’est-à-dire lorsqu’elles ne sont ni numériques ni textuelles mais spatiales, il faut repenser tout le modèle. » L’enseignante-chercheuse définit à l’époque dans sa thèse un nouveau modèle topologique et d’indexation, à savoir une extension de la structure de données R-Tree. « C’était un nouveau sujet, où on faisait converger le domaine de la conception assistée par ordinateur dédiée à la cartographie avec la gestion de base de données sémantiques faisant appel à du raisonnement spatial. » Ces sujets intéressent surtout les sciences humaines et sociales, et les archéologues, architectes ou encore les urbanistes.
Le data mining spatial
En 1998, Karine Zeitouni présente ses travaux à une conférence organisée par le département informatique de l’Université Simon Fraser à Vancouver. Elle découvre à cette occasion le data mining. Il s’agit de transformer les données en informations utiles, en établissant des relations entre elles. « Cette approche était tout à fait novatrice à l’époque. Elle m’a fascinée, alors j’ai lancé un atelier sur ce thème dans le contexte des bases de données spatiales, auquel j’ai convié des pionniers internationaux. » Abordée pour la première fois en France grâce à l’enseignante-chercheuse, cette nouvelle science appliquée aux données spatiales fait l’objet d’une édition spéciale de la revue internationale Géomatique. Depuis, Karine Zeitouni applique cette approche à tous ses travaux sur des trajectoires ou des données temporelles issues de capteurs.
La gestion de données astronomiques
De 2012 à 2018, elle élargit son champ d'application à des données astronomiques. Initialement conçus pour des données en deux dimensions dans le cadre des systèmes d'information géographiques, ses travaux s’étendent cette fois aux données en trois dimensions, puis aux trajectoires spatiotemporelles typiquement issues de traces GPS. Elle est sollicitée pour les mettre en application par l’observatoire de Paris dans le cadre des défis Mastodons lancés par le CNRS - un programme développé pour explorer de nouvelles approches interdisciplinaires – afin d’étudier l’optimisation de requêtes de sélection de zones spécifiques de l’espace dans un gros volume de données d’observation de l’Univers. « La problématique spécifique de ces données spatiales, mais aussi les avancées technologiques de big data ont nécessité de nouvelles méthodes d'optimisation de requêtes. » Karine Zeitouni développe par exemple le logiciel d’optimisation ASTROIDE. Celui-ci implémente plusieurs requêtes essentielles dans l’exploration astronomique, telles que la sélection par cônes, adaptées aux données spatiales de l’Univers. Mais aussi le cross match – un algorithme 6 000 fois plus rapide qu’une solution non optimisée - pour différencier, dans le cadre de missions spatiales, les objets déjà cartographiés des objets nouveaux.
Un parcours aux multiples fonctions
Au sein du laboratoire DAVID, l’enseignante-chercheuse occupe de multiples fonctions. Elle est responsable de l’équipe Ambient data access and mining (ADAM). Depuis le début de sa carrière, elle a supervisé dix-sept doctorantes et doctorants, et en accompagne encore cinq à ce jour. La plupart d’entre eux travaillent dans le cadre de projets nationaux ou internationaux, que Karine Zeitouni porte ou co-porte. Par ailleurs, elle co-anime, avec l'observatoire astronomique de Strasbourg, le groupe de travail BigData4Astro du groupe de recherche Masses de données, informations et connaissances en sciences (MaDICS), qui allie gestion de données, data mining et machine learning.
La direction-ajointe Formation de la Graduate School Informatique et sciences du numérique
En mars 2021, Karine Zeitouni prend de nouvelles responsabilités et devient directrice-adjointe Formation de la Graduate School Informatique et sciences du numérique de l’Université Paris-Saclay. Cette entité comprend quinze parcours en informatique et deux en bio-informatique, et deux masters de méthodes informatiques appliquées à la gestion des entreprises (MIAGE). « J’ai accepté cette fonction avec enthousiasme car je crois en l'avenir de l’Université Paris-Saclay et j’ai très envie de contribuer à sa construction. »
Elle participe à trois défis de taille : donner de la lisibilité aux parcours au sein de la Graduate School afin d’attirer et de faciliter l’inscription des étudiantes et étudiants. Mais aussi augmenter le taux d’attractivité des meilleures étudiantes et étudiants étrangers en leur attribuant des bourses d’études, et en exploitant ou nouant des accords stratégiques dans le cadre de programmes d’échanges internationaux. Comme avec le National Institute of Informatics (NII) à Tokyo (Japon), l'université Macquarrie à Sydney (Australie), ou l’université de Chennai (Inde). Enfin, inciter les étudiantes et étudiants, souvent attirés par les salaires alléchants du secteur privé, à poursuivre leur carrière dans la recherche publique. « Je souhaite leur montrer que le domaine académique offre de nombreuses opportunités de découvertes intellectuelles et culturelles. Mais aussi que la liberté et l’autonomie que procure le travail scientifique n’ont pas de prix ! »