index - Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique

Domaine d’activité

L’équipe AROBAS s’oriente autour de trois axes : Algorithmique et Recherche Opérationnelle, Bio-informatique, et Apprentissage Statistique. Une approche méthodologique commune, essentiellement algorithmique, et la recherche et l’exploitation de couplages féconds unissent ces thématiques.

Algorithmique et Recherche Opérationnelle

La recherche en algorithmique et recherche opérationnelle au sein de de l’équipe est axée sur la conception d’algorithmes avec garantie de performance (rapport d’approximation, temps d’exécution) dans les domaines de l’optimisation (mono ou multicritère), de la théorie algorithmique des jeux et de la recherche opérationnelle.

D’un point de vue fondamental, nous étudions des modèles qui mesurent et expliquent de manière théorique la performance des algorithmes au-delà de l’analyse dans le pire des cas. Un exemple représentatif est le modèle de l’augmentation de ressources utilisé dans l’algorithmique en ligne. Nous cherchons également à développer des méthodes unifiées basées sur la dualité en programmation mathématique pour des classes de problèmes en algorithmique en ligne et en théorie algorithmique des jeux.

D’un point de vue algorithmique, nos problèmes de prédilection concernent les graphes et l’ordonnancement (éventuellement multi-périodique), et plus particulièrement ceux pour lesquels on cherche à minimiser une composante énergétique. D’autres travaux concernent des modèles de calcul alternatifs basés sur les pavages, le but étant de comprendre les mécanismes utilisés par la nature pour assembler des formes complexes (cristaux et quasi-cristaux) ou de concevoir des tuiles artificielles (tuiles d’ADN) pouvant faire des calculs.

Dans le thème de la recherche opérationnelle, nous nous intéressons à des problèmes majeurs issus des milieux sociaux-économiques dans les secteurs du transport, de la production, et de l’agroalimentaire. On peut citer entre autres la conception de réseaux de transport intelligents via des mécanismes de réservation de voies, la prise en compte de la consommation d’énergie dans l’industrie manufacturière à l’aide de problèmes d’ordonnancement par lots, et la conception et l’optimisation de la chaîne logistique dans le domaine agroalimentaire. Les verrous scientifiques liés à ces problèmes sont nombreux : les systèmes à étudier sont diversifiés, très complexes, et de grande taille ; les problèmes sont souvent interdisciplinaires et multicritères ; les systèmes présentent en plus des caractères d’incertitude.

Bio-informatique

Les travaux en bio-informatique menés au sein de l’équipe concernent en grande partie le développement de méthodes et outils informatiques pour la prédiction et l’analyse des ARN non-codants (ARNnc). Depuis plusieurs années, les ARNnc suscitent un vif intérêt auprès de la communauté scientifique (en biologie, bio-informatique et recherche biomédicale), particulièrement pour leur implication dans de nombreuses maladies.

Deux grandes thématiques sont abordées en lien avec les ARN : (i) la prédiction de structures d’ARN et de leurs interactions avec des protéines ou d’autres ARN, en utilisant principalement des méthodes d’optimisation combinatoire, et (ii) l’identification d’ARNnc dans des séquences génomiques, en utilisant notamment des méthodes d’apprentissage automatique.

Dans la première thématique, des méthodes d’optimisation combinatoire multicritère basées sur la programmation mathématique sont développées, ainsi que des méthodes basées sur la théorie des graphes. L’objectif de nos travaux est essentiellement de pouvoir, d’une part, combiner plusieurs modèles et critères pour la prédiction des structures et complexes d’ARN et, d’autre part, générer des solutions sous-optimales pour mieux approcher les structures réelles.

Dans la seconde thématique, plusieurs approches d’apprentissage automatique originales sont proposées qui intègrent différentes sources hétérogènes de données, selon la particularité des ARN recherchés et de la question biologique posée. Nous nous intéressons tout particulièrement à la sélection des meilleures sources de données à utiliser et à la meilleure combinaison possible de ces sources.

L’une de nos préoccupations est de concevoir des algorithmes capables de traiter de gros volumes de données et de passer à l’échelle tout en fournissant des prédictions aussi fiables que possible. Une autre préoccupation est de proposer des méthodes qui produisent des visualisations adaptées, dégagent des interprétations des résultats, et permettent des interactions avec l’utilisateur.

Une attention particulière est donnée à l’exploitation des algorithmes développés : ils donnent tous lieu à des logiciels mis à disposition de la communauté scientifique (en services web ou en téléchargement), via la plateforme EvryRNA.

Apprentissage Statistique

Les travaux en apprentissage automatique au sein de l’équipe se portent aujourd’hui principalement sur l’apprentissage profond. Nos thématiques de recherche sont guidées par les applications, en particulier celles liées à la santé. Nous développons des modèles prédictifs pour l’aide au diagnostic, le pronostic, la réponse à un traitement ou l’analyse d’images médicales, à partir de données patient électroniques (EHR), génomiques, méta-génomiques ou issues de l’imagerie médicale.

Le domaine de la santé soulève des problèmes spécifiques. Le plus important concerne le faible nombre d’exemples d’apprentissage disponibles – du fait des coûts et des difficultés pour collecter des données – alors même que les exemples présentent un nombre important de variables. Un de nos principaux thèmes de recherche est l’apprentissage de réseaux de neurones profonds à partir de bases d’apprentissage de petite taille et de grande dimension. Pour cela nous utilisons l’apprentissage par transfert afin d’apprendre conjointement plusieurs tâches proches, l’apprentissage semi-supervisé afin d’utiliser des données non étiquetées pour apprendre une représentation pertinente des données, le transfert de domaine pour transférer des données ou des prédictions d’une source de données vers une autre, et les méthodes de sélection de variables pour réduire la dimension des données.

Un autre défi majeur est l’interprétation des réseaux de neurones et de leurs prédictions. Il existe un besoin criant de rendre les réseaux de neurones interprétables, et ceci tout particulièrement dans le domaine médical pour deux raisons. Premièrement, il est important de s’assurer que le réseau de neurones base ses prédictions sur une représentation fiable des patients et ne se concentre pas sur des artefacts non pertinents présents dans les données d’apprentissage. Sans explication des prédictions, les médecins ne peuvent pas faire confiance à un réseau de neurones, quelles que soient ses performances. Deuxièmement, il faut pouvoir produire pour les biologistes une interprétation biologique du réseau de neurones et de ses prédictions afin de reconnaître lorsqu’un réseau de neurones performant pour la prédiction d’un certain phénotype a identifié une signature dans les données biologiques qui pourrait être une piste de recherche. Afin de répondre à ce besoin, nous proposons des méthodes de perturbation et de rétro-propagation du signal de sortie du réseau de neurones que nous croisons avec les bases de données biologiques et médicales. Nous nous intéressons également à l’extraction de règles à partir du réseau de neurones.

Nous réalisons ces recherches en collaboration avec différents partenaires académiques (Université Paris-Dauphine, IRD, Inserm, LIMICS), industriels (Dental Monitoring, SystemX, Visiomed) et hospitaliers (Pitié-Salpêtrière, CHSF).