Bienvenue sur le site du GDR « Statistiques et santé » !

Apprentissage statistique pour l’analyse des données « -omiques »

L’avènement des technologies à haut-débit en biologie (par exemple en génomique,
transcriptomique ou protéomique) a révolutionné la collecte de données dans les sciences du vivant. Dans le domaine de la santé, l’exploitation de cette masse de données a divers objectifs : un meilleur diagnostic des maladies liées à des dérèglements génétiques ; la détermination de nouveaux traitements ou de cibles médicamenteuses plus spécifiques ; enfin, un enjeu plus fondamental est une meilleure compréhension des mécanismes biologiques en jeu. Diverses stratégies sont possibles dans le domaine médical pour tenter de répondre à ces questions (recherche de biomarqueurs, études d’associations, reconstruction de réseaux de régulation, métagénomique...).

Dans ce contexte, les tâches traditionnelles de l’apprentissage statistique restent à l’ordre du jour, à savoir la prédiction (classification, régression) et la recherche de motifs (clustering, modèles graphiques, extraction de caractéristiques). Il faut néanmoins déployer des efforts considérables afin de renouveler et d’adapter les méthodes aux caractéristiques des données « -omiques » (taille des bases de données, phénomènes de grande dimension, hétérogénéité, forte structuration). De plus, au-delà des performances prédictives, il s’agit de produire des modèles hautement interprétables afin d’assister les médecins dans la compréhension des mécanismes en jeu.

Pour répondre à ces questions, les méthodes émergentes en apprentissage marient les problématiques de la statistique à celle de l’optimisation. Elles visent à revisiter les méthodes standards de la statistique (par exemple la régression, l’analyse en composantes principales ou la classification hiérarchique) en les modifiant par régularisation, pénalisation ou via une formulation convexe, afin de leur donner de bonnes propriétés statistiques, algorithmiques et d’interprétabilité de modèle. Notre thématique vise à présenter l’utilisation et le développement de ce type de méthodes
dans un cadre applicatif motivé par des problèmes de santé.


Retour à la liste des équipes