Bienvenue sur le site du GDR « Statistiques et santé » !

Apprentissage statistique pour l’analyse des données « -omiques »

L’avènement des technologies à haut-débit en biologie (par exemple en génomique,
transcriptomique ou protéomique) a révolutionné la collecte de données dans les sciences du vivant. Dans le domaine de la santé, l’exploitation de cette masse de données a divers objectifs : un meilleur diagnostic des maladies liées à des dérèglements génétiques ; la détermination de nouveaux traitements ou de cibles médicamenteuses plus spécifiques ; enfin, un enjeu plus fondamental est une meilleure compréhension des mécanismes biologiques en jeu. Diverses stratégies sont possibles dans le domaine médical pour tenter de répondre à ces questions (recherche de biomarqueurs, études d’associations, reconstruction de réseaux de régulation, métagénomique...).

Dans ce contexte, les tâches traditionnelles de l’apprentissage statistique restent à l’ordre du jour, à savoir la prédiction (classification, régression) et la recherche de motifs (clustering, modèles graphiques, extraction de caractéristiques). Il faut néanmoins déployer des efforts considérables afin de renouveler et d’adapter les méthodes aux caractéristiques des données « -omiques » (taille des bases de données, phénomènes de grande dimension, hétérogénéité, forte structuration). De plus, au-delà des performances prédictives, il s’agit de produire des modèles hautement interprétables afin d’assister les médecins dans la compréhension des mécanismes en jeu.

Pour répondre à ces questions, les méthodes émergentes en apprentissage marient les problématiques de la statistique à celle de l’optimisation. Elles visent à revisiter les méthodes standards de la statistique (par exemple la régression, l’analyse en composantes principales ou la classification hiérarchique) en les modifiant par régularisation, pénalisation ou via une formulation convexe, afin de leur donner de bonnes propriétés statistiques, algorithmiques et d’interprétabilité de modèle. Notre thématique vise à présenter l’utilisation et le développement de ce type de méthodes
dans un cadre applicatif motivé par des problèmes de santé.

Les auteurs : Julien Chiquet , Vivian Viallon

Biomarqueurs statistiques hétérogènes et dynamiques en grande dimension

Dans le contexte de la médecine personnalisée, un enjeu de la statistique est de pouvoir aider le médecin non seulement dans le diagnostic et le pronostic mais surtout dans le choix du traitement et son adaptation au cours même de celui-ci. Pour se faire, il dispose avec l’étude et le suivi de cohorte d’une grande diversité de données qui inclut de plus en plus, en complément des covariables descriptives classiques renseignant l’état général du patient de façon principalement statique, de données de grandes dimensions issues des méthodes « -omiques » ou de l’imagerie multi-modale ou dynamique pouvant être acquises non seulement au diagnostic mais aussi de façon répétée durant le traitement. L’objectif est double : corréler le statut initial du patient décrit par cette masse de données à la survie pour faciliter le choix du traitement et offrir aux cliniciens des marqueurs statistiques, construits à partir de la masse de données issue du suivi, qui permettent d’adapter en temps réel le traitement. Dans cet esprit, la construction de ces biomarqueurs recoupe la thématique « Modélisation de la réponse au traitement » et s’appuie sur les thèmes « Apprentissage statistique pour l’analyse de données « -omiques » et « Traitement des signaux médicaux complexes et réduction de dimension ».

La notion de biomarqueurs statistiques se distingue de biomarqueurs issue de mutation comme KRAS ou BRAF dans le cancer du côlon, ou BRAC-1 / BRAC-2 dans le cancer du sein. Ici, on s’intéresse à des marqueurs complexes qui, dans le cadre du cancer à titre d’exemple, peuvent être construits à partir de l’analyse des variants structuraux du génome tumoral, de l’étude et du suivi de la vascularisation tumorale, de l’étude et de l’évolution de réseaux de régulation, etc. et naturellement recouvrir plusieurs types de ces données. Le défi pour le statisticien est multiple :
estimation de paramètres reproductibles à partir d’observations hétérogènes et de grande dimension, étude de leur corrélation avec la survie des patients, construction de biomarqueurs par classification supervisée ou non, etc. Dans ce contexte, nous souhaitons promouvoir toute recherche qui recouvre tout ou partie de ces étapes clés sans distinction du type de données et de méthodologie.

Les auteurs : Yves Rozenholc

Traitement statistique de signaux médicaux complexes et réduction de dimension

Les avancées technologiques de l’imagerie médicale, de la biologie moléculaire, et plus généralement des moyens et dispositifs de recueil de l’information en santé ont permis l’émergence de supports d’information de plus en plus complexes. À titre d’exemple, la spectrométrie de masse permet d’obtenir une mesure directe de la signature de certaines protéines, sous forme de courbes d’intensité, fonctions du rapport masse-sur-charge de ces protéines. Ces courbes ont été récemment utilisées pour identifier des protéines différentiellement exprimées dans le cancer du côlon. Un second exemple, lié au traitement du cancer de la prostate par radiothérapie, a trait aux représentations bidimensionnelles (de type courbes dose-volume) et tridimensionnelles (de type images obtenues par scanner) de
la distribution des doses d’irradiation au voisinage de la prostate, chez les patients traités. Ces représentations, qui prennent la forme de courbes de niveaux d’irradiation, sont au cœur de travaux récents portant sur l’étude des effets secondaires chez les patients traités par radiothérapie et sur la relation existant entre la présence (et l’intensité) de ses effets secondaires et la distribution spatiale
des doses d’irradiation.

L’émergence de ces nouveaux supports d’information, à la fois riches, complexes et
hétérogènes constitue une formidable opportunité pour le développement de nouveaux outils statistiques d’aide au diagnostic. Mais elle constitue également un verrou technologique, en posant des problèmes méthodologiques nouveaux. Ainsi, pour ce type de données, le nombre d’observations est souvent relativement faible (de l’ordre de la centaine) par rapport à la dimension des données elles-mêmes (le nombre des variables enregistrées avoisine souvent la dizaine de
milliers, ou peut se présenter sous forme de courbes, d’images, éventuellement obtenues de manière répétée dans le temps). Même si les questions posées restent classiques (découverte de groupes, discrimination/prédiction...), ce fléau de la dimension et la structure très complexe de ces nouveaux types de données requièrent le développement de nouvelles méthodes statistiques, car sans réduction de la dimension, les méthodes standards de classification (par exemple) ne sont pas très performantes.

Au travers de ce thème, nous souhaitons contribuer à l’élaboration et à la diffusion de
nouvelles méthodes de traitement statistique des signaux médicaux complexes, en lien avec des problématiques directement issues du champ applicatif (tel que la cancérologie).

Les auteurs : Jean-François Dupuy , Sophie Lambert-Lacroix

Pharmacovigilance et Pharmacoépidémiologie

Durant les essais cliniques, les médicaments sont évalués dans des conditions nécessairement restrictives. C’est en population générale, après la mise sur le marché, que leurs effets indésirables sont le plus souvent identifiés. La pharmacovigilance vise à identifier le plus précocement possible de nouveaux effets indésirables médicamenteux. En amont, elle s’appuie sur des bases de données d’observations d’associations suspectes, les notifications spontanées ; en aval, l’accès aux sources de données de remboursement nationales de l’assurance maladie bouleverse radicalement le paysage de la pharmacoépidémiologie.

Devant la taille considérable des bases de notifications spontanées, des méthodes de détection de signaux, bayésiennes et non-bayésiennes, ont vu le jour et sont utilisées en routine notamment sur les bases de la Food and Drug Administration (États-Unis) et de l’Organisation mondiale de la santé. Ces méthodes sont fondées sur une représentation agrégée des données de notifications sous la forme de grandes tables de contingence. Cette représentation est réductrice puisqu’elle néglige que la très grande majorité des notifications, celle impliquant plusieurs médicaments ou plusieurs événements indésirables. Cette représentation ne permet donc pas de détecter des effets de co-médication. Elle est aussi à l’origine d’un biais appelé masking effect : un couple « médicament (M), ­effet indésirable (EI) » très notifié aura tendance à rendre plus difficile la détection d’autres couples impliquant soit le médicament M, soit l’événement EI. Afin de pallier ces limites, de récents travaux ont porté sur l’utilisation de régressions pénalisées (LASSO) pour les données individuelles de notifications. Dans ce contexte la variable à expliquer devient la présence ou l’absence d’un événement EI donné et les prédicteurs sont l’ensemble des médicaments ayant été mentionnés au moins une fois dans une notification impliquant l’EI d’intérêt. La mise en œuvre de telles approches est très lourde en calculs d’autant plus que ces analyses doivent être menées pour chaque effet indésirable de la base. Son utilisation pose aussi des difficultés méthodologiques quant au choix du paramètre de pénalisation dans un contexte de sélection de variables sur matrices creuses.

De par leur mode de recueil, les notifications spontanées ne permettent pas une quantification du risque potentiel et sont cantonnées au cadre exploratoire de la fouille de données. Les immenses bases de données médico-administratives fournissent un niveau d’information extrêmement fin concernant l’exposition des patients en termes de délivrance des médicaments remboursables, sous forme d’un nombre considérable de trajectoires temporelles individuelles. Ces informations chaînées avec la survenue d’événements ayant nécessité une hospitalisation, ou l’enregistrement d’une maladie chronique, constituent potentiellement un outil puissant en pharmacoépidémiologie. Néanmoins ces données restent pauvres en termes de variables comportementales (tabagisme...) ou cliniques. Elles appellent donc le développement d’outils statistiques adéquats de modélisation statistique du risque permettant, par exemple, la prise en compte de facteurs de confusion non mesurés.

Les auteurs : Ismaïl Ahmed

Conception : équipe web du GDR « Statistiques et Santé » — Nous contacter — Site conçu avec SPIP, 2013 — Plan du site