Post-doc [fr][en]


Post-doctorat en sciences des données biomédicales : Méthodes innovantes d'intégration de données multi-omiques appliquées à la prédiction de l'allergie alimentaire (Octobre 2019; 1 an renouvelable)

Contexte

Les approches globales de type « omiques » (p. ex. la métabolomique) sont d'un grand intérêt pour la compréhension du métabolisme humain et la prédiction des maladies. L'analyse de tels jeux de données (caractérisés par un nombre de variables supérieur à celui des échantillons, et par la présence de colinéarité entre les variables) nécessite des méthodes multivariées spécifiques pour l'analyse non-supervisée comme pour la prédiction ((Thévenot et al, 2015; Rinaudo et al, 2016) que notre équipe développe depuis de nombreuses années au sein du Laboratoire Sciences des Données et Décision (CEA).

Aujourd'hui, la combinaison d'analyses omiques complémentaires (p. ex. la métabolomique et la lipidomique) apparaît comme une approche prometteuse pour élargir la liste des biomarqueurs et augmenter les performances de prédiction. De nouvelles méthodes statistiques sont donc nécessaires pour modéliser de tels jeux de données multi-tableaux.

Pour comprendre l'impact de l'environnement maternel sur la composition précoce du lait maternel et le développement d'allergies alimentaires, 300 échantillons de lait de la cohorte mère-enfant EDEN ont été analysés par métabolomique, lipidomique, glycomique et par les mesures ciblées de marqueurs immuns, dans le cadre d'un partenariat entre le Laboratoire d'Etude du Métabolisme des Médicaments (CEA) et le Laboratoire d'Immuno-Allergie Alimentaire (INRA).

Projet

L'objectif de ce post-doctorat de 12 mois renouvelables est de développer de nouvelles méthodes biostatistiques pour intégrer les cinq jeux de données ainsi que les covariables cliniques, et construire des modèles prédictifs des allergies alimentaires robustes et précis. Des approches linéaires (analyse de données multi-blocs, réseaux de corrélation partielle) et non linéaires seront utilisées, en plus de l'analyse de réseaux biochimiques (pour inclure des informations biologiques et chimiques supplémentaires).

Les défis comprendront notamment la sélection d'une signature multi-omique restreinte, le traitement des effets confondants, des temps de collecte distincts des échantillons et de l'hétérogénéité de la classe « allergie ».

L'implémentation s'appuiera notamment sur l'environnement R.

Profil

Les candidats intéressés doivent être titulaires d'un doctorat en mathématiques appliquées (analyse des données, machine learning, sélection de variables, intelligence artificielle, analyse de graphe) et être motivés par des applications multidisciplinaires (chimie et biologie).

Contact

Etienne Thévenot

CEA, LIST, Laboratoire "Sciences des Données et de la Décision", MetaboHUB

Bât. 565 (Digiteo Saclay), PC 192 F-91191 Gif-sur-Yvette Cedex, France

E-mail: etienne.thevenot@cea.fr


Post-doctoral position in data sciences: Innovative multi-omics data integration methods applied to the prediction of food allergy (starting in October 2019 for 1 - possibly 2 - years)

Context

Global 'omics' approaches (e.g. metabolomics) are of high interest for the understanding of human metabolism and the prediction of diseases. Analysis of such datasets (which contain a larger amount of - multicollinear - features compared to observations) require dedicated statistical methods for mining and prediction (Thévenot et al, 2015; Rinaudo et al, 2016).

Today, the combination of complementary omics analyses (e.g. metabolomics and lipidomics) emerges as a promising approach to extend the list of biomarkers and increase the prediction performances. New statistical methods are thus needed to model such multi-table datasets.

To understand the impact of maternal environment to early breast milk composition and the development of food allergy, 300 milk samples from the EDEN mother-child cohort have been analyzed by metabolomics, lipidomics, glycomics and immune approaches.

Project

The objective of this project is to develop new statistical methods to integrate the five data sets as well as the clinical covariates and build robust and accurate prediction models of food allergy. Linear (multi-block data analysis, partial correlation network) and nonlinear approaches will be used, in addition to network analysis (to include additional biological and chemical information).

Challenges will include the selection of a restricted multi-omics signature, the confounding effects, the distinct collection times of the samples, and the heterogeneity of the 'allergy' class.

The methods will be implemented in R.

Profile

Interested applicants should have PhD in applied mathematics (data analysis, machine learning, feature selection, artificial intelligence, network analysis), and be motivated by multidisciplinary applications (biology, chemistry).

Contact

Etienne Thévenot

CEA, LIST, Laboratory for Data Sciences and Decision, MetaboHUB

Bât. 565 (Digiteo Saclay), PC 192 F-91191 Gif-sur-Yvette Cedex, France

E-mail: etienne.thevenot@cea.fr