Apprentissage Automatique pour l'Oncologie de Précision et la Conception de Médicaments (AAOPCM)

Nos recherches portent sur le développement et l'application de méthodes informatiques permettant de prédire et d'analyser la modulation de la fonction des protéines et des cellules par de petites molécules organiques. Ces problèmes peuvent être résolus en générant des modèles prédictifs à partir de données pertinentes à l'aide de l'apprentissage automatique (une approche qui a récemment été rebaptisée IA pour la découverte de médicaments). Dans ce domaine, les problèmes d'intérêt comprennent la prédiction de la réponse thérapeutique des tumeurs à partir de leur profil moléculaire pour l'oncologie de précision, la modélisation pharmaco-omique du cancer pour la conception de médicaments phénotypiques, la prédiction de cibles moléculaires par exploration de données de bioactivité et la conception de médicaments ciblés (par exemple, le dépistage virtuel basé sur la structure de la cible et guidé par des fonctions de notation hautement prédictives en apprentissage automatique).

Oncologie de précision - Méthodes

L'efficacité d'un traitement médicamenteux est fortement variable d’un patient atteint d’un cancer à l’autre. Il y a donc un grand besoin  de méthodes computationnelles capables de prédire quels patients répondront à un traitement donné. Plusieurs milliers de caractéristiques numériques décrivent souvent chaque tumeur (par exemple, celles qui proviennent de technologies de profilage moléculaire rapide et bon marché, telles que le RNA-seq ou le Methyl-Seq). L'apprentissage automatique peut être utilisé pour identifier les combinaisons de ces altérations génétiques qui peuvent prédire la réponse au traitement et ainsi guider les stratégies de prise en charge par médecine de précision. Malheureusement, le nombre de tumeurs de cancers qui ont fait l'objet d'un profil moléculaire et qui ont été traitées avec le même médicament est généralement faible (il dépasse rarement 100). De tels problèmes de classification à haute dimension sont difficiles à résoudre, car nombre d’algorithmes peinent à pour établir des classificateurs tout en ignorant les milliers de caractéristiques non pertinentes.

Nous étudions l'intégration de la sélection de caractéristiques avec des algorithmes d'apprentissage automatique pour construire des classificateurs qui n'utilisent qu'un sous-ensemble beaucoup plus petit de caractéristiques (les plus discriminantes). Par exemple, en analysant systématiquement un ensemble complet de données in vivo (1), nous avons observé que l'identification d'un sous-ensemble optimal de caractéristiques en utilisant la forêt aléatoire comme base d'apprentissage aboutit à des modèles prédictifs pour la plupart des types de cancer,  de profils et de traitements. Nous nous penchons également sur le défi d'interpréter au mieux une prédiction en fonction des altérations génétiques sélectionnées afin d'expliquer pourquoi une tumeur spécifique est sensible ou résistante au traitement.

Oncologie de précision - Applications

Nous avons comparé l'approche standard d'identification des marqueurs monogéniques à l'approche multigénique émergente qui consiste à combiner de multiples altérations génétiques avec l'apprentissage automatique en utilisant les mêmes données pharmacogénomiques in vitro (2, 3). Nous avons examiné la même question à l'aide de données précliniques in vivo (1) et nous étudions actuellement cette question avec des données cliniques in vivo également.

Toutes ces études révèlent qu'il est possible de prédire avec plus exactitude une proportion plus élevée de binômes type de cancer/traitement si: 1) des classificateurs multigènes sont construits (en particulier ceux qui permettent la sélection de caractéristiques), 2) un plus grand nombre d'algorithmes d'apprentissage automatique est utilisé, et 3) un plus grand nombre de profils moléculaires est considéré. En comparant systématiquement les classificateurs monogéniques et multigéniques, nous avons également découvert que la faible sensibilité d'un marqueur monogénique n'est pas une limitation intrinsèque de l'oncologie de précision, mais le résultat de l'utilisation d'un classificateur à caractéristique unique au lieu de combiner efficacement plusieurs modifications génétiques (1, 3).

Nous étudions actuellement l'application des outils développés à des ensembles de données pharmacomiques cliniques, comme ceux provenant de patients atteints de leucémie myéloïde aiguë et de cancer du sein métastatique.

Conception de médicaments – Méthodes

En plus de la recherche visant à optimiser l'application des médicaments connus, il est nécessaire de découvrir de nouveaux médicaments pour traiter les patients cancéreux qui ne répondent pas aux traitements de première intention, qui rechutent et/ou qui ont un mauvais pronostic avec les traitements actuels. Cet objectif ne peut être atteint sans un moyen d'identifier les molécules modulant une fonction biologique spécifique d'une cible thérapeutique. Il existe maintenant une gamme de méthodes de calcul capables de prédire les activités biologiques d'une molécule à partir d'un volume sans cesse croissant de données expérimentales pertinentes. Par exemple, les méthodes de criblage virtuel (VS) peuvent être utilisées pour rechercher dans de vastes bibliothèques de molécules celles qui sont susceptibles d'être actives contre la cible considérée. Dans la pratique, ces outils ont permis de découvrir des pistes de médicaments pour un large éventail de cibles et sont particulièrement utiles pour les cibles où le dépistage à haut débit (HTS) donne de mauvais résultats ou n'est pas envisageable (p. ex. techniquement impossible, trop coûteux ou trop lent). Il existe également des méthodes permettant d'optimiser la puissance des pistes médicamenteuses ainsi que de prédire leurs effets hors-cible.

Dans le scénario où l'on a une molécule ayant une affinité pour la cible d'intérêt, nous avons mis au point une méthode VS basée sur un ligand appelée Ultrafast Shape Recognition (USR) (4). USR recherche dans ces bibliothèques des molécules ayant une forme 3D similaire à celle de ce modèle. Ceci est efficace dans la mesure où des molécules de forme similaire sont susceptibles d'atteindre les mêmes cibles que le modèle de recherche et d'avoir un échafaudage chimique différent (4). D'autres ont développé ce concept en incorporant la distribution spatiale des propriétés pharmacophoriques à la recherche, comme dans USRCAT (5). Nous avons récemment implémenté les deux outils dans le serveur web USR-VS (6) pour réaliser des VS prospectives à grande échelle.

Si un modèle structurel de la protéine cible est disponible (p. ex. structure crystalline aux rayons X), des méthodes basées sur la structure, comme l'amarrage moléculaire, peuvent être utilisées pour prédire la force avec laquelle une molécule se lie à la cible. L'amarrage est utile pour identifier de nouvelles pistes de médicaments pour une cible ou pour concevoir des pistes de médicaments plus puissants. La limitation la plus importante de l'amarrage réside dans le classement des molécules en fonction de leur force de liaison prévue, qui est effectué par des fonctions de scoring spécialisées (SFs). Dans ce domaine, nous avons démontré (7) les avantages de l'apprentissage automatique des SF par rapport aux SF classiques (c'est-à-dire ceux basés sur une combinaison linéaire de caractéristiques). Nous avons révélé (8) qu'une description chimique plus précise du complexe protéine-ligand ne conduit généralement pas à des SFs plus prédictifs contrairement à ce que l’on pensait. Nous avons récemment montré (9) que les performances des SF classiques stagnent rapidement avec l'augmentation de la taille des données de formation, contrairement à celles des SF d'apprentissage automatique. Nous avons constaté (10) que les SF d'apprentissage automatique, lorsqu'elles sont conçues sur mesure pour le VS, obtiennent de meilleures performances en s'entraînant avec des ensembles inhabituellement importants d'inactifs.

Dans le meilleur des cas, l’identification d’un candidat médicament phare ayant une eficacité élevée sur sa cible est coûteuse et chronophage. Malheureusement, beaucoup de ces sondes optimisées s'avèrent finalement non actives sur le plan cellulaire et n'ont donc aucune valeur thérapeutique. Avec nos collaborateurs au Royaume-Uni, nous avons implémenté un serveur web qui propose une méthode permettant de prédire l'inhibition de la croissance d’une lignée cellulaire induite par une molécule donnée (19). Ceci peut être utilisé pour positionner une sonde sur un type de cancer en prédisant sur quelles lignées cellulaires cela induirait une plus forte inhibition de la croissance. Cet outil peut également être utilisé pour la conception de médicaments phénotypiques, où l'on cherche dans une vaste bibliothèque de molécules celles qui sont les plus actives sur un type de cancer donné. Par la suite, il sera souhaitable de prédire quelles sont les cibles des hits phénotypiques résultants. Dans ce but, nous avons développé et validé une méthode de prédiction de cible (11), qui est disponible en tant que serveur web (12). Récemment, nous avons également mis au point une méthode permettant de prédire la synergie des médicaments dans l'inhibition des lignées cellulaires cancéreues (13).

Conception de médicaments - Applications

Dans des études prospectives VS, nous avons observé que USR est très efficace pour la découverte de molécules bioactives avec de nouveaux échafaudages chimiques (14-17). Plusieurs collaborations sont en cours pour découvrir de nouveaux ligands pour d'autres cibles utilisant USR et USRCAT. Nous avons également utilisé un SF d'apprentissage automatique (RF-Score) dans le cadre d'un protocole VS hiérarchique qui a conduit à la découverte d'une grande proportion d'inhibiteurs d'une cible antibactérienne (15). Cependant, contrairement au RF-Score, RF-Score-VS a été conçu spécifiquement pour le VS, ce qui se traduit par des résultats nettement meilleurs pour le VS (18). Nous avons maintenant entamé des collaborations afin d'utiliser des SF d'apprentissage automatique pour des VS potentiels contre plusieurs cibles de cancer. D'autre part, nous utilisons MolTarPred (12) pour prédire les cibles de certains médicaments cliniques. Nos collaborateurs ont confirmé expérimentalement certaines des cibles prévues (l'une de ces cibles auparavant inconnues se lie au médicament avec une puissance de 300 nM).

Pour ce qui est de la conception phénotypique des médicaments, nous avons prédit la puissance d'inhibition de la croissance et les paires synergiques d'un vaste ensemble de médicaments cliniques sur les lignées cellulaires cancéreuses en utilisant respectivement (19) et (13). Des prédictions sélectionnées sont en cours de validation in vitro par nos collaborateurs.

References

1. Nguyen,L., Naulaerts,S., Bomane,A., Bruna,A., Ghislat,G. and Ballester,P. (2018). bioRxiv, 10.1101/277772.

2. Nguyen,L., Dang,C.C. and Ballester,P.J. (2017) F1000Research, 5, 2927.

3. Naulaerts,S., Dang,C.C., Ballester,P.J., Naulaerts,S., Dang,C.C., Ballester,P.J., Naulaerts,S., Dang,C.C. and Ballester,P.J. (2017) Oncotarget, 5.

4. Ballester,P.J. and Richards,W.G. (2007) J. Comput. Chem., 28, 1711–1723.

5. Schreyer,A. and Blundell,T. (2012) J. Cheminform., 4, 27.

6. Li,H., Leung,K.-S., Wong,M.-H. and Ballester,P.J. (2016) Nucleic Acids Res., 44, W436–W441.

7. Ballester,P.J. and Mitchell,J.B.O. (2010) Bioinformatics, 26, 1169–1175. (ISI highly-cited paper for being within the top 1% of citations within its JCR category)

8. Ballester,P.J., Schreyer,A. and Blundell,T.L. (2014) J. Chem. Inf. Model., 54, 944–955.

9. Li,H., Peng,J., Sidorov,P., Leung,Y., Leung,K.-S., Wong,M.-H., Lu,G. and Ballester,P.J. (2019) Bioinformatics, 10.1093/bioinformatics/btz183.

10. Wójcikowski,M., Ballester,P.J. and Siedlecki,P. (2017) Sci. Rep., 7, 46710. (79th most read paper out of the over 24,000 published by Scientific Reports in 2017: www.nature.com/collections/zzcpmcdkqp/content/76-100)

11. Peón,A., Naulaerts,S. and Ballester,P.J. (2017) Sci. Rep., 7, 3820.

12. Peón,A., Li,H., Ghislat,G., Leung,K., Wong,M., Lu,G. and Ballester,P.J. (2019) Chem. Biol. Drug Des., 10.1111/cbdd.13516.

13. Sidorov,P., Naulaerts,S., Ariey-Bonnet,J., Pasquier,E. and Ballester,P. (2018) bioRxiv, 10.1101/504076.

14. Ballester,P.J., Westwood,I., Laurieri,N., Sim,E. and Richards,W.G. (2010) J. R. Soc. Interface R. Soc., 7, 335–342.

15. Ballester,P.J., Mangold,M., Howard,N.I., Robinson,R.L.M., Abell,C., Blumberger,J., Mitchell,J.B.O., Marchese Robinson,R.L., Abell,C., Blumberger,J., et al. (2012) J. R. Soc. Interface, 9, 3196–3207.

16. Hoeger,B., Diether,M., Ballester,P.J. and Köhn,M. (2014) Eur. J. Med. Chem., 88, 89–100.

17. Patil,S.P., Ballester,P.J. and Kerezsi,C.R. (2014) J. Comput. Aided. Mol. Des., 28, 89–97.

18. Ain,Q.U., Aleksandrova,A., Roessler,F.D. and Ballester,P.J. (2015) Wiley Interdiscip. Rev. Comput. Mol. Sci., 5, 405–424. (among the top 10 most downloaded articles of this journal in 2018: wires.wiley.com/WileyCDA/WiresCollection/id-43.html)

19. Cortés-Ciriano,I., Murrell,D.S., Chetrit,B., Bender,A., Malliavin,T. and Ballester,P.J. bioRxiv, 10.1101/105478 

L’équipe

Cette équipe a été créée avec l'arrivée du Dr Pedro Ballester au CRCM en octobre 2014. Nous sommes intéressés par des candidatures pour des postes permanents de recherche CR (chargé de recherche) à l'Inserm ou au CNRS, ainsi que pour des candidats postdoctorants (qui pourront postuler pour des financements Marie Curie ou HFSP par exemple). Les candidatures de doctorants sont aussi bienvenues. Les candidats potentiels doivent envoyer une explication concise de leurs intérêts de recherche et un CV accompagné d’une liste de publications à pedro.ballester(at)inserm(dot)fr

Les membres actuels de l'équipe le sont : Dr Pavel Sidorov (postdoc 2017-19), Mme Linh Nguyen (doctorante 2016-19), Mme Alexandra Bomane (doctorante 2016-19), M. Adeolu Ogunleye (doctorant 2018-21), M. Amad Diouf (étudiant M2 2019), M. Louison Fresnais (étudiant M2 2019) et Dr Pedro Ballester (PI, titulaire).

Les anciens membres de l'équipe sont : Stefan Naulaerts (postdoc 2017-18), Cuong Dang (postdoc 2015-17), Antonio Peon (postdoc 2015-17), Elva Novoa (doctorante 2016), Fahmida Ahmad (doctorante 2016), Hongjian Li (postdoc 2015), Michal Zulcinski (étudiant M2 2018) et Nicolas Jaume (étudiant M2 2016).

À propos du chef d'équipe

Le Dr Ballester est auteur de 57 articles depuis 2003 (53 publiés, 4 en révision), dont 79% en tant qu'auteur unique ou co-auteur correspondant. Lorsqu'on se limite aux articles évalués par des pairs qui occupent des postes de premier plan, soit comme premier auteur, soit comme auteur correspondant, son h-index est 21 (Source : Google Scholar). Ses trois plus importantes subventions à ce jour à titre de chercheur principal sont les suivantes : 2017-19 ANR Tremplin-ERC (France ; 130 000 €), 2015-17 Chaire d'excellence A*MIDEX (France ; 235 000 €) et 2010-14 MRC Methodology Research Fellowship (Royaume-Uni ; 400 905 £). En outre, il a collecté des fonds pour 2 bourses de doctorat dans le cadre de programmes régionaux (2016, 2019) et a également obtenu 4 bourses de doctorat dans le cadre de programmes bilatéraux internationaux entre la France et les Etats-Unis : Vietnam (2015), Mexique (2016), Pakistan (2016), Nigeria (2018). Référent d'organismes de financement (ANR France, ANEP Espagne, ANEP Espagne, NOSR Pays-Bas, FNS Suisse, FNS Suisse, ISF Israël, FNR Luxembourg, etc.), il est également éditeur et réviseur pour plusieurs revues (certifié ici: publons.com/author/975063/).

Vous trouverez de plus amples informations dans son CV [PDF]

Formation et expérience

  • 2016:           HDR, Aix-Marseille Université, France.
  • 2015-:         Chef d’équipe, CRCM – Marseille, France.
  • 2014-:         Chercheur CR1 Inserm, France.
  • 2010-2014: Post doc MRC Methodology Research Fellow à EMBL-EBI, UK.
  • 2009-2010: postdoc à University of Cambridge, UK.
  • 2005-2008: postdoc à University of Oxford, UK.
  • 2001-2005: thèse à l’Imperial College London, UK.
  • 2000-2001: Masters à King’s College London, UK.

Financements, sociétés et comités de relecture

  • 2017: ANR TREMPLIN-ERC.
  • 2015: A*MIDEX Chaire d’Excellence.
  • 2014: poste CR1 Inserm
  • 2014: membre du comité de relecture de plusieurs agences (ex : ANR en France, ANEP en Espagne, BBSRC au UK).
  • 2011: Bourse post doctorale du Wolfson College Cambridge , UK.
  • 2010: Bourse post doctorale du MRC Methodology Research Fellow, UK.
  • 2007: Bourse doctorale du St Cross College Oxford, UK.
  • 2000: Bourse doctorale de la Sa Nostra Foundation.

[dernière mise à jour: Avril 2019]