Machine learning pour la création d’outils de stratification pronostiques puissants à partir de données d’échocardiographie

Dr Théo Pezel
Service de cardiologie
CHU Lariboisière, AP-HP,
Unité INSERM-UMR 942
Paris
Nous venons de voir, à travers les différents articles de ce dossier spécial, à quel point l’utilisation de l’intelligence artificielle (IA) permet d’améliorer la robustesse des mesures réalisées en imagerie cardiovasculaire, et particulièrement en échocardiographie.
Mais, au-delà de cet apport direct lors de la réalisation de l’imagerie, l’utilisation de l’intelligence artificielle a également permis de révolutionner la façon d’analyser et de traiter l’ensemble des mesures réalisées. En effet, une fois que l’échographie cardiaque est réalisée avec ses plusieurs dizaines de paramètres mesurés et ses diagnostics posés, comment ces différentes entités doivent-elles être agencées entre elles pour offrir la meilleure stratification du risque cardiovasculaire de nos patients ?
Le machine learning est une façon efficace d’adresser cette question, et nous allons voir, à travers cet article, les grands principes de cette analyse de données issues de l’imagerie cardiovasculaire.
Identifier les paramètres d’intérêt
La création d’un outil de stratification du risque cardiovasculaire utilisant des algorithmes de machine learning passe par deux étapes importantes (Figure 1) :
- Identification des variables d’intérêt (= feature selection) : l’IA sélectionne les variables les plus intéressantes pour stratifier le risque CV du patient.
- Construction du modèle avec création d’un score (= model building) : création par l’IA d’une formule mathématique plus ou moins complexe proposant l’association des variables d’intérêt sélectionnées la plus efficace pour prédire la survenue d’évènements.
Figure 1 : Exemple de la création d’un score de machine learning incluant des paramètres cliniques, biologiques et d’imagerie (d’après Pezel T et al. JACC CV imaging, 2021, in press1)
Étape 1 : Identifier les paramètres d’intérêt
La première étape importante lorsque l’on cherche à proposer une stratification efficace du risque cardiovasculaire du patient consiste à identifier les variables nécessaires et pertinentes à cette stratification.
Il existe ainsi différents algorithmes de machine learning, dont le plus classique est le Random survival Forest, permettant d’identifier les variables d’intérêt au sein d’une longue liste de paramètres cliniques, biologiques et échocardiographiques (fréquemment une centaine de paramètres analysés) (Figure 2).
De plus, il est essentiel de mentionner la notion de « colinéarité entre les variables », correspondant au fait que deux variables peuvent être étroitement liées, comme par exemple, en échocardiographie, le volume télédiastolique du ventricule gauche et la FEVG. En effet, dans notre sélection finale de variables permettant de stratifier le risque cardiovasculaire des patients, il sera important de ne pas associer des variables dites « colinéaires » pour ne pas faire « doublon de l’information », ce qui peut diminuer la performance finale du modèle.
Cette étape d’identification des variables d’intérêt pour la construction d’un outil de stratification pronostique puissant est absolument cruciale.
Figure 2 : Exemple de la sélection des variables d’intérêt en fonction d’un algorithme d’IA appelé Random survival Forest.
Identification des 10 paramètres les plus importants pour prédire le risque de mortalité des patients parmi une liste de plusieurs dizaines variables cliniques, biologiques et d’imagerie (d’après Pezel T et al. JACC CV imaging, 2021, in press1).
Étape 2 : Construction d’un modèle de stratification pronostique puissant
Une fois que les premiers algorithmes de machine learning nous ont permis d’identifier les variables les plus pertinentes pour prédire le risque de survenue d’évènements cardiovasculaires chez nos patients, nous allons devoir trouver une façon efficace de les agencer entre elles au sein d’un score. En effet, certains paramètres devront être exprimés au carré, ou au cube, ou encore utiliser l’inverse de la racine carrée de la variable… On utilise alors d’autres algorithmes de machine learning pour créer cette formule mathématique, comme par exemple la Multiple Fractional Polynomial (MFP).
L’objectif de ces algorithmes est de produire une formule mathématique, parfois complexe, permettant de tirer le maximum d’informations pronostiques de chacune des variables préalablement identifiées comme pertinentes. Vous obtenez alors un véritable score construit à partir du machine learning !
Il est intéressant de souligner le fait que de nombreuses études récentes montrent que l’ensemble de ces scores construits à l’aide d’outils de machine learning sont systématiquement plus performants pour la stratification pronostique des patients que les modèles traditionnels utilisés jusqu’alors (score de Framingham, score ESC,…).
Conclusion
Ainsi, notre façon de stratifier le risque cardiovasculaire des patients est en pleine mutation, non plus fondée sur l’imagerie cardiovasculaire simplement ou la clinique pure, mais sur des scores radio-clinico-biologiques interprétés et construits à partir de l’intelligence artificielle.
Références :
- Pezel T et al. Machine-learning score using stress CMR for death prediction in patients with suspected or known CAD. JACC Cardiovascular imaging 2021, in press.
Retrouvez l'intégralité du dossier spécial "Intelligence artificielle et échocardiographie"
Ce contenu vous est proposé avec le soutien institutionnel de GE HEALTHCARE