- Accueil
- CardAIc-ECG : annexe
CardAIc-ECG : annexe

Auteur :
Nabil Bouali
Membre du Collège des Cardiologues en Formation,
Tours

Relecture :
Pr Albert Hagège
Paris
ANNEXE
Prérequis & Bases de compréhension en intelligence artificielle
Le machine-learning est une intelligence artificielle (I.A.) ayant pour vocation l’intégration et le traitement automatisés d’informations par un ordinateur. Ce procédé se déroule en deux temps : un premier dédié à l’apprentissage grâce un grand volume de données (big data) ; et un deuxième de décision où le système se base sur son apprentissage pour définir automatiquement la réponse à apporter.
Contrairement à un système expert qui suit des instructions précises, le machine learning apprend à partir de l’expérience et donc ses performances s’améliorent au fil de l'”entraînement”, à mesure que l’algorithme est exposé à davantage de données.
Le Deep learning (apprentissage profond) est une des formes de machine learning, basée sur une architecture particulière : les réseaux neuronaux profonds (DNN).
Ces neurones artificiels constituent des imitations simplistes du neurone humain et fonctionnent en réseaux, où chaque neurone correspond à une fonction mathématique particulière.
Ces derniers ont attisé la curiosité de la communauté internationale à la suite d’avancées remarquables dans le domaine de la vision par ordinateur3 et de la prédiction des structures protéines4.
Les domaines d’applications actuels de ces systèmes sont très variés et vont de la reconnaissance ou la classification d’image à la prédiction de données, ou en encore le filtrage de sets de données.
Cadre analytique : Schéma de construction du réseau neuronal profond
Chaque case / bloc correspond / constitue une opération mathématique particulière, chaque bloc étant connecté en précédant en outpout et au suivant en input.
Dans la construction de l’algorithme d’IA, les différentes étapes sont appliquées de manière itérative :
- Une entrée (Input) :
- permet de faire entrer dans l’algorithme l’ECG qui va être analysé
- Les Residual blocks :
- correspondent à des algorithmes d’extraction des propriétés dans des images avec des paramètres prédéfinis et des paramètres auto-modificables lors du training afin d’améliorer l’efficacité
- permettent d’extraire des caractéristiques (features) d’intérêt
- Le Dropout :
- correspond à une méthode de régularisation de l’entraînement qui consiste à masquer une partie des informations lors de l’entraînement pour entraîner l’algorithme extrapoler malgré des données manquantes
- cette étape permet d’améliorer l’apprentissage mais est exclue de l’algorithme final après la phase de « Training »
- Les Convolutions :
- c’est une méthode très adaptée au traitement des images qui permet de mieux extraire les caractéristiques locales.
- Par exemple, cela permet d’aller analyser, non pas l’ECG dans sa globalité, mais dans des zones très localisées.
- Un Flatten :
- correspond à une phase de réorganisation dimensionnelle des caractéristiques (features extraites qui sont des données 2D car extraites de l’image un vecteur 1D permettant de faire de la régression logistique permettant in fine une étape de classification.
- Une Sortie (Dense-Outpout) :
- permet la sortie d’une réponse
- donne une probabilité de faire de l’insuffisance cardiaque entre 0 et 1 d’après toutes les caractéristiques des images.
Au total, c’est une méthode empirique, codée en langage Python, basée sur la recherche des « meilleurs paramètres » via des essais successifs répétés sur de grandes bases de données.
Au final, l’algorithme utilise donc des paramètres divers et souvent abstraits ; il devient opaque et aboutit à un résultat sans que l'on comprenne comment il y est parvenu : on ne sait pas au final pourquoi ça marche mais ça marche, on ne peut que tester sa performance sur une base de tests sans connaître les raisons de cette performance. C’est l’effet boite noire (Black-Box).
Enfin, l’utilisation d’ADAM, algorithme d’optimisation du DNN par descente de gradients, a permis de minimiser l’erreur en évitant de se bloquer dans un minimum local dans la poursuite de l’apprentissage.
Cette étude vise donc à comparer 3 stratégies diagnostiques :
- Un modèle de régression logistique basée uniquement sur les données cliniques (recueillies à partir du dossier informatisé patient)
- Un modèle de Deep Learning (DNN) basé uniquement sur les ECG.
- Un modèle de Deep Learning combinant les données cliniques et les ECG.
La performance diagnostique sera évaluée en mesurant l’aire sous la courbe ROC (AUC) puis une comparaison de ces méthodes diagnostiques sera effectuée à partir du NRI (index de reclassification net) et de l’IDI (index d’amélioration de la discrimination).
Les ECG inclus dans le « Training » vont être analysés de manière itérative dans une succession d’échecs/réadaptations permettant l’adaptation et l’amélioration des performances au fur et à mesure de l’algorithme et permettant la phase d’apprentissage en machine learning jusqu’à l’obtention du meilleur résultat possible dans une population où l’algorithme est confronté au diagnostic réel effectif et se corrige en permanence en cas d’erreurs de sa part.
La validation interne permet de tester l’algorithme final après apprentissage sur des ECG que celui-ci n’a jamais « analysés » durant sa phase de training afin d’éliminer d’éventuels facteurs de confusion, et d’éprouver la méthode algorithmique élaborée sur des données extérieures à la population d’entraînement ; ce qui est bien le but de cette méthode d’IA.
L’optimisation constitue un type particulier de « Training » un peu plus élaboré, avec niveau de flexibilité supérieur de l’algorithme au niveau de son aptitude à moduler ses paramètres intrinsèques.
Ce contenu vous est proposé avec le soutien institutionnel de :


