Description
Date depot: 17 avril 2024
Titre: Amélioration des applications de santé grâce aux techniques d'apprentissage automatique et d'apprentissage profond
Directeur de thèse: Jérémie SUBLIME (LISITE)
Encadrante : Yousra CHABCHOUB (LISITE)
Directeur de thèse: Maurras Ulbricht TOGBE (LISITE)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle
Resumé: Ces dernières années, l'émergence des techniques d'apprentissage automatique (ML) et d'apprentissage profond (DL) a permis des avancées significatives dans divers domaines d'application, notamment celui de la santé. L'intégration des techniques d'apprentissage automatique dans ce domaine a permis de pallier le manque de ressources (médecins, hôpitaux, etc.) en automatisant et en facilitant plusieurs tâches, telles que le diagnostic précoce et précis, la personnalisation du traitement, l'interprétation des images médicales et le suivi des patients (Bharadwaj et al., 2021 ; Sood & Mahajan, 2019). Plusieurs études de recherche se sont concentrées sur l'amélioration de la prédiction des maladies à l'aide de méthodes de ML/DL. Pour prédire la mortalité chez les patients atteints d'iléus paralytique, Ahmed et al. (2023) ont proposé un framework appelé Statistically Robust Machine Learning based Mortality Prediction (SRML-Mortality Predictor). Dans ce framework, les auteurs combinent des méthodes statistiques avec certaines méthodes de classification par apprentissage automatique telles que l'analyse discriminante linéaire (LDA), Gaussian naive bayes (GNB), l'arbre de décision (DT), k-nearest neighbors (KNN), et le support vector machine (SVM). Cette version hybride des méthodes de ML choisies a été testée sur le jeu de données MIMIC III v1.4 de la base de données ICU et a montré de meilleures performances que les méthodes ML classiques. De plus, dans la prédiction du diabète de type 2, Nguyen et al. (2019) ont appliqué plusieurs algorithmes de ML/DL (Logistic regression, extreme gradient boost, multilayer perceptron, recurrent neural network, et attention-based gated recurrent unit) sur un jeu de données contenant des informations sur des patients diabétiques entre 2007 et 2017, collectées auprès d'un hôpital. En raison du déséquilibre présent dans les données, des techniques de suréchantillonnage minoritaire synthétique (SMOTE) ont été utilisées pour traiter les données. Les mesures de performance utilisées sont la précision, la courbe ROC et le score AUC, à la fois sur les données collectées et sur les données traitées par SMOTE. Ge et al. (2019) ont proposé un modèle de prédiction de la pneumonie post-AVC dans lequel différentes méthodes ML/DL ont été utilisées, notamment la régression logistique (LR), le SVM, le eXtreme Gradient Boosting (XGBoost), les méthodes basées sur les réseaux de neurones MLP (perceptron à couches multiples) et les réseaux de neurones récurrents (RNN) notamment attention-based gated recurrent unit (GRU). Les résultats de ces méthodes ont été comparés sur la base de jeux de données issus d'un hôpital public en considérant des métriques comme le score AUC, la durée d'exécution et la précision. En outre, le développement rapide de l'internet des objets, plus précisément dans le domaine de la santé (H-IoT), a généré une énorme quantité de données médicales qui, combinées à l'apprentissage automatique, ouvrent des perspectives et des défis innovants pour améliorer la prestation des soins de santé (Bharadwaj et al., 2021 ; Habehh & Gohel, 2021). De nombreuses études ont montré diverses applications de l'apprentissage automatique et de l'internet des objets (IoT) dans le secteur de la santé (Gupta et al., 2019 ; Gundala et al., 2022). Toutefois, il a été constaté qu'il existe encore quelques petits problèmes, qui peuvent être liés à des données falsifiées, à l'omission de certains facteurs secondaires importants, ainsi qu'à un prétraitement inadéquat (Bharadwaj et al., 2021). Compte tenu de l’importance et de la sensibilité du secteur de la santé, les algorithmes et les plateformes utilisés doivent atteindre un niveau élevé de précision, d'efficacité et de confidentialité. L'objectif de cette thèse est tout d'abord de faire un état de l'art sur l'application des techniques d'apprentissage automatique et d'apprentissage profond au domaine de la santé. Pour ce faire, nous nous concentrerons particulièrement sur les jeux de données numériques et catégorielles qui peuvent être collectées à partir de capteurs H-IoT. Ensuite, nous concevrons et développerons de nouvelles approches pour améliorer les techniques existantes en fournissant une meilleure précision et/ou une plus grande explicabilité des résultats et des décisions obtenus. Ces approches seront validées sur des ensembles de données publiques avec des métriques appropriées. En outre, le résultat proposé devrait être bénéfique pour les patients et les médecins. Il facilitera le diagnostic et le traitement des patients et favorisera une guérison rapide.
Résumé dans une autre langue: In recent years, the emergence of machine learning (ML) and deep learning (DL) techniques has brought significant advancements in various application domains, notably healthcare. The integration of machine learning techniques in the healthcare field has helped to alleviate the lack of resources (doctors, hospitals, etc.) by automating and facilitating several tasks, such as early and accurate diagnosis, treatment personalization, medical image interpretation and patient monitoring (Bharadwaj et al., 2021; Sood & Mahajan, 2019). Several research studies focused on the improvement of the risk disease prediction using ML/DL. To predict mortality in paralytic ileus patients, Ahmed et al., (2023) proposed a framework called Statistically Robust Machine Learning based Mortality Prediction (SRML-Mortality Predictor). In this framework, authors combine statistical methods with some machine learning classification methods such as linear discriminant analysis (LDA), Gaussian naive bayes (GNB), decision tree (DT), k-nearest neighbor (KNN), and support vector machine (SVM). This hybrid version of the chosen ML methods was tested on the MIMIC III v1.4 dataset from ICU database and showed better performances than the classic ML methods. Moreso, in the prediction of type 2 diabetes, Nguyen et al., (2019) applied both ML and DL algorithms (Logistic regression, extreme gradient boost, multilayer perceptron, recurrent neural network, and attention-based gated recurrent unit) on a dataset collected from hospital through electronic health record (EHR), data containing records of diabetes patients between 2007-2017. However, due to imbalance present in the data, synthetic minority oversampling techniques (SMOTE) was used to treat data. The performance metric used were accuracy, ROC curve and AUC score, on both data collected and SMOTE treated data. Ge et al., (2019) proposed prediction model for post stroke pneumonia where different ML/DL methods were used including logistic regression (LR), SVM, extreme gradient boosting (XGBoost), methods based on multiple layer perceptron (MLP) neural networks and recurrent neural networks (RNNs) (i.e., attention-based gated recurrent unit (GRU)). Data from a public hospital through the EHR was collected, where 10-fold cross validation was applied, and the evaluation metric used were AUC score, runtime, and accuracy. Moreover, the fast development of Internet of Things, more precisely Healthcare IoT (H-IoT), generated a huge amount of medical data that, combined with ML, opens innovative opportunities and challenges to enhance health delivery (Bharadwaj et al., 2021; Habehh & Gohel, 2021). Many studies have shown various applications of machine learning along with the internet of things (IoT) in the healthcare sector (Gupta et al., 2019; Gundala et al., 2022). However, it has been identified that there still exist some little glitches, which can be related to falsified data, omission of some important secondary factors as well as inadequate preprocessing (Bharadwaj et al., 2021). Given the importance and the sensitivity of the healthcare sector, the used algorithms and platforms must achieve a high level of accuracy, efficiency and privacy. The aim of this thesis is first to review the state of the art about the application of machine learning and deep learning techniques to the healthcare field. For this purpose, we will particularly focus on numerical and categorical datasets that can be collected from H-IoT sensors. Then we will design and develop new approaches to enhance the existing techniques providing a better precision or more explainability about the obtained results and decisions. These approaches will be validated on public datasets along with suitable evaluation metrics. Moreover, the proposed result is expected to be beneficial to individual patients, and medical practitioners. This will aid the diagnosis and treatment of patients fostering toward rapid recovery.
Doctorant.e: Faluyi Samuel Gbenga
Titre: Amélioration des applications de santé grâce aux techniques d'apprentissage automatique et d'apprentissage profond
Directeur de thèse: Jérémie SUBLIME (LISITE)
Encadrante : Yousra CHABCHOUB (LISITE)
Directeur de thèse: Maurras Ulbricht TOGBE (LISITE)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle
Resumé: Ces dernières années, l'émergence des techniques d'apprentissage automatique (ML) et d'apprentissage profond (DL) a permis des avancées significatives dans divers domaines d'application, notamment celui de la santé. L'intégration des techniques d'apprentissage automatique dans ce domaine a permis de pallier le manque de ressources (médecins, hôpitaux, etc.) en automatisant et en facilitant plusieurs tâches, telles que le diagnostic précoce et précis, la personnalisation du traitement, l'interprétation des images médicales et le suivi des patients (Bharadwaj et al., 2021 ; Sood & Mahajan, 2019). Plusieurs études de recherche se sont concentrées sur l'amélioration de la prédiction des maladies à l'aide de méthodes de ML/DL. Pour prédire la mortalité chez les patients atteints d'iléus paralytique, Ahmed et al. (2023) ont proposé un framework appelé Statistically Robust Machine Learning based Mortality Prediction (SRML-Mortality Predictor). Dans ce framework, les auteurs combinent des méthodes statistiques avec certaines méthodes de classification par apprentissage automatique telles que l'analyse discriminante linéaire (LDA), Gaussian naive bayes (GNB), l'arbre de décision (DT), k-nearest neighbors (KNN), et le support vector machine (SVM). Cette version hybride des méthodes de ML choisies a été testée sur le jeu de données MIMIC III v1.4 de la base de données ICU et a montré de meilleures performances que les méthodes ML classiques. De plus, dans la prédiction du diabète de type 2, Nguyen et al. (2019) ont appliqué plusieurs algorithmes de ML/DL (Logistic regression, extreme gradient boost, multilayer perceptron, recurrent neural network, et attention-based gated recurrent unit) sur un jeu de données contenant des informations sur des patients diabétiques entre 2007 et 2017, collectées auprès d'un hôpital. En raison du déséquilibre présent dans les données, des techniques de suréchantillonnage minoritaire synthétique (SMOTE) ont été utilisées pour traiter les données. Les mesures de performance utilisées sont la précision, la courbe ROC et le score AUC, à la fois sur les données collectées et sur les données traitées par SMOTE. Ge et al. (2019) ont proposé un modèle de prédiction de la pneumonie post-AVC dans lequel différentes méthodes ML/DL ont été utilisées, notamment la régression logistique (LR), le SVM, le eXtreme Gradient Boosting (XGBoost), les méthodes basées sur les réseaux de neurones MLP (perceptron à couches multiples) et les réseaux de neurones récurrents (RNN) notamment attention-based gated recurrent unit (GRU). Les résultats de ces méthodes ont été comparés sur la base de jeux de données issus d'un hôpital public en considérant des métriques comme le score AUC, la durée d'exécution et la précision. En outre, le développement rapide de l'internet des objets, plus précisément dans le domaine de la santé (H-IoT), a généré une énorme quantité de données médicales qui, combinées à l'apprentissage automatique, ouvrent des perspectives et des défis innovants pour améliorer la prestation des soins de santé (Bharadwaj et al., 2021 ; Habehh & Gohel, 2021). De nombreuses études ont montré diverses applications de l'apprentissage automatique et de l'internet des objets (IoT) dans le secteur de la santé (Gupta et al., 2019 ; Gundala et al., 2022). Toutefois, il a été constaté qu'il existe encore quelques petits problèmes, qui peuvent être liés à des données falsifiées, à l'omission de certains facteurs secondaires importants, ainsi qu'à un prétraitement inadéquat (Bharadwaj et al., 2021). Compte tenu de l’importance et de la sensibilité du secteur de la santé, les algorithmes et les plateformes utilisés doivent atteindre un niveau élevé de précision, d'efficacité et de confidentialité. L'objectif de cette thèse est tout d'abord de faire un état de l'art sur l'application des techniques d'apprentissage automatique et d'apprentissage profond au domaine de la santé. Pour ce faire, nous nous concentrerons particulièrement sur les jeux de données numériques et catégorielles qui peuvent être collectées à partir de capteurs H-IoT. Ensuite, nous concevrons et développerons de nouvelles approches pour améliorer les techniques existantes en fournissant une meilleure précision et/ou une plus grande explicabilité des résultats et des décisions obtenus. Ces approches seront validées sur des ensembles de données publiques avec des métriques appropriées. En outre, le résultat proposé devrait être bénéfique pour les patients et les médecins. Il facilitera le diagnostic et le traitement des patients et favorisera une guérison rapide.
Résumé dans une autre langue: In recent years, the emergence of machine learning (ML) and deep learning (DL) techniques has brought significant advancements in various application domains, notably healthcare. The integration of machine learning techniques in the healthcare field has helped to alleviate the lack of resources (doctors, hospitals, etc.) by automating and facilitating several tasks, such as early and accurate diagnosis, treatment personalization, medical image interpretation and patient monitoring (Bharadwaj et al., 2021; Sood & Mahajan, 2019). Several research studies focused on the improvement of the risk disease prediction using ML/DL. To predict mortality in paralytic ileus patients, Ahmed et al., (2023) proposed a framework called Statistically Robust Machine Learning based Mortality Prediction (SRML-Mortality Predictor). In this framework, authors combine statistical methods with some machine learning classification methods such as linear discriminant analysis (LDA), Gaussian naive bayes (GNB), decision tree (DT), k-nearest neighbor (KNN), and support vector machine (SVM). This hybrid version of the chosen ML methods was tested on the MIMIC III v1.4 dataset from ICU database and showed better performances than the classic ML methods. Moreso, in the prediction of type 2 diabetes, Nguyen et al., (2019) applied both ML and DL algorithms (Logistic regression, extreme gradient boost, multilayer perceptron, recurrent neural network, and attention-based gated recurrent unit) on a dataset collected from hospital through electronic health record (EHR), data containing records of diabetes patients between 2007-2017. However, due to imbalance present in the data, synthetic minority oversampling techniques (SMOTE) was used to treat data. The performance metric used were accuracy, ROC curve and AUC score, on both data collected and SMOTE treated data. Ge et al., (2019) proposed prediction model for post stroke pneumonia where different ML/DL methods were used including logistic regression (LR), SVM, extreme gradient boosting (XGBoost), methods based on multiple layer perceptron (MLP) neural networks and recurrent neural networks (RNNs) (i.e., attention-based gated recurrent unit (GRU)). Data from a public hospital through the EHR was collected, where 10-fold cross validation was applied, and the evaluation metric used were AUC score, runtime, and accuracy. Moreover, the fast development of Internet of Things, more precisely Healthcare IoT (H-IoT), generated a huge amount of medical data that, combined with ML, opens innovative opportunities and challenges to enhance health delivery (Bharadwaj et al., 2021; Habehh & Gohel, 2021). Many studies have shown various applications of machine learning along with the internet of things (IoT) in the healthcare sector (Gupta et al., 2019; Gundala et al., 2022). However, it has been identified that there still exist some little glitches, which can be related to falsified data, omission of some important secondary factors as well as inadequate preprocessing (Bharadwaj et al., 2021). Given the importance and the sensitivity of the healthcare sector, the used algorithms and platforms must achieve a high level of accuracy, efficiency and privacy. The aim of this thesis is first to review the state of the art about the application of machine learning and deep learning techniques to the healthcare field. For this purpose, we will particularly focus on numerical and categorical datasets that can be collected from H-IoT sensors. Then we will design and develop new approaches to enhance the existing techniques providing a better precision or more explainability about the obtained results and decisions. These approaches will be validated on public datasets along with suitable evaluation metrics. Moreover, the proposed result is expected to be beneficial to individual patients, and medical practitioners. This will aid the diagnosis and treatment of patients fostering toward rapid recovery.
Doctorant.e: Faluyi Samuel Gbenga