L’intelligence artificielle va-t-elle remplacer les infirmières aux urgences ?
Geneviève Perennou | 09 Octobre 2025 https://www.jim.fr/viewarticle/lintelligence-artificielle-va-t-elle-remplacer-2025a1000r7m?ecd=wnl_all_251012_jim_top-jim_
En comparant les décisions d’infirmières des urgences avec trois modèles d’IA, l’IA surpasse l’humain 7 fois sur 10, en particulier pour la concordance aux recommandations, mais manque de nuance. L’IA, une aide précieuse qui ne remplace pas le jugement clinique.
La prise de décision clinique constitue une compétence essentielle dans les services d’urgences, elle exige une évaluation rapide et précise. Avec l’intégration croissante de l’intelligence artificielle générative (IAG) dans le domaine de la santé, quel est son potentiel comme outil d’aide à la décision clinique ?
Une étude observationnelle prospective : les décisions de 82 infirmiers comparées à celles de l’IA
Cette étude compare les décisions cliniques de 82 infirmiers exerçant aux urgences (49 en Italie, 33 en Israël) avec celles de différents modèles d’IAG (Claude‑3.5, ChatGPT‑4.0 et Gemini‑1.5). Chaque participant évaluait la gravité, les décisions d’hospitalisation et le choix des examens de 5 cas cliniques standardisés. L’influence des caractéristiques démographiques et professionnelles sur la précision des décisions était analysée. Leurs décisions ont été comparées à celles des modèles d’IAG à l’aide d’une grille structurée.
Quand l’IA surpasse l’humain
Les modèles d’intelligence artificielle ont montré une précision globale supérieure et un alignement plus fort avec les recommandations d’experts. Cependant, des divergences notables sont apparues pour les décisions d’hospitalisation et l’évaluation de la gravité.
Par exemple, pour le cas clinique n°2, l’IAG a évalué la gravité à 1, tandis que les infirmiers l’ont notée respectivement à 1,98 et 2,23 (p < 0,01). Dans le cas n°1, seulement 4,1 % des infirmiers italiens ont recommandé l’hospitalisation contre 30,3 % des Israéliens, alors que tous les modèles d’IAG l’ont préconisée.
Les infirmiers ont montré une plus grande variabilité, reflet de l’intuition clinique et du raisonnement contextuel. Les variables démographiques n’ont pas significativement influencé la précision des décisions.
Globalement, les modèles d’IAG ont surpassé les infirmiers 7 fois sur 10, avec une cohérence interne élevée et une forte concordance avec les recommandations expertes. Les infirmiers italiens ont obtenu de meilleures performances que leurs homologues israéliens, mais tous les participants humains ont montré plus de variabilité, illustrant l’adaptation au contexte clinique. Claude‑3.5 et ChatGPT‑4.0 ont été plus constants, tandis que Gemini‑1.5 variait davantage selon les cas.
L’irremplaçable jugement clinique
Chez les infirmiers, les corrélations indiquent que l’évaluation de la gravité et la décision d’hospitalisation sont fortement liées, révélant un raisonnement clinique sensible au contexte. Les modèles d’intelligence artificielle ont suivi une approche plus standardisée, avec tendance à surévaluer la gravité et recommander systématiquement l’hospitalisation, ce qui reflète un biais conservateur visant à minimiser les risques, mais susceptible d’engorger les ressources.
PUBLICITÉ
Ces résultats suggèrent que l’intelligence artificielle peut structurer et uniformiser certains aspects de la prise de décision, mais qu’elle ne remplace pas le jugement humain, indispensable pour intégrer le contexte, les préférences des patients et les dimensions éthiques. L’intégration de l’intelligence artificielle en soins infirmiers nécessite donc une supervision humaine, des garde-fous éthiques et une formation à la « littératie en intelligence artificielle ».
Plusieurs limites doivent être notées : recours à des cas simulés, absence de randomisation des scénarios et possible influence des facteurs culturels ou organisationnels nationaux. Des études longitudinales en contexte clinique réel sont nécessaires pour confirmer la pertinence et les implications de l’intelligence artificielle dans les soins infirmiers.
Les modèles de type LLM peuvent égaler, voire dépasser, la performance d’infirmiers expérimentés dans des scénarios standardisés. Cependant, leur rigidité et leur manque de sensibilité contextuelle confirment le rôle irremplaçable du jugement humain. L’avenir semble résider dans une approche hybride, combinant robustesse algorithmique et expertise adaptative des infirmiers, dans un cadre éthique et pédagogique approprié.
References
Levin C, Zaboli A, Turcato G, Saban M. Nursing judgment in the age of generative artificial intelligence: A cross-national study on clinical decision-making performance among emergency nurses. Int J Nurs Stud. 2025 Sep 12;172:105216. doi: 10.1016/j.ijnurstu.2025.105216.
Lead image credit: ID 369243300 © Petro Temchenko | Dreamstime.com
© 2025 WebMD, LLC