HealthBench : les scores de référence de l'IA médicale d'OpenAI expliqués – et ce qu'ils signifient pour l'IA clinique
OpenAI décrit HealthBench comme « une nouvelle référence conçue pour mieux mesurer les capacités des systèmes d’IA pour la santé ». Il délivre des scores basés sur un ensemble de plus de 48 000 critères rédigés par des médecins et pertinents pour la conversation. Ces conversations peuvent appartenir à l'une des 7 catégories définies par HealthBench, depuis les références d'urgence et les tâches de données de santé jusqu'à la demande de contexte ou l'identification d'une incertitude. De plus, chaque critère est ensuite noté en fonction de facteurs tels que l'exactitude, la clarté et l'exhaustivité, ce qui inclut des recommandations sur les meilleures actions à suivre.
Dans un document de recherche accompagnant la version HealthBench, OpenAI rapporte « des progrès initiaux constants… et des améliorations récentes plus rapides » dans les performances et la sécurité des modèles.
Les recherches indépendantes ont été plus mitigées. Un article affirme que HealthBench « est fiable et s’aligne bien sur les évaluations des médecins », mais note qu’il manque « d’évaluations des interactions cliniques en temps réel ou de mesures des résultats cliniques en aval ». Un deuxième article décrit HealthBench comme une « avancée significative dans l’analyse comparative de l’IA médicale », mais note une sous-représentation des maladies rares et une incapacité à évaluer les flux de travail longitudinaux, « limitant les connaissances sur l’impact de l’IA sur l’ensemble du continuum de soins ».
Ghane dit qu'il est important de se rappeler que les références telles que HealthBench ne remplacent pas directement les preuves du monde réel. « Les scores reflètent les performances dans des environnements simulés et doivent être interprétés en parallèle avec les tests locaux réels, l'intégration des flux de travail et la sécurité », dit-elle. « Les systèmes de santé ne devraient pas s’appuyer entièrement sur des critères de référence pour les décisions de déploiement ; ils devraient constituer l’un des nombreux indicateurs utilisés pour éclairer l’achat d’IA. »
Considérations sur le déploiement en entreprise : Claude, Gemini et OpenAI
Parallèlement, ces derniers mois, chacun des principaux acteurs du LLM a lancé un ensemble de produits basés sur l'IA destinés aux hôpitaux et aux systèmes de santé. Chaque offre est un peu différente et il est important que les organisations comprennent cette nuance lorsqu'elles évaluent les outils d'IA d'entreprise. « Ce qui compte le plus, c'est la façon dont une solution fonctionne sur vos patients uniques, le contexte d'utilisation, les données et les flux de travail », explique Ghane.
Claude pour la Santé. Claude peut s'appuyer sur des « systèmes et bases de données conformes aux normes de l'industrie », ainsi que sur le registre national des identifiants des fournisseurs, la base de codes CIM-10 et les bases de données de détermination de la couverture. Les organisations peuvent déployer des agents IA pour une autorisation préalable et un échange de données Fast Healthcare Interoperability Resources, qui présentent des options pour automatiser une gamme de processus administratifs.
Gémeaux 3.0. Aashima Gupta, directeur mondial des soins de santé pour Google Cloud, suggère dans un article sur LinkedIn que le différenciateur de Gemini est la multimodalité, ou la capacité de rassembler « du texte, de la voix, des images, des formes d'onde, des analyses, des données génomiques, des directives cliniques et des données opérationnelles ». Cela peut être utilisé pour prendre en charge les recommandations d’action les plus appropriées. Gemini 3.0 comprend également des agents d'IA pour automatiser les flux de travail dans les applications métier.
Technologie de la santé
