Il dialogo medico-paziente è un pilastro della medicina, nel quale una comunicazione abile e intenzionale guida diagnosi, gestione, empatia e fiducia. I sistemi di intelligenza artificiale capaci di dialoghi diagnostici potrebbero aumentare la disponibilità , l'accessibilità , la qualità e la coerenza delle cure essendo utili partner conversazionali sia per i clinici che per i pazienti. Tuttavia, avvicinarsi all'expertise considerevole dei clinici è una sfida significativa.
I recenti progressi nei grandi modelli linguistici al di fuori del dominio medico hanno dimostrato che possono pianificare, ragionare e utilizzare contesti rilevanti per sostenere conversazioni ricche. Tuttavia, ci sono molti aspetti di un buon dialogo diagnostico che sono unici nel campo medico. Un clinico efficace raccoglie una "storia clinica" completa e pone domande intelligenti che aiutano a creare una diagnosi differenziale. Hanno notevole abilità nel favorire una relazione efficace, fornire informazioni chiaramente, prendere decisioni congiunte e informate con il paziente, rispondere empaticamente alle loro emozioni e sostenerli nei passaggi successivi delle cure. Sebbene i grandi modelli linguistici possano eseguire con precisione compiti come la riassunzione medica o rispondere a domande mediche, c'è stato poco lavoro specificamente mirato allo sviluppo di queste capacità diagnostiche conversazionali.
Ispirati da questa sfida, i ricercatori hanno sviluppato Articulate Medical Intelligence Explorer (AMIE), un sistema AI di ricerca basato su un grande modello linguistico e ottimizzato per il ragionamento e le conversazioni diagnostiche.
I ricercatori hanno addestrato e valutato AMIE su molte dimensioni che riflettono la qualità nelle consultazioni cliniche del mondo reale dal punto di vista sia dei clinici che dei pazienti. Per scalare AMIE su una moltitudine di condizioni patologiche, specialità e scenari, è stato sviluppato un nuovo ambiente di dialogo diagnostico simulato basato su auto-gioco con meccanismi di feedback automatico per arricchire e accelerare il suo processo di apprendimento. È stata anche introdotta una strategia di catena di ragionamento durante l'inferenza per migliorare l'accuratezza diagnostica e la qualità della conversazione di AMIE. Infine, AMIE è stato testato in modo prospettico in esempi reali di dialogo a più turni simulando consulenze con attori addestrati.
Valutazione dell'AI diagnostico conversazionale
Oltre allo sviluppo e all'ottimizzazione dei sistemi AI stessi per le conversazioni diagnostiche, rimane una questione aperta anche come valutare tali sistemi. Ispirandosi agli strumenti accettati utilizzati per misurare la qualità delle consulenze e le competenze comunicative cliniche nell'ambiente reale, i ricercatori hanno costruito un prototipo di valutazione pilota per valutare le conversazioni diagnostiche lungo assi relativi alla raccolta della storia, all'accuratezza diagnostica, alla gestione clinica, alle abilità comunicative cliniche, alla promozione della relazione e all'empatia.
È stato quindi progettato uno studio randomizzato, in doppio cieco, di consultazioni basate su testo con attori pazienti convalidati che interagivano sia con medici di medicina generale certificati (PCP) che con il sistema AI ottimizzato per il dialogo diagnostico. Sono state impostate le nostre consulenze nello stile di un esame clinico strutturato obiettivo (OSCE), una valutazione pratica comunemente utilizzata nel mondo reale per esaminare le competenze e le competenze dei clinici in modo standardizzato e oggettivo. In un tipico OSCE, i clinici potrebbero ruotare attraverso diverse stazioni, ciascuna simulando uno scenario clinico reale dove eseguono compiti come condurre una consultazione con un attore paziente standardizzato (addestrato attentamente per emulare un paziente con una particolare condizione). Le consulenze sono state effettuate utilizzando uno strumento di chat testuale sincrono, imitando l'interfaccia familiare alla maggior parte dei consumatori che utilizzano oggi i LLM.
AMIE: un sistema AI di ricerca diagnostica conversazionale basato su LLM
Abbiamo addestrato AMIE su set di dati del mondo reale che comprendevano ragionamento medico, riassunto medico e conversazioni cliniche del mondo reale.
È fattibile addestrare LLM utilizzando dialoghi del mondo reale sviluppati raccogliendo passivamente e trascrivendo visite cliniche in persona, tuttavia, due sfide sostanziali limitano la loro efficacia nell'addestrare LLM per conversazioni mediche. In primo luogo, i dati reali esistenti spesso non riescono a catturare la vasta gamma di condizioni mediche e scenari, ostacolando la scalabilità e la completezza. In secondo luogo, i dati derivati dalle trascrizioni di dialoghi del mondo reale tendono ad essere rumorosi, contenenti linguaggio ambiguo (incluso gergo, giargone, umorismo e sarcasmo), interruzioni, enunciati non grammaticali e riferimenti impliciti.
Per affrontare queste limitazioni, i ricercatori hanno progettato un ambiente di apprendimento simulato basato su auto-gioco con meccanismi di feedback automatico per il dialogo medico diagnostico in un contesto di assistenza virtuale, consentendo di scalare la conoscenza e le capacità di AMIE su molte condizioni mediche e contesti. È stato utilizzato questo ambiente per perfezionare iterativamente AMIE con un insieme in evoluzione di dialoghi simulati oltre al corpus statico di dati del mondo reale descritto.
Questo processo consisteva in due loop di auto-gioco: un loop di auto-gioco "interno", dove AMIE sfruttava il feedback del critico in contesto per raffinare il suo comportamento su conversazioni simulate con un simulatore di pazienti AI; e un loop di auto-gioco "esterno" dove l'insieme di dialoghi simulati raffinati veniva incorporato nelle iterazioni di affinamento successivo. La nuova versione risultante di AMIE poteva quindi partecipare nuovamente al loop interno, creando un ciclo di apprendimento continuo virtuoso.
Inoltre, è stata impiegata anche una strategia di catena di ragionamento durante l'inferenza che ha permesso ad AMIE di affinare progressivamente la sua risposta condizionata sulla conversazione attuale per giungere a una risposta informata e fondata.
Sono state testate le prestazioni in consulenze con pazienti simulati (interpretati da attori addestrati), confrontandole con quelle eseguite da 20 veri PCP utilizzando l'approccio randomizzato descritto in precedenza. AMIE e i PCP sono stati valutati dal punto di vista sia dei medici specialisti partecipanti che dei nostri pazienti simulati in uno studio randomizzato, in doppio cieco, che ha incluso 149 scenari clinici da fornitori di OSCE in Canada, nel Regno Unito e in India in una vasta gamma di specialità e malattie.
Va notato che lo studio non è stato progettato per emulare né le valutazioni tradizionali OSCE in persona né i modi in cui i clinici usano di solito il testo, l'email, la chat o la telemedicina. Invece, l'esperimento ha riflesso il modo più comune in cui i consumatori interagiscono oggi con i LLM, un meccanismo potenzialmente scalabile e familiare per i sistemi AI per impegnarsi in un dialogo diagnostico remoto.
Prestazioni di AMIE
In questo contesto, è emerso che AMIE ha svolto conversazioni diagnostiche simulate tanto bene quanto i PCP quando entrambi sono stati valutati lungo più assi clinicamente significativi di qualità della consultazione. AMIE ha avuto una maggiore accuratezza diagnostica e una performance superiore per 28 dei 32 assi dal punto di vista dei medici specialisti e 24 dei 26 assi dal punto di vista degli attori pazienti.
Limitazioni
La nostra ricerca ha diverse limitazioni e dovrebbe essere interpretata con la cautela appropriata. In primo luogo, la nostra tecnica di valutazione probabilmente sottostima il valore del mondo reale delle conversazioni umane, poiché i clinici nel nostro studio erano limitati a un'interfaccia di chat testuale sconosciuta, che consente interazioni LLM-paziente su larga scala ma non è rappresentativa della pratica clinica usuale. In secondo luogo, qualsiasi ricerca di questo tipo deve essere considerata solo come un primo passo esplorativo in un lungo percorso. Passare da un prototipo di ricerca LLM che abbiamo valutato in questo studio a uno strumento sicuro e robusto che potrebbe essere utilizzato dalle persone e da coloro che forniscono cure per loro richiederà ulteriori ricerche significative. Ci sono molte importanti limitazioni da affrontare, compresa la performance sperimentale sotto vincoli del mondo reale e l'esplorazione dedicata di argomenti così importanti come l'equità e l'equità della salute, la privacy, la robustezza e molti altri, per garantire la sicurezza e l'affidabilità della tecnologia.
AMIE come supporto ai clinici
In un preprint recentemente pubblicato, è stata valutata la capacità di una precedente iterazione del sistema AMIE di generare una DDx da sola o come supporto ai clinici. 20 clinici generalisti hanno valutato 303 casi medici reali e impegnativi provenienti dalle Conferenze ClinicoPatologiche (CPC) del New England Journal of Medicine (NEJM). Ciascun rapporto di caso è stato letto da due clinici randomizzati in una delle due condizioni di supporto: assistenza da motori di ricerca e risorse mediche standard, o assistenza AMIE in aggiunta a questi strumenti. Tutti i clinici hanno fornito una DDx di base, non assistita, prima di utilizzare gli strumenti di supporto rispettivi.
AMIE ha mostrato una performance autonoma che ha superato quella dei clinici non assistiti (accuratezza nella top-10 del 59,1% vs. 33,6%, p= 0,04). Confrontando le due braccia di studio assistite, l'accuratezza nella top-10 era più alta per i clinici assistiti da AMIE, rispetto ai clinici senza assistenza AMIE (24,6%, p<0,01) e ai clinici con ricerca (5,45%, p=0,02). Inoltre, i clinici assistiti da AMIE sono arrivati a elenchi differenziali più completi rispetto a quelli senza assistenza AMIE.
È importante notare che le CPC del NEJM non sono rappresentative della pratica clinica quotidiana. Si tratta di resoconti di casi insoliti in poche centinaia di individui, quindi offrono una limitata portata per esaminare questioni importanti come equità o equità .
L'accesso all'esperienza clinica rimane scarsa in tutto il mondo. Sebbene l'AI abbia mostrato grandi promesse in specifiche applicazioni cliniche, il coinvolgimento nei percorsi diagnostici conversazionali e dinamici della pratica clinica richiede molte capacità non ancora dimostrate dai sistemi AI. I medici maneggiano non solo conoscenza e competenza ma anche una dedizione a innumerevoli principi, inclusi sicurezza e qualità , comunicazione, partnership e lavoro di squadra, fiducia e professionalità . Realizzare questi attributi nei sistemi AI è una sfida stimolante che dovrebbe essere affrontata in modo responsabile e con cura. AMIE è l'esplorazione dell'"arte del possibile", un sistema di ricerca per esplorare in modo sicuro una visione del futuro in cui i sistemi AI potrebbero essere meglio allineati agli attributi dei clinici qualificati affidati alle nostre cure. Si tratta di un lavoro sperimentale iniziale, non un prodotto, e presenta diverse limitazioni che meritano studi scientifici rigorosi ed estesi per immaginare un futuro in cui i sistemi AI conversazionali, empatici e diagnostici potrebbero diventare sicuri, utili e accessibili.
Le informazioni di medicina e salute non sostituiscono
l'intervento del medico curante
Questa pagina è stata letta
293523 volte