Esplorare la capacità dei modelli linguistici di grandi dimensioni (LLM) di ragionare su questioni mediche: approfondimenti da uno studio sull’intelligenza artificiale (AI) in Danimarca

Fonte: https://arxiv.org/pdf/2207.08143.pdf

Il campo dell’elaborazione del linguaggio naturale si è notevolmente trasformato negli ultimi anni. Questo cambiamento è evidente anche nel modo in cui i dati testuali sono rappresentati; ad esempio, da qualche anno, rappresentazioni profondamente contestualizzate hanno sostituito semplici vettori di parole. L’architettura del trasformatore e la sua grande interoperabilità con la tecnologia di calcolo parallelo è la forza trainante fondamentale dietro questo cambiamento significativo. I modelli di linguaggio di grandi dimensioni (LLM), che sono essenzialmente modelli di linguaggio Transformer pre-addestrati, aumentano significativamente le capacità di ciò che i sistemi possono realizzare con il testo. Molte risorse sono state accantonate per ridimensionare questi LLM e addestrarli su gigabyte di testo utilizzando centinaia di miliardi di parametri. Grazie a questo progresso nell’intelligenza artificiale, i ricercatori possono ora creare sistemi più intelligenti con una comprensione del linguaggio più profonda che mai.

Sebbene gli LLM abbiano ottenuto un notevole successo in passato, le loro prestazioni in situazioni del mondo reale che richiedono acute capacità di ragionamento e competenza in materia sono ancora un territorio inesplorato. Per saperne di più, un team di ricercatori dell’Università tecnica della Danimarca e dell’Università di Copenaghen ha collaborato con l’ospedale universitario di Copenaghen per esaminare la possibilità di utilizzare GPT-3.5 (Codex e InstructGPT) per rispondere e ragionare sulle sfide domande del mondo reale. I ricercatori hanno optato per due ricercate domande di esami medici a scelta multipla, USMLE e MedMCQA, e un set di dati medico basato su abstract denominato PubMedQA. Il team ha esaminato diverse situazioni di suggerimento, tra cui il suggerimento a colpo zero e a pochi colpi (preponendo la domanda con esempi di domanda-risposta), il suggerimento diretto o Chainof-Thought (CoT) e l’aumento del recupero, che comporta l’inserimento di estratti da Wikipedia nel richiesta.

Mentre studiavano la variazione a colpo zero, i ricercatori hanno esaminato i suggerimenti diretti e il CoT a colpo zero. A differenza del prompt diretto, che richiede solo un passaggio di completamento per ottenere la risposta, il framework CoT zero-shot utilizza una tecnica di prompt in due passaggi. Nella prima fase viene utilizzato un prompt di ragionamento iniziale con un segnale CoT e nella seconda viene utilizzato un prompt estrattivo che contiene la risposta completa. L’apprendimento a pochi colpi è stata la seconda variazione di ingegneria rapida che i ricercatori hanno esaminato. Il team ha provato a inserire triplette di domande, spiegazioni e risposte, oltre a coppie di domande e risposte campione. Il modello del precedente colpo zero-prompt è stato riutilizzato per ogni colpo, ma la spiegazione generata è stata sostituita con quelle fornite.

Gli LLM hanno la capacità di memorizzare frammenti di conoscenza specifici nascosti nei dati di addestramento. Tuttavia, i modelli spesso non riescono a utilizzare correttamente queste informazioni durante le previsioni. Per affrontare questo problema, i ricercatori di solito basano le loro previsioni sulle conoscenze esistenti. Il team ha incorporato questa strategia studiando se l’accuratezza del modello linguistico viene migliorata quando viene fornito più contesto. Gli estratti di Wikipedia sono serviti come base di conoscenza per questo esperimento.

Dopo molteplici valutazioni sperimentali, i ricercatori hanno concluso che InstructGPT a colpo zero ha superato di gran lunga le linee di base BERT raffinate. Il suggerimento CoT si è rivelato una strategia efficace in quanto ha prodotto risultati migliori e previsioni più comprensibili. Sui tre set di dati, Codex 5-shot CoT si comporta a un livello paragonabile alle prestazioni umane con 100 campioni. Sebbene InstructGPT e Codex siano ancora soggetti a errori (principalmente a causa di ignoranza ed errori logici), questi possono essere evitati campionando e unendo molti completamenti.

In poche parole, gli LLM possono comprendere bene argomenti medici difficili ricordando spesso informazioni di dominio esperto e impegnandosi in processi di ragionamento non banali. Nonostante questo sia un primo passo importante, c’è ancora molta strada da fare. L’utilizzo di LLM in ambito clinico richiederà metodi più affidabili e prestazioni ancora più elevate. Finora i ricercatori hanno identificato solo un tipo di pregiudizio, vale a dire che la sequenza delle scelte di risposta influenza le previsioni. Tuttavia, potrebbero esserci molti altri pregiudizi di questo tipo, inclusi quelli nascosti nei dati di addestramento, che potrebbero influire sui risultati del test. Il lavoro attuale del team si concentra su quest’area.


Dai un’occhiata al Carta e Github. Tutto il merito di questa ricerca va ai ricercatori di questo progetto. Inoltre, non dimenticare di iscriverti la nostra pagina Reddit e canale discordiadove condividiamo le ultime notizie sulla ricerca sull’IA, fantastici progetti di intelligenza artificiale e altro ancora.


Khushboo Gupta è uno stagista di consulenza presso MarktechPost. Attualmente sta perseguendo il suo B.Tech presso l’Indian Institute of Technology (IIT), Goa. È appassionata di Machine Learning, Natural Language Processing e Web Development. Le piace imparare di più sul campo tecnico partecipando a diverse sfide.


Ti presentiamo Hailo-8™: un processore AI che utilizza la visione artificiale per la reidentificazione di più persone con più telecamere (sponsorizzato)

Leave a Comment

Your email address will not be published. Required fields are marked *