Il ritmo del cambiamento nell’ambito della IA è straordinariamente veloce e il mercato è in grande espansione. Le ultime versioni del sistema di ChatGPT (GPT-3.5 e GPT-4) dispongono sia della possibilità di comunicare verbalmente con il chatbot, sia della capacità di riconoscere e descrivere le immagini.

In particolare, GPT-4V (GPT-4 Vision), integra l’elaborazione del linguaggio naturale e la computer vision.

Grazie a questa nuova funzionalità, caricando o scattando una foto direttamente da ChatGPT, il sistema è in grado di identificare, descrivere dettagliatamente l'immagine e rispondere a domande o quesiti su di essa, ad esempio sui monumenti di una nuova città o Paese.

In teoria, si potrebbe fare lo stesso con la foto di una persona, ad esempio per aiutare i non vedenti a riconoscere un interlocutore, ma ciò potrebbe portare a violazioni della privacy. Per questo motivo, OpenAI ha posto dei paletti per rifiutare questo tipo di richieste. Di fronte alla foto di una persona (anche famosa), il chatbot dirà che è “programmato per dare priorità alla riservatezza e alla sicurezza degli utenti”. Allo stesso modo, se gli si presentano immagini pornografiche, ChatGPT si limiterà a descrivere gli elementi “soft”, non espliciti, come i tatuaggi. Si teme peraltro che gli hacker possano essere in grado di aggirare questi limiti etici, con possibili conseguenze estremamente negative.

GPT-4V è inoltre in grado di estrarre dati da grafici, tabelle, modelli e diagrammi in qualsiasi formato e di rispondere alle richieste correlate, rendendo il modello di IA potenziale risorsa per analisti di dati e altri professionisti.

In ambito medico, la capacità di GPT-4V di decifrare e analizzare criticamente le immagini può supportare soprattutto quelli che E. Topol definisce medici dei pattern, cioè i professionisti che basano il loro lavoro sull’interpretazione di immagini digitali, radiologiche, retiniche, istologiche, oculistiche, dermatologiche, endoscopiche o provenienti dai vari dispositivi.

La nuova versione di ChatGPT sarà distribuita entro la fine del 2023, ma non si sa ancora quando. Come al solito, gli utenti della versione a pagamento ChatGPT Plus dovrebbero essere i primi a beneficiarne.

L'evoluzione di ChatGPT in una piattaforma multimodale non solo spalanca le porte a un universo di applicazioni innovative, ma solleva anche questioni cruciali relative alla privacy, all’equità e alla sicurezza degli utenti. Nonostante le sue impressionanti caratteristiche, GPT-4V presenta infatti alcune limitazioni, per esempio delle imprecisioni quando si tratta di leggere dettagli minuti o caratteri mancanti. Nell'imaging medico, il software può fornire risposte incoerenti portando a errate conclusioni, le cosiddette “allucinazioni”. La stessa OpenAI sconsiglia l'utilizzo di GPT-4V per interpretazioni in situazioni critiche, soprattutto in contesti medici o sensibili.

Chi ha potuto provare il modello riferisce che nonostante la potenza di questo strumento per la ricerca di informazioni, è meglio non fidarsi immediatamente delle sue risposte: «ChatGPT ha scambiato il multivitaminico che prendo quotidianamente per una pillola contro la disfunzione erettile».

In conclusione, i passi da gigante di GPT-4V sono impressionanti per non dire sconvolgenti, mostrando molte promesse in settori difficili come la medicina e la scienza in generale. Il modello può rivoluzionare i settori più svariati compresa l’assistenza sanitaria.

La strada verso l’adozione su larga scala è peraltro ancora lunga e costellata di sfide, etiche e di sicurezza. Sono ancora possibili errori e imprecisioni che in ambito medico potrebbero condurre a catastrofiche conseguenze. È pertanto fondamentale equilibrare la spinta innovativa con i possibili rischi, assicurando che l’uso di tali strumenti sia non solo tecnologicamente avanzato, ma anche sicuro, etico e rispettoso dei diritti, della dignità e della sicurezza degli utenti.

Bibliografia

Mittal A., Multimodal AI Evolves as ChatGPT Gains Sight with GPT-4V(ision).
Rogers R., Il nuovo ChatGPT fa paura, in tutti i sensi.
Topol E., Deep Medicine: how Artificial Intelligence Can Make Healthcare Human Again, 2019.
Wodecki B., The 'Remarkable' AI Model Behind ChatGPT’s New Multimodal Powers.
Zhengyuan Y. et al., The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision), arXiv:2309.17421v1.