Nowoczesne modele AI w radiologii – przełom w generowaniu raportów medycznych

Wyzwania zastosowania modeli AI w medycynie

Duże modele sztucznej inteligencji mają ogromny potencjał w zastosowaniach biomedycznych. Ich zdolność do analizy danych umożliwia szybkie dostosowanie do nowych zadań przy minimalnej ilości oznaczonych danych. Jednak mimo imponujących wyników, wdrażanie tych modeli w rzeczywistych warunkach klinicznych stanowi poważne wyzwanie. Nawet najnowocześniejsze systemy, takie jak GPT-4V, wykazują znaczne braki w zadaniach wymagających analizy danych multimodalnych, czyli takich, które łączą tekst i obrazy.

Dodatkowym problemem są ograniczenia dostępności tych technologii, wysokie koszty operacyjne oraz skomplikowane procesy oceny poprawności wygenerowanych wyników. Lekarze często nie mają dostępu do wystarczająco precyzyjnych narzędzi, które pozwoliłyby na łatwą i bezpieczną integrację modeli AI z danymi pacjentów.

Multimodalna sztuczna inteligencja a medycyna

Ostatnie postępy w obszarze multimodalnej generatywnej sztucznej inteligencji umożliwiły jednoczesne przetwarzanie tekstu i obrazów, co otworzyło nowe możliwości w dziedzinach takich jak odpowiadanie na pytania dotyczące obrazów medycznych czy automatyczne generowanie raportów radiologicznych. Jednak pomimo tych sukcesów, wdrażanie tych systemów w praktycznej medycynie napotyka liczne trudności.

Modele o dużych wymaganiach obliczeniowych wiążą się z wysokimi kosztami eksploatacji oraz negatywnym wpływem na środowisko. Mniejsze modele multimodalne (SMM – Small Multimodal Models), choć bardziej efektywne pod względem zapotrzebowania na zasoby, wciąż ustępują większym modelom pod względem jakości generowanych wyników. Dodatkowo, brak otwartych modeli oraz skutecznych metod oceny poprawności wygenerowanych treści (zwłaszcza pod kątem unikania tzw. halucynacji AI) utrudnia ich adopcję w środowisku medycznym.

LLaVA-Rad – nowy model AI dla radiologii

Naukowcy z Microsoft Research oraz kilku amerykańskich uniwersytetów opracowali nowy model o nazwie LLaVA-Rad, który reprezentuje przełom w dziedzinie mniejszych modeli multimodalnych. Wraz z nim powstała także nowa metryka oceny poprawności – CheXprompt, pozwalająca na automatyczną weryfikację jakości raportów radiologicznych.

Model LLaVA-Rad koncentruje się na analizie zdjęć rentgenowskich klatki piersiowej (CXR) i automatycznym generowaniu wysokiej jakości raportów medycznych. Do jego treningu wykorzystano ogromny zbiór danych obejmujący 697 435 par obrazów radiologicznych i odpowiadających im raportów, pochodzących z siedmiu różnych źródeł. W sytuacjach, gdy dostępne były jedynie ustrukturyzowane etykiety, do generowania raportów wykorzystano model GPT-4.

Jedną z kluczowych zalet LLaVA-Rad jest jego efektywność obliczeniowa – model działa na pojedynczej karcie graficznej V100, a cały proces treningowy można zakończyć w ciągu jednego dnia na klastrze złożonym z ośmiu kart A100.

Efektywna architektura i przewaga nad konkurencyjnymi modelami

LLaVA-Rad wykorzystuje nowatorską architekturę, która pozwala uzyskać znakomite wyniki przy znacznie mniejszych wymaganiach sprzętowych niż w przypadku konkurencyjnych modeli, takich jak Med-PaLM M. Proces uczenia modelu podzielono na trzy etapy: wstępne szkolenie (pre-training), dopasowanie (alignment) oraz dostrajanie (fine-tuning). Dzięki modularnej strukturze i efektywnemu mechanizmowi adaptacji, model jest w stanie skutecznie łączyć informacje z różnych modalności (tekst i obraz).

Wyniki testów wykazały, że LLaVA-Rad osiąga lepsze rezultaty niż inne modele o podobnej wielkości, np. LLaVA-Med, CheXagent czy MAIRA-1. W kluczowych metrykach oceny raportów radiologicznych model przewyższył Med-PaLM M o 12,1% w wynikach ROUGE-L oraz o 10,1% w metryce F1-RadGraph. Co więcej, LLaVA-Rad utrzymuje wysoką skuteczność niezależnie od zestawu danych, na którym jest testowany – zarówno na znanych zbiorach, takich jak CheXpert i Open-I, jak i na nowych, wcześniej niewidzianych danych.

Praktyczne zastosowanie i przyszłość AI w diagnostyce

Opracowanie modelu LLaVA-Rad to znaczący krok w kierunku integracji nowoczesnej sztucznej inteligencji z praktyką medyczną. Dzięki swojej efektywności oraz otwartości kodu źródłowego, model ten może stać się cennym narzędziem dla lekarzy na całym świecie, ułatwiając generowanie dokładnych i rzetelnych raportów radiologicznych.

Dodatkowo, wprowadzenie metryki CheXprompt pozwala na automatyczną ocenę poprawności raportów, co eliminuje konieczność czasochłonnej ręcznej weryfikacji. Dzięki temu nowy system może znacząco odciążyć specjalistów i zwiększyć efektywność pracy w placówkach medycznych.

Podsumowując, LLaVA-Rad to jeden z najważniejszych kroków w kierunku praktycznego wykorzystania sztucznej inteligencji w diagnostyce obrazowej. Jego modułowa budowa, efektywność oraz wysoka jakość generowanych raportów sprawiają, że ma on potencjał, by zrewolucjonizować sposób, w jaki lekarze interpretują zdjęcia rentgenowskie i inne obrazy medyczne.