Naukowcy oceniają skuteczność ChatGPT w podsumowywaniu abstraktów medycznych

W niedawnym badaniu opublikowanym w The Annals of Family Medicine badacze ocenili skuteczność Chat Generative Pretrained Transformer (ChatGPT) w podsumowywaniu abstraktów medycznych, aby pomóc lekarzom. Badanie miało na celu określenie jakości, dokładności i stronniczości podsumowań generowanych przez ChatGPT, dostarczając wglądu w jego potencjał jako narzędzia do analizowania ogromnych ilości literatury medycznej w obliczu ograniczeń czasowych, z którymi borykają się pracownicy służby zdrowia.

Wysokie oceny za jakość i dokładność

W badaniu wykorzystano ChatGPT do skondensowania 140 abstraktów medycznych z 14 różnych czasopism, zmniejszając zawartość średnio o 70%. Pomimo pewnych nieścisłości i halucynacji wykrytych w niewielkiej części podsumowań, lekarze wysoko ocenili streszczenia pod względem jakości i dokładności. Odkrycia sugerują, że ChatGPT może pomóc lekarzom w skutecznym przeglądaniu literatury medycznej, oferując zwięzłe i dokładne streszczenia wśród przytłaczającej ilości informacji.

Badacze wybrali po 10 artykułów z każdego z 14 czasopism obejmujących różne tematy i struktury medyczne. Zlecili ChatGPT podsumowanie tych artykułów i ocenili wygenerowane streszczenia pod kątem jakości, dokładności, stronniczości i trafności w dziesięciu dziedzinach medycyny. Badanie wykazało, że ChatGPT skutecznie skondensowało streszczenia medyczne średnio o 70%, zdobywając wysokie oceny od recenzentów lekarzy za jakość i dokładność.

Implikacje dla opieki zdrowotnej

Pomimo wysokich ocen, w niewielkiej liczbie podsumowań badanie wykazało poważne nieścisłości i halucynacje. Błędy te sięgały od pominięcia kluczowych danych po błędną interpretację projektów badań, co mogło potencjalnie zmienić interpretację wyników badań. Jednakże wyniki ChatGPT w zakresie podsumowań abstraktów medycznych uznano za wiarygodne, przy minimalnym odchyleniu od normy.

Chociaż usługa ChatGPT wykazała dużą zgodność z ocenami dokonywanymi przez ludzi na poziomie czasopisma, jej skuteczność w zakresie określania znaczenia poszczególnych artykułów dla określonych specjalizacji medycznych była mniej imponująca. Ta rozbieżność uwydatniła ograniczenia możliwości ChatGPT w zakresie dokładnego identyfikowania znaczenia pojedynczych artykułów w szerszym kontekście specjalizacji medycznych.

Badanie dostarcza cennych informacji na temat potencjału sztucznej inteligencji, w szczególności ChatGPT, w pomaganiu lekarzom w skutecznym przeglądaniu literatury medycznej. Chociaż ChatGPT jest obiecujący w zakresie podsumowań medycznych o wysokiej jakości i dokładności, potrzebne są dalsze badania, aby wyeliminować ograniczenia i poprawić jego działanie w określonych kontekstach medycznych.

Przyszłe badania mogłyby skupić się na udoskonaleniu zdolności ChatGPT do rozpoznawania znaczenia poszczególnych artykułów dla określonych specjalizacji medycznych. Ponadto wysiłki mające na celu ograniczenie nieścisłości i halucynacji w generowanych podsumowaniach mogą jeszcze bardziej zwiększyć użyteczność narzędzi sztucznej inteligencji w placówkach opieki zdrowotnej.

Źródło: https://www.cryptopolitan.com/chatgpt-in-summarizing-medical-abstracts/