ChatGPT, teşhis ve klinik karar verme sürecinde önemli bir eşiği daha geçti

26 Ağustos 2023 | 13 Mart 2025 | Kategori: Güncel / Literatür, Yapay Zeka Print

Yapay Zeka uygulamalarının sağlık alanındaki kullanımı ile ilgili yapılan araştırmalara bir yenisi daha eklendi. Daha önce pek çok branşta önemli başarılara imza adan ChatGPT, bu kez hastalık teşhisi ve klinik karar verme süreçlerinde test edildi. Çalışmada, ChatGPT’nin nihai teşhislerin konulmasında ve bakım yönetimi seçiminde %72 üstünde doğru kararlar verdiği saptandı. Yapay zeka uygulaması ChatGPT, tüm tıbbi uzmanlık alanlarında hem birinci basamakta hem de acil durum ortamlarında eşit derecede iyi performans gösterdi.

ABD merkezli Mass General Brigham’dan araştırmacılar tarafından yürütülen çalışmada, ChatGPT’nin klinik karar verme konusunda umut verici bir potansiyele sahip olduğu gösterildi. Araştırmacılar, ChatGPT’yi Merck Klinik El Kitabı’ndan 36 standardize klinik örneklem üzerinde test etti. ChatGPT’den ilk olarak hastanın yaşı, cinsiyeti ve semptomları gibi temel bilgilere dayanarak ayırıcı tanı koyması istendi. Yapay zeka modeli bu ilk aşamada %72 gibi oldukça iyi bir başarıya ulaştı. Daha sonra ChatGPT’ye ek bilgiler verildi ve nihai teşhis koymasını istedi. Bu kez doğruluk oranı iyice artan ChatGPT, yaklaşık %77 gibi bir başarıya ulaştı.

Yapay zeka cerrahide tüm operasyon ve bakım süreçlerini değiştirebilir

Çalışmanın yazarlarından Prof. Dr. Marc Succi, ChatGPT’nin performansının tıp kariyerinin başlangıç aşamalarında olan, yeni mezun bir doktora benzeterek şu bilgileri paylaştı: “ChatGPT, final teşhisinde takdire şayan bir oranda, %77 doğruluk gösterirken, özellikle kısıtlı bilgiye dayanan başlangıç teşhisinde biraz zorlanarak %72 oranında bir başarıya ulaşabildi. Araştırmamıdan sağlanan bu bilgiler yapay zekanın potansiyel olarak sağlık alanında nerelerde başarılı olabileceğini göstermeye yardımcı olacak. Elbette yapay zekanın hekimlerin yerini alması söz konusu olamaz ama pek çok aşamada hekimlerin işini kolaylaştırabilir ve daha doğru kararlar vermesine yardımcı olabilir.”

Araştırmacılar, ChatGPT’nin sınırlı bilgi ile %72 oranında; nihai teşhis koymada ise %77 gibi çok iyi bir doğruluk oranına ulaştığını saptadı.

Yapay zeka uygulaması en düşük performansını ise ayırıcı tanı koymada gösterdi ve sadece %60 oranında doğruluk değerine ulaşabildi. Ancak doğru tanı koyulduktan sonra hastaya hangi tedavi ve ilaçların uygulanacağı konusunda %68 oranında doğru karar verebildi. Çalışmadan elde edilen diğer dikkate değer bulgu ise ChatGPT‘nin yanıtlarının cinsiyet ayrımı göstermemesi ve genel performansının hem birinci basamak hem de acil bakımda oldukça istikrarlı olmasıydı.

ChatGPT, doktorları geride bıraktı: Daha bilgilendirici, detaylı ve empatik yanıtlar verdi

Çalışmanın yazarlar, ChatGPT gibi araçların klinik bakıma entegre edilmeden önce, daha fazla kıyaslama araştırmasına ve düzenleyici rehberliğe ihtiyaç duyulduğunu belirterek şu saptamaları yapıyorlar: ”Sağlıkta yapay zeka araçlarının ortaya çıkışı çığır açıcı niteliktedir ve bakımın sürekliliğini olumlu bir şekilde değiştirme potansiyeline sahiptir. Ayrıca hasta bakım süreçlerini ve klinisyen deneyimini iyileştirmeye yardımcı olma konusunda da büyük umutlar vaat ediyor. Ancak yapay zeka uygulamalarını günlük klinik uygulamaya tam olarak entegre etmeden önce, mutlaka titiz referans araştırması ve kesin düzenleyici rehberlik çalışmaları yapılması gerekmektedir.”

Araştırmanın özeti

Amaç: Bu çalışma, standartlaştırılmış klinik hikayeler üzerindeki performansı aracılığıyla ChatGPT’nin devam eden klinik karar desteği kapasitesini değerlendirmeyi amaçladık.

Yöntemler: Merck Sharpe & Dohme (MSD) Klinik Kılavuzunda yayınlanmış 36 klinik öykünün tamamını ChatGPT’ye girdik ve hastanın yaşı, cinsiyeti ve vaka keskinliğine dayalı olarak ayırıcı tanılar, tanısal testler, son tanı ve yönetim konusundaki doğruluğunu karşılaştırdık. Doğruluk, insan puanlayıcılar tarafından hesaplandığı şekilde, test edilen klinik örneklerde sorulan sorulara verilen doğru yanıtların oranıyla ölçüldü. ChatGPT’nin klinik görevlerdeki performansına katkıda bulunan faktörleri değerlendirmek için ayrıca doğrusal regresyon gerçekleştirdik.

Yapay zeka alanındaki yeni gelişmeler tıpta devrim yaratabilir

Sonuçlar: ChatGPT, 36 klinik olayın tamamında %71,7 (%95 GA %69,3 – %74,1) genel doğruluk elde etti. LLM, %76,9 doğrulukla (%95 GA %67,8 – %86,1) nihai tanı koymada en yüksek performansı ve %60,3 doğrulukla (%95 GA %54,2 – %95 GA %54,2) ilk ayırıcı tanı oluşturmada en düşük performansı gösterdi. %66,6). Genel tıbbi bilgiyle ilgili soruları yanıtlamayla karşılaştırıldığında ChatGPT, ayırıcı tanı (β=–%15,8; P<0,001) ve klinik yönetim (β=–%7,4; P=0,02) soru türlerinde daha düşük performans sergiledi.