Trong một lá thư nghiên cứu được công bố trên JAMA Internal Medicine, các bác sĩ - nhà khoa học tại Trung tâm Y tế Beth Israel Deaconess (BIDMC) đã so sánh trực tiếp khả năng suy luận của mô hình ngôn ngữ lớn (LLM) với hiệu suất của con người bằng cách sử dụng các tiêu chuẩn được phát triển để đánh giá bác sĩ. Cụ thể ở đây là họ sử dụng ChatGPT 4
Adam Rodman MD, bác sĩ nội khoa và nhà điều tra thuộc khoa y tại BIDMC, cho biết: “Rõ ràng là LLM có thể chẩn đoán từ rất sớm, nhưng bất kỳ ai hành nghề y đều biết y học còn có nhiều điều hơn thế”.
Có nhiều bước trong quá trình chẩn đoán, vì vậy họ muốn đánh giá xem liệu LLM có giỏi như bác sĩ trong việc đưa ra loại lý luận lâm sàng đó hay không.
Thật đáng ngạc nhiên khi phát hiện ra rằng những thứ này có khả năng đưa ra lý luận tương đương hoặc tốt hơn con người trong suốt quá trình thực tế mà giới y khoa gọi là lâm sàng.
![]() |
Chat GPT không chỉ vượt qua bác sĩ trong chẩn đoán, thậm chí còn làm tốt hơn trong lâm sàng. |
Rodman và các đồng nghiệp đã sử dụng một công cụ đã được xác nhận trước đây được phát triển để đánh giá lý luận lâm sàng của bác sĩ được gọi là điểm IDEA sửa đổi (r-IDEA). Các nhà điều tra đã tuyển dụng 21 bác sĩ tham gia và 18 bác sĩ nội trú, mỗi người sẽ xử lý một trong 20 trường hợp lâm sàng được lựa chọn bao gồm bốn giai đoạn liên tiếp của lý luận chẩn đoán.
Các tác giả đã hướng dẫn các bác sĩ viết ra và chứng minh các chẩn đoán phân biệt của họ ở từng giai đoạn. Chatbot GPT-4 nhận được lời nhắc với hướng dẫn giống hệt nhau và chạy tất cả 20 trường hợp lâm sàng. Sau đó, câu trả lời của họ được chấm điểm cho lý luận lâm sàng (điểm r-IDEA) và một số biện pháp lý luận khác.
Rodman, Cabral và các đồng nghiệp của họ phát hiện ra rằng chatbot đạt được điểm r-IDEA cao nhất, với điểm trung bình là 10/10 cho LLM, 9 cho bác sĩ tham gia và 8 cho bác sĩ nội trú. Đó là sự hòa hợp giữa con người và robot khi nói đến độ chính xác của chẩn đoán - mức độ chẩn đoán chính xác cao hơn trong danh sách chẩn đoán mà họ cung cấp - và lý luận lâm sàng chính xác.
Nhưng các nhà nghiên cứu nhận thấy rằng các bot cũng "hoàn toàn sai" - có nhiều trường hợp đưa ra lý do sai trong câu trả lời của chúng - thường xuyên hơn đáng kể so với các cư dân. Phát hiện này nhấn mạnh quan điểm cho rằng AI có thể sẽ hữu ích nhất như một công cụ để tăng cường chứ không thay thế quá trình suy luận của con người.
![]() |
AI vẫn có thể sai hoàn toàn khi cứ liệu sai lệch, sự kết hợp cùng con người luôn mang lại kết quả cao nhất. |
Cabral cho biết: “Cần có những nghiên cứu sâu hơn để xác định cách LLM có thể được tích hợp tốt nhất vào thực hành lâm sàng, nhưng ngay cả bây giờ, chúng vẫn có thể hữu ích để khám bệnh. Hy vọng cuối cùng của tôi là AI sẽ cải thiện sự tương tác giữa bệnh nhân và bác sĩ bằng cách giảm bớt một số điểm kém hiệu quả mà chúng tôi hiện đang gặp phải và cho phép chúng tôi tập trung hơn vào cuộc trò chuyện mà chúng tôi đang có với bệnh nhân của mình.
Điều mà nghiên cứu cho thấy là AI thể hiện khả năng suy luận thực tế - có thể lý luận tốt hơn con người thông qua nhiều bước của quy trình.
Nghiên cứu này được thực hiện với sự hỗ trợ của Harvard Catalyst | Trung tâm Khoa học Lâm sàng và Dịch thuật Harvard (Trung tâm Thúc đẩy Khoa học Dịch thuật Quốc gia, Viện Y tế Quốc gia) (giải thưởng UM1TR004408) và đóng góp tài chính từ Đại học Harvard và các trung tâm chăm sóc sức khỏe học thuật trực thuộc.