劍橋大學測試大型語言模型模擬考試成績勝過初級眼科醫生

2024-04-21

Published by

唐美鳳

劍橋大學的研究人員對大型語言模型（LLM）在眼科診斷方面的潛力進行了研究，結果表明大型語言模型雖然在某些方面表現出潛力，但仍然存在重大局限性和風險。研究人員測試了 GPT-4 等大型語言模型在模擬眼科考試中的表現，再將結果與人類眼科醫生進行比較。

雖然 PaLM 2 和 GPT-3.5 的表現不盡如人意，但 GPT-4 在 87 條題目中，正確回答了 60 條。這成績超越了實習醫生的平均 59.7 條和初級醫生的平均 37 題，不過表現仍然落後於眼科專科醫生的平均 66.4 得分。儘管結果表明大型語言模型在眼科診斷方面具有潛在應用價值，但研究人員亦強調其存在重大風險。

由於研究中使用的測試題目數量有限，這引發了對大型語言模型的結果是否具有普遍性的擔憂，更重要的是大型語言模型容易出現捏造資訊的「幻覺」，這可能導致白內障或癌症等嚴重疾病的誤診。此外，大型語言模型缺乏細微差別處理能力，亦可能加劇診斷的不準確性。研究明確表明，將大型語言模型視為可靠的醫療診斷工具之前，需要進一步研究和開發。由於醫療診斷涉及的風險很高，可能需要很長時間才能在主流醫療中被實際應用。

資料及圖片來源：gizmochina

Published by

唐美鳳

2 年前 ago