(今周刊1488)
一套內部試驗準確度高達九五%的AI軟體,走出醫院卻有如迷航,無法判讀其他臨床場域資料;
為解決問題,衛福部建立外部驗證機制,找來各醫院共組小聯盟、蒐集跨域資料,提高AI模型適應性。
五年前,台大醫院前副院長、復健部主治醫師王亭貴與研究團隊開發一套AI系統,將患者吞嚥的X光動態攝影,定格切分成數十張X光片,由AI從一張張的圖片中判讀舌骨移動範圍,觀察患者是否吞嚥異常。
過去一張X光片,透過人工標記要耗時三十分鐘,有了這項AI,直接縮短到一分鐘,且準確度更高。台大團隊在學會發表研究結果,很快勾起中國醫藥大學附設醫院和羅東博愛醫院的興趣,尋求合作。
「但他們的片子丟過來,AI卻沒辦法判讀。」王亭貴解釋,因為各醫院X光片格式、拍攝方式位置和解像度都有差異,只受過台大資料訓練的AI,遇到不同臨床情境,判讀準確度大幅降低。後來,這套軟體開發無疾而終,他直白說,「這是一次失敗的經驗」。
相隔五年,當AI模型走出實驗室,推展到不同醫療院所,遇到「泛化能力」不足,也就是無法更廣泛解讀新資料的困境,仍然普遍存在。