如何增加基準真相的客觀性
美國維吉尼亞大學助理教授莎拉‧萊博維茨(Sarah Lebovitz)在2023年《麻省理工學院史隆管理評論》(MIT Sloan Management Review)中,發表了一篇文章〈評估人工智慧工具時要問的第一個問題〉(The №1 Question to Ask When Evaluating AI Tools)。內容談到如何增加基準真相的客觀性?
該研究指出,AI的基準真相在客觀性和可驗證性上,取決於特定情境和決策環境。某些情況下,客觀性可透過廣泛認可的數據集來實現,如用於預測熱帶風暴的保險索賠和政府支出數據。
然而,許多AI方案在面對主觀的決策環境時,會面對基準真相的爭議。例如在醫學診斷情境下,開發者可能會以醫生的診斷意見,而非仰賴客觀來源以代表真相。
該研究指出專家決策存在主觀性和變動性,在難以區分的疾病診斷中,這是常見的情況,因此基準真相在不同情境下會有所不同。舉例來說,關於乳癌診斷,放射科醫師的判斷會根據切片研究的病理結果進行驗證。然而,在劃定腦瘤的邊界時,專家們並沒有一致同意的單一方法,作為評估判斷的明確標準。
在此背景下,調查實際真相以及在特定情況下,評估專家決策品質的正確性和可接受的方法是什麼,變得極具挑戰。
該研究以一項案例作為例證,比較了AI和放射科醫生小組在單一乳房X光照片評估中對「可能癌症」或「可能良性」的預測性能。研究顯示,AI工具在此任務中的表現優於每位專家。然而,與專業領域廣泛接受的標準相比,該研究所使用的基準真相存在嚴重不足,這種不一致性可能誤導人們對工具價值的理解。
該研究提及,僅仰賴單一乳房X光檢查來核實診斷決策是荒謬且危險的,特別對於無法進行活檢或不宜進行活檢的案例。對這些病例的審查應包括更深入的分析,例如記錄多次後續預約的變化、檢閱和比對大量影像(如3D斷層合成影像和超音波)、進行身體檢查以及評估個人風險因素(例如年齡、家族史和手術史)。在某些情況下,甚至可能需要進一步的針對性成像。綜上所述,這樣的全面分析才能確保更準確和可靠的診斷結果。
該研究指出,在不同行業領域中,高品質的決策都有公認的標準,亦即專家們一致認為在考慮現有限制的情況下,評估特定判斷的最佳方法。這些標準因環境、組織和專業領域的不同而有所差異。管理者應向專家諮詢,瞭解當前標準和最佳實踐方式,以評估特定領域的決策品質。
在開發AI工具時,如果AI的基準真相與專家的黃金標準相似,則可進一步開發。但若AI的基準真相較差,建議謹慎行事,考慮使用更高品質的基準真相資料,以避免因為基準真相不足所帶來的重大風險。
最後,該研究建議管理者應謹慎識別、評估、建構AI系統的基準真相。僅有這樣,才能有效評估AI工具是否能夠為組織帶來足夠的價值。遵循嚴格的AI評估流程的管理者,通常會重新評估人類專家的決策流程,並尋找改進的方法。
作者:羅凱揚(台科大企管博士)、黃揚博(政大企管碩士、識商創辦人)
資料來源:Lebovitz, S., Lifshitz-Assaf, H., & Levina, N. (2023). The №1 Question to Ask When Evaluating AI Tools. MIT Sloan Management Review, 64(3), 27–30.