208

一、資料治理 稽核面向:
- 完整認識整體控制環境為首要
- 確保高層參與、職能分工與監督。
- 資料品質
- 資料安全,例如資料存取的保護措施。
- 資料授權機制。
二、資料工程 稽核面向:
- 資料蒐集,例如辨認資料來源、準確度、完整度和資料格式呈現等。
- 資料探索,找出可能有用的資料。
- 資料清理,對資料進行整合、標準化、結構化,以去除無用的資料。
- 資料匿名,是否有符合監管要求(例如,個資、分析前匿名化的處理)。
- 資料模式,ETL(擷取、轉換和載入),資料儲存位置的了解、如何存取及分析資料。
- 資料公平性,了解是否有涉及歧視與偏見的資料。
三、特徵工程 稽核面向:
正確與好的特徵,可以讓 ML 機器學習預測更為準確,並且使原始資料、提取特徵、創建模型及預測的流程更為流暢。林煒傑表示,稽核人員針對特徵工程所要思考的面向,可留意資料插補、異常值處理、特徵衍生或轉換公平與隱私等項目。
四、模型訓練 稽核面向:
模型訓練是建立 ML 模型核心,林煒傑以風靡一時的神奇寶貝/ 寶可夢訓練家舉例,好好訓練它,宛如模型訓練,包含了訓練資料、模型方法論和透明性 (例如,黑/白箱測試)。
五、模型測試(評估) 稽核面向:
- K折交叉驗證 K-fold Cross-Validation
- 混淆矩陣( Confusion matrix )評估模型
六、模型部署 稽核面向:
- 持續確認模型參數與輸入資料,依循使用案例定期更新。
- 檢查ML模型的營運環境是否實施持續性監控來應對新資料情境。
關於 ML 機器學習的合規議題,林煒傑表示ML兩大組成要素為「資料」與「模型」,以合規風險的角度,稽核人員需認識的資料合規與模型合規的稽核面向 :
