2023-03-14
保障個人私隱、數據更多樣化、成本低!「人工合成數據」成發展潛力無限新興產業
科網巨擘一直掌握消費者的個人數據,並以此作為業務的核心價值之一,從而賺取金錢。另有隱蔽的數據經紀(data broker)在你不知情或未經授權下竊取你的數據,包括照片、工作職位或行業、公開活動(如演講、論文、視頻、社交媒體賬戶),以及電子郵件和電話號碼,用以換取高價收益。為保障個人私隱,愈來愈多地方收緊保護私隱政策,故此,不會違反個人私隱條例的人工合成數據(Synthetic Data)便應運而生。
圖片來源:Freepik
有別於真實數據未必可反映真實狀況,如不同種族、國籍比例,合成版本則可減少偏差。而且,合成數據可就罕見情況提供更多樣的數據,彌補難以從現實獲得這些資訊的問題。有人估計它的成本僅為真實數據的1%,自然吸引企業應用。
合成數據可以是文本、媒體(片段、圖像、聲音)和列表。根據真實資料的含量,大致分為三類:一)真假各半,二)模擬真實並加以改動,三)完全虛構。因為靈活性強,應用的層面也日趨廣泛。時至今日,從銀行、醫藥到無人駕駛等多個行業也有使用合成數據。
據報美國運通兩年前已開始測試以深偽技術(Deepfake)片段和虛假數據如信用卡交易,提升AI演算法辨識詐騙行為的能力。摩根大通除了用合成數據來反洗黑錢外,也以此開發創新產品和服務,尤其真實的歷史數據未必可滿足各項產品之需要,合成數據則能大派用場。
在醫療領域上,瑞士藥廠羅氏(Roche)與初創合作,在臨床研究中使用合成醫學數據,代替患者數據,以提高分析能力。德國的夏里特醫學院醫學人工智能實驗室(CLAIM)研究中風,指每個患者的大腦結構都有其獨特之處,匿名化圖像意義不大,因此致力開發合成數據。
過去兩年來,Alphabet旗下的自動駕駛公司Waymo團隊一直以合成數據,生成逼真的駕駛數據集,包括繁忙的城市街道、高速多車的道路和混亂的停車場,或者通過調節迎面而至的車輛速度,來衡量Waymo的反應。
不過,有業內人士指出,合成數據較適合用於相對直接的問題,如欺詐檢測或信用評分,一旦遇上複雜多變的情況,它就應付不來。如人臉識別,當戴口罩成為常態時,便難以發揮功效。同時,在需要精準真實的數據作規劃時,合成數據也可能礙事。美國每年一度向1%的人口發出社區調查(ACS),以研究該國在教育、健康、收入、人口統計和地區之間的關係,當局打算把實際數據換成合成版本,便被批評難以為貧困小區分配本來有限的資源。
人工智能(AI)的智慧來自海量數據,如何有效運用數據,並不失保障私隱的原則,有賴不同行業和初創共同努力去尋找可行方案。今天,合成數據是個新興產業,我相信日後它定能在各行各業大放異彩。
【etnet 30周年】多重慶祝活動一浪接一浪,好禮連環賞! ► 即睇詳情