針對七法公司(Lawsnote)因爬取競爭對手資料庫而被判刑並須賠償一億多元的案例,數位發展部部長黃彥男近日接受媒體訪問時表示,爬蟲技術本身並無問題,關鍵在於資料來源是否涉及著作權。他鼓勵AI開發企業使用數發部建置的官方AI語料庫,以避免侵犯私人企業的資料權益。
黃彥男指出,高品質資料是AI發展的重要基礎。數發部目前正從兩方面著手:一是研擬「促進資料創新利用發展條例」草案,二是建立台灣主權AI訓練語料資料庫。以Lawsnote案例為例,法務部原本就擁有相關資料,數發部已將這些經過授權、可合法使用的資料納入語料庫中,AI公司可直接使用這些資源而無需冒著法律風險爬取私人企業的資料。
據黃彥男透露,數發部的AI語料庫已收錄超過5萬筆來自中央部會、地方政府及法人單位的資料,目前已可供使用。數發部也將建立授權條款,讓民間或政府單位都能合法授權外界使用這些資料。「促進資料創新利用發展條例」草案預告期結束後將通過行政院審查正式上路,該草案旨在鼓勵資料釋出並明確使用權利義務,特別是促進政府釋放資料用於訓練台灣的主權AI。