技術措施:技術措施可以包括:使用密碼保護對訓練資料的存取、對訓練資料進行加密、配置網站設計以增加從企業網站抓取資料的難度,以及創建強制點擊協議以防止濫用訓練資料。
數位千禧年版權法 (DMCA):DMCA禁止使用者規避技術保護措施。然而,挑戰在於 DMCA 要求訓練資料包含尋求保護的一方擁有的版權內容。在物聯網環境中,訓練資料很少包含受版權保護的資料。
電腦詐欺和濫用法案(CFAA):加拿大金融家 廣告數據 協會禁止以未經授權的方式存取電腦。儘管企業已向部署資料擷取程式的競爭對手提起 CFAA 訴訟,但資料擷取通常不屬於 CFAA 所禁止的「未經授權存取」的範圍,尤其是在資料可在網站上或透過原生應用程式公開存取的情況下。
競爭法:保護被競爭對手盜用的訓練資料的創新方法包括主張競爭法索賠,例如盜用、利潤損失、不公平競爭、電子侵入動產等。
那麼開放資料許可證呢?
考慮保護任務關鍵型訓練資料(例如使用商業機密)並根據開放資料許可公開提供其餘訓練資料是否具有商業價值。開放資料許可證與開源許可證類似,因為許可證鼓勵資料共享。這種方法的優點是將提高資料品質和資料管理的部分負擔轉移到利害關係人身上。在機器學習 (ML) 和 AI 環境中,在將資料輸入 AI 模型之前提高訓練資料的資料品質可能會為企業帶來繁重且成本高昂的任務。向承擔提高資料品質負擔的利害關係人提供訓練資料可以降低總體成本。
概括
有很多途徑可以合法保護您企業的培訓資料。考慮所有途徑都是明智的,尤其是考慮到訓練資料在用於訓練企業的 AI 產品時可以產生巨大的價值。
在資料抓取工具可以存取訓練資料之前儘早實施技術措施(例如,密碼保護資料)和法律義務(例如,網站使用條款協議),可以增強企業保護資料的前景。
考慮使用商業秘密保護人工智慧產品的核心訓練數據,並根據開放數據許可公開提供其餘數據。這種方法可以增加保護的確定性並降低成本,例如,透過避免提高資料品質或管理資料的資料管理。