人工智慧研究機構 EleutherAI 發布了其聲稱是用於訓練人工智慧模型的最大的授權和開放領域文本集合之一。
該資料集名為 Common Pile v0.1,耗時約兩年,由 EleutherAI 與 AI 新創公司 Poolside、Hugging Face 等公司以及多家學術機構合作完成。 Common Pile v0.1 的大小達到 8TB,用於訓練 EleutherAI 的兩個新 AI 模型:Comma v0.1-1T 和 Comma v0.1-2T。 EleutherAI 聲稱,這兩個模型的效能與使用未經授權的版權資料開發的模型相當。
包括 OpenAI 在內的人工智慧公司因其人工智慧訓練實踐而捲入訴訟,這些實踐依賴於抓取網路資料(包括書籍和研究期刊等受版權保護的資料)來建立模型訓練資料集。雖然一些人工智慧公司與某些內容提供者達成了許可協議,但大多數公司堅持認為,美國的合理使用法律原則使其在未經許可使用受版權保護的作品進行訓練的情況下免於承擔責任。
EleutherAI 認為,這些訴訟「大幅降低」了人工智慧公司的透明度,該組織表示,這損害了更廣泛的人工智慧研究領域,因為這使得人們更難理解模型的工作原理及其可能的缺陷。
EleutherAI 執行董事 Stella Biderman 週五早上在 Hugging Face 的一篇部落格文章中寫道:「(版權)訴訟並沒有顯著改變(模型)訓練中的數據採購實踐,但卻大幅降低了公司透明度。我們採訪過的一些公司的研究人員也明確指出,訴訟是他們無法發佈在高度以數據為中心的領域所做研究成果的原因。
Common Pile v0.1 可以從 Hugging Face 的 AI 開發平台和 GitHub 下載,它是在諮詢法律專家後創建的,其參考資料包括美國國會圖書館和互聯網檔案館數位化的 30 萬本公共領域圖書。 EleutherAI 也使用了 OpenAI 的開源語音轉文字模型 Whisper 來轉錄音訊內容。
EleutherAI 聲稱,Comma v0.1-1T 和 Comma v0.1-2T 證明了 Common Pile v0.1 經過精心設計,足以讓開發者建立與專有替代方案競爭的模型。 EleutherAI 表示,這兩個模型都擁有 70 億個參數,並且僅基於 Common Pile v0.1 的一小部分進行訓練,在編碼、圖像理解和數學基準測試中,它們可以與 Meta 的首個 Llama AI 模型等相媲美。
Picture Source:
eleuther.ai