自從 OpenAI 的 ChatGPT 人工智能聊天機械人面世後,全球掀起一股「AI 熱」,大大小小的開發者都努力在各個網站尋找訓練 AI 的資料。最近 Reddit 用戶 akhudek 發現 Reddit 更新了有關 API 的使用條款。新使用條款下,如果以用戶回覆作 AI 訓練用途須事先獲得同意。
Reddit 早前更新了其 API 數據使用條款,明確規定 AI 開發者需要得到 Reddit 用戶的許可,才可以利用其內容訓練機器學習(Machine Learning)或人工智能模型(AI model) (見下圖綠色底線處)。
▲Reddit 周二(18 日)更新的 API 使用條款
Reddit 自 2005 年面世以來已經歷 18 個寒暑,每天有近 5700 萬人次訪問該網站,而且 Reddit 討論的話題天南地北,由化妝到電腦遊戲,甚至連量子力學也有專屬社群。由於其牽涉的話題之廣,內容之深,使 Reddit 上的各種對話內容對 Google、OpenAI 等人工智能開發公司而言,無疑是個絕佳的訓練材料來源。Reddit 更新使用條款後,不再自動授權開發者使用其 API 訓練 AI。
Reddit 創辦人兼行政總裁 Steve Huffman 接受 New York Times 採訪時表示 ,Reddit 的語料庫(Corpus)很有價值,Reddit 沒必要向這些世界性大公司免費提供語料庫資料。Huffman 表示,Reddit 的語料庫之所以有價值,是因為 Reddit 的對話比其他網站來得真實貼地。Huffman 表示:「Reddit 上很多內容只可以在心理治療師、匿名戒酒會(Anonymous Alcoholics,AA)等互助小組中聽到。」
▲Steven Huffman,圖片來源:New York Times
Huffman 重申,Reddit 仍然會繼續免費提供 API 予那些開發第三方 Reddit 應用程式的開發者,但就會對大型人工智能模型開發公司收費。新的數據 API 使用條款將於 2023 年 6 月 19 日生效。
資料來源:Reddit、New York Times、The Verge