互聯網工程任務組 (IETF) 成立了一個工作組,旨在制定新標準,讓內容創作者能夠向 AI 開發者表明是否允許使用其作品。該工作組將開發統一詞匯表來表達作者和出版商對 AI 訓練使用其內容的偏好,并探索將這些偏好附加到互聯網內容的方法。這一舉措源于當前系統的ineffectiveness,以及內容創作者對 AI 公司未經許可抓取內容的不滿。
SourceHut等網站面臨AI爬蟲過度抓取數據的挑戰,導致服務速度下降。這些爬蟲主要用于訓練大型語言模型,但其行為往往不受約束。網站采取各種措施應對,包括封鎖某些云服務提供商和部署反爬蟲工具。然而,這些措施可能影響正常用戶訪問。AI爬蟲的不當行為已成為一個普遍問題,引發了對網絡資源使用和數據收集方式的討論。