Meta 部署新網絡爬蟲機器人，為其 AI 模型收集大量數據

08月21日 13:10 新浪網 news-china-auto-hilite

香港時間 8 月 21 日，近日，Meta 悄悄地發佈了一款新的網絡爬蟲，用於搜索互聯網並收集大量數據，為其人工智能模型提供支持。

據三家追蹤網絡抓取器的公司稱，Meta 新網絡爬蟲機器人 Meta External Agent 於上月推出，類似於 OpenAI 的 GPTBot，可以抓取網絡上的人工智能訓練數據，例如新聞文章中的文本或在線討論組中的對話。

根據使用檔案歷史記錄顯示，Meta 確實在 7 月底更新了一個面向開發者的公司網站，其中一個標籤顯示了新爬蟲的存在，但 Meta 至今還沒有公開宣佈其新爬蟲機器人。

Meta 的 Llama 是最大的 llm 之一，雖然該公司沒有透露最新版本的模型 Llama 3 使用的訓練數據，但其初始版本的模型使用了由 Common Crawl 等其他來源收集的大型數據集。

今年早些時候，Meta 的聯合創始人、首席執行官馬克・朱克伯格 (Mark Zuckerberg) 在一次財報電話會議上曾吹噓說，公司的社交平台已經積累了一套用於人工智能訓練的數據集，甚至「超過了 Common Crawl」。

新爬蟲的存在表明 Meta 龐大的數據庫可能已經不夠用了，因為該公司繼續致力於更新 Llama 和擴展 Meta AI，通常需要新的和高質量的培訓數據來不斷改進功能。

來自 Dark Visitors 的數據顯示，全球近 25% 的最受歡迎的網站現在已屏蔽了 GPTBot，但只有 2% 的網站屏蔽了 Meta 的新爬蟲機器人。

廣告聲明：文內含有的對外跳轉鏈接（包括不限於超鏈接、二維碼、口令等形式），用於傳遞更多信息，節省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。