速遞|AgentGPT 團隊新作,四個人用 AI Agent 爬取整個公開網絡,獲 YC 和 AI Grant 等數百萬美元投資

去年,Reworkd 創始人憑藉 AgentGPT 在 GitHub 上爆紅,這款免費工具在一週內吸引了超過 10 萬名日活用戶,使他們成功入選了 2023 年夏季 YC 的項目。

不過,創始人很快意識到,構建通用 AI Agent 的範圍過於廣泛。因此,Reworkd現在專注於網絡抓取,特別是構建 AI Agent 以從公共網絡中提取結構化數據。

▍AgentGPT 曾在 1 周吸引 10 萬用戶

AgentGPT 為用戶提供了一個簡單的瀏覽器界面,可以創建自動化 AI Agent。很快,大家紛紛讚歎 Agent 是計算的未來。

當工具爆火時,Asim Shrestha、Adam Watkins和 Srijan Subedi 還住在加拿大,Reworkd 尚未成立,海量用戶的湧入讓他們措手不及。

目前,Subedi 擔任 Reworkd COO,他表示該工具每天的 API 調用成本高達 2000 美元。出於這個原因,他們不得不迅速創建 Reworkd 並獲得融資。

Reworkd 剛剛從 Paul Graham、AI Grant( Nat Friedman 和 Daniel Gross 初創加速器)、SV Angel、General Catalyst 以及 Panache Ventures 等投資者那裡籌集了 275 萬美元的種子資金。

此外,Reworked 去年還從 Panache Ventures 和 YC 籌集了 125 萬美元的前種子投資,總計融資 400 萬美元。

此前,AgentGPT 最受歡迎的應用之一是創建網絡抓取工具,這是一項相對簡單但高頻的任務,因此 Reworkd 將其作為唯一的重點。

▍什麼是公共網絡數據?

儘管網絡抓取工具已經存在了幾十年,但在 AI 時代引發了爭議。大規模抓取數據導致 OpenAI 和 Perplexity 陷入法律糾紛:新聞和媒體組織聲稱這些 AI 公司從付費牆後提取知識產權,並廣泛傳播,未支付報酬。

Reworkd 正在採取預防措施以避免這些問題。Reworkd聯合創始人兼CEO Shrestha 表示,團隊認為這是提升公開信息可訪問性的一種方式,只允許公開可用的信息,不會通過登錄牆或類似方式獲取數據。

進一步來說,Reworkd 表示它完全避免抓取新聞,並對其合作對象進行選擇。此外,CTO Watkins 表示,聚合新聞內容有更好的工具,他們的重點不在此。

舉個例子,Reworkd 描述了他們與 Axis 的合作,Axis 是一家幫助政策團隊遵守政府法規的公司。Axis 使用 Reworkd AI 從歐盟多個國家的數千份政府法規文件中提取數據,然後基於這些數據訓練和微調 AI 模型,並作為產品提供給客戶。

▍Reworked 如何做?

在 AI 時代,網絡抓取工具變得無比重要。據 Bright Data 最新報告顯示,2024 年組織使用公共網絡數據的首要原因是構建 AI 模型。

問題在於,傳統的網絡抓取工具由人類構建,必須針對特定網頁進行定製,成本高昂。但 Reworkd 的 AI Agent 可以在更少人力介入的情況下抓取更多網絡內容。

客戶可以給 Reworkd 一份包含數百甚至數千個網站的列表,然後指定他們感興趣的數據類型。接著,Reworkd AI Agent 使用多模態代碼生成將這些數據轉化為結構化數據。

Agent 生成獨特的代碼來抓取每個網站,並提取客戶所需的數據。例如,如果你想獲取每個 NFL 球員的統計數據,但每球隊的網站佈局都不同。

與其為每個網站構建抓取工具,不如讓 Reworkd Agent 在提供鏈接和數據描述後為你完成這一任務。對於 32 支球隊,這可能節省數小時;但如果有1000支球隊,這可能節省數週時間。

在成立 Reworkd 並搬到舊金山後不久,團隊聘請了 Rohan Pandey 作為創始研究工程師。他目前住在 AGI House SF,這是灣區最受歡迎的 AI 時代黑客之家之一,一位投資者形容 Pandey 是 Reworkd 內部的「單人研究實驗室」。

Pandey 表示,他們自認為這是 30 年語義網夢想的頂點,指的是萬維網發明者提姆·伯諾斯-李的願景,即計算機可以讀取整個互聯網。儘管一些網站沒有標記,但 LLM 可以像人類一樣理解這些網站,這樣我們基本上可以將任何網站暴露為 API。從某種意義上說,Reworkd 就像是互聯網的通用 API 層。

Reworkd 表示,它能夠捕捉客戶數據需求的長尾,即其 AI Agent 特別擅長抓取大競爭對手常常忽略的數千個較小的公共網站。

Bright Data 等其他公司已經為 LinkedIn 或 Amazon 等大型網站構建了抓取工具,但為每個小網站構建抓取工具可能不值得人工成本,Reworkd 解決了這個問題,但也可能帶來其他問題。

▍YC 和 AI Grant 等為什麼投資?

Reworkd 吸引了許多知名投資者,從Y Combinator和Paul Graham到 Daniel Gross 和 Nat Friedman。

一些投資者表示,這是因為 Reworkd 的技術有望改進,並且隨著新模型的出現變得更便宜。

Reworked 表示,OpenAI GPT-4o 目前在其多模態代碼生成方面表現最佳,而且很多 Reworkd 的技術在幾個月前還無法實現。

General Catalyst 投資人 Viet Le 表示,Reworkd的思維模式是基於技術進步的速度。如果試圖與技術進步的速度競爭,而不是在其基礎上構建,那麼作為創始人,將面臨困難。

Reworkd 正在創建 AI Agent,以解決市場上的特定空白;公司需要更多數據,因為AI正在迅速發展。隨著越來越多的公司構建特定於其業務的定製 AI 模型,Reworkd 有望獲得更多客戶。微調模型需要高質量、結構化的大量數據。

Reworkd 表示,其方法是「自我修復」的,這意味著其網絡抓取工具不會因網頁更新而失效。

此外,Reworkd 稱其 Agent 生成的代碼可以避免 AI 模型傳統上的幻覺問題。AI 可能會犯錯誤,從網站上抓取錯誤的數據,但 Reworkd 團隊創建了 Banana-lyzer,一個開源評估框架,以定期評估其準確性。

目前,Reworkd 團隊只有四人——但其 AI Agent 運行需要承擔相當大的推理成本。Reworked 預計,隨著這些成本的下降,其定價將變得越來越有競爭力。