矽谷掀桌!DeepSeek遭OpenAI和Anthropic圍剿,美國網民都看不下去了
明敏 基爾西 發自 凹非寺
量子位 | 公眾號 QbitAI
頂級「禮遇」。
一覺醒來,OpenAI和Claude母公司都對Deepseek出手了。
據《金融時報》消息,OpenAI表示已經發現證據,證明DeepSeek利用他們的模型進行訓練,這涉嫌侵犯知識產權。
具體來說,他們發現了DeepSeek「蒸餾」OpenAI模型的跡象。即使用更大模型的輸出來提高較小模型的性能,從而以較低成本在特定任務上取得類似結果。
微軟也開始調查DeepSeek是否使用OpenAI的API。

消息一出,最先迎來的是一波嘲諷。
紐約大學教授馬庫斯率先開噴:
OpenAI:我們需要免費用所有藝術家和作家的作品訓練模型,這樣我們就可以省下錢去起訴DeepSeek公然偷我們東西啦!

知名技術媒體404 Media創始人及主編Jason也直接在文章里貼臉開大,暗諷OpenAI只許州官放火。
先容我笑一會兒哈哈哈哈哈哈。真是令人難以置信的諷刺啊,OpenAI一直以「未經授權的方式」獲取大量數據,也違反了一些組織的條款規定,結果現在他們卻在指責自己的做法。

而另一邊,Cluade母公司Anthropic創始人Dario Amodei洋洋灑灑發了一篇長文大談DeepSeek。
他表示,說DeepSeek構成威脅太誇張了,「也就是我們7-10個月前的水準」,Claude 3.5 Sonnet在許多內部和外部評估中依舊遙遙領先。
不過為了保持領先,我建議我們是不是得設置更多掣肘?

好傢伙,為了圍剿DeepSeek,競對OpenAI和Anthropic罕見都罕見聯手了。
相比之下,微軟的做法就耐人尋味了許多。
就在指控DeepSeek涉嫌侵權之後幾個小時後,微軟的AI平台上接入了DeepSeek模型。

網民:俗話說,否認是接受的第一步。

AI領域常見技術,但違反OpenAI條款
各方消息彙總來看,微軟和OpenAI對DeepSeek的質疑還處於調查中。
根據微軟工作人員的說法,DeepSeek可能在去年秋天調用了OpenAI的API,這可能導致數據泄露。
按照OpenAI的服務條款規定,任何人都可以註冊使用OpenAI的API,但是不能使用輸出數據訓練對OpenAI造成競爭威脅的模型。

OpenAI告訴《金融時報》,他們發現了一些模型蒸餾的證據,他們懷疑這是DeepSeek的所作所為。
目前,OpenAI拒絕進一步置評,也不願提供證據細節。
那麼不妨先來看看,引發爭議的模型蒸餾是什麼。
它是一種模型壓縮技術,通過將一個複雜的、計算開銷大的大模型(稱為教師模型)的知識「蒸餾」到一個更小、更高效的模型(稱為學生模型)。
這個過程的核心目標是讓學生模型在輕量化的同時,儘量保留教師模型的性能。
在諾獎得主、深度學習之父Hinton的論文《Distilling the Knowledge in a Neural Network》中指出:
蒸餾對於將知識從集成或從大型高度正則化模型轉移到較小的蒸餾模型非常有效。

比如Together AI前段時間的工作,就是把Llama 3蒸餾到Mamba,實現推理速度最高提升1.6倍,性能還更強。

IBM對知識蒸餾的文章中也提到,大多數情況下最領先的LLM對計算、成本提出太高要求……知識蒸餾已經成為一種重要手段,能將大模型的先進能力移植到更小的(通常是)開源模型中。因此,它已經成為生成式AI普惠化的一個重要工具。

在行業內,一些開源模型的服務條款允許蒸餾。比如Llama,DeepSeek此前也在論文中表示使用了Llama。
而且關鍵是,DeepSeek R1並非只是簡單蒸餾模型,OpenAI首席科學家Mark Chen表示:
DeepSeek獨立發現了OpenAI在實現o1過程中所採用的一些核心理念。

同時他也認可了DeepSeek在成本控制上的工作,並提到蒸餾技術的趨勢,表示OpenAI也在積極探索模型壓縮和優化技術,降低成本。

所以總結一下,模型蒸餾技術在學術界、工業界都非常普遍且被認可,但是違反OpenAI的服務條款。
這河狸嗎?不知道。
但問題是,OpenAI自己本身在合規性上也大有問題。
(眾所周知)OpenAI訓練模型把互聯網上的數據扒了個乾淨,這其中除了免費公開的知識內容外,還包含大量有版權的文章作品。
2023年12月,《紐約時報》以侵犯知識產權為由,將微軟OpenAI一起告上法庭。目前這個官司還沒有最終判定結果,OpenAI這一年時間里就自己的行為向法院進行多次解釋。

包括但不限於:
1、使用公開可獲得的互聯網資料訓練AI模型是合理的,這在AI領域內有諸多先例,我們認為這對創作者是公平的,對於創新是必要的。
2、長期以來,版權著作被非商業性使用(比如訓練大模型)是受到合理保護的。
3、大語言模型的關鍵是Scaling,這意味著任何單獨被盜的內容都不足以支撐訓練出一個大語言模型,這正是OpenAI模型為何領先。
也就是說,OpenAI本身都在違規使用《紐約時報》的數據訓練閉源、商業化的大模型。現在他們要以違規為由,調查打造系列開源模型的DeepSeek。
再退一步,OpenAI如今的成就也是建立在Google的基礎上(Transformer架構由Google提出),Google的成就是站立在更早期的學術研究基礎上。
404 Media表示,這其實是人工智能領域發展的基本邏輯。

「DeepSeek模型只在成本上領先」
就在OpenAI挑起矛盾的同時,Anthropic也下場了。
創始人Dario Amodei在個人博客中表達了對DeepSeek的看法。
他表示並沒有把DeepSeek看做是競爭對手,認為DS最新模型的水平和他們7-10個月前相當,只是成本大幅降低。
(Claude 3.5)Sonnet的訓練是在9-12個月前進行的,而DeepSeek的模型於11月/12月進行了訓練,而Sonnet在許多內部和外部Evals中仍然顯著領先。
因此,我認為正確的說法是「DeepSeek生成了一種模型,用較低的成本(但沒有宣傳的那麼低)實現了接近7至10個月以前的Claude的表現」。
同時他還認為,DeepSeek整個公司的成本投入(非單個模型訓練成本)和Anthropic的AI實驗室差不多。
奧特曼幾乎保持了同樣的口徑。
他承認DeepSeek R1讓人印象深刻(尤其是成本),但OpenAI「很明顯會帶來更好的模型」。

這也是他的常規操作了,之前V3發佈時,他就陰陽怪氣說:相對而言,複製確定有用的東西是很容易的。

那麼DeepSeek R1的價值究竟幾何?
分析師郭明錤最新博客給出參考:
DeepSeek R1的出現,讓兩個趨勢更加值得關注——雖然沒有R1這兩個趨勢也依然存在,但R1加速了它們的發生。
一是在Scaling Law放緩的情況下,AI算力仍可透過優化訓練方式持續成長,並有利挖掘新應用。
過去1-2年,投資者對AI服務器供應鏈的投資邏輯,主要基於AI服務器的出貨量在Scaling Law依然有效的情況下可持續增長。
但Scaling law的邊際效益開始逐漸遞減,市場開始關注以DeepSeek為代表的通過Scaling law以外的方式顯著提升模型效益的路徑。
第二個趨勢是API/Token價格的顯著下滑,有利於加速AI應用的多元化。
郭明錤認為,目前從生成式AI趨勢中獲利的方式,主要還是「賣鏟子」和降低成本,而不是創造新業務或提升既有業務的附加值。
而DeepSeek-R1的定價策略,會帶動生成式AI的整體使用成本下降,這有助於增加AI算力需求,並且可以降低投資人對AI投資能否獲利的疑慮。
不過,使用量的提升程度能否抵消價格降低帶來的影響,仍然有待觀察。
同時,郭明錤表示,只有大量部署者才會遇到Scaling law邊際效益的放緩,因此當邊際效益再度加速時,英偉達將依然是贏家。
參考鏈接:
[1]https://www.404media.co/openai-furious-deepseek-might-have-stolen-all-the-data-openai-stole-from-us/
[2]https://www.ft.com/content/a0dfedd1-5255-4fa9-8ccc-1fe01de87ea6?accessToken=zwAGLNJX-fBAkdOg3-3RUlVPqdOMzB_gHeh-pg.MEYCIQCGjo04z0mtOsKbDspQLq2BMXyw8SbQnlYePOuqiqr6QgIhAInK67eBkYuZS-77ljnP-y–EJdN1wwRQ8GIR8sKMFgE&sharetype=gift&token=1eebbaa7-a4e6-4251-b665-c2f2562b38e4
[3]https://x.com/GaryMarcus/status/1884601187271581941
[4]https://mingchikuo.craft.me/g8mybRumSTYD3J