Perplexity CEO回應AI抄襲與版權官司,解釋產品開發、Google競爭|Disrupt 大會現場實錄

作者|Jessica郵箱|JessicaZhang@pingwest.com

過去三天,美國科技媒體 TechCrunch 主辦的 2024 Disrupt 大會在舊金山Moscone中心進行。這一矽谷原生、全球知名的老牌科技創投盛會,今年在AI持續席捲下熱度更甚,吸引了上萬名來自世界各地初創企業和投資機構的參會者。

在總共300多個環節里,明星AI搜索獨角獸公司Perplexity聯合創始人兼CEO Aravind Srinivas罕見現身的一場對話,讓最大的Disrupt Stage分會場觀眾席爆滿,堪稱最受歡迎舞台之一。

圖源:TechCrunch圖源:TechCrunch

在Aravind接受TechCrunch高級編輯Devin Coldewey訪談的半個小時里,兩人貼臉開大,上來就提起近期把Perplexity推到風口浪尖的AI抄襲和內容來源爭議,Aravind還對Perplexity被道鍾斯集團起訴侵權做出正面回應;接著兩人聊到AI原生搜索本質、Perplexity開發新功能的理念、與Google的比較、創作者利益保護、AI成本以及公司融資。Devin甚至把能叫上名字的科技巨頭都過了一遍,挨個問Perplexity有沒有收到他們的收購邀約。

一邊是老媒體人的犀利敏銳,提問基本不留餘地。另一邊是新銳創始人的亦攻亦守,不緊不慢卻未有讓步。全程直給,涉及的話題熱點很多,信息量頗大。

圖源:矽星人圖源:矽星人

以下是矽星人在大會現場給大家帶來的對話實錄,敬請享用:

Delvin Coldewey:感謝你能參與!我想先問一個很直接的問題:你的公司如何定義「抄襲」?這有點突然,但我想要一個明確的答案。

Aravind Srinivas其實你可以直接問Perplexity。我們公司的定義其實和「抄襲」是什麼有關。Perplexity一直都會標註來源,我們不會聲稱擁有任何內容的擁有權。它實際上是從網絡上獲取內容,進行總結,以便用戶能夠消化這些信息,並提供信息的來源。這就像記者或學術人士的工作一樣,只要有正確的引用文獻部分就可以。

Delvin Coldewey不過從學術角度來說,研究人員會創作一篇原創論文,並在文中使用引用來支持自己的觀點,而不是簡單地複製已有的內容。

Aravind Srinivas嗯,有時候,某個新聞媒體首先報導了一則新聞,隨後另一家媒體引用該新聞,並提到「據某某報導」,這算抄襲嗎?

Delvin Coldewey但有些人可能會發帖子,說「他們是這樣說的」,然後幾天后你可以看到一篇文章,其中直接用了8到15個單詞,看起來幾乎就是從原文抄來的,有點像那種情況。

Aravind Srinivas是的,我們的確不是每句話都精準標註了確切的引用。但要非常明確的是,我們在2022年12月7日發佈了這個產品,大概是兩年前。當時大家都在用ChatGPT檢查內容是否是最新的,我們是唯一一個能夠提供參考文獻的AI產品,其他的產品並沒有引用功能。我們從一開始就關注這個問題,並且不斷改進,以便在模型檢測到特定來源時能更加清楚地標註。

Delvin Coldewey我能看出你非常重視這個問題。從一開始你們就展示了引用功能,而不是隨口一說。我認為重新定義「抄襲」是很有必要的,只有明確了「抄襲」的定義,才能有效防止AI生成的內容涉及抄襲行為。如果我將別的內容直接複製到自己的文章中,我會知道自己在抄襲,並因此感到內疚,所以模型也應該「知道」這一點,或者說開發模型的人必須清楚這一點,需要有一種監督機制。

Aravind Srinivas原理其實是這樣的:模型被指示不直接使用任何特定來源的文本,而是整合不同的觀點並進行總結,將內容傳達給用戶,而不是直接從網絡複製。隨著模型在「指令跟隨」技能上的進步,這一指令的執行效果越來越好。在AI軟件的監督下,包括SNP和其他反饋資源的支持,儘管我們不一定負責所有的模型訓練,有時也會使用其他開發者的模型,例如開源的Llama模型。當然,任何模型都不是完美的,仍然可以通過提示工程或提示注入來引導模型生成更合適的內容。

Delvin Coldewey關於提示注入的妙處,就是可以「用一句話總結這篇文章」。

Aravind Srinivas其實這並不是我們產品的主要用途。Perplexity是用來回答問題的,有些人嘗試用它做一些我們不希望的用途,比如「幫我總結這個網址的內容」,而我們實際上是不允許這種用法的,並盡力避免執行這樣的指令。不過說實話,AI領域還沒有哪家公司可以一直保持防護措施。你總會發現新的情況,讓原本的防護措施失效,然後我們再去修正和調整,使其足夠安全地應用,不執行任何不必要的指令。

Delvin Coldewey關於AI驅動的原生搜索,這一概念我們已經在一些公司中看到過。Google在搜索領域的複雜化或許是最突出的例子。過去十年中,他們的這些變化可能並不受用戶歡迎。作為一名科技記者,這是我20年職業生涯中見到的少數廣受反感的平台變化之一。不過,看起來一些公司似乎注意到了Google的不足,想要填補這個空缺。你們是否有意接手Google未完成的部分?

Aravind Srinivas我覺得Google本質上還是一個基於鏈接的搜索引擎,無論他們是否想直接提供答案,鏈接展示始終是他們的收入來源。在財報會議上,他們明確提到,僅搜索廣告每季度就能帶來45億美元的收入,這對他們的業務非常關鍵。儘管他們沒有披露利潤的具體細節,但我認為主要利潤應該來自展示鏈接。所以他們有動力提供儘可能多的鏈接。雖然AI摘要在某些信息查詢中開始嶄露頭角,但這並不是他們的主要模式。在Google每天五到八十億次的查詢中,大多數並不適合直接顯示答案,否則將嚴重影響收入。

我們所做的,是創建一個用戶可以直接提問的平台。相比之下,Google首頁的搜索框並不是為了直接回答問題而設計的。Google的查詢平均詞數大約在2到3個之間,而Perplexity的查詢則多在10到11個詞,顯然,Perplexity的用戶更傾向於直接提問,而Google用戶大多是查找一些簡短的關鍵詞,比如「某位亞洲明星」或「舊金山天氣」等。

Delvin Coldewey我很好奇你們的一些應用場景。最近幾週你們在Twitter上發佈了大量的功能和用例,大約50個新功能,比如體育比賽功能。你們的數據是直接來自NFL,還是從別的地方獲取的?

Aravind Srinivas我們通過與數據來源合作而獲得相關數據,並加以處理。我們會確保數據準確,嚴格保證直接性和可靠性。

Delvin Coldewey所以這是讓人們搜索「今天海鷹隊的比數」之類的內容嗎?還是他們想要過去20場NFL比賽的比數分析?

Aravind Srinivas更像是後者的情況。我們希望Perplexity成為一個用戶可以隨時提問並獲得準確回答的地方。起初,我們的用戶群體多是學術和研究導向的用戶,就像早期的Facebook主要面向學生,Amazon則以圖書起家。類似地,Perplexity在起步時吸引了許多學術、研究和知識導向的用戶,但我們希望擴展到更廣泛的用戶群體。體育信息看似與知識無關,但實際上有很多體育迷喜歡深入分析數據,研究比賽,瞭解特定球員或球隊的表現。如果用戶錯過了一場比賽,我們可以提供比數之外的實況評論、對比數析等更有深度的內容。

Delvin Coldewey就像我說的,你們發佈了很多新功能,幾乎每隔一段時間就會冒出一個新功能。你們有具體的策略,還是採用「散彈槍」策略,推出十個產品,看哪幾個最終會被用戶接受——你們是在尋找對用戶真正有價值的功能嗎?

Aravind Srinivas我們真地會仔細查看用戶日誌,瞭解他們在詢問什麼。實際上,在推出體育功能之前,我們優先考慮了金融領域,因為許多用戶在進行市場研究、投資組合管理、加密貨幣和投資策略等方面的研究,同時也關注股票相關新聞。我們會觀察哪些領域可以提供更好的服務,而不僅僅滿足表面需求。體育也是類似的情況,有很多用戶關心體育數據,而有時還會出現「幻覺」現象,比如在疫情期間,確保比賽數據的準確性就變得尤為重要。

我們的目標是覆蓋用戶習慣使用的搜索引擎上已有的各類內容,這樣他們就沒有理由回到傳統的搜索界面。要改變用戶已有幾十年的使用習慣並不容易,但如果這是未來的趨勢,我們就必須下功夫去滿足他們的日常搜索需求,無論是軟件開發幫助、研究規劃,還是學術資源管理。我們還需要在本地化搜索、體育、天氣、購物和旅行等方面繼續努力。

圖源:TechCrunch圖源:TechCrunch

Delvin Coldewey在那個訴訟案中,道鍾斯(《華爾街日報》母公司)提到你們的Perplexity是「內容抄襲王國」。你們在公開回應中說,媒體公司可能希望這項技術不存在。但我覺得這樣說不對,因為你們和《財富》雜誌、《時代》週刊都有合作,原告也和OpenAI有合作。會不會是因為他們不喜歡你們提供的合作安排?

Aravind Srinivas他們聲稱我們沒有回應,但事實上我們當天就回應了。我希望大家能理解,我們的意圖是合作、溝通,共同推進。

Delvin Coldewey那麼,如果你們真的要與他們探討合作安排,具體會是什麼樣的?我很好奇這些分享機制,你們打算如何共享內容?

Aravind Srinivas我們推出了一個叫「Perplexity Publisher Program」的項目,幾個月前已經上線。該項目的核心理念是嚴格管理內容授權,分為兩種情況:第一類公司使用全網數據訓練大型模型,這些模型會內化所有文本數據,並隨著規模的擴大不斷優化;而第二類公司只在特定查詢時實時使用網絡內容進行摘要,並不用於訓練模型本身。我們向出版商解釋我們屬於第二種類型,這與第一類模型需要為內容授權支付費用不同。針對第二類公司,我們設計了不同的合作結構。

目前,幾乎沒有其他公司提出類似的方案。我們的思路是通過廣告收入來支持合作,因為我們本質上是一個搜索產品。雖然我們直接獲取內容來回答用戶的問題,但我們仍屬於大眾市場的搜索領域,廣告可以帶來可觀的收入。不同於傳統搜索引擎,我們承諾會在查詢層面與出版商共享廣告收入。也就是說,如果我們在某次查詢中獲得了廣告收入,而您的內容作為答案的一部分被引用,我們會分享相應的收入。隨著我們業務的增長和廣告盈利的增加,這種合作模式將為選擇加入我們的出版商帶來重要的收益。

Delvin Coldewey我覺得你們應該知道,出版商們的想法是,當有人在Perplexity上引用了我的文章內容時,他們並沒有直接點擊我的文章進行閱讀,這樣我們就失去了維持生存所需的流量和收入。說到底,新聞出版方的回應往往是:「你們說自己不與我們競爭,但實際上你們確實是在競爭。」 你對此怎麼回應?

Aravind Srinivas我們不是一個新聞產品。沒有人會來Perplexity獲取每日新聞。

Delvin Coldewey那為什麼你們還需要引用這些內容呢?

Aravind Srinivas用戶來到這裏是為了理解信息的含義。比如,一條關於GPU黑市交易的新聞,可能導致用戶思考:「在這種情況下,我是否應該繼續購買NVIDIA的股票?」這些問題並不是直接在新聞源上可以找到答案的,而是在Perplexity上可以進一步分析的。同時,用戶並不是來Perplexity閱讀新聞的,而是會直接去新聞源查看。這其實是兩個不同的產品,但我們需要花時間讓人們理解這個區別。還有一些網站可以直接黏貼網址並提取其內容,而這並不是我們要做的事情。

Delvin Coldewey那麼對於那些內容創作者,比如製作YouTube影片、撰寫文章、出版書籍的人,他們如何參與進來呢?他們該如何實現盈利?像Google、YouTube這種平台已經有成熟的盈利方式了。

Aravind Srinivas我們的出版商計劃歡迎所有人加入。除了共享廣告收入,我們還幫助出版商在他們的平台上建立AI助手或其他AI工具,讓用戶可以直接在網站上搜索內容。例如,用戶在閱讀一篇文章時,可能會有進一步的問題,我們會提供API積分支持,同時向所有媒體公司的員工免費提供Perplexity的企業版訂閱服務。我們相信,我們的工具可以讓內容創作更高效,特別是在做背景調查和事實核查時,Perplexity已成為一個廣泛使用的研究工具,能幫助用戶更輕鬆地完成深度研究。

Delvin Coldewey我很感謝你們的解答,儘管在獲取來源的方式上我們可能仍存在一些分歧。接下來我想提到版權問題。這個領域相當複雜,是一個前所未有的知識產權法律難題,因此幾乎沒有現成的先例。所以是否有可能在某些情況下,無意中觸犯到版權法?

Aravind Srinivas我已經在我的博客里回應過了,在任何法律下我們都會捍衛自己。

Delvin Coldewey你覺得法律需要做出改變嗎,讓IP保護更寬鬆?

Aravind Srinivas其實關於版權已經有很多明確的法律程序了,現行的版權法很多,並且已經有判例確立了事實本身不受版權保護。

Delvin Coldewey當然沒錯,但問題不只是關於事實。

Aravind Srinivas我們都不是律師,所以在這裏無法解決這個爭議。我認為事實應該平等分發給每一個人。設想一下,如果科學家們宣稱擁有某些事實的權利,而其他人無法傳播這些知識與真相,那將是一個什麼樣的世界。(台下一大片掌聲)

圖源:矽星人圖源:矽星人

Delvin Coldewey好,不說事實問題了。為什麼你們要籌集那麼多資金?

Aravind SrinivasAI的成本很高。目前GPU和數據中心都很昂貴,我們希望未來能降低成本,但現在開發這些模型需要大量投入,提供這些服務的公司需要通過收費來回收成本。我們觀察到,API成本大約每4到5個月就會下降一半,如果這一趨勢能再持續一兩年,我們的模型成本將可能降低10到50倍,這對我們這樣的成長型公司來說是極大的利好。

我們可以專注於增長,同時在短期內管理成本,因為我們知道成本會逐步下降。在這個過程中,我們也在摸索長期可持續的收入模式。我們認為AI產品的變現方式不僅限於訂閱服務,雖然訂閱模式對很多公司來說效果很好,我們也有不錯的表現,但我們認為還有其他更好的方式,比如按使用量收費,而不是僅僅靠月費

Delvin Coldewey你覺得能從Google手裡搶到一些收入嗎?

Aravind Srinivas我不確定是否會是零和博弈。也許市場預算的分配會有所調整,比如現在市場營銷費用大部分投給Google,未來可能會有95%投給Google,5%給Perplexity。但目前還不清楚這種變化是否會立即影響Google的廣告收入。一般來說,新平台出現後不會立即替代已有的市場,而是逐漸融入。同時,我們會在不破壞現有收入的前提下,努力說服廣告合作夥伴。

Delvin Coldewey最後一個簡短問題,我列出幾個公司名,你來回答是否收到過這些科技公司的收購邀約,只需要給我一個「是」或「不是」——準備好了嗎?OpenAI?

Aravind Srinivas無可奉告。

Delvin Coldewey微軟?

Aravind Srinivas無可奉告。

Delvin ColdeweyGoogle?

Aravind Srinivas絕對沒有!

(Delvin又問了Notion、Amazon、Meta、Elon Musk,Aravind的回答全是「無可奉告」,即便他和馬斯克「是朋友」。)

Delvin Coldewey好吧,算了哈哈。

你今天早些時候發推文提到你的綠卡申請問題。對於那些在類似情況下經營著數十億公司,但像你一樣還沒拿到綠卡的人,你有什麼建議?這真得很讓人震驚。

Aravind Srinivas我的意思不是我就應該因此獲得所有優待。我對此有一些基本理解,美國移民系統對每個國家每年有固定的移民配額,而我來自印度,很多印度人希望移民美國,加上疫情造成的積壓,這是進展緩慢的主要原因。我只是希望通過表達這個問題,引發一些關注。

Delvin Coldewey感謝你和我們分享。