RTE年度場景三強專訪:實時語音、多模態Agent,創業機會在哪裡?
10 月 25 日,RTE 年度場景 Showcase 暨第四屆 RTE 創新大賽,Founder Park 作為核心生態合作夥伴應邀出席。
2024 年春季超音速計劃四強與 RTE 開發者社區及各國際分組的優勝項目共同角逐年度最具代表性場景三強,通過激烈的角逐最終評選出三強團隊:Infiniflow、聊會小天和 Traini。
新一代 AIRTE 創業者的不同在哪裡?
小型團隊的大模型創業進入真刀真槍時期:技術輸出後,是時候直接服務用戶了。RTE 年度最具代表性的三個場景項目:Infiniflow 是 AI Agent 做到更細膩體驗的必要底層能力、聊會小天從第一天就在解決現代年青人都在面臨的壓力與心理疏導需求,而 Traini 則以寵物互動情感需求的角度切入市場。
Founder Park 旗下 AGI Founders Fund 運營負責人王君輝以特邀觀察員的身份與 RTE 年度最具代表性場景的三個項目進行了賽後對話。希望能從這些 AIRTE 創業者身上得到一些啟發與靈感。
01
Infiniflow:
RAG 是 AI 時代的數據庫,
與長上下文是互補的
Infiniflow:AI 原生數據庫,結合大模型共同服務 RAG 場景,提供完整的行業 RAG 解決方案。幫助打造出體驗更細膩的 AI Agent,2 萬 Github 星標的全球 Top 開源項目,端到端解決大模型在企業應用的實際痛點。
以下是 Founder Park 與 Infiniflow 創始人 & CEO 張穎峰的對話。
Founder Park:不到 7 個月的時間,你們的開源項目 RAGFlow 就在 GitHub 上獲得了超過 2 萬星標。表現很亮眼,你們自己內部是怎麼複盤的,做對了哪些事情?
張穎峰:我們的主要任務是挖掘並解決用戶在處理多模態非結構化文檔時遇到的最大難題。我們的核心優勢在於針對複雜文檔的痛點提供解決方案。處理複雜文檔是企業引入大模型功能後的首要任務。如果不能從這些非結構化的多模態文檔中準確提取內容,我們就無法提供準確的問答服務。這是我們從 RAG 或大模型的角度出發,幫助企業實現 AI 轉型和內部升級的關鍵點。
在我們開源之前,並沒有類似的項目專注於這一領域,而在我們開源之後,已經有其他開源系統在類似的方向上借鑒我們的思路。
Founder Park:你們的開發者畫像和使用場景是怎麼樣的?
張穎峰:我們自己沒有直接分析 RAGFlow 開發者的地域分佈,但通過一些機構的反饋,我們瞭解到了一些項目活躍度的指標,顯示海外和國內用戶的分佈,大體維持在 4:6 的比例。海外有大量的 SaaS 用戶和開發者,用戶遍佈全球,包括歐洲、東亞和北美,國內則來自甲方和乙方都有,行業分佈也非常廣泛,涵蓋 IT,金融,製造,醫療生物,教育等等行業。
在應用場景方面,問答客服類場景目前被認為是最具代表性的。我們發現非 IT 企業用戶對場景的理解也非常深刻,這與我們最初的預期相符。目前用戶很多都能夠利用 Agent 來編排他們的業務場景,以實現面向最終場景的交付。RAGFlow 不是一個直接面向最終用戶和場景的產品,而是更多地作為中間層,解決了回答質量的問題。最終的業務通常通過 Agent 來定義和編排,而 RAG 實際上是這些 Agent 的基礎層。
Founder Park:關於 RAG 有很多爭論,比如認為它是一個階段性技術,長文本、微調都在取代 RAG 的價值。你是怎麼看這些討論的?
張穎峰:關於 RAG 的爭論目前已經基本平息。去年,RAG 甚至被稱為外掛。今年的爭論焦點是 RAG 與長上下文的處理能力,這場爭論從年初持續到年中,之後逐漸減弱。這些爭論部分是由於媒體的宣傳需求,部分可能是模型公司或學術機構的公關手段。
實際上,企業從未參與這些爭論。從一開始,企業關注的是模型的實用性和效果是否達到預期,而不是是否使用的問題。去年關於微調的爭論結果很明顯:大多數情況下我們不需要微調,少數情況下需要微調,但也需要與 RAG 結合使用。今年關於上下文的爭論雖然激烈,但結論也很明確:RAG 和長上下文處理不應是對立的,而是互補的。我認為爭論本身是積極的,因為它幫助人們更清晰地理解大模型的邊界。最初人們對大模型的期望過高,而反復的爭論讓人們認識到模型能力的局限,這對模型的實際應用有積極影響。
Founder Park:你們有一個判斷:RAG 在成為事實上的落地標準架構,它能夠脫穎而出的優勢究竟是什麼?
張穎峰:RAG 技術脫穎而出的最核心優勢在於其效果,它能夠準確地將用戶的問題與期望找到的答案匹配。這是 RAG 能夠實際應用的唯一價值所在。如果 RAG 無法實現這一效果,那麼大模型在企業中的應用將無法展開,這將是一個嚴重的問題。
Founder Park:怎麼看開源商業化的挑戰,未來你們的產品開源商業化路徑是如何規劃的?
張穎峰:我們認為在中國從事 B 端軟件業務的公司面臨巨大挑戰,因為企業普遍需要定製化服務,這導致許多 ToB 軟件公司最終淪為外包公司。我們堅決避免這一局面,並通過開源策略來最大化擴大我們的流量入口。
為了避免成為外包公司,我們計劃提供 SaaS 服務,且面向全球的提供服務。國內我們也堅持標準化的理念,既面向開發商也面向最終用戶。針對開發商我們更傾向於支持他們提供行業解決方案。針對最終用戶,我們選擇與他們的 IT 團隊合作,由他們完成 RAGFlow 的內部集成。目前國內大量企業,包括小型公司,都擁有自己的 IT 團隊,因此通過觸達程序員來觸達這些企業是目前性價比最高的方式。
開源增加了企業的市場聲音和存在感,提高了轉化率。我們的企業版在功能上將與開源版有所區別,開源版主要面向個人和中小型場景,而企業版則提供更進一步的服務和技術保障。開源和商業收費並不矛盾。另外,對中國企業來說,開源幾乎是走向國際市場的必要途徑,沒有開源,中國企業想在全球範圍內脫穎而出將非常困難。
Founder Park:你們公司最終想做的是什麼,是一個數據庫?
張穎峰:在數字化時代,標準化的軟件是數據庫,而可定製化的則是各種應用和國內的中台系統。在 AI 時代,RAG 成為了一種新的標準化軟件,可以類比為從前的數據庫,每個企業甚至每個人都可以擁有。傳統數據庫處理的是確定性查詢,而 RAG 處理的是非確定性對話。RAG 系統內部需要基礎設施和模型之間複雜的協同工作,才可以有效處理各類數據。
雖然 RAG 與傳統數據庫在確定性方面有所不同,但它們都是標準化的系統。
在大模型時代,軟件生態會發生重構,應用層變得更薄,業務邏輯的複雜性從應用層轉移到了 RAG。RAG 類似於數字化時代的數據庫,但包含的內容更多。在 RAG 層,RAG 專用的數據庫和一系列特定專用的小模型需要協同工作,共同保證最終的問答效果。這種端到端系統的複雜性對用戶是隱藏的。
我們就是致力於提供 RAG 這樣一個 AI 時代的數據庫,讓所有企業受益。在 RAG 內部,我們其實有一款全新研發的,專門服務 RAG 的數據庫,但它只作為基礎來支撐整個 RAG 系統。
Founder Park:接下來 Infiniflow 的重點發展方向是什麼?
張穎峰:接下來一年,我們的主要任務有兩個方面。
首先,我們將啟動商業化進程,因為我們的產品已經打下了良好的基礎,雖然尚未完全開發完成。
其次,我們將繼續提升產品,以滿足我們最初的預期,這包括提高對話能力,確保產品能夠滿足企業內部對數據訪問的需求,即用戶需要的數據能夠被準確檢索出來。此外,我們還將增強產品的實用性和競爭力。由於我們團隊規模較小,僅十幾人同時開發兩款產品,這給我們的團隊帶來了相當大的壓力。因此,我們將從穩定性和易用性兩方面著手提升產品,並確保對話效果達到預期。我們的目標是將產品推向市場,吸引更多用戶使用。
02
聊會小天:
AI 心理諮詢技術上已經成熟,
難點是商業化
聊會小天:一款免費心理機器人,提供 24 小時陪伴傾訴服務,由西湖大學深度學習實驗室孵化。海量專業心理測評,安全的心理諮詢服務。
以下是 Founder Park 與聊會小天聯合創始人俞佳的對話。
Founder Park :「聊會小天」是一款專注於心理健康的人工智能產品,而在這波大模型技術浪潮前,你們也曾開發相關產品。現在看,「聊會小天」與以往的產品相比,其核心區別是什麼?
俞佳:在我們採用大型模型之前,我們就堅定的選擇了自監督這個技術路線,並且在實驗室中進行了大約一年到一年半的孵化。隨著 ChatGPT 的出現,我們我們更是進一步的對於模型在心理領域的獨特性有了堅定的信心。從技術角度來看,我們肯定走的是大型模型的路線。在業務層面,我們通過訓練或工程化手段將業務理解融入大模型。
現有技術相較於上一代技術的優勢主要體現在以下幾個方面:首先是語言運用能力的提升,其次是對用戶表達內容和期望回覆的理解能力。這包括兩個層面:一是理解用戶的實際需求,二是將諮詢師的業務理解注入模型回答中的能力。隨著模型規模的增大,我們能夠更好地遵循業務專家或心理諮詢專家的建議。此外,現有技術的泛化能力更強,對於用戶的非標準問題和上下文連接,尤其是在長對話中的表現也有所增強。
Founder Park:目前「聊會小天」這個產品上線了,在產品上你們得到了哪些正反饋?
俞佳:實際上,我們從兩個方面獲得了積極的反饋。
首先,我們收到了用戶的一些實際留言,有些用戶甚至給我們寫信,或者親手製作了代表我們品牌的吉祥物或造型泥塑,這些行為讓我們感到非常感動。其次,在數據層面,儘管我們在國內的 C 端產品目前是以公益形式運營,但我們的產品在政府和學校以及杭州市第一人民醫院的問診界面中得到了應用,並且有大量用戶正在使用。我們的註冊用戶數量接近百萬。
Founder Park:對於產品定義來說,「陪伴」其實是一個比較大的詞,比較好奇你們會不會做進一步的需求拆分?
俞佳:在討論 AI 領域的陪伴服務時,我們的產品「聊會小天」定位於心理諮詢和純陪伴之間的輕諮詢形式。我們不提供像傳統心理諮詢那樣的嚴肅服務,例如每週一次、每次 50 分鐘的諮詢,也不涉及數字處方或醫療渠道。同時,我們也不完全提供像某些 AI 產品那樣的純陪伴服務,比如 c.ai 或者 Replica。
我們的目標用戶群體是那些有心理訴求但並不尋求緊急或嚴肅心理諮詢的人,對於有心理危機情況的用戶,我們也會推薦給政府的心理危機干預熱線等。我們選擇這個中間狀態的需求,是因為我們認為純陪伴服務可以通過其他產品形態來滿足,而心理的服務更傾向於渠道合作或純 ToB 模式。我們的產品將與學校和政府合作,但不涉及醫療領域,因為醫療領域對安全性和準確性的要求非常高,我們認為目前大模型在這方面還未達到可以落地的狀態。
Founder Park:之前大家對於專門做心理健康領域的 AI 應用並不特別看好,一方面覺得數據不足,另外也覺得模型能力還不夠用。你是如何看待這個問題的?
俞佳:我們認為在技術上,心理諮詢領域的 AI 應用並沒有問題,當前的模型能力足以支持輕諮詢的邏輯。我們對技術路徑充滿信心,真正的挑戰在於市場和國內大眾對心理諮詢的認知及接受度。即便不是 AI 諮詢,傳統心理諮詢同樣面臨這些挑戰。在數據方面,雖然目前數據不是限制因素,但若要進一步提升服務質量,數據將成為一個關鍵的壁壘或加速器。我們在這一方面具有優勢,因為我們與學校合作,能夠與專業的心理機構和學術界的心理學研究人員合作。自 2020 年以來,我們積累了豐富的一線實際數據和理論經驗。心理數據因其隱私性和保護要求高,通常只能通過實際業務獲取,而不能通過爬取、購買或開源方式獲得。
Founder Park:「聊會小天」沒有直接做 APP 產品,是先做了小程序,當時的考量是什麼呢?
俞佳:我們當時考慮的主要因素是降低用戶的使用成本。畢竟,下載一個 APP 需要一定的時間和流量,而小程序則更容易傳播和使用。因此,我們計劃將來開發一個 APP,但目前選擇使用小程序,因為它們可以更容易地嵌入微信或支付寶等平台。對於國內的企業合作而言,大多數用戶在微信中使用小程序已經非常習慣。所以,這是我們目前的暫時的策略選擇。
Founder Park:在交互方式上,之前是文字,現在則是語音。那麼下一步會是影片嗎?你們覺得在心理陪伴的領域,最好的交互方式是什麼?
俞佳:我們正在探索未來人機交互的發展趨勢,可能包括虛擬現實(VR)和增強現實(AR)技術的應用。目前,我們專注於開發能夠增強用戶信任感和沉浸感的技術,尤其是語音交互。語音功能的開發是我們的優先事項,因為它能顯著提升用戶的活躍度和使用率,且不同的聲音特徵對用戶體驗有重要影響。影片交互也是我們關注的領域,它有助於增強用戶與虛擬諮詢師之間的信任感。
儘管心理諮詢中的視覺理解技術仍在實驗室階段,我們正在研究如何通過觀察用戶的微表情和動作來評估他們對諮詢的滿意度和進展。我們的目標是確保用戶在文字、語音、影片到 VR 等不同交互模式中都能建立信任感,這是心理諮詢效果的關鍵因素。我們發現,儘管部分用戶對 AI 缺乏初始信任,但我們的產品透明度有助於用戶更容易地進入交流狀態,尤其是年輕用戶更傾向於接受 AI 服務,他們不認為與 AI 討論深刻話題是愚蠢的,這表明我們的 AI 產品在提供心理支持方面具有潛在優勢。我們將繼續優化產品,以滿足用戶需求並提升用戶體驗。
Founder Park:目前心理 AI 的產品商業化都很難。用戶不願意為 AI 心理服務付費的原因可能是什麼?
俞佳:與傳統心理諮詢服務付費的阻礙相似,主要在於大眾對於心理健康服務的心理預算尚未建立。許多人對於花費較高費用進行心理諮詢感到難以接受,這種觀念同樣適用於 AI 心理服務。
Founder Park:未來「聊會小天」的商業化,會往哪個方向走?
俞佳:我們的商業模式目前以 C 端的公益服務為主,而主要收入來源是與 B 端的政府和學校合作。雖然我們的產品既有面向 C 端的輕諮詢類服務,也有更注重陪伴感的 C 端產品,但我們對這一領域持長期樂觀態度,並持續投入發展。
Founder Park:對於未來,你現在最大期待的是什麼?
俞佳:從我們的理解來看,西湖心辰被視為一家專注於 AI 大模型的公司。我們認為,這個時代的 AI 公司必須能夠實現商業化,類似於上一個時代的公司也實現了商業化,但更傾向於 ToB 模式。我們的認知是,AI 公司必須具備能夠直接服務用戶的能力,而不僅僅是作為一個技術輸出的狀態。因此,更大的挑戰在於如何完成用戶的積累,並實現商業化的閉環。我們對 AI 賽道最大的期待是整個行業的技術能力,尤其是生成性 AI 的能力,能夠繼續提升。
對於公司而言,我們希望能夠在技術上找到獨特的點,特別是與行業結合的獨特點,並將其轉化為商業競爭中的優勢和壁壘。從技術發展的角度來看,我最期待的技術變量是多模態技術。例如,我們自己開發了一個端到端的語音模型,並認為它表現不錯。但我們相信還有更深入的能力可以挖掘,特別是在心理諮詢領域,對語音能力可能有更高的要求。例如,諮詢師的歎氣或微小的語音表達可能對用戶產生重大影響,或者語音響應的時間差可能對用戶的情感產生不同的幫助或影響。我們將在這些領域進行更深入的研究。
03
Traini:
垂直領域,
能力強的模型可以通吃
Traini:專注在人寵互動的領域,主要為寵物父母提供寵物行為翻譯和服務 Agent 的服務,創造了全球第一個用多模態技術建設的模型,主要是解決寵物行為翻譯。
以下是 Founder Park 與 Traini 創始人孫鄰家 Arvin 的對話。
Founder Park:你們的產品現在的用戶規模數據大概是多少?
孫鄰家 Arvin :目前擁有大約幾十萬的用戶,其中北美和歐洲的用戶佔比達到 70%,而非洲、拉丁美洲、亞太地區(不包括中國)的用戶大約佔 30%。我們的產品主要面向英語用戶群體。
Founder Park:市場上的寵物相關應用大多聚焦於寵物訓練,而 Traini 則選擇了從情感關懷的角度切入。當時有什麼不同的觀察和思考嗎?
孫鄰家 Arvin:我們的思考和觀察主要基於兩個方面。
首先,隨著年輕一代對婚育需求的減少,他們更傾向於選擇寵物作為情感伴侶,這一趨勢在美國寵物消費市場的增長數據中得到了體現。2018 年市場規模為 910 億美元,預計到 2024 年將增長至 1510 億至 1560 億美元。
其次,年輕一代與寵物的交流日益增多,尤其是希望以人話方式與寵物溝通,這在很大程度上受到社交媒體的影響。社交媒體提供了許多工具,使得與寵物的互動變得有趣和有效。然而,市場上缺乏能夠幫助用戶實現個性化溝通和護理需求的工具。傳統社區僅限於在線交流,無法直接與寵物建立聯繫。
除此之外,我們關注新技術迭代後能在哪些方面創新以及如何實現。重點考慮的是 AI 原生應用,即如何將抽像概念轉化為具體產品。例如,過去的狗叫聲只是一種聲音或符號,並未具體化為可交互的產品。我們考慮的是如何基於用戶的真實生活場景開發產品,而非僅僅創建情感陪伴類的虛擬產品。
另一個重點是交互方式,我們認為語音交互是 AI 領域中最好的方式,簡單易用、情感豐富、信息量大,且可解放雙手。當前的語音代理技術已經非常成熟,可以實現聲音複製、角色生成等多樣化交互,滿足用戶需求。因此,我們從這兩大需求出發,探索如何將需求轉化為真正的 AI 原生產品。
Founder Park:狗語翻譯最大的挑戰,我理解不在於需求洞察,而是如何將技術產品化。你們當時具體思路是怎樣的?
孫鄰家 Arvin:您的觀點非常準確,需求始終存在。據調查,84% 的美國寵物主人每天都會與寵物交流,Quora 平台上也有數百萬用戶討論如何理解寵物行為和與寵物溝通的問題。因此,我們首先定義了產品的技術路徑。在產品層面,我們明確了產品定義為寵物行為翻譯器,而非僅僅是叫聲翻譯器,這一定義背後有科學依據支撐——僅依靠叫聲進行訓練的準確度和情感行為的豐富度有限。通過分析寵物的表情、動作和肢體語言等行為,我們可以更準確地理解寵物的表達,這是我們在產品科學路徑上的第一個確認點。
在技術路徑上,眾所周知,確定第一點後,我們需要知道如何識別寵物的行為和表情。最終我們得出結論,必須使用影片而非僅依賴聲音,這自然將我們引入了多模態技術領域。在多模態技術方面,之前存在許多不確定性,但 4o 的出現為我們提供了一個明確和通用的路徑,使我們相信可以按照這種方式實現產品化。
過去兩三年,我們實際上花費了一年時間進行 prompt engineering,即編寫提示詞,通過這種方式構建產品,並驗證它是否滿足需求。那時,我們開發的 AI 聊天功能允許寵物主人輸入問題,我們幫助回答和分析,但當時還無法實現翻譯功能,只能做到文字分析。到了今年年初,我們確定了產品和技術路徑後,迅速行動。4 月底啟動項目,6 月底照片翻譯功能上線,7 月底叫聲翻譯功能上線,8 月底影片翻譯功能上線。雖然翻譯的種類和準確度仍有提升空間,但已經可以供用戶使用,開發速度顯著加快。這就是我們的思考路徑。
Founder Park:對於狗語翻譯是如何定位的,是作為一個嚴肅的產品開發,還是一個趣味引流的功能?
孫鄰家 Arvin:毫無疑問,我們對開發這個產品的態度是非常嚴肅認真的。我們參考了矽谷一家公司的做法,他們通過分析人的聲音來進行情感和精神健康相關的分析,並且發表了眾多論文,有著紮實的科學依據。在開發過程中,我本人也進行了廣泛的市場調研和科學研究,包括 MIT 和密歇根大學等機構在這一領域的科研成果。這些研究不僅涉及家養寵物,還包括對野生動物如藍鯨、海豚和大象的研究,當然,關於狗狗的研究是最豐富的。因此,我們的產品在科學性上是有保證的,我們希望它在交互過程中能夠充滿情感、富有趣味,易於引起共鳴,但在準確度和行為翻譯的真實表達上,我們希望它是嚴肅的、有科學依據的。
Founder Park:目前從你們實際的產品數據來看,狗語翻譯功能是用戶嚐鮮需求,還是已經成為用戶的常用功能?
孫鄰家 Arvin:根據目前的產品數據,狗語翻譯功能顯示出一定的持久性,但我們還沒有完全實現預期的效果。主要原因有兩個:
首先,我們的產品目前不支持實時拍攝功能,作為一個 APP,我們無法判斷用戶是否會持續使用拍攝功能。
其次,我們發現 APP 可能不是我們產品的最終形態,它存在一些限制。例如,當用戶發現寵物有行為問題時,可能無法及時捕捉到這些瞬間。因此,我們考慮通過硬件結合來解決這個問題,比如為寵物配備智能穿戴設備,以便實時捕捉寵物的行為。
此外,隨著我們在 APP 中收集到越來越多的寵物個性化數據,我們可以提供更豐富的機器人交互體驗,例如以寵物的口吻與用戶進行虛擬陪伴式的交流,這將增加產品的可持續性。總的來說,我們在這些方向上還有很大的提升空間,目前只是開始階段。
Founder Park:未來產品發展方向是怎麼規劃的?做更有趣的功能,還是更有用的服務?
孫鄰家 Arvin:我們的產品形態未來有很大的發展空間,目前我們專注於開發狗語翻譯這一趣味性功能。我們發現 C 端用戶並不追求 100% 的準確率,可能 80% 到 90% 的準確率就足夠滿足他們的需求。但我們發現寵物醫生對準確度有較高的需求,因此我們計劃在提高準確度後,將產品應用於輔助寵物醫療診斷。這將是我們後續工作的重點,包括提高翻譯的準確度、種類和情感識別的準確性。
我們從一開始就考慮了嚴肅場景的應用,而非僅僅作為一個玩具。美國在寵物健康行為分析和寵物文化方面非常發達,但在其他國家,如中國,許多寵物醫生需要更先進的理念和工具來提高診斷能力。因此,我們認為這個方向有很大的發展空間。目標是通過多模態技術全面分析寵物行為,提供專業服務,並在 APP 上添加有趣的社區分享功能,這兩者並不矛盾。在 C 端,我們可以嘗試許多有趣的功能;而在 B 端,如醫療領域,我們的模型能力是關鍵。
我們不局限於 ToC 或 ToB 的公司定義,而是考慮垂直模型作為 Agent。在垂直領域,數據量的要求不會像大模型那樣高,但對數據質量的要求非常高。如果數據量和質量不能保證,我們需要建立數據飛輪,讓用戶不斷貢獻數據,從而提升模型效果。一旦模型效果提升,無論是 ToC 還是 ToB 的應用都是可行的。因此,我們認為在垂直領域內,如果做好模型,就可以實現通吃。
Founder Park:有些人認為 ToC 和 ToB 需要不同的公司基因,而你們同時做 ToB 和 ToC,背後是怎麼思考的?
孫鄰家 Arvin:確實,這種觀點基於對傳統互聯網的理解。在經典互聯網時代,公司往往只能專注於一件事,因為操作系統不是由它們控制的。以安卓系統為例,它既服務於 B 端也服務於 C 端,最終可能通過與設備廠商的合作獲得收益。如果沒有 C 端用戶,安卓系統本身並無價值。在當前的垂直模型領域,我們可以看到許多類似安卓的系統,它們既有 ToB 的能力,也有 ToC 的潛力,使得這兩者之間的界限越來越模糊。
在客戶維護方面,如果您通過 API 方式提供服務,對於技術公司而言,並沒有想像中那麼高的成本。這主要取決於產品形態,如果需要為客戶定製,那麼 ToB 和 ToC 之間的區別可能很大。但如果採用產品驅動的方式,以 API 形式提供服務,那麼與用戶下載 APP 的情況相似,API 可以直接調用,提供豐富的功能。最終,都是基於模型的能力,模型能達到的水平決定了能為客戶提供的服務。因此,在客戶維護上,與傳統方式相比,成本並沒有那麼高,這也是一個優勢。
Founder Park:你有很深的做移動互聯網產品的經驗,怎麼看它和做大模型應用產品的區別?
孫鄰家 Arvin:我認為開發大型模型產品與移動互聯網產品最根本的區別在於需要深入理解技術,特別是閱讀相關論文。在當前 AI 領域,真正懂產品的人並不多,他們不僅需要理解技術架構,還要把握用戶需求和模型細節,這些要求的綜合難度提高了很多。可以說,這增加了創業的難度,使其比移動互聯網時代更高。移動互聯網時代的技術是通用的,我們只需要在交互設計上有所區別。不同場景如電商、遊戲或娛樂,雖然交互方式和內容提供不同,但底層技術架構相同。
但現在,僅僅套用大模型外殼是不夠的,它無法支撐整個商業模式。在垂直領域,我們還需要自行開發模型,這使得我們走上了與大模型相似的技術路線,只是規模和專注點有所不同。但背後對技術的理解要求提高了,對人才的要求也提高了。與移動互聯網時代相比,現在不是簡單地增加人手就能解決問題,而是需要增加科學家的數量,因為只有他們可能解決大多數問題,而不是普通工程師。
Founder Park:當前,構建一個優秀的創業團隊,似乎已經不再適合一開始就組建一個龐大的團隊,小而精似乎是更佳選擇。在大模型時代創業,一個好的團隊該如何構建?
孫鄰家 Arvin:我同意當前確實不需要特別龐大的團隊。由於團隊成員的質量已經非常高,他們的投入產出比可以達到很高的性價比。同時,有許多工具可以輔助工作,比如編程時的 Copilot 等,這些工具可以提供幫助。更重要的是在智慧層面,如何找到產品市場契合點(PMF)。至於後續的規模化等問題,並不需要像移動互聯網時代那樣需要大量的人員。
其次,疫情導致的分佈式辦公提供了一個機會,可以使用全球人才,不必將所有人才集中在矽谷,可以在整個美國、歐洲甚至中國尋找合適的人才。這樣,雖然對人才的要求提高了,但由於分佈式辦公,可以降低人才成本。即使在矽谷找不到合適的人才,也許在歐洲或中國可以找到,同時還可以降低成本。當然,這在一定程度上提高了管理成本,但由於團隊規模小,管理成本的增加並不是那麼大。綜合考慮後,我認為一個 20 人的團隊設定並實現 1 億美元的 ARR 是完全可能的。
Founder Park:接下來一年,你們公司的發展聚焦在哪幾個方向?
孫鄰家 Arvin:我們將重點聚焦在兩個方向:
首先是產品方面,主要是提升情緒翻譯的種類和準確度;其次是用戶增長,這仍是我們的核心關注點。
至於商業化,我們可能會在明年的下半年開始嘗試,但這不是我們最高的優先級。變現途徑有很多,包括工具訂閱、交易、廣告等,關鍵在於選擇變現效率最高的方式。這取決於用戶畫像和場景的結合。對於我們來說,向醫療領域或硬件方向發展將是非常直接和明確的選擇。