大廠年度模型收官之際,創業者們的商業回顧與技術野望
大模型已由最初模糊的前沿科技,在 2024 年逐步演變為即將可量化評估的具體技術能力,同時一些應用場景也初露頭角。GenAI 被視作未來十年最為關鍵的技術變革力量,又將會以何種方式對當下的商業模式進行重塑?
AWS re:Invent 作為亞馬遜年度技術實力展示大會,將在年末繼續推進 GenAI 的新一輪進展,在為今年行業收官定調的同時,開啟明年技術和商業演進的新航道。
以下整理了 AWS re:Invent 2024 GCR Startup Workshop 中的部分對話及思考,希望能給你一些靈感和啟發。
模型的商業化已經從局部開始滲透
在生成式 AI 時代,商業化與技術創新同等重要。目前,市場呈現出明顯的行業化趨勢,以 B2B to C 模式最具商業潛力。隨著技術不斷進步,AI 應用場景持續拓展,正在重塑傳統產業鏈,催生新型商業模式。尤其在內容創作領域,AI 正在降低創作門檻,重構生產流程。
對話嘉賓:
-
李奔|亞馬遜雲科技中國區技術合作夥伴總監
-
唐家渝|生數科技 CEO
-
林群書| 整數智能 創始人
極客公園:AWS 作為平台方接觸到了大量的客戶,我們想從你們的視角瞭解一下,今天哪些公司對大模型的需求強烈?
李奔:我們對今年的 AI 應用一些觀察可以分享。首先,行業化趨勢明顯。在中國本土和中國企業出海這兩個主戰場,我們觀察到兩個應用最廣泛的行業是製造業和電商。
製造業方面,考慮到大語言模型早期存在「幻覺」等缺陷,企業最初主要將其用作 Copilot(協作助手),服務於企業內部專業人員,比如幫助文檔寫作、翻譯和輔助設計等。但目前能創造營收的是 B2B to C 模式,即用 AI 技術服務於 B 端客戶,再由 B 端將產品推向 C 端消費者。
舉個成功案例:深圳一家公司開發的智能錄音筆,集成了會議整理和翻譯功能,在亞馬遜平台上成為爆款,短期內銷售額就突破了一億。另外,塗鴉作為全球領先的 IoT 品牌,利用 AI 技術增強智能家居解決方案,特別是在寵物產品領域。這種 B2B to C 模式之所以成功,部分原因是消費者對 AI 偶爾的小失誤容忍度相對較高。
在電商領域,特別是跨境電商,我們看到更多樣化的應用場景。這是個競爭極其激烈的市場,深圳的企業家們反應特別快。去年初 ChatGPT 剛推出時,許多跨境電商企業就開始應用,覆蓋了整個業務鏈條:營銷端:廣告和營銷素材生成;運營端:售後的用戶反饋分析(VOC);決策端:數據分析,特別是選品決策。
整數科技創始人 林群書 與現場創業者交流
極客公園:整數智能作為數據公司,觀察的角度會比較多,也想聽聽你們的客戶在做什麼行業和有什麼應用場景?
林群書:在杭州,電商加大模型的結合就特別多,包括電商導購、創意營銷方面的設計等,這一波會消耗大量的大模型需求。
因為這個行業已經存在很久了,包括製作圖片,更細一點比如產品演示的小影片,他們可能接入一些 API 接口,用生成式 AI 來製作 30 秒到 60 秒的影片。這些開發成本可能不高,但確實是每一家做產品的公司,或在電商平台上賣產品的公司都非常需要的產品。
而法國出現了 AI 加 Fashion 這塊的創業企業,因為大家都知道它的奢侈品產業,像 LVMH 他們也在公司內部成立了 AI 部門,做 AI 加藝術、AI 加奢侈品的結合。
在日本,我們發現了一個很有趣的現象,那邊有人將 AI 與成人用品結合,因為這個領域本身就有很強的需求,加上 AI 確實能夠提升用戶體驗。
極客公園:生數科技是跟影視行業更加相關,更直接。在目前生成影片內容的情況下,誰願意去嘗試這些事情?這個產業鏈現在是一個什麼狀態?
唐家渝:目前主要有幾類用戶在使用這項技術。第一類是普通互聯網用戶,他們能用 AI 創造有趣內容。比如我們發現一個全球流行的應用:用戶上傳兩張照片,可能是自己和明星,或與已故親人的合照,只需輸入「讓照片中的人擁抱」,AI 就能讓他們自然互動。這個功能承載的情感訴求跨越了文化界限,從拉美開始,經由印尼、東南亞,傳播到歐美和日韓等地區。
第二類是想嘗試專業內容創作的非專業用戶。比如動畫製作,傳統方式需要掌握複雜工具和逐幀渲染,現在只需輸入文字描述或參考圖就能生成動畫。這讓許多普通愛好者開始嘗試創作動畫和特效,我們的模型在這方面表現突出,網上大多數 AI 生成的動畫都來自我們的平台。
在專業領域,廣告營銷客戶用我們的技術大幅提升了效率。只需提供產品照片,比如一個話筒,就能通過簡單指令生成所需畫面,極大降低了製作成本。
對於影視行業,雖然 AI 生成畫面的質量還不足以用於大銀幕,但已經在兩個方面得到應用:一是製作預覽片,幫助團隊快速展示拍攝內容;二是電影宣發,比如我們與《熊貓計劃》的合作,通過 AI 快速生成虛擬角色的短影片內容,滿足了日更的宣發需求。另外 10 月上映的《毒液:最後一舞》所採用的中國區水墨風宣傳片,也是使用我們的產品 Vidu 生成製作的。
極客公園:如果 AI 在明年就可以直接生成短劇了,影視產業鏈是否要被重構了呢?
唐家渝:我們跟短劇包括影視行業交流後發現,現在真正缺的是好的劇本。雖然大家覺得語言模型可以幫助寫劇本,很快可以自動化寫很多,但真正能抓住人心,或者說從商業角度能保證很好 ROI 的劇本還是非常缺乏的。所以我覺得這些公司至少在一段時間內,在劇本創作、把握用戶心理這些方面還是很關鍵的。但確實在拍攝流程上,甚至演員的需求上可能會越來越少。
極客公園:你能預期一下可能會出現哪些新的場景嗎?
林群書:隨著模型邏輯推理能力的提升,此前困擾我們的「幻覺」問題也得到了一定程度的緩解。這種進步首先可能影響數據標註行業。以智能駕駛的數據標註為例,由於對準確性要求極高(需要 99%以上),加上算力消耗大的問題,我們過去很少直接使用大模型進行標註。我們的常規做法是先用大模型對新場景進行初步標註,然後用這些數據去訓練專門的小模型,這樣既能提高計算速度,又能獲得更多準確率達到 96%以上的數據集。但隨著模型推理能力的顯著提升,我認為數據標註行業將率正選生變革。我們可能會更多地利用這些具備強大推理能力的模型來提升數據標註質量,從而加速整個行業的發展。
順著這個思路,那些對準確率要求極高、容錯率極低的領域,比如法律行業,很可能成為下一波大規模應用的重點。回顧 2023 年初,確實湧現出許多專注於法律大模型的創業公司,但到年底時有些公司已經默默退場了,主要是因為當時的技術還不夠成熟。不過,這個領域的業務需求依然存在。隨著技術的進一步完善,我預計會出現新一波創業者,他們將有機會把這個領域做得更加成熟。
極客公園:今天在座的有很多創業公司,對於想要站在巨人肩膀上做事情的創業者來說,你覺得在哪些層面大家應該跟 AWS 合作,而不是去競爭呢?
李奔:在基礎設施和工具鏈層我們都歡迎大家一起合作。在工具鏈層面,我們希望招募和發展更多的夥伴,來支持客戶快速構建 GenAI 應用。在應用層,我們也希望大力發展夥伴。我們面對的客戶有兩種屬性:一種是 Buyer 屬性,一種是 Builder 屬性。Builder 公司可能更喜歡用工具鏈自己去構建。
但還有很多客戶群是 Buyer 屬性的,就像唐家渝剛才說的,企業里做營銷的市場部門,他們不大會去自己 build,他們更願意直接購買好的應用產品來提升能力。
技術依然可期,數據&產品的價值開始凸顯
在大模型技術發展趨緩之際,產業重心正在從技術突破轉嚮應用落地與商業化探索,企業的數據資產與數據基座將成為核心競爭力。而隨著交互形態從單一對話向多模態演進,自然語言正成為連接人機交互的核心橋樑,但真正的突破在於如何將語言、視覺、觸覺等多維感知無縫整合,打造更符合人類認知習慣的交互體驗。
對話嘉賓:
-
陳曉建|亞馬遜雲科技大中華區產品部總經理
-
周昌印|Vozo AI 創始人
-
白實|iServe Robotics CEO
極客公園:最讓我們印象深刻的是,亞馬遜發佈了自家的大模型 Nova 和 AI 代碼編程產品 Amazon Q developer ,能不能從內部視角,和我們講講為什麼亞馬遜要加入這個看似紅海的戰場?
陳曉建:這其實並不是亞馬遜第一次在這些領域提供產品。我們之前就有 Titan 這樣的嵌入式模型,在開發者工具方面也有一系列產品。只是現在有了生成式 AI 後,我們通過這個能力完全重塑了產品形態,推出了 Amazon Q Developer 這樣的工具。實際上,在 GenAI 技術發展的早期,我們內部就達成共識,認為開發者場景會是 AI 最先落地的領域之一。
極客公園:AWS 投資了 Anthropic,又自己做模型和模型開發平台,能不能分享一下其中的關聯?
陳曉建:在亞馬遜雲科技內部,我們有高度共識認為要做大模型。雖然 Anthropic 確實是業界領先的,但大模型技術遠未成熟,還不到不需要新玩家入局的階段。作為基礎設施提供商,補充大模型這個技術板塊是很自然的事。實際上,所有主要雲服務商都在做自研大模型或與第三方密切合作。
極客公園:從技術角度,如何看待企業數據資產的價值?在模型時代,什麼樣的數據會更有價值?
陳曉建:在大模型時代,選擇合適的模型和平台只是其中一環,你的數據資產和數據基座才是真正的差異化能力。我們最近發佈了很多數據相關產品,比如 Amazon Kendra AI Index 可以連接外部數據源,還有結構化和非結構化數據的自動化集成等。
同時,我們今天發佈的 Amazon SageMaker Unified Studio 是個重要產品,它整合了常用的大數據和人工智能服務如 EMR、Glue、Athena、Redshift 和 Bedrock、SageMaker AI 到一個框架下。這是因為客戶需要處理大量業務數據,需要數據注入和處理,這些都需要與 AI 後端良好結合。
極客公園:近期業界對大模型的 Scaling Law 是否碰到了天花板有各種爭論,你們作為經常使各家模型的產品公司,感受是怎麼樣的?
周昌印 :我是深度的 ChatGPT 用戶,我的體驗是從 GPT-3 到 GPT-4 的提升很明顯,但 4 到 O1 的提升可能不那麼直觀。這就像智商從 50 到 80 的提升很容易感知,但從 80 到 90 就不那麼明顯了。但這種提升其實非常關鍵,特別是在深度思考和複雜任務處理上。
比如在解決 24 點這樣的數學問題上,GPT-4 Turbo 的表現已經接近小學生水平。假設 GPT-4 用了約 20T 的訓練數據,如果按 scaling law,GPT-5 可能需要 200T,這會是個大問題。但 O1 給了另一個方向:在同樣數據量上做更深入的思考。
極客公園:經過這一年的嘗試,從你們的體感上來說,覺得什麼是 AI-native 的產品?它應該具備哪些特徵?
周昌印 :這個詞還比較模糊。之前有 Cloud Native,現在說 AI Native,每個人理解可能不太一樣。一般認為產品的核心功能需要基於 AI,而且最好能通過數據不斷迭代增強 AI 模型。
但我覺得也不一定要這麼嚴格。比如 Intercom 這樣的客服產品,在原有功能上加入 AI 回答能力,雖然按傳統定義可能不算 AI Native,但它正在逐漸把 AI 變成核心能力。如果它能通過用戶使用不斷優化模型,提升用戶體驗,我覺得也可以算是 AI Native。
極客公園:從硬件角度看,明年 CES 上可能會有上百家 AI 眼鏡廠商,你長期和硬件打交道,怎麼看大模型和硬件的結合,看好 AI 眼鏡這個品類嗎?
白實:眼鏡確實是一個很好的形態。從Google眼鏡到 Meta、蘋果的 VR/AR 設備,這個方向一直在發展。最近的趨勢是向輕量化、開放式發展,更注重實用性。但主要限制還在於算力、能耗和重量。
目前主要應用還是圍繞拍照錄像,雖然可以把計算放在手機或外接設備上,但本質上還是邊緣計算的問題。機器人領域也面臨類似挑戰,受限於網絡延遲,但純邊緣計算的能力(幾百 TOPS)又遠不如雲端。
我個人比較看好多模態交互的發展。現在設備主要集中在視覺和聽覺,但人類的感知是多維度的,特別是觸覺。比如材質、溫度、摩擦力等,這些都是現有傳感器難以完整捕捉的。大部分傳感器還停留在實驗室階段,距離工業化還有距離。
極客公園:對話是最好的交互形態嗎,還是我們今天受到 ChatGPT 影響太深了?
白實:交互遠不止於對話。我之前在亞馬遜做過家用機器人項目 Astro,目標是讓用戶回家後能放下手機,通過機器人完成各種任務。五年前沒有 ChatGPT 時,這種人機交互還停留在硬編碼階段,功能很有限。
周昌印 :以影片處理為例,傳統上我們都是通過各種按鈕來實現主要功能,但這種方式有時候並不夠便捷。比如當你想要將影片中某個說話者的語速提高 1.25 倍時,用按鈕操作會相當繁瑣。而如果使用自然語言交互,只需要輸入一句「請將說話者 A 的語速提高 1.25 倍」就能輕鬆完成。雖然交互的基本形態可能不會有太大改變,但自然語言交互在整個交互方式中的比重會越來越大,併發揮越來越重要的作用。
極客公園:最後請曉建展望一下明年的發展,特別是關於 Agent 的發展?
陳曉建:明年肯定會有很多新產品。目前 AI 還處於早期階段,從概念驗證到生產的轉化率不到 50%。正如 AWS 所說,做一個 AI 應用的難度可能超出很多人想像。
在 Agent 方面,我們看到很多客戶已經開始嘗試。比如 Rocket Mortgage 用智能 Agent 服務客戶,轉化率比人工高 30%。我們今天也發佈了 Multi-agent 協作能力。未來會有更多客戶從單個 Agent 解決簡單問題,轉向多個 Agent 協作解決複雜業務問題。