草莓難救被「月拋」的AI對話產品？

OpenAI揭開草莓模型神秘面紗，能不能算GPT-5，坊間爭議聲音很大。

這就是今日淩晨一點，OpenAI發佈的兩個模型：o1 mini，o1 preview。

據官方消息，與GPT-4一樣，OpenAI o1也以AI對話和API接口的形式呈現；而與GPT-4系列不同的是，o1可以解決比GPT時期的科學、編碼和數學模型更難的問題。具體來看，之前的GPT模型旨在模仿其訓練數據中的模式，而o1的訓練旨在讓其獨立解決問題。

意味著o1模型可以像人一樣，需要花更多的時間去思考問題，嘗試不同的策略，甚至能意識到自己的錯誤。

聽著很厲害對不對？但實際4O、O1等大模型「寄生」的AI對話類產品，他們的用戶數並不高。

而據QuestionMobile，AIGC APP在工作日期間的活躍度高於雙休日，推測現階段AI與用戶辦公場景的適配性更強，AI主要圍繞工作場景，為用戶生成文本、圖片等內容信息。

o1模型雖在物理、化學、生物、編程等領域表現得像博士生一樣好，但對與編程能力來說，755萬程序員佔國內人口不足1%，可用武之地並不多，對C端大多數用戶來說帶來的效益並不高。

尤其近日，AI對話類App的用戶留存問題被推至風口浪尖，更衍生出了「大模型六小虎泡沫即將破滅」的說法，AI對話的處境岌岌可危。儘管阿里原技術副總裁賈揚清已經提出質疑，下圖30日國產5大AI對話類產品留存率接近0，這一數據應該不準確，但AI對話現在確實有一點「盛名之下，其實難副」。

圖源：賈揚清朋友圈

根據QuestMobile 權威數據顯示，頭部AIGC APP運營數據活躍率低，均在20%以下；忠誠度方面，3日留存均在50%以下；流失風險高，部分APP的卸載率在50%以上。

坐擁數億註冊用戶但日活很低的AI對話類產品，新的草莓大模型能否拯救呢？

9.11還是9.9大？AI界的亙古難題

曾經AI對話因回答錯「9.11還是9.9大」被熱議，現在國內各家都迭代了多代大模型，文心、豆包、Kimi等都能答對這道簡單的數字題。但是OpenAI新更新的o1模型卻還是沉迷自己不知名的邏輯怪圈里，找不到正確答案。

但國內大模型也並沒有領先多少，但當我們問對話大模型一些客觀的問題，如「草莓的單詞里有幾個r」、「打了警犬算襲警嗎」等問題時，就會發現，這個剛剛還無所不能的AI助手突然變得手舞足蹈、不知所云了起來。

目前來說，對話大模型在簡單的場景仍易漏洞百出，網民戲言：就這？取代我們人類？

誠然，大模型幻覺率高的問題，始終製約著AI對話在C端的滲透。專注於用戶體驗的研究機構Nielsen Norman Group在23年9月發佈的一篇研究文章中提到，在曾經使用過AI工具的人中，大多數（78%）將 AI 工具用於工作和個人目的；8%的人僅將 AI 用於個人用途。

而在精益求精的工作用途中，大模型幻覺顯得更加致命。不僅如此，工作場景中精確的指令反而更易讓大模型「發懵」，AI對話的表現也並不出色。

在十字路口與訪問節目演員毛東的播客中，毛東提到，在用AI對話啟發訪問節目文本創作的過程中，需要提前對對話模型進行5分鐘左右的預訓練，而預訓練後對話AI生成的稿件也並不能直接起作用。輸入一些稍複雜的指令，如要求大模型同時將「模仿路易·C.K.訪問節目風格」、「加入結婚話題的段子」、「帶一些北京方言」融入文本創作，大模型就會分不清重點，生成的訪問節目文本索然無味。

同樣的，Nielsen Norman Group的用戶研究也指出，在使用對話AI時用戶幾乎總是進行多步迭代，因為人工智能無法準確提供用戶想要的東西——它只能猜測意圖。假如問對話AI「從上海出差到北京，近十五天有什麼天氣變化？有哪些穿衣建議」，則需要先對AI下達查詢近15日天氣的指令，然後引導其回答上海與北京的溫度差異，以及針對北京溫度進行穿衣建議。

然而，對於同一問題，似乎國內AI對話還有部分進步空間，Claude、ChatGPT的回答更精準一些。

對話AI的記憶也限制了其用戶體驗。通常在與AI進行超過7-10輪對話後，AI的回答開始變得混亂或不連貫。這就像你在跟一個注意力持續時間只有5分鐘的人聊天，每過一會兒就得重新介紹一遍背景，導致AI對話用戶體驗感平庸。

正如我們所見，無論是線性的還是非線性的回答，人們在滾動對話記錄，尋找合適的回答時都容易迷失方向。這個過程中，對話大模型理解和表達能力有限，整體用戶體驗平庸，大多數用戶們也經歷了從新鮮感到失望，AI對話也難以高效留存住用戶。

多模態交互技術不夠成熟，距離「Her」實現尚遠？

電影《Her》中的人工智能不是一個簡單的對話式AI，她不僅能通過聲音表現出極為複雜的情感，比如幽默、溫柔、關懷甚至是嫉妒，還具有高度的情感智能和自主學習能力，能夠理解人們的情感需求，並根據互動不斷優化自己的言行。

仿真的語音對話交互、流暢的多模態體驗，使故事的男主人很快忘記了面前的「女聲」只是一團冰冷的算法，深陷愛河。

而5月，OpenAI的ChatGPT-4o發佈會結束後，Sam Altman在Twitter上發了一個簡短的詞：「her」，暗示著OpenAI已接近於完成科幻電影《Her》中，那位女性語音智能機器人的能力。

GPT-4o支持文本、音頻和圖像的任意組合的輸入和輸出。Mark Chen演示GPT-4o的多模態成果時，他告知ChatGPT自己正在做演示，詢問GPT自己非常緊張應該怎麼辦。ChatGPT提示他：「深呼吸一下吧，記住你是個專家！」隨後，Mark Chen用非常急促的幾聲喘息回應，ChatGPT則用吃驚語氣下的「慢點呼吸，你可不是個吸塵器！」來回答他，幽默的回答令人忍俊不禁。

GPT高效的生成速度，帶來流暢的多模態交互體驗，雖然暫時還不能如《Her》中一樣流暢地進行影片對話，但演示案例中的語音對話已非常接近。

現實是，4o語音能力還沒發佈，o1還不具備瀏覽網頁或處理文件分析功能。儘管它具備圖像分析功能，但該功能暫時關閉，等待進一步測試。

但國內月活第一的豆包APP的互動能力卻稍顯遜色。豆包雖然能識別語音，並進行對話，但其生成速度卻不及GPT，百度的文心生成速度則更慢。不僅如此，豆包也無法識別對話過程中的語氣。AI鯨選社在與豆包交流時，用很沮喪的語氣說「今天天氣可真好啊」，可豆包卻判斷出對話者的情緒是不錯的。

圖註：與豆包語音交互過程的文字記錄

百度的文小言語音對話，雖有AI虛擬角色豐富用戶的視覺體驗，但其生成內容實在是慢，用戶在交互過程中盯著虛擬角色遲遲不「說話」，很容易「跳戲」。

圖註：文小言語音交互界面截圖

智譜清言於9月5日上線了「影片通話」功能，向著Her的目標又邁進了一步。然而，智譜的視覺能力不太完善，把圖中的紫色看成粉色，綠色誤認為灰色，堪稱一位「色弱」的AI助手。不過，它的影片對話機器人非常活躍，善於引發話題，它會誇讚你的窗簾很有設計感，還會自己找話題，問你有沒有什麼拿手的菜。值得一提的是，智譜的生成速度比文心和豆包都稍快一些，交互體驗還不錯。

圖註：智譜清言影片聊天截圖

雖然現階段語音、圖像識別等技術正在快速發展，但真正流暢、自然的多模態AI對話體驗仍然任重道遠，目前來說，國內AI對話的多模態交互還不夠成熟。

但無論是「her」還是GPT-4o，可見的是，具備多模態交互的AI對話產品，是AI對話發揮能力的關鍵。

AI對話對「Her」的嚮往，也是能留住用戶的關鍵。這種最接近人類的聊天方式，才是打破只有專業人士用Prompt，才能和AI對話產品交互的桎梏。

AI對話還在尋找自己的killer feature

現在的AI對話應用確實有不少花哨的功能。它可以回答我們日常所問，它可以幫我們寫情書，甚至還能和它玩角色扮演……

但據《2024年中國移動互聯網半年報告》，國內AIGC用戶不穩定，AIGC行業人均使用時長同比下滑了23.5%。AI對話類APP功能雖多，卻都是一些「花拳繡腿」，獲客成果並不理想。

周鴻禕曾指出，通用大模型留存率低的原因主要在於承諾什麼都能做的同時，卻什麼都做不精。也正是因為功能過多過於繁雜，AI對話類APP還沒有找到那個讓用戶欲罷不能的killer feature。

互聯網時代，使支付寶、微信、抖音、美團真正殺出重圍的，是它們都找到了自己的「殺手鐧」。購物支付會想到支付寶，社交聊天會想到微信，閑暇時間會想要看看抖音，「飯來張口」會想到美團外賣…...反觀AI對話呢？它好像什麼都能做，又好像什麼都做不好。

目前，國內AI對話產品中，Kimi是較早找到應用場景的。知識高效獲取一直都是職場、學生和科研人士的痛點問題，用戶們拿到的資料往往都是大段資料，知識獲取速度較慢。

Kimi抓住用戶這一痛點，主打長文本和文檔處理兩個功能，能幫用戶快速抓取文檔重點，取得了還不錯的用戶體驗。據AI數智源發表的8月國內AI榜單來看，Kimi仍以22.85M的數據領先其他家。但是實際上Kimi預訓練較弱，模型本身能力並不強。但正是抓住了有效場景，Kimi的數據穩居國內大模型前列。

數據來源：Similarweb

目前其他家大模型，包括豆包、文心等，也都跟進了長文本處理和文檔解讀功能，能夠滿足用戶日常工作所需。不僅如此，百度專門推出「橙篇」對標Kimi（橙篇提供專業的知識檢索和問答、超長圖文理解和生成、深度編輯和跨模態自由創作等功能）。這麼看來，Kimi曾經的專長也並不顯優勢了。

而在龍頭OpenAI內鬥的這些日子裡，Anthropic暗暗發力。據 Datos對ChatGPT調用場景的調查數據，編程問題佔據了 29%，在所有使用場景中排名第一。Claude 3.5 Sonnet更新的「工坊模式」，強化編碼能力，使生成代碼速度更快，效率超過之前的GPT-4。編程作為最高頻、剛需的AI應用場景之一，給市場帶來了機會與收入。

OpenAI不放手編程場景。這次更新的o1模型主打強推理、強編碼能力，有網民體驗稱其代碼正確率確實有提升，「以前很少能一次run成功的」。o1還未正式開放，其效果究竟如何還待檢驗。

Claude 3.5的文本生成能力也在新Prompt「漢語新解」中得到了詮釋。Claude於6月24日發佈3.5模型，六月底，Claude流量激增135%。

圖源：數字生命卡茲克

找到殺手級場景的AI對話產品風光創收，不禁讓其他家焦慮了起來，各大AI公司都在絞盡腦汁找辦法。

近日的外灘交流會上，阿里發佈了「支小寶」全家桶，佈局AI生活管家。百度也暗中轉變戰略，升級文心一言，並更名為「文小言」，定位「新搜索」智能助手。值得一提的是，百度改名的「文小言」，頗有「轉戰搜索」的意味。9月11日，字節也被爆出佈局AI硬件的消息，開發與豆包大模型和豆包APP聯動的智能耳機、智能眼鏡，探索大模型與硬件結合的賽道。大家都在努力找殺手級場景，形成自己的特色能力。

AI對話現在像是一個天賦異稟但還在青春期的少年，有著無限的潛力，卻還不知道如何施展自己的才華，正四處嘗試。

但是，似乎行業的共識也正如周鴻禕所表達的，AI對話的未來不在於創造一個通用的超級助手，而在於為每個特定的人類需求打造契合的AI解決方案。也許這才是AI對話類產品，自己被用戶新鮮感過後月拋，這一難題的的核心解決辦法。

本文來自微信公眾號「AI鯨選社」，作者：陳佳惠，編輯：楊曉鶴，36氪經授權發佈。