AI「大姨」現場刁難智能客服!直擊一群AI打PK賽,真能落地的那種

明敏 魚羊 發自 凹非寺

量子位 | 公眾號 QbitAI

兩個AI現場攻防,翻車了人類就在旁邊「蛐蛐」。

現在的AI比賽真是越來越因吹史甸了。

這不,一個拿著「花開富貴」大姨人設的Agent直接甩了個鏈接,對面的AI客服就開始大段大段冗長回覆,幾個回合都是如此。

圍觀人類一點兒都不留情面,馬上銳評:

我都看不下去這麼長的回覆,不擅長網購的「阿姨」能有這樣的耐性?可能看不到一半就走了。

遇到妙語連珠的,人類也紛紛爆燈。

還是這個「阿姨」人設的Agent,她打了個錯別字,問AI「九空」是什麼意思。

對方AI客服立馬發現它想說的其實是「九腔」,還給出了正確的解釋。

在雲棲大會現場,我們圍觀了這樣一場精彩有趣的AI比賽。

比賽規則是讓8家企業在一週內構建智能客服,不僅要現場展示效果和技術方案,還要接受各種人設Agent的情景考驗。都是難以應對的那種,要麼是不會網購且愛打錯別字的阿姨,要麼是正在氣頭上的都市麗人。

結果就上演了剛剛那精彩一幕。

更有意思的是,還有選手找公司財務搞掂了這一項目。

要知道,他的對手都是業內頗有來頭的企業,不乏已經上市的那種。

所以,這到底是個什麼比賽啊?

1周搞掂「說人話」AI客服

如上提到的比賽,是業界首個企業級AI應用開發挑戰賽:百煉杯「智能好客服」PK賽。

為什麼能稱得上企業級?

不僅參賽選手都是企業,而且比賽重要的參考維度是能否實際落地

比賽為選手提供百煉開發平台,可使用通義千問系列模型作為底層模型,平台提供Prompt優化工具、RAG、Agent構建等能力,支持低代碼、高代碼等不同需求開發。

對參賽作品的要求很簡潔,就是打造一個滿足現在用戶需求的智能客服。能理解用戶問題、結合上下文給出解決辦法,並且有情商、說人話、能面對各種複雜情景。

而且上手門檻很低

比如參賽選手雲蝠智能,他們的主打業務是電話客服,在文本客服方面的積累不多。這次參賽,他們壓根沒讓工程師參與,而是找公司財務完成了整個業務流程的交付。

從Qwen Max的學習引擎到數據規範、再到提示詞調優,我就手把手教了他20分鐘

之所以這樣做,是因為雲蝠智能認為智能客服產品的最終用戶很多都是小型或中小型企業,他們對於無代碼、低代碼開發的需求很高。他們這麼做也是進一步驗證,如今的大模型平台已經可以提供零門檻的智能客服構建流程。

另一位參賽選手合力億捷也提到,職場新人通過1-2天的學習,就能在百煉平台上自己開發Agent。

比如打造一個電商客服,具體技術方案如下:

用戶輸入問題後,通義千問會先進行意圖理解和分類,然後系統將提取關鍵數據並調用API,再利用RAG技術進行知識檢索,最後把經過封裝的Prompt提交給通義千問大模型,最後生成答案給客戶。

根據比賽數據的多場景特性,拆解了應答服務流程。按照場景特徵將意圖與知識細分為8大類和若干小類。

合力億捷介紹,開發過程中也遇到了一些問題。一開始完全依賴百煉平台的輸出能力進行意圖分類,但是在上下文意圖不連貫的時候,就會出現分類和輸出不穩定的情況。為此選手對提示詞進行優化,強調關鍵特徵和要求。

經過三次迭代後,回覆準確率從最初的80%提升到了96%

要知道,這解決了目前智能客服行業面臨的很多挑戰。

智能客服作為一個普及度非常高的AI應用,大眾滿意度卻不盡如人意。大家都調侃,AI客服的作用就是為了「轉人工」。

這一方面是因為傳統AI客服的底層技術不夠先進,導致回覆比較機械化,不能滿足人類真正的服務需求,也缺乏情感價值。

參賽選手亞信科技解釋,用戶對於智能客服的期待是「像真人交談一樣自然」。這背後需要智能客服可以理解用戶意圖、懂得結合上下文語境、提供個性化的建議。

隨著大模型趨勢到來,底層技術瓶頸得到進一步改善。

但是企業用上大模型開發智能客服,還存在諸多門檻。

合力億捷提到,通用模型需要進一步微調才能滿足個性化需求。但實際情況中,往往是懂開發的人不懂業務,懂業務的人不懂開發。

而且本身智能客服給大模型提出的要求也很高。需要精準理解用戶意圖、強大的上下文能力、可以調用工具等。模型生成的內容也要與時俱進,數據庫更新不及時也會導致理解和識別準確率降低。

這意味著企業自己做模型開發的門檻和成本都很高。加之智能客服領域本身競爭激烈、收益比較低,企業面臨的智能化升級壓力很大。

不過隨著大模型開發平台不斷升級完善,雲廠商們為企業們提供了更便捷的工具。

這次PK賽中,選手們就是完全利用百煉平台進行開發。

其中一些功能都給選手留下了深刻印象。比如亞信科技和合力億捷都提到了工作流應用。它無需通過構建智能體實現工作流,能讓應用調試、修改Prompt等都變得更方便,而且執行效率穩定,性能可靠。

本次比賽的主題智能客服,只是百煉平台典型應用場景之一。

阿里雲披露,今年5-7月,百煉服務客戶數量快速從9萬增長至23萬,漲幅超150%。

AI應用開發,拖拉拽即可

去年10月,阿里雲發佈了百煉大模型平台,主要功能就是讓開發者通過簡單的拖拉拽,在5分鐘開發一款大模型應用,幾小時煉出一個專屬模型。

今年5月,百煉升級為2.0版本,成為阿里雲承載雲+AI能力的重要平台,提供一站式、全託管的大模型定製與應用服務。

它可分為計算層、模型層和應用層。

底層計算依託於強大阿里雲基礎設施。

剛剛結束的雲棲大會上,阿里雲CTO周靖人宣佈,阿里雲全面投入升級AI大基建,AI驅動的全系產品家族完成升級。包括磐久AI服務器、HPN7.0高性能網絡架構等,都為AI訓練、推理、部署和應用更高效而來。

模型層提供通義系列、行業大模型以及豐富第三方模型(如Llama、百川等)。

支持多模態模型服務,提供靈活高效易用的模型API與SDK。提供文本生成、圖片生成、視覺理解、影片生成、語音識別以及語音合成能力。

最新進展中,通義方面發佈了最強開源模型Qwen2.5系列,同時上架語言、音頻、視覺等100多款全模態模型。

應用層方面,百煉提供開放的Agent構建框架,支持靈活的應用編排能力。構建了豐富的模型應用生態,比如智能座艙、智能客服、智能零售、AI數字人等。

主要支持的開發範式有三種:

  • 提示詞優化:提示詞擴寫、案例優化、反饋優化。

  • 檢索增強生成(RAG):企業級知識管理、靈活優化各組件效果。

  • 模型微調:多模態模型微調、多類型微調方式。

並且提供多款開箱即用的AI原生應用。

比如智能客服大模型應用曉蜜、多模態內容創作工具全妙、AI原生智能數據分析產品析言GBI等。

而且基於阿里雲深厚的雲計算基礎,百煉可以提供更加高效、穩定、極具性價比的大模型服務。

沒有AI的應用沒有競爭力

最後,回到這場PK賽本身,為什麼阿里雲想要辦一場智能客服挑戰賽?

其實,早在大模型掀起技術風暴之前,AI客服就是NLP相關研究的應用重點:

一方面,客服是信息時代每個企業、每個人都會接觸到、有需求的場景。另一方面,這種大量、高重覆度場景,恰恰是AI技術能最快見效的應用領域。

而當大模型完全改變了人機交互的模式和對話生成的質量,AI客服也自然而然迎來質變時刻,成為大模型應用落地最好的試驗田之一。

IDC報告《中國智能客服市場份額, 2023 :新舊交替,增長可期》中顯示,2023年智能客服解決方案整體市場規模達到了30.8億人民幣,較2022年增長了近36.9%,足見其發展潛力。

但在「駭客鬆」這種以賽代練文化盛行的科技領域,阿里雲百煉杯之前,卻未見真正定位「企業級」、強調「落地可用」的AI應用開發挑戰賽。

其中挑戰亦不難理解:

要拉來這麼多具有代表性的企業過過手見見技術真章,主辦方本身需要具備行業號召力,並且能夠提供客觀、可靠的基礎平台。

阿里雲作為國內雲廠商中的頭把交椅,本身過硬的雲計算基礎能力和行業影響力自不必說。

現在,依託百煉平台,阿里雲進一步提供了大模型企業級應用開發的一站式服務能力:以模型為中心,依據大模型真實業務落地需要,提供模型、應用、數據、運營四大核心工具鏈,幫助企業實現「小步快跑的業務驗證」和「規模業務的迭代優化」。

從本次挑戰賽中也可以看出,大量難以處理的情緒化、複雜上下文、邏輯推導、業務引導、體系計算等問題,企業都能通過結合模型和百煉平台的能力解決。

對於參賽企業而言,參與這樣的比賽,能積累大模型應用的落地經驗,驗證自身對於業務場景與大模型結合的理解。

而對於阿里雲來說,在為參賽企業提供支持的同時,也進一步加深了對實際業務場景的瞭解,為通過技術發展驅動大模型應用落地積攢實踐經歷。

事實上,從「智能客服」一隅,亦可再次窺見大模型時代各行各業面臨的一個新機遇和新挑戰:

隨著技術變革程度的不斷加深,在未來,沒有AI的應用就沒有競爭力。

而這一課題所涉及的,不僅是應用層面的創意和技術創新,更是基礎設施的迭代升級。

雲時代里走在前列的阿里雲,這一次又踏在了潮頭。