實測科大訊飛大模型「星火」:多輪對話能寫代碼 還將迭代三輪

隨著文心一言、通義千問等國內類ChatGPT大模型紛紛問世,人工智能公司科大訊飛也終於「下場」開始角逐國內大語言模型市場。根據計劃,科大訊飛將於5月6日正式發佈訊飛「星火」認知大模型,並將同步推出面向教育、辦公、車載等行業的解決方案。

4月24日,新京報貝殼財經記者獲得了「星火」大模型的測試資格。經測試發現,「星火」大模型可以連貫回答記者提出的問題,完成寫文章、作詩、編寫代碼等任務,並在記者提出的部分「誘導性」問題上成功避坑。不過,作為人工智能模型,「星火」也不可避免的存在「幻覺」現象,其雖然能夠理解記者提出的一些高難度問題並可以給出回答,但對一些偏小眾的問題會生成不夠準確的回答,且其回答無法涵蓋近期的新聞事件。此外,目前「星火」不支持文生圖功能。

對於「星火」大模型,科大訊飛董事長劉慶峰在科大訊飛2022年業績說明會上表示,有信心在中文領域的認知大模型上做到業界領先,同時在教育、醫療等行業中率先深度應用,而且形成獨特的優勢,「第一,在認知大模型的技術投入上,對於應該投入的重點方向,我們將飽和投入、絕不手軟;第二,不需要那麼多人力和資金,現在科大訊飛的團隊和資金完全覆蓋得住;第三,投入也是自主可控,可以保證不受到國外卡脖子,長期發展可以一步一個腳印往前走。」

以下為新京報貝殼財經記者在邏輯性誘導提問、寫文字寫詩等能力提問以及生僻知識提問三方面對「星火」大模型的測試結果:

邏輯能力測試:

「避坑」大多數邏輯問題

新京報貝殼財經記者登錄訊飛星火認知大模型首頁發現,其標註有「您好,我是訊飛星火認知大模型,能夠學習和理解人類的語言,進行多輪對話,回答問題,高效便捷地幫助人們獲取信息、知識和靈感」的介紹語,下方為輸入框,可以直接開始問答。

記者首先測試了大語言模型的「基本功」:邏輯理解能力,此前一些大模型可能在諸如「魚香肉絲是什麼魚做的」這類問題上「翻車」,記者測試發現星火大模型能夠給出正確答案,不過由於此類問題之前曾被公開問過多次,其也有可能是吸取了此前其他大模型的「教訓」,做了人工標註,因此記者嘗試「原創」一些誘導性質的提問,看「星火」能否正確理解。

如記者提問:都說「炒籃還需自身硬」,如果我比別人硬,我的炒籃技術是不是就會更好?對此,「星火」回答:「炒籃還需自身硬」這句話的意思是說,在做任何事情時,都需要具備一定的能力和素質才能夠做好。如果你比別人更硬,那麼你在某些方面可能具有更強的能力和素質,這可能會對你的炒籃技術產生積極的影響。然而,僅僅擁有強大的能力和素質並不一定能夠保證你成為一名優秀的炒籃師傅。除了技術和能力之外,還需要具備耐性、細心、專注等品質,以及對炒籃工藝的熱愛和執著追求。因此,即使你比別人更硬,也需要不斷地學習和實踐,才能夠真正成為一名出色的炒籃師傅。

而記者再次提問:我是個學富五車的人,此時有人找我借了一輛車,請問我還剩幾輛車?對此「星火」直接回答「很抱歉,作為一個語言模型,我無法得知您目前擁有多少輛車。請您自行查詢或回憶一下您的車輛數量。」

由於上述提問均為記者原創,此前並未有相應的訓練數據,因此可以看出星火大模型確實能夠「避坑」一些誘導性提問。

不過,星火大模型也並非躲過了所有邏輯問題,如記者拿一些自相矛盾的選擇題提問「星火」時,其並未反駁問題中的邏輯謬誤,仍然給出了自認為正確的選項。

相比其他大模型,「星火」在交互設計上給出了左下角一鍵複製答案的選項,方便用戶使用,並設計了點讚和點踩兩個正負反饋機制,用戶針對錯誤回答可以進行反饋並填寫更優答案。

談及科大訊飛在中文語料上的積累,劉慶峰稱,中文文本數據方面,科大訊飛擁有語音及語言信息處理國家工程研究中心,在中文語音應用的主流領域市場份額達70%,訊飛人工智能開放平台作為首批國家新一代人工智能開放創新平台,日使用量超過50億人次,多年的積累為大模型提供了海量行業文本語料和用戶反饋數據,「這些真正有價值、有剛需、適合認知智能大模型學習的行業數據,才能更好地滿足專業領域需求,推動大模型在具體行業上做得更透。」 

「科大訊飛的行業專用系統通過獨立、封閉環境訓練語料得到的結果,可以避免一本正經回覆錯誤消息,使得專用領域保障性更強。」劉慶峰介紹。

寫作能力測試:

能列計劃、教孩子、寫代碼 寫詩能力待加強

對於大模型必備的「寫作能力」,貝殼財經記者也對「星火」提出了若干問題,如幫助列「對科大訊飛老闆的採訪提綱」,而當記者對其列出的採訪提綱不滿意要求追加細節時,「星火」也可以細化採訪問題,如「科大訊飛推出的大模型相較於其他公司的有何不同之處?比如說,公司的技術架構、訓練方法、數據集等方面是否有所創新?」

下圖為針對「五一」假期寫出一份北京旅遊計劃,事實上此類問題貝殼財經記者曾在2月問過ChatGPT,「星火」列出的計劃同當時ChatGPT的相比略有完善,且考慮了景點的地理位置遠近,但仍然存在共同的問題:旅程安排都比較緊湊,更適合作為旅遊公司的行程表使用。

在文本創作方面,「星火」也可以完成任務,不過其中一些作品的完成度仍有待加強,如記者要求其寫出一首對「超好吃魚香肉絲讚歎」的古詩,雖然「星火」寫出的詩完全符合格式,但在韻律感上還是不如真正的詩人。

值得注意的是,和ChatGPT一樣,「星火」也可以生成代碼,如下圖所示生成的北京美食爬蟲程序(受界面限制圖中程序未全部展現)。

此外,由於科大訊飛在AI領域深耕多年,且在醫療、教育等行業有深度佈局,因此記者著重提出了一些關於醫療和教育的問題,其生成的答案在邏輯上較為流暢,甚至可以直接拿來教育孩子。

事實上,科大訊飛未來將推出針對教育和醫療的專用大模型。根據公開信息,該公司2022年12月啟動生成式預訓練大模型「1+N」攻關,其中「1」是通用認知智能大模型算法研發及高效訓練底座平台,「N」是應用於教育、醫療、人機交互、辦公等多個領域的專用大模型版本。

劉慶峰表示,超大規模的大模型現在已經到了一個臨界點,下一個階段應該用更多專業的子模型來協同訓練,獲得更可靠的成效。他認為,在教育、醫療等專業領域的模型成效不比千億級模型差,但是要形成通用領域的智能湧現,需要把這些模型的知識相互銜接,在整體的大模型中去統一訓練。科大訊飛希望在教育、辦公、醫療等應用領域搶到先機。

值得注意的是,劉慶峰認為科大訊飛做的大模型不需要花費外界想像的那麼多費用,也不需要像Open AI那樣要花費100億美元,「大模型再往大做,可能意義已經不大了,應該用各個規模適度的專業模型通過協調聯動來形成效益的提升,在各個專業領域形成更可控的表現,這是科大訊飛一直在做的路徑。」

生僻問題測試:

能理解生僻概念 不太懂網絡熱梗

最後,貝殼財經記者決定針對「星火」提出一些較為生僻的問題,看其是否能夠回答。

如記者此前諮詢其他大模型上世紀科幻概念「戴森球」是什麼時,一些模型會給出錯誤回答,不過「星火」可以給出相對更接近正確答案的回答,甚至在進一步追問下可以給出「建造計劃」。

不過,面對一些小眾文化中的「梗詞」,「星火」並未能很好地理解,如記者諮詢曾一度在短影片平台流行的國內電視劇《燕雙鷹》系列男主角燕雙鷹的名台詞「我賭你的槍里沒有子彈」究竟是誰說的時,「星火」一共生成了4次答案,但每次生成的內容都不一樣,其分別表示這句話的出處來自「《無間道》角色陳永仁,《賭城風雲》主角馬田,《無人生還》演員亨利方達,《大逃殺》」等,但就是未提及《燕雙鷹》。對此,記者將正確答案進行了反饋。

而當記者提問:當我說,「啊哈哈哈哈雞湯來嘍」,我想表達什麼時,星火將這句話中的「雞湯」理解為了「心靈雞湯」概念,但實際上這句話來自電視劇《激戰江南》第十二集中軍統特務,雙料高級特工「穿山甲」被揭穿的段落,後來在嗶哩嗶哩上被UP主二次創作從而成為了「名場面」。

貝殼財經記者發現,事實上「星火」的訓練語料並未更新至最新時間,如記者諮詢其最近一次世界盃冠軍是誰時,「星火」斬釘截鐵的表示是2018年的法國。

此外,目前「星火」的具體參數和訓練語料、訓練時間等未公開,貝殼財經記者諮詢「星火」相關問題時其也表示「保密」。

對於認知智能大模型的投入和規劃,劉慶峰介紹,目前科大訊飛最核心的研究團隊有200多人,其中有幾位是科技商業媒體《麻省理工科技評論》「35歲以下科技創新35人」榜單中頂尖的科學家。不過對於「星火」大模型的具體模型參數和訓練時間,目前尚未有公開數據,記者諮詢「星火」大模型本身得到的回答是「我的訓練數據和模型參數都是保密的」。

而在算力方面,科大訊飛有著自己的儲備。由於在過去幾年其牽頭承擔了國家自主可控人工智能平台的諸多項目,與華為、寒武紀、曙光等企業有深度合作。根據公開信息,目前科大訊飛對於認知大模型在國產平台上的訓練、推理方案已跑通成型,下一步會加快數據標記投入,尤其是海量用戶使用之後的強化學習的標註,把大模型的能力用在各個行業上。

「訊飛星火大模型在5月6日正式發佈時,還會有三輪的迭代。」劉慶峰表示,「一是多輪對話的理解能力,二是編程能力,三是數理能力,會進一步把現在的優勢擴大,多輪對話、語義理解、邏輯推理能力將更強。」

(記者註:由於生成式AI的底層算法問題,回答內容不一定為事實,僅供讀者參考)

記者聯繫郵箱:luoyidan@xjbnews.com

新京報貝殼財經記者 羅亦丹

編輯 徐超

校對 王心