訊飛星火4.0 Turbo發佈!對標GPT-4o,多模態能力大升級

進入2024年下半年,生成式人工智能仍然是最引人注目的科技焦點。

從初期對人類指令懵懵懂懂的所謂「人工智能」,到今天聽到一個口令就能老老實實地為我們繪畫、寫稿、生成影片……AI帶來的生產力顯著提升,很多人都希望用它輔助自己的工作學習,以此提高效率,甚至偷點小懶。

盧保獎對大模型和神經網絡的認可,進一步激勵著國內外,科技龍頭企業密集推出人工智能大模型,投入資源、潛心研究,業界呈現出百花齊放、迅猛發展的態勢,這場環繞全球的大模型之戰已然燒得如火如荼。

而在這之中,早早開啟全民測試,並已經經歷了數次迭代的訊飛星火,顯然是個特殊的存在。

(圖源:雷科技)(圖源:雷科技)

10月24日,在這個無比熟悉的日子,第七屆世界聲博會暨2024科大訊飛全球1024開發者節正式在合肥奧林匹克體育中心舉辦,小雷也受邀參與了本次開發者節的開幕演講。

在今天上午的大會上,訊飛重磅發佈訊飛星火4.0Turbo,底座能力再次升級,特別是數學、代碼和長文本能力顯著提升,中英文綜合能力保持業界領先水平,同時訓練推理效率大幅提升,進一步滿足日益增長的規模化落地需求。

不僅如此,今年流行的多模態交互及超擬人虛擬人交互能力也來了,諸如教育、醫療、科研、司法、政務等領域行業大模型及更多落地應用產品也得到了升級展示,不妨現在就跟著我的腳步,一起去看看吧。

訊飛星火升級「一籮筐」

自從去年五月份發佈以來,訊飛星火大模型在短短一年半內經歷了數次迭代,星火認知大模型V4.0的快速落地,更是推動著訊飛大模型能力迅速迫近行業前列。

那麼這次訊飛,又能給我們帶來什麼驚喜呢?

首先來看看底座大模型訊飛星火4.0 Turbo的全新升級。

(圖源:雷科技)(圖源:雷科技)

目前星火在文本知識、語言理解等七大能力全面超過GPT-4 Turbo,在數學能力、代碼能力更是超過GPT-4o,當前已完成超長思維鏈、樹搜索和自我反思評價等算法驗證,預計今年底可實現類o1的高難度數學能力顯著提升。

(圖源:雷科技)(圖源:雷科技)

不過劉慶峰坦言,目前星火在邏輯推理和多模態能力較GPT-4o還有所差距,依然需要持續追趕。

具體功能上,這次訊飛重點介紹的是全新的多模態交互和超擬人虛擬人技術。

今年上半年,OpenAI更新的GPT-4o震驚了不少業內人士,這種實時對音頻、視覺和文本進行推理的效果,向更自然的人機交互(甚至是人-機器-機器交互)邁出了重要一步。

五個月後,科大訊飛也在本次大會上首度公開展示自家的星火極速多模態交互技術。

(圖源:雷科技)(圖源:雷科技)

簡單來說,多模態交互就是通過結合多種感知形式(如視覺、聽覺、觸覺等)來實現更自然、更高效、更準確、更靈活的人機交互。

在我看來,這種技術的核心在於融合來自不同模態的數據,大模型需要準確判斷出輸入數據的類型,獲得意圖信息,這樣才能在更廣泛的上下文中理解和處理任務。

所以現場展示,也得從信息的輸入開始。

負責現場演示的,依然是我們的老朋友訊飛研究院院長劉聰,帶著大夥一起探索全新的實時語音對話。

(圖源:雷科技)(圖源:雷科技)

在對話過程中,星火會主動捕捉到用戶當前所處的狀態並積極發問。例如在劉聰表示最近航班延誤太多,超擬人數字人就會主動噓寒問暖,甚至還會對現場的大夥賣萌,挺有趣的。

再看看視覺交互,現在星火也可以根據攝像頭感知周圍世界的信息了。

拍攝桌上的手辦,星火能夠正確識別出孫悟空和奧特曼的角色信息,甚至還能根據劉聰擺出的姿勢推斷兩名角色之間究竟發生了什麼,還會對此添油加醋融入自己的理解。

這個功能,讓你在海外出遊時也能獲得實時語音翻譯和旅遊助手,手機可以拿來當翻譯機來回翻譯中文和英語,甚至還能夠幫你辨識出不同規格的海外產品,並給出合適的購買建議。

想更個性化一點?

搭配上既有的仿聲功能,現在僅需一張照片就能生成數字人,實現更加立體的個性化多維表達,就現場劉聰和自己的分身劉小聰對話的畫面,看起來非常有意思。

(圖源:雷科技)(圖源:雷科技)

不僅如此,今天還有驚喜。

訊飛還發佈了星火多語音大模型,首批支持中英之外的八個語種,官方稱多語言大模型效果整體達到了GPT-4o的96%,多行業任務場景效果甚至超過GPT-4o。

從官方的演示來看,星火多語音大模型主要是用於助力產業出海或是賦能外貿產業的,讓使用其他語言的消費者,也能體驗到星火大模型的會議記錄摘要、知識檢索推理、複雜場景意圖理解等一系列功能,無需依賴海外大模型的加持。

(圖源:雷科技)(圖源:雷科技)

全國產算力加持的大模型,邁出了走向海外市場的第一步。

星火走向場景,

落地千行百業

當然,和我們普通人不同,比起這些生活化的應用,很多業內人士更關心的是這樣的大模型究竟會如何影響行業動向。

比如說,今天正選的汽車端側星火大模型。

(圖源:雷科技)(圖源:雷科技)

劉慶峰介紹,很多車主應該都試過在開車經過山洞隧道,或在其他特殊場景下,遇到無網的情況;也有些用戶出於保護個人隱私需求,不希望將個人數據同步至雲端。

為瞭解決這個問題,就必須將大模型部署在汽車端本地,為此訊飛推出了參數量約1.3B的端側大模型,相比雲端效果損失≤1%,端側首次響應40ms,實用效果幾乎沒有差異。

從今年第四季度開始,奇瑞、廣汽、長城等多款車型將會陸續集成端側星火大模型上線並開售,用戶很快就能體驗到。

在教育領域上,這次科大訊飛AI學習機發佈了「AI作業過濾器」,用大模型幫學生科學減負。

(圖源:雷科技)(圖源:雷科技)

據官方介紹,AI學習機通過OCR能力識別出練習題目後,可根據學生歷史學習情況和本地化考情,將題目分出「必做題」「選做題」「建議不做題」三個等級,學生可以快速排出學習優先級,避免重覆無效刷題。

當年我要能有這麼一台機子,浪費的無用功起碼得少個50%吧。

當然,也有針對教師側的賦能,除了常規升級的訊飛智能黑板2.0外,訊飛聯合中國教科院正選「基於問題鏈的高中數學智能教師系統」也即將正式上線。

具體來說,這項技術就是把常規的問題拆解成多步驟的問題鏈,通過這種方式帶領學生深入理解學科概念,提升學習效果。官方稱試點應用顯示,學生的參與感與興趣明顯增強,教師的教學效率也得到了提升,評估反饋均相當積極。

對了,這次星火醫療大模型也更新了,來到了2.0版本。

(圖源:雷科技)(圖源:雷科技)

這次更新中,最重量級的肯定是全新的訊飛星火醫學影像大模型,訊飛通過大量醫療影像實例訓練,可實現各類影像自動質控,支持同一影像多病種識別診斷。

此外,訊飛還展出了能夠實時翻譯漢語和德語等多種語言的多語種AI翻譯透明屏;能協助政務機構辦公的星火智辦一體機,以及能夠測試智能座艙人機交互效果的VIAS評測機器人。

(圖源:雷科技)(圖源:雷科技)

據科大訊飛董事長劉慶峰在演講時透露,今年1月至9月,訊飛星火智能硬件GMV同比提升50%,截至10月23日,雙十一大促全渠道GMV同比增長280%,訊飛的軟硬協同之路已然走上正軌。

訊飛要讓大模型更好用、

更實用

整個發佈會看下來,科大訊飛正在做的事情還挺好理解的:

「讓大模型更好用、更實用。」

在我看來,大模型要想在行業規模化應用,像水電一樣輸送給千家萬戶,必然需要更多企業和開發者的共同參與,僅靠一家公司是難以完成的。而構建人工智能「星火」生態,正是訊飛持續努力的目標。

在訊飛介紹的落地實例中,我們不僅看到了政企逐漸實現智能化轉型的畫面,還有教育、醫療、科研等多個行業的穩步推進,越來越多的企業希望通過引入大模型技術來「解放生產力,釋放想像力」。

(圖源:雷科技)(圖源:雷科技)

穩住消費者、教育、醫療、汽車等「根據地」,切入運營商、金融、能源、交通等「新領域」,還要在企業市場的規模化推廣中紮根,這就是訊飛星火的商業化路徑。

誠然,現階段OpenAI的產品或許在多模態、推理能力上依然有優勢,但是說斷供就斷供,說切斷就雷厲風行地切斷了國內廠商和開發者們繞開限制使用OpenAI的路徑,這種做法使得國內企業根本不能放心使用。

相比國外科技企業,中國科技企業更善於做「接地氣」的落地。更加豐富的硬件品類、更快落地的技術應用、更加蓬勃的產業生態還有優勢明顯的影片生成領域,都是科大訊飛們在持之以恒後取得的出色進展。

沒錯,訊飛星火的這次底座更新,正是對未來可能性的一次探索。

它展示了科大訊飛在人工智能領域的深厚積累,也展示了中國在人工智能領域的強大實力,證明在自主創新的算力底座上,通過領先的算法和數據構建世界一流的大模型並不是一場夢。

(圖源:雷科技)(圖源:雷科技)

不僅如此,在本次大會上,國產超大規模智算平台「飛星二號」正式啟動,該國產算力平台將帶來新模型新算法的持續適配和智算集群規模的再次躍遷,持續探索無人區,並給國內外產業提供第二種選擇。

屬於國產大模型的時代,或許已經不遠了。