機器人也有「五感」?端側AI加速融合機器人傳感,具身智能仍然感知先行
如果說去年機器人行業上半年發展的關鍵詞是「機器人+」概念,那麼去年下半年到今年年末機器人行業發展的關鍵詞毫無疑問無疑只有一個,就是「具身智能」。
雖然應用側落地的痛點一直困擾著產業鏈,但具身智能概念的出現讓機器人,尤其是人形機器人的量產及產業化落地正在超出預期地加速發展。在今年的北京2024世界機器人大會上,眾多人形機器人紛紛亮相,數量創下曆屆大會之最。
同時,今年也是端側AI蓬勃發展的一年,從芯片製造、操作系統開發到終端設備開發、應用開發等各個環節都在不遺餘力地進行端側AI技術的融合,AI得以持續向端側應用發力,各類AI智能終端產品在市場上湧現並迅速佔領份額。
端側AI在消費電子領域的火熱進展自是不必多說,機器人也開始越來越多地與端側AI技術結合,向更高階的智能化升級。黃仁勳曾表示,AI下一個浪潮將是「具身智能」,即能夠理解、推理並與物理世界互動的智能。體現在終端設備上,智能機器人是最通用的具身智能終端形態,甚至人形機器人可能成為真正意義上的自主智能終端,而這一願景離不開背後機器人與AI技術的深度融合。
作為集前沿科學技術於一身的產品,機器人的感知層、決策層、執行層等等每一類技術框架里都有著大量可智能化的空間。我們把切入點縮小一些,著重從感知層面來看傳感與人工智能的結合到最後實現具身智能感知。
從傳統感知到機器人具身智能傳感
機器人任務流程的正確執行,其源頭都是機器人對其自身狀態、操作對象以及作業環境有正確的認知。這依賴於機器人搭載的傳感系統能蒐集足夠的內外部信息以便決策層進行運動規劃。這一點和我們人類是相通的,機器人的傳感系統就是人類的感官,一方面收集周圍環境信息,一方面進行自身狀態的感知。通常在一個機器人端側系統中,會用到傳感器、主控以及必要的通信連接功能,傳感器負責採集真實物理世界的信號,然後將數據傳遞到主控中進行處理。
對於像工業機器人這樣的傳統機器人而言,感知部分是較為單一的,有位置傳感器用於運控即可,發展到後來部分工業機器人也僅需要少數的感知單元來完成一些額外的功能。而且傳統的機器人傳感器定位僅僅是一個單純用於感知器件,屬於完全的被動方,只以旁觀者的視角對目標量進行記錄,功能點明確且單一。
隨著機器人整體軟硬件技術的完善與發展,越來越多功能得以實現,機器人本身也成為傳感器高度集成的端側設備,小到電流傳感器、溫度傳感器,大到IMU、編碼器、視覺、激光雷達等等一系列傳感器從各個維度豐富著機器人對環境對世界的感知。
更重要的是,傳感器不再只是被動地去記錄目標參數,而是變得更主動、更智能,能夠基於收集到的數據主動去做融合、分類和預測等等一系列此前無法實現的功能。
這些改變都得益於AI相關技術的引入,如果說此前這些升級與革新只是錦上添花的話,到了現在人形機器人具身智能時代,端側設備上傳感器與AI的結合絕對已經成為必不可少的技術棧。
因為具身智能與傳統智能差別在於具身智能是具有主動性的第一人稱智能,能夠在與環境的交互感知中將數據的採集、模型的學習、任務的執行融為一體實現自主學習,感知層不與AI深度結合難以實現這種主動智能。
從具身智能整個實現的技術框架來看,仍舊是感知、決策、執行三個核心技術環節以及配套的通信與交互技術。具身感知是後續環節的支撐,包括對世界模型的全感知及與環境的實時交互感知,可以結合真實交互反饋數據不斷自主修正預先構建的數據庫,獲得更精確的世界理解與模型建立。而後通過構建仿真引擎,對具身任務進行模擬,結合感知數據進行想像操作,為機器人具身執行提供支撐。
可以說,具身傳感是具身智能機器人的基礎,只有一套完整的具身傳感系統才能讓機器人實現真正具身智能,通過感知的傳遞完成對運動控制的指導。具身智能機器人需要多種傳感器,感知帶動運動控制的範式變化。例如在抓取物品的時候,會先利用傳感器組合判斷方位,再識別物品的大小,調整伸手距離等,再通過力/觸覺傳感器調整抓握力,進而完成一系列動作。其中每一個環節,都有著AI能夠助力的空間。
端側AI賦能下的機器人感知
端側的AI與傳感器融合是機器人發展較為迅速的一個領域,不少感知方向的傳感都已經有了明顯的智能化提升。各個不同維度的傳感方向,都有相關技術力量在推動。
1. 機器視覺
AI+3D視覺主導的機器人視覺傳感已經在行業內發展了很多年,是AI與傳感器結合得較為成熟的賽道。以往更多的是在實時收集真實數據後不斷在雲端優化視覺算法。端側AI的興起,開始直接在端側進行數據處理,降低了可能因傳輸數據造成的延遲與可靠性問題。
同時基於獲取到的點雲/圖像信息,端側能夠直接進行一定計算量AI功能實現,如進行姿態識別、手勢識別、人臉識別等等。此外,機器人向具身智能的發展更強調傳感器對3D空間和動態環境有更深入的理解。端側的視覺信息收集只是第一步,後續要進行視覺感知和推理,理解場景中的3D關係,並基於視覺信息預測和執行複雜任務,最終形成主動的視覺感知,結合真實交互反饋數據不斷自主修正完成從仿真到現實的跨越。
根據Yole的調研數據,3D視覺傳感市場在2022年的收入已達到82億美元,並預計到2028年將翻倍增長至172億美元。同時,MarketsandMarkets的預測顯示,到2028年全球AI傳感器市場規模將達到221億美元,相比2022年的30億美元,年復合增長率高達41.6%
2. 語義識別處理
端側AI在自然語言處理NLP領域上的優勢也正在被機器人應用起來。借助端側的大模型進行自然語言識別來做語音交互、語音喚醒、聊天問答等等功能只是最基礎的一部分,也只是第一步。
被下達任務指令的機器人,大語言模型識別完成後自動拆解出涉及的機器人技能與子技能,根據給定的最終目標任務進行自主地從Language到Action模型構建,在端側AI使能下自主編排複雜任務才是具身智能機器人更賽前分析的方向。
國內NLP市場規模於2021年達到181.3億元,在AI技術不斷融合與迭代升級的背景下,國內NLP市場將於2026年達到836.6億元。隨著人工智能技術的不斷融合與提升以及高度智能化機器人發展,NLP技術的應用邊界仍在不斷拓展。
3. 機器觸覺與多模態感知
嗅覺和味覺較少在機器人中提及,而觸覺作為人類感知世界的重要手段,在機器人中相比於視覺與聽覺的進展則慢得很多。即便到現在,對觸覺的感知也很難稱得上完備。
觸覺本身就是多模態的,對力的感知的確佔據了很大一部分,但並不是全部,材質、溫度、滑動、回彈等等物體觸覺信息都囊括在其中。想要完整對觸覺進行定量的標註,需要對傳感器收集到的大量數據進行處理。一些傳感器廠商會將原始信號的複雜解析函數映射到一維線性空間完成力學信號的快速求解,這樣能降低算力需求,但其他維度的數據仍舊需要後期處理。
借助端側AI硬件,多模態觸覺感知會變得更加簡單,以數據為驅動算力的加持能快速分類各維度信號,解析出完備的多模態參數。前端更快的反應速度也讓機器人的觸感反應速度能媲美人類。據知名國外諮詢機構VMR預測,2028年觸覺傳感器市場將達到260.8億美元。
這些外部信息感知都已經開始與端側AI結合,機器人內部感知同樣不例外。例外意法半導體早在2019年就推出了集成ML內核的傳感器,能夠運行一些簡單的AI模型。後續又在機器人核心的IMU器件上更新了加持DSP的ISPU(Intelligent Sensor Processing Unit),能在端側自動分析處理機器人位置數據。
傳感器上的AI算力的增強實現了海量數據處理的分區,根據算法難度調配算力資源,大幅提升整個端側系統的能效,讓整個感知更加智能。
具身智能端側AI傳感,不止於感知
智能決策感知先行,具身智能概念推動著機器人向更自主更智能的未來發展,為打好具身智能感知基礎,傳感器技術與端側AI技術結合得越來越緊密。日後,機器人會通過視覺/觸覺等感知方式識別建立並不斷修正具身多模態基礎模型,通過聽覺理解指令,並理解自身的狀態,以實現複雜的交互和操作。
同樣,具身智能下的機器人傳感,始於感知但又不只是感知。傳感器也將不再只是用於感知的硬件,而是在實時精準多維感知的基礎上,拓展更多和AI相關的功能,借力端側AI提供更多數據處理、分類、融合的價值,最終通過融合的多模態傳感數據來增強智能體的理解和決策。
當然,現階段端還面臨著如何更好地融合傳感器與端側SoC兼顧性能與成本的難題。雖然機器人並不像其他端側設備對成本很敏感,但對於想要落地的機器人來說,這一問題遲早也會面對。雖然多位科技行業巨頭都表示未來人形機器人會像汽車一樣普及,但機器人的商業落地仍舊要考慮這些實際問題。
寫在最後
從傳統感知到機器人具身智能傳感,機器人傳感器延展出了更多地和AI相關的計算、融合的功能。在端側AI時代,傳感器將提供更多的數據處理的價值,通過交互感知、自主挖掘為機器人構建起不斷優化的真實世界模型,推動具身智能目標的實現。
本文來自微信公眾號「物聯網智庫」(ID:iot101),作者:李寧遠,36氪經授權發佈。