直播對話:視覺感知如何驅動機器人「睜眼」看世界

作者|PRO郵箱|pro@pingwest.com

本期TICLAB直播,我們特別邀請到阿丘科技聯合創始人鄭慧偉,光秒科技創始人餘彥武博士,易觀合夥人/企業數字化中心負責人張澄宇,和我們一起聊聊他們如何利用前沿技術應對行業痛點,以及未來智能製造的新機遇。

阿丘科技和光秒科技,兩個在工業AI領域深耕不輟的企業,正在以各自的創新技術改變著傳統製造業的面貌,推動著傳統製造業的轉型。

成立於2017年的阿丘科技,一直紮根於工業生產一線,專注於機器視覺和AI視覺技術的應用,致力於實現全方位的質量管控。他們的AIDI平台不僅能高效檢測缺陷,還能實時監控設備和人員操作的安全性,真正為企業帶來了實打實的價值。想像一下,以前需要數十名質檢員的繁重任務,如今通過AI技術的應用,僅需幾台設備便可輕鬆完成,這無疑是對傳統製造業的一次顛覆。

光秒科技自2019年成立,目標明確:為機器賦予「通用的眼睛」。他們通過將激光雷達與攝像頭技術融合,創造出一種全新的傳感器。這種傳感器不僅具備3D感知能力,還能夠以極低的成本提供高解像度的環境理解。這樣的技術將如何改變無人機物流配送、自動駕駛等領域,讓機器真正「看」得更遠、更清晰。

AI浪潮下的新需求

張澄宇:作為機器視覺產業鏈上的廠商,阿丘科技和光秒科技分別觀察到市場端有哪些新的熱點和需求?

鄭慧偉大家好,我是來自阿丘科技的鄭慧偉,我們主要在做工業生產領域的機器視覺相關的技術,來實現整個生產過程中的質量管控。我們比較關心兩個維度,一個是供給,一個是需求,最好的情況下是達到PMF(product-market fit),就是很舒服的狀態。在整個工業生產的過程中,視覺它本身是一種感知的手段和方法,其實需求非常多。第一大類是圍繞整個生產過程中視覺的應用。第二大類是能面向和人相關的,人的一些動作識別。第三類是在整個工業生產過程中安全相關的問題。更深入一步來講,視覺我們把它定義成感知層,這個其實還只停留在感知層,還沒到反饋層。如果在工業生產過程中能把這種感知的信息,進行有效的二次加工,形成對應的一些工藝反饋,能反饋到前端工藝上,來判斷工藝是否需要改善,整體良率和稼動率是否可以提升等等,這些點都能帶來非常大的價值。所以說從宏觀角度來看,基本上需求是很多的,我們也非常擁抱新型的技術來到我們行業中,為這個行業賦能。

餘彥武大家好,我叫餘彥武,是光秒科技的創始人。我們是做傳感器的,主要解決將來人工智能所有的機器通用的「眼睛」問題,具體來說我們是把激光雷達和攝像頭融合到一個設備里,你可以想像它既是激光雷達也是攝像頭,將來可以做為一個對攝像頭方案的升級版本,應用到機器人的各種應用中。

我們在解決的是從2D到3D升級的問題。激光雷達這個領域之所以誕生,除了像一些空間的、航天的用途之外,民用用途最早是起源於自動駕駛。在自動駕駛之前,大家對3D傳感是有一些需求的,但其實沒有那麼迫切,直到像自動駕駛這樣的應用需求出來之後,大家發現需求變得必須要解決了,因為車在路上跑著識別前面的各種障礙物,它是一個很開放的環境,那對傳感的要求就提出更多挑戰。隨著現在人工智能越來越熱門,機器人、機器狗出現並承擔更多的角色,3D需求就會變得非常的迫切。第二類,像一些3D數字重建,類似於測繪採集的需求現在也很多,比如前一段時間比較火的《黑悟空》,有些遊戲場景是需要通過3D傳感裝置實地的採集一些實物模型,輸入到遊戲場景里,1:1複現。像AR、VR的一些遊戲,現在有了VR眼鏡,但是缺少內容,這個內容如果沒有好的傳感器去實時收集的話,只能靠人工去編輯,這樣生產數據的效率就會很低。以前雖然有攝像頭傳感器,但是它還不夠,因為它錄製的只是一個稍微固定視角的、帶顏色的信息,它是沒有深度的。所以傳感器從2D向3D升級是順應市場需求的必然趨勢。我們是做硬件的,和阿丘科技其實是有上下遊的關係,我們希望去往底層提供更好的生產工具,這樣後面的應用就可以更好的開展。

無人區開出的技術玫瑰

張澄宇:當下供給側的生態是不是成熟了,如果還有一些欠缺的話,可能是在哪些層面或者產業鏈環節上還存在瓶頸?

餘彥武我的感受是傳感器相對來說比較新一點,這個賽道相當於是個無人區,我們更多的難點來源於我們的上遊。現在主流激光雷達也才做到15萬到20萬像素這麼個級別,當我們要做到百萬像素甚至千萬像素級別的時候,你會發現很多問題並不是原理上不可行,而是很多基礎元器件都要重新構造,比如芯片。如果用現有的元器件去拚湊,成本就很高。我們需要的東西現在市場里是空白的,必須要自己做很多本來不應該我們來做的事情。我認為這個事情是沒有問題的,我們也應該做,因為我們給自己定的目標比較超前,當你做一個無人區的時候,那就意味著你的上遊都是無人區。所以我們做了大量的自研激光器、自研芯片,不僅要把功能做通,還要把它的成本降低,把它的可靠性做好。我希望將來形成一個大的趨勢之後,會有更多人參與進來去分攤我們的一些努力和成本。

另外在我們的下遊這個方面,我們也有跟上遊差不多的痛感。因為我們的激光雷達太新。一個典型的認知就是像自動駕駛汽車,很多人還在爭議,到底要不要用激光雷達,比如以馬斯克為代表的特斯拉,他用視覺就做的非常好,這會導致大家對激光雷達的存在是不是有必要這個問題產生質疑。從底層技術來講,激光雷達能夠提供的性能天花板是遠高於攝像頭的,因為它能提供多一個維度的信息,它是3D的。大家在談論必不必要的時候,更多隱含的是,它價格能不能降下來。換句話說,如果同樣的價格同樣的解像度,大家一定會選激光雷達。但我認為這件事很有意義,我需要去為一件正確的事努力,我相信就算不是光秒,再過10年、20年也會有其他公司實現這個目標。

鄭慧偉我們本身是一家以軟件為核心的一個企業,我們是做AI算法平台的。我認為供給瓶頸是在特定場景或者複雜場景上,存在一些技術上的瓶頸,我們也在積極尋找這些新型的技術,比如說像一些新型的光學手段,新型的成像技術。舉個例子,像X-ray最早是用在牙科或拍胸片的民用場景,在幾年前,X-ray技術也引入到工業領域來做無損檢測,還包括像超聲波檢測技術等,也引入到了整個行業內。

同時我們也在吸納一些最前沿的技術,來做智能相機產品。智能相機產品,它是軟硬一體的智能視覺產品,對於剛才餘博士說的在做的無人區的產品,我們是最感興趣的,我們關心兩大類創新,一大類屬於原創性的底層技術創新,另一類是交叉創新,比方它在A場景下用的很好,但他從來沒有看過B場景,他不知道B場景也能用。舉個例子,比如說像多光譜的技術,現在也在我們行業中在用。激光雷達我們也在看,它做的是面向大視野的場景(如無人駕駛),我們關注的場景基本上是偏結構化的小視野場景,對於這些小視野高精度的需求,我們強調的是計算的可重覆性,所以對於不同場景有不同的考量點。

張澄宇:算法的迭代和創新,是核心要素嗎?

鄭慧偉阿丘科技從創立到現在為止,一直以來都是以算法為核心來構建競爭壁壘或競爭優勢的,上個月我們也剛發佈了算法和平台軟件的新版本AIDI 3。用一個通俗的結構來看,這個場景里大家常說的三要素,算力、算法和數據,我們觀察到了一個非常大的趨勢,就是從算法往數據這邊去構建技術壁壘的這樣一個趨勢。我們從最早的以構建算法為核心壁壘,在不斷的迭代過程中,結合場景數據來構建場景模型的壁壘。在一些行業中,我們已經形成了一些通用的模型。它可以去跨場景複用,跨生產線複用,這對我們來說是很有價值的,本質上它形成的是一大類資產,對於我們的成本結構,對於客戶端的成本節省都有非常大的幫助。

餘彥武因為我們提供的是原始數據,我想就如何使用這部分數據分享一些觀點。我們這種新的傳感器數據的出現,可能會對算法帶來一些新的挑戰。現在很多算法都是針對圖像這種格式,不管什麼樣的傳感器,不管誰家的傳感器,數據格式基本都是通用的,數據流可能就是這樣一個二進製的排列。再比如說有了我們這種新的傳感器之後,每一個像素包含的數據格式就不只是RGB,可能是RGB加距離。圖像是存成JPG格式,影片存成MP4格式,那像我們這種數據它應該存成什麼格式,用什麼方法來編碼來壓縮,對於訓練算法可能都要做一些調整。這個可能是這種新的硬件為軟件算法帶來的一些新的課題。

張澄宇:人機協同跟機器驅動,目前是什麼樣的關係?

鄭慧偉人機協同我們是辯證來看待它的,它分成兩個維度,一個屬於替代級,就是全自動化,像無人駕駛也是一樣,人的干涉越少越好。第二類屬於協作級,比如我能問他什麼問題,基於這些問題他給了幾個答案,再給他一些其他的信息輸入。回到工業生產這個點上,我們想方設法的減少人機協作,我們是通過AI或是以數據驅動的方式,把人的動作或者人的理念想法數據化。

餘彥武從底層來講,人是碳基生命機體,機器人的軀體在硬件層面比人適應性更強。首先它的各種材料性能都比人的肌肉要強,溫度適應範圍更廣,也不需要氧氣。第二,它的能源利用效率也比人強。在算法推理方面,只要數據足夠、算力足夠,機器的思考能力也能達到甚至超越人類的水平。綜上在硬件和軟件思考能力上,機器都可能會全面超越人類,並不需要人機協同。這是我對未來的一點暢想。

張澄宇:在數據和算力層面,存在的突破和挑戰有哪些?

鄭慧偉數據毫無疑問是資產,從大的時間視野來看,是一個持續利好的事情。算力層面,圍繞著兩個方向在發展,高性能和低成本。一方面從成本來說,能感受到隨著整個工業大生產的鋪開,合理的平均成本其實在逐步在下降的。另一方面從需求層面來說,我們希望是魚和熊掌兩者兼得,當然還得依靠產業鏈上的各位同仁,我們能做的就是在數據層面去構建我們的一些壁壘和積累。

餘彥武因為我們是做硬件的,所以當我們發現某個事情有難度或者有瓶頸的時候,我們首先思考的是能不能從硬件上把這個瓶頸給消掉。現在人工智能對算力要求越來越高,而且需要大量的數據積累。我們的思考是能不能從底層上去考慮一些新的計算邏輯,比如光子計算機,或者是純模擬信號計算。

用技術撕開認知牢籠

張澄宇:視覺解決方案在落地時的痛點和挑戰?

鄭慧偉2017年前,工業視覺領域是以傳統的機器視覺算法為主的,工業市場領域幾乎沒有任何AI的技術應用,大家認為AI是一個黑盒子,行業中99%的客戶和廠商其實是拒絕AI的,我們開玩笑說那時經歷了很多年「非共識」的過程。隨著技術的快速發展,在一些場景的PK上,大家逐步感受到用AI檢測技術的效果和用傳統算法檢測的效果在快速拉開代差。

後面我們就把眼睛紮根到客戶真正的需求里來創造差異化價值。比如人臉識別需要很多人臉圖片,但在工業市場中它的良率很高, 有可能3、5個月才能收集十來個不良品,所以就倒逼著我們去研發小樣本的算法,把這一類關鍵缺陷給檢測出來。還有客戶說我實在收集不到NG樣品,但是你必須要檢測出來,這又倒逼著我們回到技術本身去尋找解決方案,後面我們就把無監督學習應用進來,去解決沒有NG圖像的一些場景。我們就這樣手眼並進來尋找一個個創新的點(需求/技術,互聯互通),讓客戶去快速的獲得收益,解決技術上的一些疑難和挑戰。

餘彥武我們創業一開始是抱著以終為始的初心,看看十年後這個社會需要什麼樣的傳感器,但是當我們真的去落地的時候,發現大家好像並不需要,或者說用不上。比方說汽車,大家對於汽車已經形成了一個固有觀點,就是以攝像頭為主,因為現在各種訓練都是基於圖像識別的,也比較成熟了。激光雷達是做一個備份保障,萬一攝像頭有什麼問題,激光雷達還能做個輔助防止碰撞,基本大家都這麼用的。在這種情況下,客戶完全不需要激光雷達有很高的解像度,他就要便宜,因為它是配角,配角就不能太貴。我們希望激光雷達在實現高解像度之後,要在市場上起到一個認知——它是主角。你可以不要攝像頭,但不能沒有激光雷達。

另一方面也找到了很多對我們有剛需的場景,比方說無人機,對於細節要求很高,它怕撞樹或者撞到高壓線,還有防止GPS丟失,這些時候它都需要用激光雷達這種3D手段去實現。我們在做全新產品的實際推廣過程中,也會遇到類似的戰略選擇問題。先做對我們有剛需的場景,不需要的我們就先放一放,因為有些時候需要一定的時機。當我們有一天產品成熟,價格確實降到他的心理門檻時,沒準這個東西就會慢慢的推廣開來,大家需要有個接受的過程。

張澄宇:未來1-3年,機器視覺可能會出現哪些技術創新或者演進方向?

鄭慧偉從感知層面的維度,我認為單純的把圖像採集回來的階段已經過去,下一階段一定會邁向計算成像,結合著2D/3D傳感器的信號來綜合生成多維度的數據信息。另外從算法的維度,包括從語言大模型到圖像大模型一直在演變,像Meta推出的SAM(分割一切模型)的開源成果,都在讓大家對於這些算法創新充滿了期待。

餘彥武和應用中遇到一些困境有關,就是常常會面臨大家在認知上的一些判斷。所以我們現在從做數據標註、數據集的建設開始,用新的數據格式採集回來數據,做完標註訓練看出來的是一個什麼樣的效果。我們在上遊供應鏈硬件和下遊很多的市場方向上都做了一些嘗試,其實本來是客戶要做的事情,我們來做,我認為是非常值得的,這些都是你作為一個創新者,必須要去解決的問題。能讓大家認識到新的傳感器,也可以通過訓練新的數據去更好的解決問題。