直播對話：視覺感知如何驅動機器人「睜眼」看世界

作者｜PRO郵箱｜pro@pingwest.com

本期TICLAB直播，我們特別邀請到阿丘科技聯合創始人鄭慧偉，光秒科技創始人餘彥武博士，易觀合夥人/企業數字化中心負責人張澄宇，和我們一起聊聊他們如何利用前沿技術應對行業痛點，以及未來智能製造的新機遇。

阿丘科技和光秒科技，兩個在工業AI領域深耕不輟的企業，正在以各自的創新技術改變著傳統製造業的面貌，推動著傳統製造業的轉型。

成立於2017年的阿丘科技，一直紮根於工業生產一線，專注於機器視覺和AI視覺技術的應用，致力於實現全方位的質量管控。他們的AIDI平台不僅能高效檢測缺陷，還能實時監控設備和人員操作的安全性，真正為企業帶來了實打實的價值。想像一下，以前需要數十名質檢員的繁重任務，如今通過AI技術的應用，僅需幾台設備便可輕鬆完成，這無疑是對傳統製造業的一次顛覆。

光秒科技自2019年成立，目標明確：為機器賦予「通用的眼睛」。他們通過將激光雷達與攝像頭技術融合，創造出一種全新的傳感器。這種傳感器不僅具備3D感知能力，還能夠以極低的成本提供高解像度的環境理解。這樣的技術將如何改變無人機物流配送、自動駕駛等領域，讓機器真正「看」得更遠、更清晰。

AI浪潮下的新需求

張澄宇：作為機器視覺產業鏈上的廠商，阿丘科技和光秒科技分別觀察到市場端有哪些新的熱點和需求？

鄭慧偉：大家好，我是來自阿丘科技的鄭慧偉，我們主要在做工業生產領域的機器視覺相關的技術，來實現整個生產過程中的質量管控。我們比較關心兩個維度，一個是供給，一個是需求，最好的情況下是達到PMF（product-market fit），就是很舒服的狀態。在整個工業生產的過程中，視覺它本身是一種感知的手段和方法，其實需求非常多。第一大類是圍繞整個生產過程中視覺的應用。第二大類是能面向和人相關的，人的一些動作識別。第三類是在整個工業生產過程中安全相關的問題。更深入一步來講，視覺我們把它定義成感知層，這個其實還只停留在感知層，還沒到反饋層。如果在工業生產過程中能把這種感知的信息，進行有效的二次加工，形成對應的一些工藝反饋，能反饋到前端工藝上，來判斷工藝是否需要改善，整體良率和稼動率是否可以提升等等，這些點都能帶來非常大的價值。所以說從宏觀角度來看，基本上需求是很多的，我們也非常擁抱新型的技術來到我們行業中，為這個行業賦能。

餘彥武：大家好，我叫餘彥武，是光秒科技的創始人。我們是做傳感器的，主要解決將來人工智能所有的機器通用的「眼睛」問題，具體來說我們是把激光雷達和攝像頭融合到一個設備里，你可以想像它既是激光雷達也是攝像頭，將來可以做為一個對攝像頭方案的升級版本，應用到機器人的各種應用中。

我們在解決的是從2D到3D升級的問題。激光雷達這個領域之所以誕生，除了像一些空間的、航天的用途之外，民用用途最早是起源於自動駕駛。在自動駕駛之前，大家對3D傳感是有一些需求的，但其實沒有那麼迫切，直到像自動駕駛這樣的應用需求出來之後，大家發現需求變得必須要解決了，因為車在路上跑著識別前面的各種障礙物，它是一個很開放的環境，那對傳感的要求就提出更多挑戰。隨著現在人工智能越來越熱門，機器人、機器狗出現並承擔更多的角色，3D需求就會變得非常的迫切。第二類，像一些3D數字重建，類似於測繪採集的需求現在也很多，比如前一段時間比較火的《黑悟空》，有些遊戲場景是需要通過3D傳感裝置實地的採集一些實物模型，輸入到遊戲場景里，1：1複現。像AR、VR的一些遊戲，現在有了VR眼鏡，但是缺少內容，這個內容如果沒有好的傳感器去實時收集的話，只能靠人工去編輯，這樣生產數據的效率就會很低。以前雖然有攝像頭傳感器，但是它還不夠，因為它錄製的只是一個稍微固定視角的、帶顏色的信息，它是沒有深度的。所以傳感器從2D向3D升級是順應市場需求的必然趨勢。我們是做硬件的，和阿丘科技其實是有上下遊的關係，我們希望去往底層提供更好的生產工具，這樣後面的應用就可以更好的開展。

無人區開出的技術玫瑰

張澄宇：當下供給側的生態是不是成熟了，如果還有一些欠缺的話，可能是在哪些層面或者產業鏈環節上還存在瓶頸？

餘彥武：我的感受是傳感器相對來說比較新一點，這個賽道相當於是個無人區，我們更多的難點來源於我們的上遊。現在主流激光雷達也才做到15萬到20萬像素這麼個級別，當我們要做到百萬像素甚至千萬像素級別的時候，你會發現很多問題並不是原理上不可行，而是很多基礎元器件都要重新構造，比如芯片。如果用現有的元器件去拚湊，成本就很高。我們需要的東西現在市場里是空白的，必須要自己做很多本來不應該我們來做的事情。我認為這個事情是沒有問題的，我們也應該做，因為我們給自己定的目標比較超前，當你做一個無人區的時候，那就意味著你的上遊都是無人區。所以我們做了大量的自研激光器、自研芯片，不僅要把功能做通，還要把它的成本降低，把它的可靠性做好。我希望將來形成一個大的趨勢之後，會有更多人參與進來去分攤我們的一些努力和成本。

另外在我們的下遊這個方面，我們也有跟上遊差不多的痛感。因為我們的激光雷達太新。一個典型的認知就是像自動駕駛汽車，很多人還在爭議，到底要不要用激光雷達，比如以馬斯克為代表的特斯拉，他用視覺就做的非常好，這會導致大家對激光雷達的存在是不是有必要這個問題產生質疑。從底層技術來講，激光雷達能夠提供的性能天花板是遠高於攝像頭的，因為它能提供多一個維度的信息，它是3D的。大家在談論必不必要的時候，更多隱含的是，它價格能不能降下來。換句話說，如果同樣的價格同樣的解像度，大家一定會選激光雷達。但我認為這件事很有意義，我需要去為一件正確的事努力，我相信就算不是光秒，再過10年、20年也會有其他公司實現這個目標。

鄭慧偉：我們本身是一家以軟件為核心的一個企業，我們是做AI算法平台的。我認為供給瓶頸是在特定場景或者複雜場景上，存在一些技術上的瓶頸，我們也在積極尋找這些新型的技術，比如說像一些新型的光學手段，新型的成像技術。舉個例子，像X-ray最早是用在牙科或拍胸片的民用場景，在幾年前，X-ray技術也引入到工業領域來做無損檢測，還包括像超聲波檢測技術等，也引入到了整個行業內。

同時我們也在吸納一些最前沿的技術，來做智能相機產品。智能相機產品，它是軟硬一體的智能視覺產品，對於剛才餘博士說的在做的無人區的產品，我們是最感興趣的，我們關心兩大類創新，一大類屬於原創性的底層技術創新，另一類是交叉創新，比方它在A場景下用的很好，但他從來沒有看過B場景，他不知道B場景也能用。舉個例子，比如說像多光譜的技術，現在也在我們行業中在用。激光雷達我們也在看，它做的是面向大視野的場景（如無人駕駛），我們關注的場景基本上是偏結構化的小視野場景，對於這些小視野高精度的需求，我們強調的是計算的可重覆性，所以對於不同場景有不同的考量點。

張澄宇：算法的迭代和創新，是核心要素嗎？

鄭慧偉：阿丘科技從創立到現在為止，一直以來都是以算法為核心來構建競爭壁壘或競爭優勢的，上個月我們也剛發佈了算法和平台軟件的新版本AIDI 3。用一個通俗的結構來看，這個場景里大家常說的三要素，算力、算法和數據，我們觀察到了一個非常大的趨勢，就是從算法往數據這邊去構建技術壁壘的這樣一個趨勢。我們從最早的以構建算法為核心壁壘，在不斷的迭代過程中，結合場景數據來構建場景模型的壁壘。在一些行業中，我們已經形成了一些通用的模型。它可以去跨場景複用，跨生產線複用，這對我們來說是很有價值的，本質上它形成的是一大類資產，對於我們的成本結構，對於客戶端的成本節省都有非常大的幫助。

餘彥武：因為我們提供的是原始數據，我想就如何使用這部分數據分享一些觀點。我們這種新的傳感器數據的出現，可能會對算法帶來一些新的挑戰。現在很多算法都是針對圖像這種格式，不管什麼樣的傳感器，不管誰家的傳感器，數據格式基本都是通用的，數據流可能就是這樣一個二進製的排列。再比如說有了我們這種新的傳感器之後，每一個像素包含的數據格式就不只是RGB，可能是RGB加距離。圖像是存成JPG格式，影片存成MP4格式，那像我們這種數據它應該存成什麼格式，用什麼方法來編碼來壓縮，對於訓練算法可能都要做一些調整。這個可能是這種新的硬件為軟件算法帶來的一些新的課題。

張澄宇：人機協同跟機器驅動，目前是什麼樣的關係？

鄭慧偉：人機協同我們是辯證來看待它的，它分成兩個維度，一個屬於替代級，就是全自動化，像無人駕駛也是一樣，人的干涉越少越好。第二類屬於協作級，比如我能問他什麼問題，基於這些問題他給了幾個答案，再給他一些其他的信息輸入。回到工業生產這個點上，我們想方設法的減少人機協作，我們是通過AI或是以數據驅動的方式，把人的動作或者人的理念想法數據化。

餘彥武：從底層來講，人是碳基生命機體，機器人的軀體在硬件層面比人適應性更強。首先它的各種材料性能都比人的肌肉要強，溫度適應範圍更廣，也不需要氧氣。第二，它的能源利用效率也比人強。在算法推理方面，只要數據足夠、算力足夠，機器的思考能力也能達到甚至超越人類的水平。綜上在硬件和軟件思考能力上，機器都可能會全面超越人類，並不需要人機協同。這是我對未來的一點暢想。

張澄宇：在數據和算力層面，存在的突破和挑戰有哪些？

鄭慧偉：數據毫無疑問是資產，從大的時間視野來看，是一個持續利好的事情。算力層面，圍繞著兩個方向在發展，高性能和低成本。一方面從成本來說，能感受到隨著整個工業大生產的鋪開，合理的平均成本其實在逐步在下降的。另一方面從需求層面來說，我們希望是魚和熊掌兩者兼得，當然還得依靠產業鏈上的各位同仁，我們能做的就是在數據層面去構建我們的一些壁壘和積累。

餘彥武：因為我們是做硬件的，所以當我們發現某個事情有難度或者有瓶頸的時候，我們首先思考的是能不能從硬件上把這個瓶頸給消掉。現在人工智能對算力要求越來越高，而且需要大量的數據積累。我們的思考是能不能從底層上去考慮一些新的計算邏輯，比如光子計算機，或者是純模擬信號計算。

用技術撕開認知牢籠

張澄宇:視覺解決方案在落地時的痛點和挑戰？

鄭慧偉：2017年前，工業視覺領域是以傳統的機器視覺算法為主的，工業市場領域幾乎沒有任何AI的技術應用，大家認為AI是一個黑盒子，行業中99%的客戶和廠商其實是拒絕AI的，我們開玩笑說那時經歷了很多年「非共識」的過程。隨著技術的快速發展，在一些場景的PK上，大家逐步感受到用AI檢測技術的效果和用傳統算法檢測的效果在快速拉開代差。

後面我們就把眼睛紮根到客戶真正的需求里來創造差異化價值。比如人臉識別需要很多人臉圖片，但在工業市場中它的良率很高，有可能3、5個月才能收集十來個不良品，所以就倒逼著我們去研發小樣本的算法，把這一類關鍵缺陷給檢測出來。還有客戶說我實在收集不到NG樣品，但是你必須要檢測出來，這又倒逼著我們回到技術本身去尋找解決方案，後面我們就把無監督學習應用進來，去解決沒有NG圖像的一些場景。我們就這樣手眼並進來尋找一個個創新的點（需求/技術，互聯互通），讓客戶去快速的獲得收益，解決技術上的一些疑難和挑戰。

餘彥武：我們創業一開始是抱著以終為始的初心，看看十年後這個社會需要什麼樣的傳感器，但是當我們真的去落地的時候，發現大家好像並不需要，或者說用不上。比方說汽車，大家對於汽車已經形成了一個固有觀點，就是以攝像頭為主，因為現在各種訓練都是基於圖像識別的，也比較成熟了。激光雷達是做一個備份保障，萬一攝像頭有什麼問題，激光雷達還能做個輔助防止碰撞，基本大家都這麼用的。在這種情況下，客戶完全不需要激光雷達有很高的解像度，他就要便宜，因為它是配角，配角就不能太貴。我們希望激光雷達在實現高解像度之後，要在市場上起到一個認知——它是主角。你可以不要攝像頭，但不能沒有激光雷達。

另一方面也找到了很多對我們有剛需的場景，比方說無人機，對於細節要求很高，它怕撞樹或者撞到高壓線，還有防止GPS丟失，這些時候它都需要用激光雷達這種3D手段去實現。我們在做全新產品的實際推廣過程中，也會遇到類似的戰略選擇問題。先做對我們有剛需的場景，不需要的我們就先放一放，因為有些時候需要一定的時機。當我們有一天產品成熟，價格確實降到他的心理門檻時，沒準這個東西就會慢慢的推廣開來，大家需要有個接受的過程。

張澄宇：未來1-3年，機器視覺可能會出現哪些技術創新或者演進方向？

鄭慧偉：從感知層面的維度，我認為單純的把圖像採集回來的階段已經過去，下一階段一定會邁向計算成像，結合著2D/3D傳感器的信號來綜合生成多維度的數據信息。另外從算法的維度，包括從語言大模型到圖像大模型一直在演變，像Meta推出的SAM（分割一切模型）的開源成果，都在讓大家對於這些算法創新充滿了期待。

餘彥武：和應用中遇到一些困境有關，就是常常會面臨大家在認知上的一些判斷。所以我們現在從做數據標註、數據集的建設開始，用新的數據格式採集回來數據，做完標註訓練看出來的是一個什麼樣的效果。我們在上遊供應鏈硬件和下遊很多的市場方向上都做了一些嘗試，其實本來是客戶要做的事情，我們來做，我認為是非常值得的，這些都是你作為一個創新者，必須要去解決的問題。能讓大家認識到新的傳感器，也可以通過訓練新的數據去更好的解決問題。

你可能喜歡