盤和林:因地製宜培育數據標註產業,可從這幾方面考慮發展定位和特色路徑
封面新聞記者 易弋力
近日,由國家數據局主辦的全國數據標註基地先行先試現場會在四川成都舉行,為數據標註產業發展提供智力支撐。
為什麼要重點關注工業、金融、醫療、交通、教育等領域的高質量數據集建設?各地如何因地製宜培育數據標註產業?3月25日,工信部信息通信經濟專家委員會委員、中國工業經濟學會人工智能制度建設專業委員會副主任委員盤和林分享了他的精彩觀點。

從我國數據標註產業目前的發展成果看,7個基地的數據標註規模達到1萬7282TB,形成335個高質量數據集等等。怎麼理解這組數據?
盤和林表示,首先,7個基地的數據標註規模達到1萬7282TB,這個量級是相當龐大的,它反映了我國在數據標註領域已經具備了相當的處理能力和數據積累。TB(太字節)是衡量數據存儲容量的單位,1萬7282TB意味著這些基地能夠處理和存儲的數據量極為可觀,為人工智能模型的訓練和優化提供了堅實的基礎。
形成335個高質量數據集,則是數據標註產業另一項重要成就。高質量數據集是人工智能發展的“燃料”,它們對於提升模型的準確性、泛化能力和實用性至關重要。這些數據集覆蓋了醫療、工業、教育等多個行業,說明我國數據標註產業已經能夠在多個領域提供專業化的數據服務,滿足不同行業對高質量數據的需求。
綜上,這組數據不僅展示了我國數據標註產業的規模實力,也體現了其在數據質量和行業覆蓋方面的顯著提升。這是我國人工智能產業發展的重要支撐,也是未來持續推動數據標註產業高質量發展的堅實基礎。
會議提到,推動工業、金融、醫療、交通、教育等領域的高質量數據集建設,為什麼重點關注這些領域?高質量數據集對於這些領域的人工智能發展能起到什麼作用?
盤和林解釋稱,因為這些領域是人工智能應用的重要場景,也是數據需求最為旺盛的領域。
以醫療領域為例,高質量數據集對於人工智能在醫療診斷、藥物研發、患者管理等方面的應用至關重要。通過收集和分析大量患者的醫療數據,人工智能模型可以學習疾病的診斷模式、預測疾病的發展趨勢,為個性化治療提供建議。
在金融領域,高質量數據集可以用於風險評估、欺詐檢測、智能投顧等方面。通過分析交易數據、用戶行為數據等,人工智能模型可以識別潛在的金融風險,為金融機構提供決策支援。如今很多金融機構能夠對借款人的貸款需求秒響應,刷臉貸,背後就是高質量徵信數據集的功勞。
在工業領域,高質量數據集可以支援智能製造、預測性維護、質量控制等應用。通過收集生產過程中的各種數據,人工智能模型可以優化生產流程、提高生產效率,降低維護成本。
在交通領域,高質量數據集可以用於智能交通管理、自動駕駛等方面。通過分析交通流量、車輛行駛軌跡等數據,人工智能模型可以優化交通信號控制、預測交通擁堵情況,提高道路通行效率。比如,近幾年大城市的自動駕駛車輛正在增多,這些智駕背後支撐的,就是交通高質量數據集。
在教育領域,高質量數據集可以支援個性化教學、學習成效評估等應用。通過分析學生的學習行為、成績等數據,人工智能模型可以為學生提供定製化的學習建議,幫助教師更好地瞭解學生的學習情況。
因此,重點關注這些領域的高質量數據集建設,是為了推動人工智能在這些重要場景中的深入應用,發揮人工智能在提升行業效率、改善服務質量方面的巨大潛力。
會議提出各地要因地製宜培育數據標註產業。結合我國不同地區的資源稟賦和優勢,哪些地區適合發展哪些類型的數據標註產業?它們各自的發展定位和特色路徑應該是怎樣的?
在盤和林看來,因地製宜培育數據標註產業,這是非常具有前瞻性和針對性的戰略部署。因為我國不同地區的資源稟賦和優勢,可以從以下幾個方面來考慮各地區適合發展的數據標註產業類型及其發展定位和特色路徑。
首先,對於擁有豐富醫療資源和數據的地區,如北京、上海等一線城市,以及部分醫療科研實力較強的二線城市,可以重點發展醫療領域的數據標註產業。
其次,對於工業基礎雄厚、製造業發達的地區,如東北老工業基地、長三角、珠三角等區域,可以重點發展工業領域的數據標註產業。
此外,對於教育資源豐富、科研實力較強的地區,可以發展教育領域的數據標註產業;對於金融產業發達、金融數據豐富的地區,可以發展金融領域的數據標註產業等。各地區應根據自身的優勢和資源稟賦,找準發展定位,探索特色發展路徑,形成優勢互補、協同發展的產業格局。
總之,大原則是,從當地已經形成的產業和數據格局出發,找到具有優勢數據資源的領域,有針對性的開發這些數據,繼而由這些數據帶動相關產業實現“人工智能+”。