人大附高中生中NeurIPS，入選高中賽道Spotlight，頂會真捲到中學了

09月29日 12:18 新浪網 news-china-auto-hilite

量子位 | 公眾號 QbitAI

NeurIPS 2024放榜，人大附中有高中生一作入選。

今年，NeurIPS率先把AI頂會捲到了高中里，正式面向高中生徵集論文，還為此專門設置了高中生賽道（High School Projects Track）。

現在結果終於出爐，北京大學計算機學院的張銘教授分享了一則入圍消息：

人大附中吳悠，有一篇一作論文入選該賽道，還被選為了Spotlight Project。

論文題為《Vision-Braille：An End-to-End Tool for Chinese Braille Image-to-Text Translation》，提出了一種中文盲文圖像到文本的端到端翻譯工具。

據張銘教授介紹，吳悠在2022年高一加入她的課題組時，就提出了這個項目的想法。

端到端中文盲文圖像到文本翻譯工具

具體來說，該項目基於Google的mT5模型，採用Curriculum Learning（課程學習）方法微調出了一個盲文翻譯模型。

其中的難點主要包括幾個方面：

缺少數據集：中文盲文翻譯數據集非常稀缺，數據的採集也比較困難，需要耗費大量人力。
盲文數據的特殊性：盲文通過最多三個單元格來表示每個漢字的發音，即聲母、韻母和音調。但在實際使用中，盲文使用者通常會省略大部分聲調符號，這給盲文翻譯帶來了挑戰。
同音字混淆：中文中存在大量同音字，並且由於聲調符號經常被省略，同音字的區分變得更加困難。

為此，論文作者們首先構建了一組中文-盲文數據集，包括Chinese-Braille-Full-Tone、Chinese-Braille-No-Tone和Chinese-Braille-10per-Tone。

作者從萊比錫數據集中收集了100萬個不同的中文句子，使用中文盲文在線平台提供的工具，將收集到的中文句子轉換為「全音」盲文。

而後，為了模擬真實世界中盲文使用者省略聲調的情況，作者識別出這些盲文中代表聲調的部分，並隨機去除了其中90%的聲調，創建Chinese-Braille-10per-Tone以反映現實世界中中文盲文的使用情況。

數據按照8:1:1的比例被劃分為訓練集、驗證集和測試集。

訓練方法方面，作者使用RetinaNet來執行盲文OCR任務，將盲文圖像轉換為數字盲文字符。

接著，採用課程學習策略——即從簡單到複雜地安排訓練任務，分三個階段微調了多語言Transformer模型mT5：

第一階段：使用Chinese-Braille-Full-Tone數據集作為訓練的簡單部分，讓模型學習基本的翻譯規則。這個數據集中的盲文包含完整的聲調信息。

第二階段：使用Chinese-Braille-No-Tone數據集，讓模型在沒有聲調信息的情況下，學會根據上下文猜測正確的中文字符。

第三階段：使用Chinese-Braille-10per-Tone數據集，讓模型更好地適應實際應用場景。

實驗結果顯示，在驗證集和測試集上，該模型的BLEU得分分別達到了62.4和62.3，顯著提高了盲文翻譯的準確度。

（正確答案：不過，對於自己外向的性格，伊度奧說，「這就是真實的我，我不會為此改變。）

該項目是在吳悠高三時完成。張銘教授透露，他目前已進入康奈爾大學就讀計算機和生物醫藥工程專業。

論文致謝中提到，吳悠主要是在張銘教授博士生、論文第二作者袁野的指導下完成了這項研究。

張銘，北京大學計算機學院教授，博士生導師，研究領域包括文本挖掘、知識圖譜、圖神經網絡和計算機教育研究等。她合作發表的科研學術論文曾獲ICML 2014最佳論文、ICDM 2022最佳論文提名等榮譽。Google Scholar顯示，她的論文引用量接近2萬，h指數為48。

NeurIPS高中生賽道

NeurIPS是今年剛設的「高中生賽道」，主要徵集「機器學習的社會影響」方向的論文。

公告是這樣寫的：

提交項目必須說明完全由高中生作者獨立完成的工作。希望每個提交的項目都能突出顯示積極的社會影響，或者使用機器學習產生積極社會影響的潛力。

詳細來說，就是允許高中生們找外部導師來合作完成項目，但必須把導師以及合作者的貢獻，和高中生作者的貢獻區分開來。

公告中還規定了，作者需要提交高中在讀證明，所有補充材料均應完全由作者完成，包括影片、Demo、海報、網站或源代碼。

值得一提的是，其他頂會也有積極接觸和影響高中生的趨勢。

比如，CVPR的做法是和高中合作，開展CV領域的專業講座等課外活動。

論文地址：

https://arxiv.org/abs/2407.06048

Demo地址：

https://vision-braille.com/