燃爆2025開源之夏|飛槳開源社區向全網開發者發出挑戰!

開源之夏是由中國科學院軟件研究所「開源軟件供應鏈點亮計劃」發起並長期支持的一項暑期開源活動,旨在鼓勵在校學生積極參與開源軟件的開發維護,培養和發掘更多優秀的開發者,促進優秀開源軟件社區的蓬勃發展,助力開源軟件供應鏈建設。

 01 

任務介紹 

飛槳開源社區此次提供三大賽題方向,歡迎同學任選其一申請。申請成功後,你將在項目導師的指導下,參與項目研發與迭代。根據項目完成情況,你將獲取開源之夏活動獎金、結項證書及飛槳社區貢獻者證書。期待你的加入,與我們一起共建開源未來!

飛槳 PaddleNLP-前沿模型模塊化設計

■ 項目簡述:

目前 LLM 模型結構迭代迅速,適用於多種領域的多樣模型不斷湧現,為社區帶來蓬勃生機。但是,在模型構造上也存在多種多樣的問題,初學者想要構造或者修改完整模型結構較為困難,同時性能優化手段需要多次重覆在不用模型上實現和驗證,較為費時費力。本選題目標為實現前沿模型模塊化設計,並通過 libcst 等工具實現源碼分析和轉換的功能。最終目標期望基於 Llama 模型結構自動化實現 Qwen2等模型的自動化構造。

■ 產出要求:

  • PaddleNLP 套件支持前沿模型模塊化構造。

  • PaddleNLP 套件 Qwen2模型結構可通過模塊化設計生成,並通過前後精度驗證。

  • PaddleNLP 套件 Qwen2模型並行能力可通過模塊化設計生成,並通過前後精度驗證。

■ 技術要求:

  • 熟悉 Python 和 LLM 模型結構。

🔗 課題鏈接:

https://summer-ospp.ac.cn/org/prodetail/2573e0132?list=org&navpage=org

📍 項目倉庫:

https://github.com/PaddlePaddle/PaddleNLP

🙎 項目導師:朱衛國

📮 導師郵箱:zhuweiguo@baidu.com 

🚀 項目難度:進階

💰 項目獎金:稅前12,000RMB

▎基於版面解析和大語言模型的文檔翻譯能力建設

■ 項目簡述:

OCR 技術正在從單純的文字識別向文檔理解和信息提取方向發展,與大模型的結合成為新趨勢。大模型時代下,泛 OCR 類需求持續,文檔理解領域的開源項目影響力增速迅猛。在 OCR、文檔解析等領域通過技術創新,研發出業界重磅特色方案,基於 PaddleX 版面解析 V3(PP-StructureV3)產線,結合大語言模型,支持對文檔圖像的多語種翻譯工作,並且能夠支持 PDF 轉為 word/LaTex,恢復正確版面順序。

■ 產出要求:

  • 完成產線全流程核心機制的開發,PDF/圖像文檔能夠轉變為正確翻譯(英文/日文),並恢復正確閱讀順序的 word/latex 文檔。

  • 完成測試評估,文本編輯距離等指標優於其他開源方法2-3個點。

其他相關開源項目例如:

https://github.com/Byaidu/PDFMathTranslate

■ 技術要求:

  • 熟悉 Python

  • 對當前的文檔解析工作有所瞭解

  • 瞭解 Prompt 技巧

🔗 課題鏈接:

https://summer-ospp.ac.cn/org/prodetail/2573e0133?list=org&navpage=org

📍 項目倉庫:

https://github.com/PaddlePaddle/PaddleX

🙎 項目導師:Yolanda

📮 導師郵箱:sunting13@baidu.com

🚀 項目難度進階

💰 項目獎金:稅前12,000RMB

▎基於算子學習的疾病負擔外推與以糖網為例的氣象環境——基因互作下的代謝病解析

■ 項目簡述:

  • 項目1:全國/區域尺度的疾病負擔預測模型:利用 ERA6氣象數據(高頻率、高空間解像度)與 UK Biobank 數據(低頻率、精確樣本位置)之間在經緯度和時間尺度上的積分或統計映射關係,探索算子學習或高保真模擬在疾病預測中的可行性以及輸出全國尺度熱力圖預測。

  • 項目2:UK Biobank 樣本級疾病研究子項目:將每位樣本的時間與經緯度匹配氣象背景,分析氣象外因與基因內因對糖尿病視網膜病變發病非對稱性的影響,包括氣象-基因交互建模、個體糖網發病風險評估。

■ 產出要求:

  • 代碼方面的驗收標準:兩個項目都請參考模型複現指南中的驗收標準部分。

模型複現指南:

https://paddlescience-docs.readthedocs.io/zh/latest/zh/reproduction/#3

  • 論文方面的驗收標準:任選1個項目,撰寫一篇達到發表水平(EI 檢索)的論文

■ 技術要求:

  • 構建統一時空數據管線整合氣象與健康數據,各自都嘗試使用以 DeepONet 為例的算子學習實現區域疾病預測、多模態 G×E 模型解析個體基因環境交互,形成宏觀-微觀協同預測體系。

🔗 課題鏈接:

https://summer-ospp.ac.cn/org/prodetail/2573e0144?list=org&navpage=org

📍 項目倉庫:

https://github.com/PaddlePaddle/PaddleScience

🙎 項目導師:王冠

📮 導師郵箱:wangguan12@baidu.com

🚀 項目難度:進階

💰 項目獎金:稅前12,000RMB

 02 

參與方式 

如果你對飛槳開源社區發佈的項目感興趣,在接下來的一個月內,你可以按照以下步驟報名參與:

1.註冊信息:進入「開源之夏」官網,完成帳號註冊。

3.發送申請:

  • 準備材料:個人簡曆、項目申請書,以及你希望與導師進一步交流的問題或想法。

  • 聯繫導師:將上述材料通過電子郵件發送給項目導師郵箱,並抄送至 ext_paddle_oss@baidu.com 。

抓緊時間,期待你的加入!

想瞭解飛槳開源社區的更多精彩故事?

歡迎訪問官方博客

https://pfcc.blog