15位大咖萬字追問:所有數據都值得保存嗎?

文 | 追問Nextquestion

隨著數據規模的指數級增長,神經科學家面臨著一個重要的挑戰:我們是應該保留所有原始數據,還是著重關注經過處理的數據集呢?

麻省理工大學麥戈文腦研究所科學家Nima Dehghani就此詢問了15位實驗研究者和理論研究者的看法。為便於閱讀和理解,追問編輯對部分文字進行了修改。

主持人

Nima Dehghani

麻省理工大學麥戈文腦研究所科學家

他專注於神經科學、理論物理學和人工智能的交叉領域,致力於理解大腦複雜的動態系統及其功能。他的研究涵蓋神經網絡的動力學、信息處理機制以及大腦如何在健康和病理狀態下實現複雜的認知任務。

經過處理的數據和原始數據均有其獨特的優勢與挑戰,洞悉這二者之間的利弊權衡,對於決定該保留何種數據以及如何最大限度地利用我們所生成的數據至關重要。

神經科學正處在十字路口。電生理學和光生理學領域的最新進展,比如神經像素探針和光片顯微鏡技術,拓寬了我們能夠從大腦中記錄信息的邊界。這些技術正在生成海量的數據——單次實驗就能產生價值數PB的數據量,遠比我們以往處理過的數據量要多得多,這也引發了一場至關重要的討論:

  • 我們該如何存儲並獲取所有這些信息?

  • 我們是應該保留所有原始數據,還是著重關注經過處理的數據集呢?

  • 如果無法保留所有數據,我們又該如何決定捨棄哪些數據?

原始數據是實驗最完整且未經篩選的記錄,捕捉了每一個細節,包括那些起初看似無關緊要的部分。對於某些類型的研究而言,原始數據是不可或缺的,尤其是在發掘新方法或發現新見解時。例如,改進的尖峰分類算法可能從當前看似背景噪聲的活動中提取出有意義的圖示。

保留原始數據還能夠增強科研的透明性和可重覆性,這是嚴謹科學研究的兩大支柱。通過保存原始數據,我們可以讓其他研究者驗證我們的發現,甚至揭示起初未曾顯現的新見解。近年來,原始數據也成為訓練人工智能模型的重要素材,而人工智能模型正日益成為神經科學研究中的廣泛工具。

另一方面,儘管原始數據極具價值,但經過處理的數據在科研生態系統中也起著同等重要的作用。經過某種預處理的數據,比如尖峰分類、濾波或去捲積處理後的數據,往往更便於共享和使用。

共享經過處理的數據還能減輕那些希望重覆使用數據集的人員的負擔。研究人員無需重覆所有預處理步驟,而是可以基於他人的工作成果,將精力集中在新的分析或解讀上。這種效率在神經科學等協作性強的領域尤為重要,因為不同的專家可能在研究過程的不同階段做出貢獻,而一些研究人員(例如專注於建模而非數據採集的理論學家)可能並不精通數據預處理的細節。

圖 1: 艱難的抉擇:儘管理想的情況可能是同時保留原始數據和經過處理的數據,但存儲成本和訪問限制迫使許多實驗室不得不做出艱難的取捨。插圖作者:丹尼爾·巴雷托(Daniel Barreto)

經過處理的數據和原始數據均有其獨特的優勢與挑戰,洞悉這二者之間的利弊權衡,對於決定該保留何種數據以及如何最大限度地利用我們所生成的數據至關重要。儘管在理想情況下可以同時保留兩者,但存儲成本和訪問限制迫使許多實驗室不得不做出艱難選擇。

存儲原始數據成本頗高,無論是從物理存儲基礎設施方面,還是管理如此大規模數據集的複雜程度來講都是如此。雲存儲解決方案或許能夠隨著數據需求的發展而擴展,但確保數據完整性的費用和長期管理的挑戰不可小覷。在數據訪問方面,龐大的數據集規模使得研究者難以高效下載和分析數據。這種障礙促使人們開發了如「延遲加載」(lazy loading)等策略,即僅在特定分析需要時訪問必要的數據部分。這種方法雖然高效,但需要複雜的數據管理基礎設施,並對習慣於傳統數據訪問方式的研究者構成一定的學習挑戰。

▷圖 2: 質量控制:為鼓勵數據的重覆使用,所存儲的數據應當具備最高質量。然而,科學界尚未就質量評估與控制的方法達成共識。圖 2: 質量控制:為鼓勵數據的重覆使用,所存儲的數據應當具備最高質量。然而,科學界尚未就質量評估與控制的方法達成共識。

神經科學在管理大型數據集方面可以向粒子物理學和天文學學習。幾十年來,歐洲核子研究組織(CERN)和美國國家航空航天局(NASA)一直在處理海量的數據,為未來的分析保留了粒子碰撞及太空任務中必要的原始數據。它們在支持長期科研方面取得成功的根源在於,通過精密的集中式儀器進行數據採集以及配備專門的數據處理團隊——正是這樣的基礎設施使得有效管理和保存規模極大的數據集成為可能。

神經科學或許可以沿著類似的路徑前進,逐步向共享的高級實驗資源和集中化的數據處理團隊邁進。艾倫研究所的 「開放視野」(OpenScope)項目——首個此類神經科學觀測站,便是這一趨勢的例證。在這裏,標準化的數據採集和處理為高質量數據集提供了廣泛的訪問途徑,使研究人員能夠專注於特定的科學問題,而不會深陷於數據採集和預處理的細節之中。

儘管面臨這些挑戰,保留原始數據也變得越來越重要,因為它具有推動未來技術進步的潛力。在我們努力應對數據管理的實際問題時,還必須考慮到這些龐大且豐富的數據集所帶來的機遇。

01 原始數據會帶來新的見解和成果

實驗研究者:Christophe Bernard,艾克斯-馬賽大學與法國國家健康與醫學研究院研究員實驗研究者:Christophe Bernard,艾克斯-馬賽大學與法國國家健康與醫學研究院研究員

Christophe Bernard 是法國艾克斯-馬賽大學系統神經科學研究所(Institut de Neurosciences des Systèmes)的一位知名神經科學家。他目前正在研究癲癇發作的發生和傳播機制;記錄和控制神經元活動的有機電子學以及虛擬老鼠大腦。

作為一名使用神經像素探針開展工作的神經生理學家,我親身經歷了本文所討論的數據管理挑戰。在我們最近的一項研究中,我們對正常和癲癇動物進行了長達三週幾乎不間斷的記錄,生成了一個獨特的數據集,數據量約為1 TB。這龐大的數據量迫使我們設計了一套專門的數據傳輸和存儲系統,也凸顯了現代神經科學領域中數據管理所面臨的實際難題。

保留原始數據還是僅留處理後的數據,這一困境與我們工作密切相關。我的經驗表明,回顧原始數據往往能帶來新的見解和結果,因為隨著時間的推移,新的分析方法會不斷出現。但共享如此大數據集以支持開放科學挑戰重重,即便是在高速互聯網連接條件下(假設網速為100 Mbps),下載1 TB數據的樂觀估計時間也需約22小時。如此漫長的時間使得大多數研究者難以遠程訪問和處理這些數據集,從而可能限制協作和研究的可重覆性。在這種情況下,如何在數據保存的需求與數據的可訪問性及開放科學原則之間找到平衡,仍是一個關鍵挑戰。

02 訪問原始數據和處理後數據至關重要

理論研究者Zhe Sage Chen,紐約大學醫學院副教授理論研究者Zhe Sage Chen,紐約大學醫學院副教授

Zhe Sage Chen博士是紐約大學(NYU)醫學院的副教授,擔任精神病學、神經科學與生理學以及生物醫學工程系的教職。他同時也是計算神經科學、神經工程和神經精神病學實驗室(CN3實驗室)的負責人。在加入NYU之前,Chen博士曾在麻省理工學院(MIT)、哈佛醫學院和理化學研究所(RIKEN Brain Science Institute)工作。

作為一名計算神經科學家,我致力於開發新的分析工具,以揭示大規模神經數據中的潛在結構或表徵。我始終認為,能夠訪問原始數據和處理後數據,以及配套的完善元數據文檔,至關重要。

首先,能夠檢查原始數據中的所有信號和噪聲非常重要,這能讓我們測試新的方法和假設,並從原本被視為噪聲的部分中發現新的結構或特徵。同時,處理後數據的存在可以讓我們直接與標準化的數據進行比較。在實際研究中,我發現同時保留兩種格式的一些代表性數據集,並針對這兩種形式開展對比數析是一種有效的方法。元數據在從公共數據倉庫中挖掘數據時尤為關鍵,尤其是在沒有合作的實驗科學家來解答數據採集和實驗細節問題時。

關於保存哪些數據的問題,答案可能取決於數據的性質。例如,對於行為數據和鈣成像數據,保留最高時間解像度的原始格式是首選;而對於標準的EEG(腦電圖)或局部場電位(LFP)記錄,將數據保留在較低采樣率可能更為方便。

最後,基於多模態神經記錄開發基礎模型,將受益於能夠同時訪問原始數據和經過處理的數據。處理後數據可以被視為原始數據的第一階段特徵提取。然而,處理後數據是否是自監督學習範式(常用於大語言模型和基礎模型)中的最佳信息載體仍有待驗證。在基礎模型中使用原始數據還是處理後數據,可能還取決於目標下遊任務的需求。總的來說,從科學問題的角度來看,我能明確看到保留原始數據的價值和必要性。

03 謹慎地對資源進行優先級排序

實驗研究者Liset M. de la Prida,卡哈爾研究所神經回路實驗室負責人實驗研究者Liset M. de la Prida,卡哈爾研究所神經回路實驗室負責人

Liset M. de la Prida 博士是西班牙卡哈爾研究所(Instituto Cajal, CSIC)的神經回路實驗室負責人,專注於研究海馬微回路的動態如何支持記憶功能。她在神經科學領域的研究為理解記憶形成和神經回路功能提供了深刻的見解。她的工作對神經科學的基礎研究和臨床應用均具有重要影響。

開放數據倡議具有變革性意義,我們完全支持朝著這個方向推進。但作為實驗研究者,我們面臨著一些值得探討的挑戰。在我們實驗室,我們投入了大量精力,力求以一種既有意義又便於使用的方式來共享數據和代碼。全面的文檔記錄至關重要,因為不同類型的實驗——無論是記錄單細胞、使用矽探針還是部署神經像素探針——往往需要獨特的設置以及專門定製的解決方案,以便妥善地對設備進行同步。

這就導致數據文件在格式、長度和結構方面各不相同,所有這些都需要仔細整理,以確保它們能夠獨立地被重覆使用和共享。鑒於此,投入到全面數據存儲和元數據生成上的精力可能相當大,這要求我們謹慎地對資源進行優先級排序。

理解數據的細微差別同樣至關重要。大腦的複雜性帶來了諸多可變因素,而這些對於推廣研究結果極為關鍵。諸如睡眠、性別、激素狀態、遺傳背景以及其他環境影響等因素——包括動物與實驗人員之間的關係或者實驗的具體操作方式——都可能對實驗結果產生顯著影響,有時這種影響還很微妙。這些因素並非缺點,而是科學研究過程中的重要方面。在某些情況下,存儲記錄詳盡的數據所需的成本和精力會超過重新開展實驗的益處,尤其是當研究重點在於推動新發現時。

04 數據預處理的能力需要多年訓練

實驗研究者Anna Devor,美國波士頓大學生物醫學工程系教授實驗研究者Anna Devor,美國波士頓大學生物醫學工程系教授

Anna Devor 博士是波士頓大學生物醫學工程系的全職教授,專注於神經影像學和腦功能研究。她曾在加州大學聖地亞哥分校和馬莎諸塞州總醫院從事研究工作。她的研究旨在開發實時檢測大腦活動的技術,並將這些測量與系統級分析和功能性磁共振成像相結合。

支持數據預處理有一個理由,那就是原始實驗數據里常常會有一些 「瑕疵」,像是因為實驗對象的運動、儀器的噪聲和不穩定、不同測量方式之間互相干擾,還有一些不必要的生物物理過程等,這些都會導致數據出現偽影。例如,神經科學中的一個典型案例是螢光圖像中的血流動力學暗化現象,這是由於血流動力學反應期間血紅蛋白光吸收增加引起的。對於實驗科學家來說,識別並解決這些問題的能力需要多年訓練才能培養。

在許多情況下,這些偽影可以通過預處理去除。以血紅蛋白吸收為例,可以通過估算血紅蛋白濃度的變化並對信號進行適當縮放來校正螢光強度。其他例子包括結合電生理記錄與光學成像或光刺激的實驗中可能出現的電干擾和光電效應。在這些情況下,線性分解方法(如主成分分析和獨立成分分析)常被用於隔離並去除偽影。如果沒有預處理,這些偽影可能會主導數據的方差,從而使數據對訓練人工智能模型和其他計算應用幾乎毫無用處。換句話說,這種情況下需要由熟悉數據採集本質的專家來進行預處理,以確保數據的有效性。

05 獲取原始數據對我們來說至關重要

理論研究者Gaute Einevoll,挪威生命科學大學與奧斯陸大學物理學教授理論研究者Gaute Einevoll,挪威生命科學大學與奧斯陸大學物理學教授

Gaute Einevoll是挪威生命科學大學和奧斯陸大學的物理學教授。1991年,他獲得了凝聚態物理學博士學位,並在1991年至1994年期間作為加州大學聖地亞哥分校的研究員接觸了神經科學。他一直在計算神經科學領域工作,最初在特羅姆瑟大學工作,自1996年以來在奧斯陸郊外的挪威生命科學大學工作。自2007年以來,他一直是國際神經信息學協調機構(INCF)挪威節點的聯合負責人,自2013年歐盟人腦項目啟動以來,他就是該項目的合作夥伴。他積極推廣科學,目前正在製作播客「Vett og vitenscap med Gaute Einevoll」。

通常很難預見到一個數據集的所有可能應用。例如,大多數使用多觸點電極(如現代神經像素探針)記錄細胞外電位的研究者通常只關注信號中包含高頻部分的尖峰。因此,出於實際考慮,他們可能傾向於僅存儲高通濾波後的信號,甚至只存儲通過尖峰分類算法提取的尖峰時間點。但我們團隊會利用這類數據來約束神經網絡模型。在這種替代性應用中,電位的低頻部分,即局部場電位(LFP),是關鍵。因此,能夠訪問原始數據對我們至關重要。

對原始數據進行的任何一種處理都會去除信息,因此優先獲取原始數據總是更為理想。但如果只能存儲處理後的數據,則必須詳細描述處理過程,以便例如將相同的過程應用於生物物理模擬中生成的虛擬數據。只有這樣,才能在實驗之間進行定量比較。

06 在數據收集多年後,我才發現可以改進之處

實驗研究者André Fenton,紐約大學神經科學系教授實驗研究者André Fenton,紐約大學神經科學系教授

安達·芬頓(André Fenton)博士是紐約大學神經科學系的教授,專注於研究大腦如何將經歷轉化為記憶,以及在表達知識時如何激活相關信息而不激活無關信息。他在神經科學領域的研究為理解記憶形成和神經活動與認知功能之間的關係提供了重要的見解。

數據管理日益成為實驗研究者們關注的問題,尤其是隨著來自神經像素(約 50 GB)和鈣成像(約 30 GB)等技術的數據集不斷擴大。1992 年我剛開始讀研究生時,我們使用連接示波器的窗口判別器記錄 288 KB的數據文件,記錄下 16 分鐘時段內的鋒電位計數以及大鼠的位置信息。十年後,我們改用四極管配置的電極,生成了 50 MB的原始數據文件,從中我們可以分離出單個神經元單元,並為每個神經元創建僅有 100 到 200 KB的精簡文件。如今,我們通常會從神經像素數據中提取 200 到 500 個單個神經元單元,並將它們存儲在精簡的時間序利雲件(約 20 MB)中用於分析,很少再去查看原始數據了。

儘管如此,存儲原始數據仍然至關重要。在很多情況下,我都是在數據收集多年後才發現可以改進之處或者糾正其中的錯誤,例如通過使用三次樣條進行重采樣,提高單元辨別率10%,或檢測到數據採集中的時間錯誤。只有我們保存了原始數據,這些情況才有可能出現。與重新進行實驗所需的人力和財力資源相比,存儲這些文件的成本微乎其微。例如,一個64通道的矽探針約花費1000美元,而同樣的1000美元可以購買64 TB的存儲空間,足以保存約7,000小時的原始記錄。

雖然原始數據存儲的成本較低,但長期管理此類數據超出了大多數實驗室的能力範圍。作為一個科研群體,我們需要採用諸如「無邊界神經數據」(Neurodata Without Borders)以及多尺度電生理數據格式(Multiscale Electrophysiology Data),以確保數據既能被保存又便於獲取。從自給自足的文化向共同責任的文化轉變,需要機構層面的基礎設施、資金支持以及廣泛應用這些標準,從而確保我們的數據集能夠推動未來的發現。

07 所有這些數據都同樣有用嗎?

信息學家Satrajit Ghosh,麻省理工學院麥戈文腦研究所首席研究科學家信息學家Satrajit Ghosh,麻省理工學院麥戈文腦研究所首席研究科學家

Satrajit Ghosh 博士是麻省理工學院麥戈文腦研究所的首席研究科學家,同時也是哈佛醫學院耳鼻喉科的助理教授。他在計算機科學和神經影像學領域具有深厚的背景,專注於應用機器學習、信號處理和轉化醫學的研究。他在神經科學和計算機科學的交叉領域取得了顯著成就,為理解大腦功能和改善精神健康提供了重要的科學貢獻。

將研究結果的有效性和可靠性與原始數據聯繫起來,是科學研究嚴謹性和可重覆性的基石。在神經科學領域,這一點同樣適用。但是,由於神經科學原始數據和元數據的複雜性,以及它們的來源,要讓神經科學數據集合對人和機器而言都具備 FAIR 特性(可查找、可訪問、可互操作和可重覆使用),給數據生產者帶來了巨大的資源挑戰。儀器、物種和實驗問題的多樣性太過繁雜,只能提供零散的片段化的神經科學知識。

如今,數據收集與傳播規模日益龐大,我們遲早要審慎抉擇,哪些數據該留存,哪些可捨棄。我是DANDI神經生理學數據存儲庫的維護者之一,該存儲庫目前保存了近1 PB的數據。儘管作為數據存儲庫,我們有責任對這些數據進行存檔,但我們確實需要思考:所有這些數據都同樣有用嗎?

以下是影響這一問題的幾個關鍵因素,我們在決定保留哪些神經科學原始數據時應予以考慮:

其一,研究問題與設計至關重要。與特定研究問題緊密相關的數據應優先留存探索性分析與試點研究可能需要全面的數據與元數據集,而驗證性研究通常可聚焦於與研究假設直接相關的數據部分。若某數據的大部分價值已被挖掘,其重要性可能不及那些具備更多複用潛力的數據。因此,可考慮為數據設置自動停用機制。例如,設定五年存檔期,若在此期間發現新用途,可延長存檔期限。

其二,數據與元數據的質量,包括缺失內容,也是考量的關鍵之一。神經科學原始數據易受噪聲、偽影及技術問題干擾。為便於重覆利用並確保研究結果可靠,存儲的數據必須具有最高質量。但目前科學界尚未就質量評估與控制方法達成共識,尤其在神經科學廣泛應用新儀器的背景下。採用通用的質量控制方法,是邁向系統評估與合理停用數據的重要一步。

其三,多種偏差會對神經科學數據產生影響。由於神經科學方法的多樣性,有些數據集可能來自單個研究者,而另一些則來自眾多研究者。有些數據可能僅代表特定的大腦區域或神經回路,而另一些可能代表特定的群體或社會經濟群體。在保存數據時,哪些人群或神經科學領域尚未被涵蓋。若長期使用相同的遺傳模型、細胞系或腦樣本,可能會限制研究結果的普適性。

我們需要認識到,數據並非都是等同的。每個數據集都有其生成的初衷。些神經科學數據集基於特定假設,另一些則致力於創建多樣化的大型生物樣本庫。在決定保留哪些神經科學原始數據時,必須仔細考慮研究問題、數據質量、多樣性和倫理原則,同時還應考慮未來數據集的生成。然而,目前尚無通用決策方法,且當下也無需急於丟棄數據。從實際操作看,我相信我們有能力存儲全球神經科學數據。因此,更重要的是先全面留存數據,並借此完善數據保存與篩選的流程及政策。

08 推動數據共享與基礎設施改進非常重要

實驗研究者Lisa Giocomo,史丹福大學神經生物學系教授實驗研究者Lisa Giocomo,史丹福大學神經生物學系教授

Lisa Giocomo 博士是史丹福大學神經生物學系的教授,專注於研究大腦如何處理空間信息,特別是與導航和記憶相關的神經機制。為理解大腦如何處理空間信息和支持導航提供了重要的見解。

保留原始數據對於科學研究的透明性、可重覆性以及開放科學至關重要,它能確保數據集被用於多項研究。然而,原始數據的規模和體量正以遠超經濟成本和物理存儲能力的速度增長,同時在項目間統一記錄元數據(如動物的年齡、行為特徵和先前經驗)的方式仍然存在局限。

我們採取的做法是發佈所有處理後的數據(如尖峰時間和動物位置),同時將所有原始數據存儲在本地服務器上,並備份到雲存儲設施。我認為推動改進原始數據和相關元數據的共享基礎設施非常重要,不僅為了透明性和可重覆性,還因為這能確保耗費大量時間和資源採集的實驗數據的科學價值被最大化。

09 捍衛使用新方法重新分析數據的自由

理論科學家Soledad Gonzalo Cogno,挪威科技大學卡夫利系統神經科學研究所研究組長理論科學家Soledad Gonzalo Cogno,挪威科技大學卡夫利系統神經科學研究所研究組長

Soledad Gonzalo Cogno 博士是挪威科技大學(NTNU)卡夫利系統神經科學研究所的研究組長,領導神經動力學與計算實驗室。她的研究主要集中在神經元活動如何在神經網絡層面協調,以及這種協調如何支持認知和行為。為此,她結合了計算建模和高維數據集分析方法,以及先進的大規模神經元群體記錄技術。

作為一名計算神經科學家,我致力於開發新的分析工具,以揭示大規模神經數據中的潛在結構或表徵。我始終認為,能夠訪問原始數據和處理後數據,以及配套的完善元數據文檔,至關重要。

首先,能夠檢查原始數據中的所有信號和噪聲非常重要,這能讓我們測試新的方法和假設,並從原本被視為噪聲的部分中發現新的結構或特徵。同時,處理後數據的存在可以讓我們直接與標準化的數據進行比較。在實際研究中,我發現同時保留兩種格式的一些代表性數據集,並針對這兩種形式開展對比數析是一種有效的方法。元數據在從公共數據倉庫中挖掘數據時尤為關鍵,尤其是在沒有合作的實驗科學家來解答數據採集和實驗細節問題時。

關於保存哪些數據的問題,答案可能取決於數據的性質。例如,對於行為數據和鈣成像數據,保留最高時間解像度的原始格式是首選;而對於標準的EEG(腦電圖)或局部場電位(LFP)記錄,將數據保留在較低采樣率可能更為方便。

最後,基於多模態神經記錄開發基礎模型,將受益於能夠同時訪問原始數據和經過處理的數據。處理後數據可以被視為原始數據的第一階段特徵提取。然而,處理後數據是否是自監督學習範式(常用於大型語言模型和基礎模型)中的最佳信息載體仍有待驗證。在基礎模型中使用原始數據還是處理後數據,可能還取決於目標下遊任務的需求。總的來說,從科學問題的角度來看,我能明確看到保留原始數據的價值和必要性。

10 集中於更少但更有意義的數據集

實驗研究者Jérôme Lecoq,美國艾倫研究所神經動力學研究中心副研究員實驗研究者Jérôme Lecoq,美國艾倫研究所神經動力學研究中心副研究員

Jérôme Lecoq 博士是美國艾倫研究所(Allen Institute)神經動力學研究中心的副研究員,專注於開發創新的平台,以深入瞭解大腦的工作原理。他領導了 OpenScope 項目,旨在通過高通量成像技術,實時記錄和分析神經元活動,從而揭示大腦的計算原理。

當多種模態(如成像、電生理、解剖和行為)數據被整合時,神經生理學數據集的價值會大幅提升。例如,小鼠皮層中特定神經元的活動只有在與不同儀器的精確刺激、環境因素和時間戳對齊時才具有意義。但要處理這種複雜性,需要工程學、數據科學和生物學方面的專業知識,這使得數據處理和存儲變得日益困難。這凸顯了一個整合收集、處理和存儲工具的可訪問數據生態系統的必要性。目前,個別研究生或科研人員獨立管理數據集的較大工作量往往會影響數據的質量和完整性。

我們的領域若能集中於更少但更有意義的數據集,並採用類似粒子物理學的標準化數據採集和共享實踐,將會大有裨益。像國際腦實驗室(International Brain Laboratory)和開放視野(OpenScope)項目,正式朝這一模式邁出的早期步驟,旨在促進專業化發展和資源共享。通過專注於維護高質量且用途廣泛的數據集,神經科學不僅能夠更好地支持長期研究,還能減輕單個實驗室在數據管理和重覆利用方面的壓力。

11 理論科學家可以獨立測試模型,而無需直接進入實驗室

理論研究者Luca Mazzucato,俄勒岡大學生物學、數學和物理學系的副教授理論研究者Luca Mazzucato,俄勒岡大學生物學、數學和物理學系的副教授

Luca Mazzucato 博士是美國俄勒岡大學(University of Oregon)生物學、數學和物理學系的副教授,同時也是神經科學研究所的成員。他在意大利的國際高級研究所(SISSA/ISAS)獲得了理論粒子物理學博士學位。他在神經科學領域發表了多篇研究論文,涉及神經元群體活動、神經計算模型和腦機接口等主題。他的研究為理解大腦如何通過神經回路的協調活動產生複雜行為提供了重要的見解。

大型開源數據集對理論科學家來說具有變革性意義。過去,獲取數據往往取決於和實驗研究者建立信任關係,這就產生了有利於大型實驗室和機構的不平等現象。我在2010年代剛入行時對此深有體會——當時,身處實驗室的常駐理論學家幾乎是測試模型的唯一途徑。而如今,有了艾倫腦觀測站和國際腦實驗室等項目,理論科學家可以獨立測試模型,將想法轉化為論文,而無需直接進入實驗室。

這些開放數據集還通過減少新實驗的需求來解決動物研究相關的倫理問題。儘管有些假設仍然需要專門的實驗來驗證,但使用開源數據優化模型可以使測試更加聚焦和高效。艾倫研究所的開放視野(OpenScope)項目更進一步,它不僅讓科學家能夠提出他們理想的實驗,而且在首次發表後,還會將所有產生的數據向公眾開放,讓人們平等地獲取最先進的神經技術。

12 多元視角的交織與整合促進更深刻的理解

實驗研究者Earl K. Miller,麻省理工學院皮考爾學習與記憶研究所神經科學教授實驗研究者Earl K. Miller,麻省理工學院皮考爾學習與記憶研究所神經科學教授

Earl K. Miller 博士是麻省理工學院(MIT)皮考爾學習與記憶研究所的神經科學教授,同時也是腦與認知科學系的成員。他在肯特州立大學獲得心理學學士學位,在普林斯頓大學獲得碩士和博士學位。

數據共享對科學進步至關重要。未被利用的數據是未被實現的科學潛力。然而,有效的數據共享需要通過合作來實現。實驗科學家掌握著寶貴的背景知識,能夠幫助合作者避免分析中的誤解和錯誤。

從科學角度看,這種合作能夠促進思想的交融,這是推動科學進步的關鍵。隨著學科的發展,不同的觀點相互交織、融合,從而帶來更深入的理解。數據共享為建立促進這種整合的基礎設施提供了契機。諸如會議、討論和共同撰寫論文等合作活動,能讓研究者接觸到新知識和新視角,相比之下,單方面使用公開數據則錯失了這些科學交流與成長的寶貴機會。

13 在現有數據集上試驗新想法有望駕馭自然輸入的複雜性

理論研究者Stephanie Palmer,芝加哥大學生物學系副教授理論研究者Stephanie Palmer,芝加哥大學生物學系副教授

史提芬妮·龐馬(Stephanie E. Palmer)博士是芝加哥大學生物學系的副教授,隸屬於有機體生物學與解剖學系、神經科學研究所,並參與神經生物學委員會的工作。她的研究為理解大腦如何通過神經回路的協調活動產生複雜行為提供了重要的見解。

我們所處的這個數據共享新時代,為理論研究者和計算神經科學家在諸多不同領域帶來了機遇。其中一個極具潛力的方向,是共享來自實驗刺激的原始數據以及神經記錄。在過去,聽覺或視覺實驗往往僅以一些示意圖進行描述——有時是因為刺激簡單且可參數化,有時則是因為共享大型刺激文件在沒有硬盤傳輸的情況下幾乎不可能。即使是簡單的刺激,實際的刺激文件也可能非常有價值,它們揭示了在實際顯示設計中做出的多種選擇,並支持重新分析,或者至少在模型或模擬中重現完全相同的刺激(當然,這也適用於新的實驗)。

對於自然刺激,其可能性更為廣闊。在高維自然影片或音頻記錄中,存在多種方式可以對「特徵」進行降維處理。通過共享原始刺激文件,研究人員可以運行新的分析,從而揭示神經編碼的本質,有時甚至會獲得出人意料的結果。如果我們能夠在現有數據集上試驗新想法,就有望駕馭自然輸入的複雜性。現代數據存儲和傳輸的強大能力和速度讓這一切成為可能,甚至成為必然。

14 我們常常意識不到自己遺漏了什麼

實驗研究者Adrien Peyrache,加拿大麥吉爾大學蒙特利爾神經學研究所副教授實驗研究者Adrien Peyrache,加拿大麥吉爾大學蒙特利爾神經學研究所副教授

Adrien Peyrache 博士是加拿大麥吉爾大學(McGill University)蒙特利爾神經學研究所(Montreal Neurological Institute)的副教授,專注於神經科學領域的研究。他在神經生物學委員會(Neural Circuits Research Group)工作,研究人類在環境中導航時使用的認知過程。

數據管理是實驗研究者,尤其是主要研究者極為關注的問題,他們必須在數據安全與管理大規模數據集不斷增長的成本之間尋求平衡。在許多實驗室,硬盤已經飽和,雲存儲也趨於超負荷。儘管數據會經歷從採集到分析再到長期存儲的各個階段,但保留成功實驗的原始數據至關重要。我們常常意識不到自己可能遺漏了什麼。例如,儘管我很少分享或索要原始數據,但我的實驗室最近重新分析了原始記錄,併發現了以前未發現的事件,而這些事件只有在原始采樣頻率下才能被觀測到。此類發現雖然難以預測,但如果我們保存並分享原始數據,它們出現的頻率可能比我們預期的更高。

保留原始數據的另一個重要原因是數據處理流程可能出現錯誤。如果數據處理出錯,獲取原始數據可以讓我們根據需要重新處理。此外,存儲原始數據的成本相對較低,與進行實驗本身的成本相比更是微不足道。例如,一個64通道的矽探針大約需要1,000美元,而這一成本可以換來64 TB高質量存儲空間——足夠存儲7000小時的原始記錄。儘管存儲鈣成像數據的成本可能更高,但與實驗資源的整體投資相比仍然很小。

總之,儘管存儲原始數據確實需要投入資源,但其帶來的好處遠遠超過了成本。保存原始數據不僅可以避免錯失發現的機會,還能增強研究的透明性和可重覆性。通過向學術界提供高質量實驗的原始數據,我們可以推動新分析的開展,加速科學進步的步伐。

15 需要投入開發強大且可擴展的工具

實驗研究者Jakob Voigts,侯活·曉士醫學研究所賈內利亞研究中心研究組長實驗研究者Jakob Voigts,侯活·曉士醫學研究所賈內利亞研究中心研究組長

Jakob Voigts 博士是侯活·曉士醫學研究所賈內利亞研究中心(Janelia Research Campus)的研究組長,專注於神經科學領域的研究。他在赫特堡大學學習數學,並在麻省理工學院(MIT)與 Chris Moore 和 Emery Brown 合作完成博士研究。在加入賈內利亞之前,Voigts 博士曾在 MIT 的 Mark Harnett 實驗室從事博士後研究。

我的實驗室與艾倫研究所和賽恩斯伯里·韋爾科姆中心的其他團隊一起,正在開創大規模實驗的新領域。在這些實驗中,我們連續數週測量高帶寬行為數據(約0.2到1 TB每小時)和腦活動數據(約150 GB每小時),生成龐大的數據集。如此海量的數據讓即使是基本的分析也需要高度專業化的技能。目前的現有方法僅用於處理低帶寬數據的一小時分析需求,無法滿足新實驗的規模,這使得量化後處理質量以及確定高效的壓縮、存儲和分發策略變得非常困難。

為了讓這些大規模實驗切實可行,我們需要大量投入,開發強大且可擴展的工具。這些工作不能僅僅依賴於個別學生或博士後研究項目,而應專注於創建穩定、可複製並能長期支持的數據處理流程。唯有如此,我們才能充分利用這些高通量實驗的潛力。

譯者後記:在開放科學日益普及的今天,標準化數據處理流程、本地保存原始數據,並上傳初步處理後的數據,附上清晰規範的說明,或許可以有效促進科學共同體的合作與交流。

原文鏈接:To keep or not to keep: Neurophysiology’s data dilemma

To keep or not to keep: Neurophysiology’s data dilemma