設為首頁 | 收藏本站
科學視點

科學數據要像科學論文一樣積極“共享”

中國科學院青藏高原研究所(簡稱青藏高原所)研究員張國慶看著電腦屏幕,手移動著鼠標,光標在Landsat影像(陸地衛星影像)上以毫米計的距離移動,定位于中國范圍內每一個湖泊,之后將有關遙感影像和數據下載。

在數以千萬次地拖動點擊鼠標,初步了完成數據集。隨后,張國慶再次緊盯每一個湖泊,比對、檢查、修正。遇到看著很像湖泊的水體單元,張國慶要耗費更多的精力和時間,確保湖泊邊界的準確性。

這樣的動作,張國慶和他的學生持續了3年多,他的目標是了解過去50年全國大于1平方公里的湖泊數量與面積變化及其驅動因素。

最終在2019年,張國慶利用超過3831景遙感衛星影像獲得長時間序列全國湖泊編目數據集,較現有數據更新、更完整。

在數據集完成的第一時間,張國慶將其上傳到了“國家青藏高原科學數據中心”(以下簡稱數據中心),并開放給所有需要者免費獲取使用。很快,這一數據集被國家水利部門、湖泊水文研究學者等用于完善我國水資源管理戰略,研究生態資源與環境變化趨勢,開展鄉村調查等。

“做出來高質量的數據,本應該開放共享?!睆垏鴳c告訴《中國科學報》。他從事的是冰凍圈和環境遙感研究,其大部分科研工作與數據有關,他還共享了青藏高原湖泊水位、水量變化等數據集。

國家青藏高原科學數據中心自2019年成立以來,迄今已3年,像張國慶這樣愿意開放共享的科研人員越來越多。在數據中心主任、青藏高原所研究員李新看來,在中國實現科學數據的公開共享不僅需要自上而下的授權,還需要激勵機制,以提高研究人員對數據共享實踐的信心和意愿。

數據開放難在哪兒?

2020年,一項對我國超過2000名科研人員的調查顯示,我國研究人員雖有分享研究數據的意愿,但他們也擔心數據的誤用及版權和許可受到侵犯。在我國,與同事和合作者私下共享數據的情況更為普遍,而不是更廣泛的公開共享。

李新也發現,當數據與論文關聯起來時,科研人員共享數據的意愿相對高一些。

“科研人員發論文,誰也沒有猶豫,都很樂意公開發表,科學數據其實也應該是同樣道理?!崩钚滦ΨQ,“與十幾年前相比,總體上我國數據開放共享的狀態是樂觀積極的。但在我國研究人員中更為廣泛地樹立數據共享的信心,仍需大量工作?!?/p>

比如,科學數據哪些該保密,哪些不該保密,邊界仍是困惑;科研人員采集的數據還需要整理、描述、質量控制和中英文編輯等,這些“額外”的勞動成果難以被認定;科研人員的辛苦付出,其知識產權有時沒有被保護好。

此外,如今已是“數據洪流”時代,然而由于一些技術問題,諸多質量高、描述好的數據在互聯網搜索引擎上難以檢索到,或是可以被檢索到,但卻難以獲取和應用;數據質量和規范化水平不高,有調查顯示,估計只有不到10%的中國地球科學元數據有英文版本,這阻礙了廣泛的國際交流和影響。

促進數據開放共享,從政策、管理,到技術等方面都存在一定壁壘,需要有更具體的行動。更重要的,是科研人員的主觀意愿和動力。

不少人在網絡平臺上“吐槽”不愿共享的原因:“工作量大,科技含量低”“又累又苦,有時還有危險”“沒有回報”……

的確,數據不論收集難度還是時間跨度非一朝一夕所能完成。清華大學陽坤教授團隊用了10余年時間開發一套中國區域地面氣象要素驅動數據集(1979-2018),為中國區陸面過程模擬提供驅動數據。

陽坤的學生何杰博士是這套數據的主要開發人員之一,從2008年作為研究生時便開始采集整理數據,“盡管不需要有技術突破,但很多時候依賴‘上游’數據,需要用各種各樣的辦法排除可能存在疑問的數據,然后做出高質量的數據產品,這個過程是繁瑣、耗時的?!?/p>

談及愿意共享的原因時,何杰告訴《中國科學報》,氣象要素驅動數據集地學研究中不可或缺,以氣象為例,只有給模型輸入高質量的數據,才能獲得科學的氣候環境模擬結果?!白鰯祿某踔?,就是因為之前使用的數據模擬效果‘不理想’,想為我國地學學者提供一套可靠數據。有人用,才能夠體現我們研究的價值?!?/p>

10余年來,何杰與導師開發的這套數據集的精度高于國際上已有再分析數據的精度,成為國內研究廣泛使用的氣象數據集之一。如今,何杰是青藏高原所的工程師,“沒有更多論文考核的壓力,可以更充分地完善數據集?!?/p>

激勵機制是關鍵

自身研究驅動,是數據采集者開放、共享的初衷。但要廣泛提高動力,在李新看來,“數據貢獻者的認同感和工作的價值感需要被體現?!?/p>

李新先后承擔了國家自然基金委“中國西部環境與生態科學研究”和“黑河流域生態-水文過程集成研究”兩個重大研究計劃的項目,這兩項計劃均要求,受資助課題得到的科學數據都必須公開共享。在項目的年度評估、中期考核及最終評估環節,數據提交共享和數據質量都是被評定的內容。

這兩項先導性計劃的成功讓李新感觸頗深,“這種自上到下對公開數據共享予以支持的政策和自下到上對數據貢獻者予以激勵的機制,是能夠實現中國更為廣泛數據共享的關鍵?!?/p>

前不久,在青藏高原所組織的國際評估中,不少國際專家對張國慶的科研能力以及他的數據工作給予了認可和肯定。

數據中心也努力讓數據貢獻者有“價值感”,為每個自有產權的數據賦予唯一的數字對象標識符,體現數據的跟蹤價值、引用價值、集成價值和互聯價值。

但這還不夠,李新建議,研究成果或項目資助中除了考察其高質量論文的發表情況,還可增加其所貢獻科學數據質量等相關的條款。此外,數據出版也是促進科學數據開放共享的重要手段,主要參考學術論文的出版方式,規范地描述科學數據本身,并接受嚴格的同行評審,遵從學術出版規范。比如,國內一流綜合期刊可率先嘗試要求在論文投稿時,同步提交論文相關數據,并且優先選擇國內數據中心作為數據倉儲。

“數據計量和規范化數據引用方面,還缺乏統一的規范,影響了對科學數據貢獻者的激勵和科學數據的開放?!崩钚卤硎?,加強數據引用,科學論文應按照標準的數據引用格式,引用支持論文成果的關鍵數據集;同時,加強數據引用計量,體現數據作者的知識產權和貢獻,激勵數據共享。

“只有通過對數據貢獻者進行適當的評估、肯定和鼓勵,數據共享才能成為一項自愿的機制,當大家都愿意共享時,一種良好的氛圍也就形成了?!崩钚抡f。

開放的“FAIR”原則

在數據開放中,不少科研人員有著“開放數據可能會給自己的科研工作帶來風險”的顧慮,也一定程度上影響了他們自下而上開放科學數據的意愿。

一方面希望應該開放的數據“不設任何邊界的”開放,而另一方面需要保密的數據又要“非常保守”的保密,這對矛盾體依然是擺在數據開放共享面前的問題。

李新說,科學數據已經從“全面開放”原則過渡到目前普遍遵循的“FAIR”原則,即可發現性、可獲取、可互操作、可重用。我國2018年頒布的《科學數據管理辦法》“照開放為常態、不開放為例外的原則”的要求,也為這個矛盾的解決提供了一個“指引”。

不過,政策上還需更細化,李新表示,為了最大程度地實踐數據共享,對敏感數據有清晰的定義及制定具體的共享限制政策顯得尤為重要,比如那些涉及到國家安全、商業機密和個人隱私的數據當然可以保密,而其他數據應該充分開放共享。開放科學的知識產權協議,如知識共享協議,可作為一種通用協議被引入科學數據共享。

數據中心采取行動試圖打消科研人員的顧慮,保護數據貢獻者的知識產權。保留數據貢獻者的版權,授權他人在協議限定范圍內的轉載、使用和二次演繹等;兼顧數據作者對特殊數據保護的訴求,比如可以設置不超過兩年的數據保護期,或根據數據作者對數據共享需要附加額外條件的要求,設置數據申請審批流程等。

“數據中心不定期地就會進行安全自查,有可能涉密的數據就進行下線處理?!崩钚抡f。

數據中心不斷開發新技術實踐“FAIR”原則,采用國際標準提供數據引用方式和數據關聯文獻引用方式,支持數據出版,開發在線大數據分析、模型應用等功能。

在數據集描述頁面添加相關元數據信息,使得數據中心的數據能夠在谷歌數據搜索引擎中被查詢到;盡量采用地學數據領域廣泛認可的標準和規范來減少互操作性障礙;免登陸下載,降低數據下載門檻,開發中英文雙語數據管理與共享平臺,由專業編輯和公司“雙重把關”英文數據質量......

這些,都促進了青藏高原及其周邊相關科學數據的開放共享。

今年1月底,李新在總結會上公布,目前已收集并發布青藏高原及周邊地區的科學數據集4600多個,累計頁面訪問量超過1.5億,月均下載量達50TB,為青藏高原區域科技創新發展和地球系統科學研究提供了重要的數據支持。國家青藏高原科學數據中心也成為國內首個通過Nature數據期刊Scientific Data認證的數據倉儲中心,大大提高了數據中心的影響力和權威性。

李新對于數據中心有著更“開放”的愿景:通過整合來自大數據和機器學習的技術,數據中心可以將大數據轉化為信息和知識,更為有效地為數據用戶服務,研發更多青藏高原及周邊的高質量再分析數據產品;此外,建立一個平臺,使用者無需下載便可在線使用數據集,就像“谷歌地球引擎”一樣,使得數據檢索更容易,數據訪問更為廣泛等。

“要實現數據共享的范式轉變,仍需要政府、研究人員和數據中心的積極努力。數據和數據貢獻者越受到激勵,就越有利于科學和社會的發展?!崩钚抡f,他充滿期待。


文章分類: 科學視點
分享到:

微信圖片_20220224033859.jpg

  官方微信