孤寂如雲 發表於 2013-10-21 20:00:00

美國政府停擺打擊中國生命科學研究

10月,美國政府關門兩周,醫藥學及生命科學從業者依賴度甚高的NCBI(美國國立生物技術信息中心)網站,也隨著美國聯邦政府停擺而暫停更新數據,這對嚴重依賴國外數據資源的中國生命科學研究產生極大的影響。而建立中國自己的生物信息中心,成了中國迫切需要解決的問題。作為世界上產生數據數量最大的國家,中國不得不把自己的數據送往國外的數據庫,針對這一現狀,太倉生命信息研究所執行所長朱偉民教授也通過訪談提出了自己的見解。

NCBI是由美國參議員Claude Pepper於上世紀80年代後期發起成立。30多年來,它負責收集、存儲、註釋關於分子生物學、生物化學、遺傳學等方面的數據信息,通過開發大量的軟件和數據庫為國際生命科學的研究提供數據的搜索、瀏覽、分析和下載服務。這些服務已成為國際生命科學研究重要的生物信息學基礎。

美國NCBI是世界三大生物信息學中心之一(圖片來源:觀察者)

NCBI暫停更新對中國研究者的影響更甚,由於中國尚未有自主的國家級生物信息學中心(簡稱:國家中心),中國生命科學研究人員高度依賴NCBI的服務。如果因為政治、經費或其他原因,這些生物信息資源對中國研究者真正關閉,必將會對中國生命科學的研究產生極大的影響。“雖然此次NCBI服務有限停擺對中國科學研究總體影響有限,但是確實已經減緩了有些重要項目的進度。”中國醫學科學院生物醫學大數據研究中心主任、太倉生命信息研究所常務副所長朱偉民教授告訴我們說。“更重要的是,這次停擺給我們敲了一個警鐘:我們所依賴的國外資源並不是沒有被中斷的可能”。中國在沒有自主的數據積累,與管理、服務經驗的情況下,“斷奶“的後果將是無法想象的”。

隨著高通量技術的發展,生命科學、生物醫藥的研究已經全面進入了大數據時代,生物信息學已成為破譯大數據必不可少的工具。現今,中國仍然沒有自己的生物信息中心,許多生物數據處於“出口轉內銷”的模式,科研數據不得不提交到國外數據庫,需要數據時又不得不從國外數據庫下載。然而,由於網絡的瓶頸,這些大數據的下載給科研人員帶來了諸多煩惱。作為一個數據產生大國,中國仍然被看作為是國際公共生物數據的免費用戶,她對國際生物信息資源的共享的貢獻沒有得到充分的肯定。這導致中國在國際生物信息資源上幾無話語權,並造成各種負面影響的情況。要改變這種狀況,國家中心的建立已迫在眉睫。

國內科研精英意識到國家中心的重要性與迫切性,為它的建設作出了近十年的努力。最近,強伯勤、趙國屏、陳潤生等9位院士向中國科學院院士局建議立項,對成立國家生物信息學中心做一個全面的調研。此調研項目有12個國內優勢單位參加,涵蓋生命科學、生物醫藥、計算科學、生物信息等領域。項目調研工作已經全面展開,預計在2013年底或2014年初寫出國家生物信息學中心建設的建議書,遞交給國家作為決策的依據。


bioso!國內首個生命科學領域的跨數據級搜索引擎誕生

作為積極參與此調研項目的單位之一,太倉生命信息研究所(TILSI)在過去的兩年裏,開展了國際重要數據資源的“本地化”工作,並建設大數據整合平台,為中國科學家提供了“本地化”的生物醫學數據服務,為建設國家中心,積累了寶貴的經驗。目前它的大數據整合平台已整合11個數據庫,涵蓋6種數據類型——基因組、核酸、蛋白質、結構、分子間相互作用以及疾病。由於平台數據庫,除Refseq參考序列數據庫以外,主要來源於另外一個國際生物數據中心歐洲生物信息研究所(EBI),因此NCBI暫停數據更新對TILSI的平台服務影響較小。

國內首個生命科學領域的跨數據級搜索引擎bioso!(圖片來源:觀察者)

為了幫助用戶在海量的生物醫學大數據找到有用的數據,TILSI還自主開發了國內首個生命科學領域的跨數據級搜索引擎bioso!。作為大數據整合平台的入口,bioso!為用戶提供了友好的跨數據庫的“一站式”檢索與“百科全書”式的展示。百科全書分為五個章節,已對外開放三個章節-基因與基因組、基因型與表現型,相互作用與網絡;剩余兩個章節處於準備階段。

“我們的現有工作還仍然局限於對國外公共資源的搜集與整合,這僅僅是我們的前期工作”,太倉生命信息研究所執行所長朱偉民教授向我們介紹說,“我們下一步的工作重點是在繼續豐富公共數據積累,並建設中國特色數據庫的同時,推進加入國際重要數據庫聯盟進程,使得我們‘本地’數據庫接受數據提交,成為具有真正涵義的中國‘自主’數據庫。只有這樣,才會結束我們對國外數據資源嚴重依賴的中斷誠惶誠恐的狀況。”朱偉民教授接著解釋:“我這裏所說的‘我們’是廣義的,是指所有為中國生物信息學事業呼籲與奮鬥了多年的前輩,各優勢單位與科學家。”他最後呼籲:“國家中心的成立是‘我們’得以緊密合作、加速進程,完成使命的根更本保障。”


“中國不得不把數據送到中國以外的數據庫中”

生物探索:朱教授,我們了解您在國外從事生物信息學的工作,那國際上生物信息學中心的現狀是?面臨哪些挑戰?

朱偉民:國際上三大生物信息學中心為:美國NCBI、英國EBI、日本DDBJ。其中DDBJ規模小,涵蓋的數據類型少。這三個組織互相共享和交換數據,但也面臨諸多無法解決的問題。第一是海量的數據管理問題。生物界的數據量呈指數級增長,隨著科學發展,如今日趨龐大。另外,數據類型日趨復雜。如何管理這些大量的復雜的數據,是生物信息學中心面對的一個巨大挑戰。例如我現在有海量的基因組數據,我如何管理?原始數據數量龐大,我不能全部保持,那麼我應該保持哪些最低限度的數據?這些都是難題。第二是數據整合問題。第三是數據挖掘問題。第四是數據可視化問題。數據類型很復雜,要將它們很直觀地呈現給用戶,很困難。第五是用戶的使用經驗問題,除此之外還存在著網絡上的問題。

2011年,朱偉民在太倉生物信息研究所揭幕時發言(圖片來源:觀察者)

生物探索:中國生物信息學中心的現狀如何,為何會選擇回國建立TILSI這樣的生物信息中心平台?

朱偉民:中國已經成為或者在某一些數據類型上即將成為世界上產生數據數量最大的國家。四年前我在華盛頓開會,在會上獲知,NCBI獲取數據量最多、數據量最大,其中中國提交的數據量最多,超過了美國。現在中國在核酸這一數據類型上,已經成為世界上數據量最多的國家,其他數據類型的數量也即將成為世界上最多的。但是中國不得不把數據送到中國以外的數據庫中,包括國際三大數據庫。這是國際上制定的標準。此外,中國一定要接受國際上定的標準。

中國面臨的問題是:第一,中國數據送往國際生物信息學中心之後,不能體現其來源。第二,中國數據送過去之後,在包裝、體現、公布方面,中國不能在世界上產生影響。第三,中國科學家對數據的要求,在國際上處於完全隔離、忽略的狀態。究其原因,是因為中國目前沒有生物信息學中心,沒有一個非常強的聲音,能夠代表中國參與國際上標準的制定,參與國際上的活動。如果這種現狀不改變,這種情況將會持續。正因為中國生物界沒有統一的生命信息數據中心,不能為中國科學家提供良好的服務。中國的科學家做實驗或者研究時,只能到NCBI或者EBI拿取數據,但由於網絡網速的限制,此過程並不總是一帆風順。我們不能展示中國的研究對世界的貢獻,更重要的是,中國永遠不可能到世界上參與競爭,盡管中國已輸出大量數據。這是不公平的。簡單一句話總結,中國需要一個生物信息學中心,中國需要一個統一的高質量的世界水平的生命信息數據中心。這個生命信息數據中心,能夠給中國的科學家提供優質的服務,能夠站在世界舞台上,積極地參與國際競爭。TILSI生物信息基礎平台的建設將為建立中國自主的高水平的生物信息中心奠定基礎。

生物探索: 除了建立生物信息中心外,TILSI自主研發了Bioso!搜索引擎,它的亮點有哪些?用戶是免費使用嗎?

朱偉民:Bioso!最大的亮點在於“整合”, 我們的summary page是數據、工具與文獻資源的整合,是針對相關搜索條目的百科全書。它整合了多個數據來源,以分頁的方式來展示被搜索條目多維的生物醫學特性。Bioso!不僅具有高級搜索的功能,在檢索結果頁面還添加了“filter”,方便用戶進行精確查詢。

Bioso!背後的綜合性服務平台整合了數據,工具和文獻資源。此次上線,該平台收集了使用最為廣泛的4種數據類型,6個數據庫——基因組(Ensembl & Ensembl Genomes),核酸(EMBL-Bank & EMBL-CDS),蛋白質(Uniprot & InterPro),相互作用(IntAct);與2個分析工具——Blast & AmiGo。接下來會有更多的生物信息資源逐步整合到該平台,計劃明年年底有幾十個數據庫整合到該平台。生物信息平台的資源完全免費,用戶無需註冊即可使用。

生物探索:像TILSI這樣的生物信息中心建立以及Bioso!搜索引擎的開發,對中國的生命科學領域發展會有哪些促進作用?

朱偉民:TILSI這生物信息中心的建立以及Bioso!搜索引擎的開發,它宣告了中國自主研制的搜索引擎在生命科學領域的誕生,同時也顯示了TILSI服務於科學的承諾與我們對生物信息學平台建設工程化的追求。這是TILSI的第一個重要裏程碑,為實現我們長遠的目標走出了第一步。

對於中國的生命科學領域的發展我覺得有幾個方面的作用:首先,它為生命科學研究提供支持和引導。研究人員可以在海量的數據庫找到想要的東西,並且在搜索的同時有新的發現。其次,它為中國生物信息學資源的獲取,管理,整合以及知識挖掘提供了一個綜合的平台,為支持國家重大科學項目海量數據的分析與註釋提供了一個技術框架。

觀察者
頁: [1]
查看完整版本: 美國政府停擺打擊中國生命科學研究