國際矚目
早在1980年,著名未來學家托夫勒在《第三次浪潮》一書中,將大數據(Big Data)熱情地讚頌為「第三次浪潮的華彩樂章」。不過大約從2009年開始,「大數據」才成為網際網路信息技術行業的流行詞彙。目前,大數據成為繼雲計算、物聯網之後IT行業又一大顛覆性的技術革命。近年來,大數據的概念在頂級科學雜誌上頻頻出現。概括來看,大數據包括三層含義(3V):數據量大(volume of data),處理數據的速度快(velocity of processing the data),數據源多變(variability of data sources)。大數據,又稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。各類海量資料的整合分析,能夠幫助評估現狀,預測趨勢。專家認為,海量數據的劇增,勢必讓量變引起質變,大數據帶來了全新的研究思維和方式。將網路化的大數據作為分析對象,接受數據的多樣性和不精確,更強調相關性而非因果性,更強調深度分析和間接分析,這些特點使大數據具備了作為一種新的科研範式的基本特徵。大數據被認為是改變行業的關鍵節點。世界正在由資本經濟時代向數據經濟時代過渡,數據及其服務成為國家戰略和經濟的基礎設施。
大數據科學與產業具有較強的領域相關性,生物大數據已經成為歐美國家重要的發展戰略,也是美國國家大數據計畫的重要組成部分。2009年,美國出臺HITECH法案,將醫療衛生信息化列為重點發展方向,十年內累計投入2760億美元。2012年3月,美國歐巴馬政府宣布推出「大數據的研究和發展計畫」,將大數據提升到了國家戰略層面,承諾將投資兩億多美元。2014年,美國政府就如何充分利用生物醫學大數據,又啟動了Big Data to Knowledge計畫。美國國立衛生研究院(NIH)近日宣布投資3200萬美元推動研究人員開發分析和使用生物學大資料庫的方法。該獎項出自NIH去年啟動的大數據知識(BD2K)創新計畫。NIH院長Francis Collins表示,這些獎金將資助開發計算工具、軟體、標準和方法,用於分享和使用大數據集。OpenFDA(開放FDA)計畫就是FDA使其擁有的大量數據讓軟體開發者、科學工作者能夠更方便地利用所做出的最新努力。此次FDA對公眾開放其數據是基於美國總統的行政命令和美國衛生部的數據開放計畫。2014年2月,中國生物技術發展中心發布《國家高技術研究發展計畫(863計畫)生物和醫藥技術領域2015年度項目申報指南》,其中大數據、生物質、單細胞測序等成為重點關注的方向。
對於生物醫學來說,其發展過程中積澱的數據資源,是大數據時代的基礎之一。特別是高通量測序技術的快速發展,使生命科學研究獲得了前所未有的數據生產能力。上世紀90年代,科學家花費10年時間、近30億美元獲得了第一個人類基因組圖譜;而今天,完成一個個人基因組測序不到一天時間,費用低於1000美元。自人類基因組計畫完成以來,以美國為代表,世界主要發達國家紛紛啟動了生命科學基礎研究計畫,如國際千人基因組計畫、DNA百科全書計畫、英國十萬人基因組計畫等。這些計畫引領生物數據呈爆炸式增長,目前每年全球產生的生物數據總量已達EB級,生命科學領域正在爆發一次數據革命,生命科學某種程度上已經成為大數據科學。隨著測序技術在醫療、健康、醫藥、環境、能源等相關領域的廣泛應用,人類將面臨生物數據的海洋,其將成為這些領域創新的源泉,對這些數據創新性的管理和應用,將為生命科學及相關產業領域帶來一次新的革命。
美國喬治華盛頓大學的計算生物學研究所主任Keith Crandall表示,儘管生物學家花費大量精力收集數據,實際上,現在生物學面臨的瓶頸在於大數據。在有效利用生物醫學大數據方面,首要的挑戰就是要確定衛生保健信息的潛在來源是什麼,以及確定將這些數據連接起來之後所帶來的價值如何。將數據集按照「大小」從不同的方面進行條理化,這個大數據就會提供解決問題的潛在方案。一些大數據,如電子健康記錄(EHRs),提供詳盡資料,包括病人接受診斷時的多種資料(如:圖片、診斷記錄等)。儘管如此,其他大數據,如保險理賠數據,提供縱深資料——顧及病人在很長一段時間裏、在某個狹窄的疾病類型範圍內所經歷的病史。當連接數據有助於填補空白的時候,這些大數據才會增加價值。只有記住這些,才能更容易明白如何將衛生保健系統之外非傳統來源的生物醫學數據融入這些情況之中。儘管數據的質量有所不同,但社會媒體、信用卡購物、人口普查記錄以及大量其他類型的數據,都會有助於收集一個病人的歷史資料,特別是有助於揭示可能對健康產生影響的社會因素和環境因素。
商機勃勃
專家認為,大數據正在深刻影響生物醫學。按照麥肯錫報告的預測,中國醫療領域利用大數據每年將節省醫療費用近2000億元。根據美國BCC research公司研究顯示,僅就與高通量測序相關的組學大數據而言,至2018年,其市場總額將增長至76億美元,複合年增長率達到71%。麥肯錫全球研究院報告,如果美國醫療保健行業對大數據進行有效利用,就能把成本降低8%左右,從而每年創造出超過3000億美元的產值。BCC報告指出:「至2018年,生物大數據的市場總額將增長至76億美元,年複合增長率達到71.6%。」對大數據的挖掘和分析是應用的焦點,資本力量也開始了新一輪布局。行業專家人士透露,2014年以來,網際網路醫療健康主要並購投資對象集中在網際網路、移動設備、感測器、大數據上,未來資本對大數據的爭奪戰將甚囂塵上。據統計,近兩年來,各類資本對醫療產業領域的投資開始有意識地「擁抱」網際網路基因,對軟硬體結合的投資佔網際網路醫療總投資的38%,對移動醫療的投資佔19%,最終目標還是健康大數據終端的佔領。
在商業領域,生物大數據的應用市場如雨後春筍,目前,一些公司已開始提供生物大數據服務。例如,谷歌投資DNANexus公司,提供生物大數據管理和分析服務,並於2011年接管NCBI數據;早在2006年,23AndMe公司就開始提供個人基因組數據分析服務;英國衛生部於2013年專門建立了Gel公司,管理和分析英國十萬人基因組計畫產生的基因組數據;亞馬遜通過其雲平臺託管國際千人基因組計畫龐大資料庫,並免費開放;微軟也啟動了microsoft biology initiative項目,進軍生物醫學大數據領域。IBM曾聯合約翰霍普金斯大學和加州大學打造了一款名為Spatio Temporal Epidemiological Modeler (STEM)來試圖解決這一問題。最近IBM宣布將在原有版本的基礎上升級STEM以適應新的需要。STEM能夠整合來自不同來源的數據和病理模型供研究者或者醫生使用。
典型案例就是同斯坦福大學的潘德實驗室(Pande Lab)合作的谷歌研究(Google Research),它發表了一篇題為「針對藥物研發的大規模多任務網路」的文章。這篇文章主要研究如何使用不同來源的數據,更好地甄別判斷出哪些化合物可以作為「有效治理人類頑疾的藥物」。文章闡明瞭如何利用深度學習來處理巨大繁複的資料庫,並將有效的數據集合起來,篩選出切實有效的藥物成分,從而加快藥物研發。最近谷歌公司又聘請了7位牛津大學學者來幫助其開發DeepMind人工智慧系統。人工智慧領域有四位知名的學者,原本都在學術界的,現在三位已經被企業重金聘走了,這其中包括神經網路先驅Geoffrey Hinton和Andrew Ng。這些學者之所以為企業所看重,是因為將他們的技術應用於產品,確實取得了巨大的成功。一方面是數據的爆髮式增長,一方面是機器資源和數據處理能力的提高,其最終結果是產生了機器學習和數據分析的黃金時代。
技術尖端
專家認為,生物醫學大數據開發與利用,應重點突破生物大數據質量控制、集成融合、索引組織、存儲管理、搜索訪問、數據可視化、分析建模、知識庫構建等關鍵技術。不斷變化的大數據使建模模擬需要面對和處理的問題越來越多。一是對模擬基本理論。模擬範式是基於模型的, 以還原論和因果關係為基礎,對目標、邊界、實體、屬性、狀態、約束等進行了預定義,因此難以滿足處理來自網際網路的人類社會活動大數據的需求,難以解決無組織的大世界問題。二是對建模方法。大數據提供了利用「數據模型」的新途徑,可以通過建立起認識問題的「數據模型」, 解決因複雜度高、計算量大、難以建立可行模型的複雜問題,並催生出新類型的模型。三是在模擬工程與科學方面,需要發展模擬範式, 實現密集計算與密集數據的集成, 以實現無組織的複雜的系統的因果規律的發現。為適應生物醫學大數據的發展,應在生物醫學領域加強計算機科學、資料庫專業人員的培養,加強流行病學、統計分析、信息學人員、標本庫管理人員的培養。數據科學是一個多學科融合的交叉學科;數據科學是以數據為研究對象,以資訊理論、統計學、數據理論、數學分析等理論為研究手段,以獲取海量數據中蘊含的知識為目標的一門學科,從事大數據研究勢必應該是複合型人才。
Marc Bloch在他的名著《the historian's craft》裡把歷史研究分為三個步驟:(1)歷史的考證,(2)歷史的分析,(3)歷史的因果。對應數據分析就是(1)數據的考證data validation,(2)數據的分析data analysis,(3)數據的因果data evaluation。其中最後一步是大老闆們幹的事情,就是基於分析結果給出主觀的價值判斷以及下一步決策。這一步其實在大數據時代幾乎沒有變化,大老闆們的信息來源依舊是幾張圖表。很多人覺得大數據時代最大的變化是在data analysis這步:以前可以用R,現在必須用Mapreduce,以前可以用sql,現在必須用NoSql,等等。但是如果有完善的infrastructure,寫Mapreduce code並不比寫R code(或者python)複雜多少。其實最大的變化是第一步:現在所有的數據採集都是server自動完成log,裡面有大量無意義不可懂的東西,以及各種spam。不把這些做清理,第二步data analysis的結果就根本不可靠。而要做好data validation,你不但要對log的設計,同時client side和server side的方方面面都比較瞭解才能做好。數據科學家(Data Scientist)應該至少能夠自己獨立做出一個產品的原型,最少要會的語言是:Python/R,SQL,Java/C++,Javascript,Bash。
從技術角度來說,整個數據分析流程要用的軟體平臺主要包括以下四大方面:1。Data architecture:Hadoop,HBase/Cassandra,Pig,現在流行的是Hadoop 2.0,Impala,Shark/Spark,Druid,Storm;2。Data base:MySQL, Postgresql ,現在流行的是NoSQL;3。Data analyzing:machine learning, data mining,現在流行的是deep learning;4. Data visualization: web frameworks and front-end show-offs,現在流行的是MEAN (Node, Angular), vert x,Go,SPA。一般有兩套工作流程,python的scipy和java的hadoop。用python直接上scipy和numpy,雖然運行很慢,但是寫起來來快,適合快速建模;用hadoop直接上java,java的優點是可以大量重用代碼,以造可復用的輪子為主要目的,測試無問題後下放生產。目前很多企業目前的大數據框架是,一方面以Hadoop2.0之上的Hive、Pig框架處理底層的數據加工和處理,把按照業務邏輯處理完的數據直接送入到應用資料庫中;另一方面以Storm流處理引擎處理實時的數據,根據業務營銷的規則觸發相應的營銷場景。同時,用基於Spark處理技術集群滿足對於實時數據加工、挖掘的需求。可見,大數據目前的技術和應用都是在數據分析、數據倉庫等方面,主要針對OLAP(Online Analytical System),還沒有進入真正的交易系統OLTP(Online Transaction system)。
隱私保護
大數據時代最重要的挑戰,是對用戶隱私的挑戰。大數據中心的可靠性和隱私保護是其中的關鍵。數據中心崩潰的風險,可以通過在不同地域、不同條件下進行生物大數據存儲,再進行協同整合來解決。但在生物大數據的分析應用中,需要收集一切已知的生物信息,這與隱私保護存在衝突。牛津大學曼斯菲爾德學院研究員、英國皇家工程院研究員David Clifton表示,當前許多科學家無法從國際上的大型資料庫獲得關鍵科研數據,主要是基於隱私原則,尤其是涉及病人信息的關鍵數據,限制更為嚴格。「科學家的使命,是在保證醫療技術發展的同時,也能保證人們的隱私權利。」 據David Clifton介紹,其所在的牛津大學開展相關健康研究項目時,會將信息存放在資料庫中,並有強大的防火牆以保證數據的安全。同時,要經過醫院許可才能開展研究項目,醫院給予許可時也要求科研人員不能分享病人的數據信息。「因為不能分享數據,所有數據要自己蒐集,所以醫療科學研究成本很高。但是,這是科學研究中不可避免的,只有病人充分信賴我們,我們才能更好地發展技術。」David Clifton說。