国家基因库使用中国技术构建全球最大生物信息数据中心

作者:    类型:原创 2016年10月17日 08:39

9月22日,位于深圳大鹏新区的中国首个、全球第四个国家级基因库正式投入运营。国家基因库是全世界最大的综合性基因库,1期建成后,综合能力世界第一。

这里既有保存动植物、微生物和人类组织细胞等样本的“湿库”,也有汇集各种生物信息的“干库”——数据中心。为了确保“干库”具备优良的数据吞吐能力和足够安全可靠,国家基因库运营方华大基因同阿里云达成战略合作,基于阿里云飞天操作系统构建了基因检测大数据分析平台,解决了生物大数据高性能计算难题。

国家基因库执行主任、华大基因研究院院长徐讯介绍说:“我们希望打造中国乃至世界最大的生物信息数据中心,像是生命健康数据领域的谷歌。”记者在现场看到,基因库内摆放的多台基因测序仪正不停的运转。它们每天都产生着大量的基因数据,这些数据被传输到数据中心,并面向全球的科研机构和企业开放。

据了解,国家基因库已实现对基因信息数据总量达20PB的访问支持。20PB是什么概念?以一部电影500MB计算,20PB(1TB=1024GB,1PB=1024TB)相当于4千万部电影,一个人一天看一部电影需要10万年才能看完。

国家基因库是真正的‘国库’,比银行的金库还要宝贵。因此,技术是否自主可控、是否足够安全,也成为运营方衡量的标准。阿里云的飞天系统,由阿里巴巴的工程师自主研发,能够将成千上万台机器变成一台超级计算机,在存储和计算性能上远超国外技术。同时,具备支付宝、淘宝同量级的安全防御能力。

徐讯说,在农业时代,一个国家拥有的耕地越多优势越大;在工业时代,拥有的石油、矿产等能源越多优势越大;而在生命时代,拥有更多的基因资源同时能对基因资源进行认知和利用,则意味着更大的优势。

在国家基因库建成前,我国每年产出的大量基因数据都存在国际三大数据库——NCBI、EBI、DDBJ中,在基因数据已成为战略资源的现在,国内不能保存我国独特的基因数据,这本身就是一种风险。

阿里云的计算能力还将为科学家解读生命密码提供帮助。徐讯说,“我们每个人大约有3个GB的基因组大小,但是我们真正能读得懂的区域只有1%的区域,99%的区域我们是不理解的。”

基因库的建立将推动基因的进一步解读和利用。“怎么样能理解更多呢?就像我们做人工智能研究一样,机器要想学会下棋就需要看上万部的棋谱。这个也是一样的,要看懂人类基因组上的未知区域就必须依赖更多的数据,增加10%的理解至少需要一百万到一千万新增人的数据。所以,只有大量提供数据才能产生出新的理解,而产生出新的理解之后测序的价值就会更大。”