南开大学研究生最新成果 提速数据处理40倍-国内聚焦-资讯-生物在线

南开大学研究生最新成果 提速数据处理40倍

作者:上海研吉生物科技有限公司 2011-04-20T00:00 (访问量:2663)

来自南开大学生命科学学院,信息技术学院,澳大利亚莫纳什大学的研究人员采用最新的GPU加速技术,优化了生物种系发生学领域最流行的软件工具MrBayes,得到了最高40多倍的加速效果。 这一研究成果公布在《Bioinformatics》杂志上。

文章的通讯作者是南开大学信息技术科学学院副教授刘晓光,第一作者是2009级硕士研究生周剑夫,这一论文选题来自南开大学信息技术科学学院刘晓光、王刚课题组和该校生命科学学院卜文俊、谢强课题组的合作项目。

近年来,随着生命科学的不断发展,人类可获得的基因数据已呈爆炸性增长,与此同时,如何分析和处理基因数据成为一项新的挑战。这篇题为“MrBayes on a Graphics Processing Unit”(基于图形处理器的MrBayes软件实现)的研究成果,历经了3年的研究,为种系发生学领域更大规模的数据处理提供了一种新的方法,取得了理想的效果。

《Bioinformatics》杂志是生物信息学领域的顶级学术期刊,2008年影响因子为4.328的SCI一区刊物,这项研究采用最新的GPU加速技术,优化了生物种系发生学领域最流行的软件工具MrBayes,得到了最高40多倍的加速效果,为生物学研究数据处理提供了重要资料。

另外来自中科院的研究小组也解析了如何分析和挖掘Genbank中的mtDNA数据,他们分析了GenBank数据库中一些问题较多的数据集,指出Pereira等人不加选择地利用数据库中的数据进行分析存在的多种问题。研究人员就GenBank数据库中问题较多的mtDNA全基因组数据开出了一个长长的名录,便于后续研究者在分析时剔除这些序列。同时,他们对研究者如何提高数据质量提出了若干建议,如向数据库提交序列之前,研究者应该对数据进行仔细的检查和精确的核对,避免错误出现。对存入数据库中的序列,如果发现错误,应该及时更正并更新。

原文摘要:

MrBayes on a Graphics Processing Unit

Motivation: Bayesian phylogenetic inference can be used to propose a ‘tree of life’ for a collection of species whose DNA sequences are known. While there are many packages available that implement Bayesian phylogenetic inference, such as the popular MrBayes, running these programs poses significant computational challenges. Parallelized versions of the Metropolis coupled Markov chain Monte Carlo (MC3) algorithm in MrBayes have been presented that can run on various platforms, such as a graphics processing unit (GPU). The GPU has been used as a cost-effective means for computational research in many fields. However, until now, some limitations have prevented the GPU from being used to run MrBayes MC3 effectively.

Results: We give an appraisal of the possibility of realistically implementing MrBayes MC3 in parallel on an ordinary four-core desktop computer with a GPU. An earlier proposed algorithm for running MrBayes MC3 in parallel on a GPU has some significant drawbacks (e.g. too much CPU–GPU communication) which we resolve. We implement these improvements on the NVIDIA GeForce GTX 480 as most other GPUs are unsuitable for running MrBayes MC3 due to a range of reasons, such as having insufficient support for double precision floating-point arithmetic. Experiments indicate that run-time can be decreased by a factor of up to 5.4 by adding a single GPU (versus state-of-the-art multicore parallel algorithms). We can also achieve a speedup (versus serial MrBayes MC3) of more than 40 on a sufficiently large dataset using two GPUs.

来源:生物通

上海研吉生物科技有限公司 商家主页

地 址: 上海市杨浦区民京路658弄

联系人: 陈小姐

电 话: 15821625591

传 真:

Email:muzhou88@aliyun.com

相关咨询
ADVERTISEMENT