遗传分析走向大众,计算生物学家为分析解释遗传测序数据开发平台

遗传分析走向大众,计算生物学家为分析解释遗传测序数据开发平台

我们可以在现场获得可操作信息,从而让我们很快地就如何向前推进做出决策。

对于设法治疗无明显致病原因患者的医生来说,基因测序技术可能会为他们指点迷津。但大量的信息也会使其很难快速找到答案。

两三年前,位于秘鲁利马的美国海军医学研究六所(NAMRU-6)的医生必须将其测序数据送往美国分析,这一过程可能会花费数周,对于需要做出紧急决策的治疗来说时间过长。“如果你可以做的全部是获得数据后将其运往美国,它几乎是无用的。”领导该中心遗传和病原体发现研究所的Mariana Leguia说。

但现在Leguia不再需要等待分析结果,她可以在几天甚至几小时内得到结果,而且她在自己的实验室内就可以这样做。她的研究所会利用授权基因组学专业技术的发展(EDGE,一种隐藏了常见微生物基因组任务的生物信息工具,如序列组装和物种鉴定),让用户生成高质量的分析结果。“我们可以在现场获得可操作信息,从而让我们很快地就如何向前推进做出决策。”Leguia说。

EDGE并非用单击界面简化信息学的首个工具。实际上,它缺乏已经建立的选择如Galaxy和亿明达的BaseSpace平台的灵活性和视野。但它的简单性正在吸引那些可能回避生物信息学的用户。“曾用过(EDGE)的人永远不会再因为学习命令行工具而烦恼。”佐治亚州亚特兰大美国疾控中心将EDGE用于病毒病原体研究的Clinton Paden说。正因如此,它代表了民主化基因组信息学的一个案例——这一案例有助纯生物学家加速对这一领域的吸收。

领域内的信息学

美国新墨西哥州洛斯阿拉莫斯国家实验室(LANL)带领研发该软件的Patrick Chain说,创建EDGE是为了设法让迅速增长的低成本DNA序列的可获得性与让数据合理化相对缺乏的专门技能相一致。位于马里兰州的美国海军医学研究中心生物防御研究理事会(BDRD)计算生物学家Joe Anderson说,它的设计目的是用于缺乏生物信息学领域技能的设备。

它还具备开源和独立性,只要一次点击就可从原始序列读取到物种鉴定和种系发展,为微生物遗传学提供端到端的分析。Anderson说,这一系统运行价格也相对低廉,因为建议的硬件配置(256千兆字节的内存和64个处理器)的购买价格低于1万美元。这意味着能够承担得起开展序列项目的大多数实验室都能支付得起该硬件。“这并非扔钱,它足够便宜。”Anderson说。该设施不会依赖互联网连接而能够通过发电机驱动也有裨益。

拥有可靠互联网连接的用户能够将该系统装备到云网络。英国伯明翰大学生物信息学家Nicholas Loman指出他帮助研发的微生物生物信息学云基础设施(CLIMB)就是如此。CLIMB是一种专门致力于英国微生物基因组研究学者的免费服务。

CLIMB受到英国医学研究理事会840万英镑的支持,并融合了若干信息学工具,包括测序数据库和一种叫做基因组学虚拟实验室的分析工作台。“我的确在考虑将EDGE作为一种可能性的选择。”Loman说。

总体而言,BDRD 基因组学和生物信息学负责人Theron Hamilton说,EDGE可正式安装在美国国防部以及与其合作的18个国家实验室中,可被用于南极洲之外的任何大陆。

其中之一是位于柬埔寨金边的NAMRU-2设施,它利用该系统跟踪昆虫传播的疾病。“这并非传统上你去做生物信息学研究的地方。”Anderson说。但EDGE正在改变这一局面。“我意识到的一件事是,如果你给研究人员工具,不加干涉,他们会让你惊奇。”Anderson说。

简易性通道

最新的1.5版本EDGE于2016年10月发布,包含54个第三方工具。所有的构建包括算式、数据库、虚拟工具和参考基因组,均覆盖在一个可驱动6个相互连接的分析模块的服务器上:序列清理、组装和注释、与参照基因组对比、分类鉴定、进化分析以及PCR引物设计。Chain说,包括RNA分析和病原体鉴定在内的其他模块将被添加到即将到来的EDGE2.0版本中。

去年11月,Chain和同事在一项研究中验证了EDGE的能力,他们利用该平台组装、分类和绘制了炭疽杆菌和鼠疫杆菌的进化关系;厘清了一个模拟人类的微生物组;分析了一系列人体临床样本,包括埃博拉病毒和大肠杆菌感染案例。不过利用该系统的首篇研究论文实际上比这早几个月。Leguia的实验室曾利用EDGE优化了登革热病毒全基因组测序方法,该研究成果去年6月发表。

用户可利用位于LANL服务器上的一个免费演示样本探索这些以及其他数据。希望分析自己序列的研究人员必须在他们的系统中安装这一软件。Chain说,该代码可从GitHub上免费下载,Docker集合以及虚拟机影像也可以获得,但可能需要一名信息技术专家进行安装。人们还可以微调源代码添加其他工具和工作流程,但Chain坦言这超过了很多用户的能力范围。他说,简化这一流程的机制正在开发过程中。

拥有计算机科学背景的Paden说,该工具的简易性使得计算生物学更容易被研究人员接近,通常研究人员很容易被生物信息学研究的常规工具吓到。

Chain说,该团队让EDGE部分开放获取是因为担心未来的资助,这也会影响未来的发展计划。“可持续性是我们需要考虑的一个问题。”Chain说,“这正是为什么我们在尝试让第三方实施者更容易使其项目即插即用,就像使用Docker那样。”

大量的工具

EDGE并非首个提供用户友好型界面的生物信息学系统。Galaxy最初于2005年发布,它让研究人员可以组装基于网络界面的大量灵活且免费的软件工具箱。用户可通过不同方式将这些工具结合以解决他们想到的任何问题。

但Galaxy可能会吓退用户。不像EDGE生成的图解表示法,如系统树或是分层饼图,Galaxy的产出通常会表现为处理数据文档的形式,用户需要在别的地方将其视觉化。

“Galaxy更像一个没有餐厅的厨房。”宾夕法尼亚州费城儿童医院生物医学和健康信息学部软件研发专家Jeremy Leipzig说。“该系统并不能真正以一种吸引人的方式传递输出。”他说,“利用EDGE,他们可以真正地考虑报告看起来像什么。”

澳大利亚阿德莱德大学生物信息学家Nathan Watson-Haigh说,EDGE有助缓解超负荷工作的生物信息学家的压力。但他警示EDGE依然是一种复杂的生物信息工具,在计算机方面有经验的生物学家在过分确信其结果之前咨询一位专家更加明智。

加州大学圣迭戈分校计算生物学和生物信息学中心代理主任Kathleen Fisch补充说,正如用任何工具一样,他们需要了解该算式在做什么,不同的参数如何影响输出。“你能运行该工具并不意味着你应该运行该工具。”他说。

随着生物信息学工具变得比以往更加容易上手,信息学可能会摘掉其复杂性的名头。对于生物学家来说,这将会导致更广泛的采用和民主化。

来源:中国科学报/晋楠编译

该文章由WP-AutoPost插件自动采集发布

原文地址:http://www.seq.cn/1104.html