ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

A Fast Approximate Algorithm for Mapping Long Reads to Large Reference Databases

2020-09-30 21:33:54  阅读:257  来源: 互联网

标签:Algorithm 映射 mapping Approximate Nanopore MinHash PacBio Reference 读取


A Fast Approximate Algorithm for Mapping Long Reads to Large Reference Databases

  • Chirag Jain
  • Alexander Dilthey
  • Sergey Koren
  • Srinivas Aluru
  • Adam M. PhillippyEmail author
  1. 1.
  2. 2.
Conference paper First Online: 12 April 2017 Part of the Lecture Notes in Computer Science book series (LNCS, volume 10229)

Abstract

Emerging single-molecule sequencing technologies from Pacific Biosciences and Oxford Nanopore have revived interest in long read mapping algorithms. Alignment-based seed-and-extend methods demonstrate good accuracy, but face limited scalability, while faster alignment-free methods typically trade decreased precision for efficiency. In this paper, we combine a fast approximate read mapping algorithm based on minimizers with a novel MinHash identity estimation technique to achieve both scalability and precision. In contrast to prior methods, we develop a mathematical framework that defines the types of mapping targets we uncover, establish probabilistic estimates of p-value and sensitivity, and demonstrate tolerance for alignment error rates up to 20%. With this framework, our algorithm automatically adapts to different minimum length and identity requirements and provides both positional and identity estimates for each mapping reported. For mapping human PacBio reads to the hg38 reference, our method is 290x faster than BWA-MEM with a lower memory footprint and recall rate of 96%. We further demonstrate the scalability of our method by mapping noisy PacBio reads (each ≥5≥5 kbp in length) to the complete NCBI RefSeq database containing 838 Gbp of sequence and >60,000>60,000 genomes.

Keywords

Long read mapping Jaccard MinHash Winnowing Minimizers Sketching Nanopore PacBio 

The rights of this work are transferred to the extent transferable according to title 17 §§ 105 U.S.C.

一种将长读取映射到大型引用数据库的快速近似算法
作者
作者和联系
邮件作者:sergey KorenSrinivas AluruAdam M. phillippy
1.
2.
会议论文
第一在线:2017年4月12日
11
引用
17
提到
2.6 k
下载
计算机科学系列丛书(LNCS, 10229卷)的部分讲义
摘要
来自太平洋生物科学公司(Pacific Biosciences)和牛津纳米孔公司(Oxford Nanopore)的新兴单分子测序技术重新激发了人们对长时间测序算法的兴趣。
基于对齐的种子和扩展方法展示了良好的准确性,但面临有限的可伸缩性,而更快的无对齐方法通常以降低的精度换取效率。
在本文中,我们将一种基于极小化器的快速近似读取映射算法与一种新的MinHash身份估计技术相结合,以实现可扩展性和精度。
与之前的方法相比,我们开发了一个数学框架来定义我们所发现的映射目标的类型,建立p值和灵敏度的概率估计,并展示了对齐错误率高达20%的容忍度。
有了这个框架,我们的算法自动适应不同的最小长度和身份要求,并为每个报告的映射提供位置和身份估计。
对于将人类PacBio读取映射到hg38引用,我们的方法比BWA-MEM快290x,内存占用更少,召回率为96%。
通过将有噪声的PacBio读取(每个长度≥5 kbp)映射到包含838 Gbp序列和60000个基因组的完整NCBI RefSeq数据库,我们进一步证明了我们方法的可扩展性。

关键字
长读绘图Jaccard MinHash筛选最小化草图纳米孔PacBio
根据《美国法典》第17章第105节,本著作的权利在可转让的范围内转让

标签:Algorithm,映射,mapping,Approximate,Nanopore,MinHash,PacBio,Reference,读取
来源: https://www.cnblogs.com/wangprince2017/p/13756542.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有