ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

基于图和基于对齐的混合纠错方法在易错长读中的性能差异

2020-12-15 21:29:36  阅读:164  来源: 互联网

标签:基于 长读 读取 错误率 易错 增益 短读


基于图和基于对齐的混合纠错方法在易错长读中的性能差异

  • 王安琪&
  • 金辉区 

基因组生物学 卷 21,产品编号:  14(2020) 

抽象

容易出错的第三代测序(TGS)长读可以通过高质量的第二代测序(SGS)短读进行校正,这称为混合错误校正。我们在这里通过数学建模和分析来研究两种主要类型的混合纠错方法的主要算法因素对模拟数据和真实数据的影响。我们的研究揭示了相对于原始长读取错误率的准确度增益分布。我们还证明了19%的原始错误率是进行完美校正的极限,超过该值,长时间读取的数据很容易被这些方法校正。

背景

第三代测序(TGS)技术[ 1 ],包括太平洋生物科学(PacBio)和牛津纳米孔技术(ONT),已被证明在许多生物医学研究中有用,因为空前的读取长度(PacBio和ONT的平均长度可以超过10 kb)和20 kb的,与最大超过60 kb和800 KB)是用于组装处理复杂的问题,如基因组单倍型分析和非常丰富的[ 12345678910 ]。然而,TGS数据的高错误率(对于在原始数据平均10-15%)[ 11121314 ]降低mappability和下游分析的分辨率。为了解决此限制,已使用高质量的短读来纠正长读,这被称为混合错误纠正。现有混合动力纠错方法可分为两类:基于比对方法[ 15161718192021 ]和DE Bruijn图(DBG)基的方法(称为“基于图形的方法“)[ 2223242526]。不管基于图的方法比基于对齐的方法[ 27 ]的算法复杂度低,以及软件实现方式的差异,以下两种主要因素均对纠错性能产生重大影响:长读取错误率,短读取错误率,较短的阅读范围,比对标准和可靠的k- mer大小。尽管以前的研究在相应的软件开发[检查一些这些因素分别282930 ],在这里我们建立数学框架来执行所有这些因素混合纠错的全面调查。通过研究它们对短读对齐率和实心k的影响在DBG中进行mer-mer检测,我们最后将询问这些因素如何确定混合错误校正中的精度增益。这项研究不仅研究了两种主要的混合纠错方法的算法框架,更重要的是,它还为方法选择,参数设计以及长距离纠错的未来方法开发提供了有益的指导。

结果与讨论

总体而言,我们首先通过数学建模,在每个错误率级别上,通过基于比对和基于图的方法评估准确性增益,然后使用模拟数据和真实数据验证模型的适用性。利用这些数据和结果,我们研究了关键算法因素在不同数据场景下的影响,并比较了两种方法。

基于比对的方法的两个主要阶段决定了准确性的提高:短读比对和共识推断(图 1a)。将C表示为测序过程中在某个碱基上产生的短读的数目,称为真实短读。在第一阶段,C实短读与长读对齐。令N为成功对齐的实际短读的数目。接下来,根据感兴趣的碱基,产生对齐的真实短读的共有序列作为校正的碱基。我们将准确度增益定义为γ-  (1-  EA),其中γ是原始的长读取错误率,而EA 是纠错后的预期精度:

ËA =∑n = 0C镨(Ñ= n ) g(Ñ ,β)。Ë一种=∑ñ=0C镨(ñ=ñ)G(ñ,β)。

图。1

 

基于对齐和基于图的方法的图示;模拟数据的模型适应性和准确性增益的结果。一个基于比对方法的原理图。b是长读的某个碱基,'是参考序列的相应碱基。将C个实际的短读与长读对齐(其中N个已成功对齐),然后在每个碱基处推断出共识。b短读取τ的成功比对概率与错配率p,完全匹配k的下限阈值k聚体大小k的关系和不匹配的上限m。尽管变化ķ或/和τ是靠近一个当p  <5%,并接近于零,当p  > 30%。这表明失配率是τ上最主要的因素。随着m从10增加到20,曲线向上移动(从蓝色到红色和绿色),这意味着τ随着m增加。此外,蓝色,红色和绿色虚线与实线之间的散度也显示出增加的趋势,这意味着kτ的影响也随m的增加而增加。c基于图的纠错方法示意图。DBG基于短读而构建。在长读时检测到固体k聚体。然后将两个相邻的实心k聚体之间的片段与DBG上的相关路径对齐。当满足某些条件时,将使用该路径来纠正片段。d通过基于比对的方法校正的模拟长读在每个错误率处的准确度增益。箱线图表示长时间读取的精度增益分布。实线代表理论值。灰色虚线(对角线)对应于完美校正。e带有实线k的模拟长读的比例-mer在每个错误率级别上检测到。实线代表理论值。虚线表示模拟长读的结果。f通过基于图的方法校正的模拟长读在每个错误率处的准确度增益。L:较长的阅读长度;k:完全匹配的种子或固体k -mer的大小

全尺寸图片

Pr(N  =  n)表示n个真正的短读可以成功对齐的概率,对应于短读对齐的阶段,而gn,  β)是共识等于真碱基的概率,对应于共识推断阶段。β是短读取错误率。首先,我们通过获得将单个短读与长读成功对齐的概率来计算Pr(N  =  n),这在很大程度上取决于不匹配的容差和对齐器所需的完美匹配种子的长度。对于两个序列XY长度l相等,表示M为错配碱基的数目,表示K为最大完全匹配种子的长度。让ķ是下阈值ķ,和是上阈值中号,因此这对夫妻的条件ķ  ≥  ķ中号 ≤ 套向上对准的标准。以下定理测量了在该标准下单个短读可以成功对齐的概率τ

定理1. 设X和Y为两个长度相等的序列。表示X 和Y(1≤  ≤ 作为i 分别X和Y,的碱。假设所有事件i  =  i }是独立的,并且所有碱基具有相同的不匹配率p。让τķ, ,  p, )≜PR(ķ  ≥  ķ, 中号 ≤  0≤  ≤ 式中,τ是通过需要不小于k的完全匹配种子且不大于m的碱基错配的定位器,短读可以成功地与长读的目标位置对齐的概率。我们有:

τ(k ,m ,p ,l ) =∑n = 0米[∑t = 1Q (n )(− 1 )t − 1(n + 1Ť)(升- ķ吨ñ) ]pñ(1 − p )l − n,τ(ķ,米,p,升)=∑ñ=0米[∑Ť=1个问(ñ)(-1个)Ť-1个(ñ+1个Ť)(升-ķŤñ)]pñ(1个-p)升-ñ,

其中Qn)= max { s |  -  KS  ≥  Ñ }⋀(Ñ  + 1) 。τ随m和l增加,随k和p减小

证明在附加文件1:注1中提供 。基于τ,我们能够计算N个短读序列Pr(N  =  n)的对齐率。给定长读中的一组错误,短读的对齐方式不是完全独立的,因此我们考虑了几批短读(附加文件 1:注释2,图S1)。失配率p可以大致由β  +  γ估计(附加文件 1:注3)。分析结果表明,错配率(即,大约长读取错误率,因为 β  «  γ),是τ上最主要的因素;作为的增加,既τ及效果ķτ的增加(图 1个B中,附加文件 1:注4)。可以基于二项式分布来推导共识推断gn,  β)的准确性(方法,附加文件 1:注5)。理论计算表明,浅层对齐的短读覆盖范围足以生成高精度共识(例如,只有9倍对齐的短读可以以> 99.99%的精度达成共识),因此,短读对齐是影响准确性增益的主要阶段(附加文件 1:图S2)。

两个阶段中的基于图形的方法,包括检测固体的ķ在DBG -mer和路径搜索,影响精确度增益(图 1 C)。在第一阶段,对长读的所有k- mers进行扫描,以查找短读生成的DBG中存在的“实心k- mers”。在第二阶段,所有的路径该链路的两个相邻固体ķ聚体或链接固体ķ聚体与对DBG长读的端部被搜索以找到最佳的一个来纠正较长的读取。令φ(k,  γ,  L)为长读(长度为L)包含至少一个实心k的概率-mer。根据定理1,我们有:

φ (ķ ,γ,L ) = τ(k ,L − k ,γ,L ) =∑n = 0大号- ķ[∑t = 1Q (n )(− 1 )t − 1(n + 1Ť)(大号- ķ吨ñ) ]γñ(1 - γ)L − nφ(ķ,γ,大号)=τ(ķ,大号-ķ,γ,大号)=∑ñ=0大号-ķ[∑Ť=1个问(ñ)(-1个)Ť-1个(ñ+1个Ť)(大号-ķŤñ)]γñ(1个-γ)大号-ñ

(有关详细信息,请参见方法,附加文件 1:注6,图S3)。为了研究第二阶段,我们检查了相邻实体区域之间的距离,因为它代表了DBG中路径搜索的整体难度。我们通过将截短的几何分布与几何分布混合来对实体区域距离进行建模,并且其预期随着k- mer大小k和长读取错误率γ的增加而增加(有关详细信息,请参见方法)。

接下来,我们检查两种方法在模拟数据上的模型适用性和准确性。长读取和短读取从进行了仿真大肠杆菌参照基因组(菌株K-12 MG1655)(附加文件 1:注7)[ 3132 ]。应用基于对齐的软件proovread [ 19 ]来纠正长读(附加文件 1:注8,图S4)。在不同的短读覆盖范围内,理论准确度增益的趋势适合模拟数据的实际准确度增益(图 1 d)。当γ ≤15%,即使使用非常浅的短读取覆盖范围(5倍),精度增益也会沿对角线增加,这意味着几乎完美的校正。当γ≥18  %时,准确度增益会降低,相应的方差也会增加,因此几乎无法完全校正读数。这些结果显示了基于对齐的方法可以完美解决的长读取错误率的上限,并且基于图的方法也证明了类似的结果(如下所示)。此外,理论计算和模拟数据均显示,尽管相对于短读取覆盖范围(例如,从5倍到10倍)略有增加(例如,<2%和<1%),但是准确度增益很少会超过20%。和分别从20倍到50倍,图 1d)。因此,混合错误校正从短读取覆盖范围的增加中获得了一点好处,尤其是当其大于10倍时。

为了评估基于图的方法的模型,我们应用LoRDEC(版本0.5.3)[ 23 ]来纠正模拟的长读(附加文件 1:注释9)。在此评估中,短读覆盖率为10倍。该理论固体的整体倾向ķ聚体的检测率φ相对于长读的长度大号和所需ķ聚体大小ķ对准以及与来自模拟数据(图生成的值 1 e)中,虽然是φ当L超过2 kb时略高。总体而言,当长读取错误率γ时,固体k- mer检测率接近1低于某个阈值(例如,对于k  = 21和L  = 1 kb,为15%),并且当γ超过阈值时,它急剧下降。与这个阈值增加大号(例如,从15%至24%,1〜10 kb的给定ķ  = 21)(图 1 e)所示。此外,增加ķ聚体大小对固体整体负效应ķ聚体检测,这是更加显着时长读取较短(图 1 e)所示。值得注意的是,高的长读取错误率导致无法检测到固体k- mer的可能性很高,从而无法校正长的读取。跟随固体k-mer检测,我们研究了相邻实心区域之间的距离:对于测试中的所有k- mer大小,理论距离均与在不同水平的长读取错误率下在模拟数据中获得的实际值一致(附加文件 1:图S5)。给定一个k- mer大小,当长读错误率≥18%时,距离的均值和方差都会显着增加,否则很少超过500 bp(其他文件 1:图S5)。另外,k的增加也导致距离的显着增加。

在精度增益方面,仿真数据表明,当长读取错误率γ≤19  %时,基于图的方法几乎可以完全纠正长读取;当γ  > 19%时,精度增益降低,​​相应的方差增大。。在基于比对的方法中,相应的γ变化点约为15%。然而,代替精度增益相对于单峰γ,有一个双峰图案与γ  > 19%,在基于图形的方法的一些场景(例如,ķ  ≥19和大号 ≤2 KB):一些长读取可以几乎完美地校正,而另一些则具有零或非常低的精度增益(图 1)F)。长读取的后一个子集可能不包含或仅包含一个固体k- mer,因此不执行或很难进行校正。当长读L的长度增加到≥5kb时,精度增益的分布在每个错误率级别上都会缩小,并且双峰模式会逐渐消失。因为较长的读长提高固体的概率ķ聚体检测(见上述的结果和图 1 e)所示,长比例较大读取甚至可以校正虽然不是完美。

通过k  = 19,L  = 1 kb,γ  = 25%的具体方案,进一步研究了精度增益的双峰模式。校正后的读数分为两类:“高增益长读数”,其准确度增益大于12.5%,否则“低增益长读数”。低增益长读取的高得多的比例仅包含一个固体19聚体比高增益读长(89.04%对54.58%,图 2一个),和整体,前者包含更坚实19比聚体后者。此外,长期以单个读取19聚体,所述的位置19聚体可用于两类长读取不同:在中间高增益的长读取,而邻近的低增益的任一端长读取(图 2的B)。当固态k- mer发生在长读的末端附近时,一个片段特别长,使得通过DBG中的路径搜索进行校正变得更加困难,从而导致较低的精度增益。在没有检测到固体19聚体的情况下,长的读数将不被校正,并且也以低准确性再次对模态有贡献。随着读取长度增加,更多的读取包含多个固体19聚体(图 2 c)和片段的端部处的效果变得边际使得双峰图案消失。

图2

 

基于图的方法的双峰精度增益的解释;真实数据集的模型适应性和准确性增益。具有不同实心k数的长读比例。在不损失慷慨的情况下,以长度为1 kb且错误率为25%的模拟长读为例。长时间读取被标记为“高增益长时间读取”,其准确性增益大于12.5%(错误率值的一半),否则为“低增益长时间读取”。b在高增益和低增益长读取上单个固体k- mer位置的分布。仅考虑具有一个实心k聚体的长读。c固体k的分布长读段上的-mer数字具有不同的长度。d基于对齐的方法在每个错误率级别的精度增益分布。e检测到具有固态k- mer的长读片段的比例。由于不同的长读取长度的混合,提供了上边界和下边界。f基于图的方法在每个错误率级别的精度增益分布。g长读取的长度分布,其中基于图的方法(标记为DBG)比基于比对的方法(标记为ALN)具有更好,相等或更差的性能。的p值是通过Wilcoxon秩和检验计算

全尺寸图片

我们进一步研究了通过proovread和LoRDEC分别校正过的真实PacBio数据集[ 23 ]的准确性(附加文件 1:注8-10,图S6,图S7)。短读随机覆盖10倍。通过校对获得实际精度的总体趋势与基于比对方法的理论计算一致,尽管后者略有过高估计(图 2 d)。在真实数据上,长时间读取很少能获得> 20%的准确度增益(图 2)。d)。但是,当长时间读取错误率从25%增至30%时,准确度增益将维持在10%至15%的范围内,而不是像理论模型那样急剧下降。当通过LoRDEC对实际数据评估准确性增益时,应注意,与上述基于图的方法的数学模型中的固定读取长度相比,实际数据包含具有不同长度的长读取。尽管这种差异,实际的比例长用固体读取ķ聚体检测是理论的范围内(图 2 e)和准确性增益的模式是与模拟结果(图非常类似的 2 f和图 1个f):当错误率小于20%时,大多数长读取可实现近乎完美的校正,对于更高的错误率,方差会变大。

此外,基于真实数据集比较了两种方法。当长读取错误率> 15%时,两种方法之间的准确度增益差异变得明显。在19,485条原始错误率大于15%的长读中,LoRDEC在13,146条(67.47%)的读取上表现出色,即准确度提高的差异大于2%(图2 d中的箱形图 与图2 f中的小提琴图)  )。两种方法在5,557(28.52%)个长读取中显示出相似的精度增益,即,精度增益之差≤2%。对于其余782(4.01%)次读取,proovread的效果更好。第三组长读明显短于其他两组(Wilcoxon秩和检验的p值为1.78×10 -6,图 2G)。它是与上述推论是一致的:用于基于图形的方法,更短的读出更可能含有很少或没有固体ķ聚体,并且所述固体的位置ķ聚体高度影响的修正(图 2 -C )。

总之,通过数学框架进行的理论计算以及对模拟数据和真实数据的分析表明,关键算法因素和数据参数如何影响两种主要类型的混合纠错算法的准确性。当原始的长读取错误率低于某些阈值(例如15%)时,两种方法都可以纠正大多数错误。对于高度易出错的长读取(尤其是γ≥20  %),基于图的方法通常可以获得更高的精度增益,而方差也较大。在这种容易出错的长读取方法中,基于比对的方法倾向于在校正相对较短的读取方法时具有更大的优势(例如,我们的测试中位长度为1,195 bp,图 2)。G)。尽管不可能分析所有已发布的软件,但是proovread和LoRDEC生成的结果分别代表基于比对和基于图的方法,如我们先前对10种纠错软件的基准测试所示[ 27 ]。值得注意的是,沿实际长读的测序错误可能不是独立的,或者短读覆盖范围可能不是均匀分布的(例如,转录组数据),因此在对真实数据进行分析时有必要进行特定调整(请参阅附加文件 1)。:有关详细信息,请参见10-11。随着PacBio和ONT都对技术进行改进,大多数原始数据的错误率变得小于20%。在此范围内,我们的结果非常适合真实数据,因此将有助于真实数据的分析,并为方法选择,参数设计(附加文件1:注12–13,图S8)和将来的方法提供指导。 发展。此外,为了对基于比对的方法进行建模,建立了数学定理以测量短读比对的概率,这也为其他基于比对的算法的开发和分析奠定了基础。

方法

基于对齐方式的共识推理模型

上面以定理1给出了短序列比对的模型,这是比对基础方法的第一步。接下来,在共识推论阶段,将频率≥50%的碱基作为共识。因此,影响共识准确性的主要因素是短读错误率和对齐的短读数量。

a作为长期阅读的某个特定站点的真实基础。表示V= {V1个,V2,⋯ ,Vñ}V={V1个,V2,⋯,Vñ}作为基于N个对齐的短读段的相应基础。因此,Pr(i  =  a)= 1-  β,其中β是短读取错误率。让F(五)F(V) 成为共识函数:

F(五) =a r g m a x小号∈ {甲,Ç,G ,T,- }∑ñ我= 1一世(V一世= s )。F(V)=一种[RG米一种Xs∈{一种,C,G,Ť,-}∑一世=1个ñ一世(V一世=s)。

I(∙)是指示符功能。考虑到半票制,我们有

镨(˚F(五) =一) ≥镨(∑ñ我= 1一世(V一世=一) ≥ ⌈ñ2⌉) ≜克(N,β)。镨(F(V)=一种)≥镨(∑一世=1个ñ一世(V一世=一种)≥⌈ñ2⌉)≜G(ñ,β)。

gN,  β)是共识推断的准确性,定义为:

G(N,β) = Pr (w ^ñ,1 - β>ñ− 12),Ñ 我小号Ò d d。G(ñ,β)=镨(w ^ñ,1个-β>ñ-1个2),ñ 一世s Ødd。 G(N,β) = Pr (w ^ñ,1 - β>ñ2) +1个2镨(w ^ñ,1 - β=ñ2),Ñ 我小号Ë v ë Ñ 。 G(ñ,β)=镨(w ^ñ,1个-β>ñ2)+1个2镨(w ^ñ,1个-β=ñ2),ñ 一世s ËvËñ。

Nβ遵循二项式分布Binom(N,1-  β)。可以证明gN,  β)随着N的增加而增加,随β的减少(请参见附加文件1:注释5中的两个引理和详细结果 )。

基于图的固体k -mer检测模型

固态k- mer检测要求(1)长读取包含连续的k个无错误碱基;(2)DBG中也存在k- mer。由于短读的准确性很高,即使在短的短读覆盖范围内,条件(2)也很可能得到保证(附加文件 1:注6)。下面我们计算(1)的概率。假设所有基于长读取的碱基都是独立的,并且具有相同的错误率γ。表示该较长的读取包含至少一个正确的概率ķ聚体为φ(ķ,  γ, 大号)≜PR(ķ  ≥  ķ)。根据定理1

φ (ķ ,γ,L ) = τ(k ,L − k ,γ,L ) =∑大号- ķn = 0[∑Q (n )t = 1(− 1 )t − 1(n + 1Ť)(大号- ķ吨ñ) ](1 - γ)L − n。φ(ķ,γ,大号)=τ(ķ,大号-ķ,γ,大号)=∑ñ=0大号-ķ[∑Ť=1个问(ñ)(-1个)Ť-1个(ñ+1个Ť)(大号-ķŤñ)](1个-γ)大号-ñ。

φ(k,  γ,  L)随kγ减小,随L增大。与在基于比对的方法中定读1的短读长度l具有固定长度的定理1相比,在基于图的方法中定理1的应用使用长读L的长度,该长度可变且显着更大。

基于图的方法中的实体区域距离模型

S表示为相邻实体区域之间的距离,将T表示为小于k的最大正确片段的长度。它具有概率函数

镨(Ť= t ) =(1 - γ)Ťγ1 - α,镨(Ť=Ť)=(1个-γ)Ťγ1个-α,

哪里

α =∑∞吨= ķ(1 - γ)Ťγ。α=∑Ť=ķ∞(1个-γ)Ťγ。

α是长读中至少k个连续碱基正确的概率。假设{ i ;  ≥1}是独立观测Ť,则有

小号=∑ñ我= 1Ť一世+ N− 1。小号=∑一世=1个ñŤ一世+ñ-1。

其中N是实体区域之间的最大正确线段数,并且遵循几何分布,

PR(Ñ  =  Ñ)=(1 -  αñ αÑ  ≥0。

S的期望是

Ë小号= E(E(S| ñ)) =E(N(EŤ+ 1 )) −1=(EŤ+ 1 ) Ëñ− 1。Ë小号=Ë(Ë(小号|ñ))=Ë(ñ(ËŤ+1个))-1个=(ËŤ+1个)Ëñ-1。

实心区域距离的期望随着kγ的增加而增加。

实际数据,数据模拟,数据处理和软件使用

模拟的长读和短读分别由SimLoRD [ 31 ]和ART [ 32 ]生成(有关详细信息,请参见附加文件 1:注释7)。典型的基于比对和基于图的软件proovread [ 19 ]和LoRDEC [ 23 ]用于校正长读(其他文件 1:注释8-9)。有关处理实际数据的详细信息,请参见附加文件 1:注10。

数据和资料的可用性

大肠杆菌的Illumina和PacBio测序数据可从Sequence Read Archive:ERR022075和PacificBiosciences / DevNet(https://github.com/PacificBiosciences/DevNet/wiki/E.-coli-Bacterial-Assembly)下载。[ 23 ] 。将模拟数据上传到项目PRJNA574878 [ 33 ]下的NCBI 。

参考文献

  1. 1。

    Rhoads A,Au KF。PacBio测序及其应用。基因组蛋白质组学生物信息学。2015; 13:278-89。

    文章 谷歌学术 

  2. 2。

    Hoang NV,Furtado A,Mason PJ,Marquardt A,Kasirajan L,Thirugnanasambandam PP,Botha FC,Henry RJ。使用全长同工型测序和短读测序的从头组装,对高度多倍体甘蔗基因组的复杂转录组进行了调查。BMC基因组学。2017; 18:395。

    文章 谷歌学术 

  3. 3。

    Vembar SS,Seetin M,Lambert C,Nattestad M,Schatz MC,Baybayan P,Sherf A,Smith ML。通过长时间读取(> 11 kb),单分子,实时测序,完成恶性疟原虫基因组的端粒至端粒从头组装。DNA Res。2016; 23:339–51。

标签:基于,长读,读取,错误率,易错,增益,短读
来源: https://blog.csdn.net/u010608296/article/details/111240952

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有