ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Meta-4mCpred:一种基于序列的meta预测器,使用有效的特征表示进行精确的DNA 4mC位点预测

2021-04-17 19:57:45  阅读:241  来源: 互联网

标签:DNA 核苷酸 Meta 特征 模型 56 4mC 维度


Meta-4mCpred:一种基于序列的meta预测器,使用有效的特征表示进行精确的DNA 4mC位点预测

DNA n4 -甲基胞嘧啶(DNA N4-methylcytosine, 4mC)是一种重要的基因修饰,在区分自我和非自我DNA、控制DNA复制、细胞周期和基因表达水平等方面起着至关重要的作用。
我们采用了一种特征表示学习方案,基于4种不同的机器学习算法和7种特征编码生成了56个概率特征,涵盖了不同的序列信息,包括成分、物理化学和特定位置信息。随后,将概率特征作为支持向量机的输入,开发出最终的元预测器。
据我们所知,这是4mC位点预测的第一个元预测器。交叉验证结果表明,Meta-4mCpred对6个不同物种的总体平均准确率为84.2%,比使用最先进的预测因子的准确率高2% ~ 4%。此外,Meta-4mCpred在独立数据集评估中获得了86%的总体平均精度,比最先进的预测器的结果高出4%以上。

作者模型思路构建:

在这里插入图片描述
1:数据集由六种数据集构成
2:针对6种数据集,通过7种特征编码方式进行编码,7种编码方式进行组合性构建,得到每个数据集都有14种特征表述。
3:每种特征都通过四种机器学习模型训练,得到14×4=56个模型。其中56个机器模型都有做十倍交叉验证。
4:将56个机器学习模型进行概率输出,取预测为正样本的概率。因此每个样本可以得到56维度的概率特征向量。
5:这56维度的特征向量为我们最终所要的特征,将其再送入SVM模型,做最终位点识别判断。

数据集

下载地址:数据集下载链接
基准数据集:
在这里插入图片描述
独立测试集数据:
以上六个物种,每个物种阳性样本数分别为:750、1000、1250、134、350、200。此外阴性样本数与之数量对应,一一相等。

特征编码

文章采用7种特征编码方式,分别为:K-mer、BPF、DPE、LPDF、RFHC、DPCP、TPCP。

k-mer
作者k值取了k=1~5,得到了4维、16维、256维、1024维。依次称为:MNC、DNC、TNC、TeNC、PNC。

BPF
也就是平时学的 One-hot编码。

DPE
核苷酸两两一组,正好有16种组合,正好用四位二进制数表示完。从0000-1111。

LPDF:
公式
即双核苷酸,局部位置密度。Ni为第i个位置的长度,C(Xi-1 Xi-2)为起点到第i个位子,这个二核苷酸出现的次数。

RFHC:
根据四种核苷酸的环、官能团和氢键具有的不同化学性质。四种核苷酸可分别编码为:
A[1,1,1]
C[0,0,1]
G[1,0,0]
T[0,1,0]
除此之外,外加一个位置信息:
在这里插入图片描述
计算第 i 个位置的核苷酸的密度信息。

DPCP:
本研究中,使用了15种理化性质。每一个二核苷酸对应一个15维度的理化性质向量。其特征构成为:
在这里插入图片描述
左边部分为该类二核苷酸在序列中出现的频率,后者为所对应的15维度理化性质。
最终构成240维向量(16×15)

TPCP
该特征与上述的TPCP类似,此者采用了11种理化性质,每一个三核苷酸对应一个11维度的理化性质向量。其特征构成为:
在这里插入图片描述
最终构成704维度向量(64×11)

14种特征组成:
在这里插入图片描述

机器学习算法

本文章采用了SVM、RF、ERT、GB四种算法作为基模型,用于特征提取,当然在最后一部分选用的也是SVM这个模型作为最终的预测模型。

评估指标

在这里插入图片描述

结果

在这里插入图片描述

在这里插入图片描述

所提供的信息链接

supplemental information

标签:DNA,核苷酸,Meta,特征,模型,56,4mC,维度
来源: https://blog.csdn.net/zpj1997/article/details/115622517

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有