摘要CRISPR-Cas系统是细菌和古菌的RNA介导的适应性免疫系统,可以针对性切割外源核酸序列,目前已发展为使用最为普遍的基因编辑工具。Ⅱ型CRISPR-Cas的部分亚型(如A、B、C)依赖于反式激活CRISPRRNA(tracrRNA)干扰入侵序列及使pre-crRNA成熟。经RNA酶Ⅲ处理后,tracrRNA与crRNA复合体激活CRISPR相关核酸内切酶Cas9(Csn1)切割位点特异性同源的靶DNA。因此识别tracrRNA对于研究开发新的CRISPR-Cas系统的基因组编辑工具有着重要的作用。<br> 本文收集了54条已知的tracrRNA构成阳性训练集,对已知的tracrRNA随机改组,构造具有tracrRNA结构特征并且与已有tracrRNA具有相同核苷酸组成的“假tracrRNA”数据集,构成阴性训练集。通过伪核苷酸组分PseKNC方法表征原始训练集,作为训练分类器的特征数据集。采用机器学习的方法构造分类器,在训练过程中,使用留一法交叉检验评估分类器的性能,使用基于方差分析的特征选择技术进行特征优化,去除模型构建过程中包含的不相关的冗余特征,最终获得基于最优PseKNC参数的特征数最小,性能最好的tracrRNA分类器。<br> 使用支持向量机和朴素贝叶斯、随机森林等其他机器学习算法进行比较时,支持向量机在训练模型过程中的预测性能明显优于其他方法。基于支持向量机,通过特征选择筛选以及留一法评估,当PseKNC参数k为5,j为1,w为0.5,特征数为171时,训练的tracrRNA分类器具有最优的预测性能,其敏感性为98.15%,特异性为100%,准确率为99.07%,MCC为98.16%,ROC曲线下面积为0.998。该结果说明,该分类器在区分tracrRNA与具有tracrRNA结构特征和氨基酸组成的“假tracrRNA”具有非常好的区分能力,为识别新的tracrRNA以及实验过程中设计优化tracrRNA提供了强有力的辅助手段。
更多相关知识
- 浏览9
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文