摘要基因表达的生物系统受到DNA和转录因子(Transcription Factor,TF)相互作用的调控。在TF结合域发生的核苷酸变异在人类疾病中扮演着重要角色。染色质免疫沉淀测序技术(ChIP-seq)可以高通量检测DNA-TF结合性的生化性质。本文基于这类数据展开三项计算研究。<br> 首先,通过深度学习模型学习DNA序列的嵌入表达,然后用支持向量机训练预测DNA-TF结合特异性,取得了优秀的效果;同时对嵌入表达进行可视化分析,并可以展现某些突变的显著特征。<br> 其次,为上述深度模型增强了注意力机制,构建了DNA-TF结合亲和力的回归模型,可以预测结合亲和力的大小,并可以进一步展现突变的某些特征。<br> 最后将上述深度模型学习到的DNA序列特征融合ChIP-seq数据中的单核苷酸变异数据以及现有预测方法的结果,构建了单核苷酸变异有害性预测模型,实验证明了新增的序列特征有效地增强了基因突变致病的预测。<br> 本文的预测方法充分利用了深度学习技术,将ChIP-seq的多TF、多细胞系实验数据用统一模型进行学习,可以跨TF、跨细胞系地学习DNA序列特征,为基因突变有害性预测提供了多源信息融合的实践方案。
更多相关知识
- 浏览0
- 被引1
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文