• 医学文献
  • 知识库
  • 评价分析
  • 全部
  • 中外期刊
  • 学位
  • 会议
  • 专利
  • 成果
  • 标准
  • 法规
  • 临床诊疗知识库
  • 中医药知识库
  • 机构
  • 作者
热搜词:
换一批
论文 期刊
取消
高级检索

检索历史 清除

医学文献>>
  • 全部
  • 中外期刊
  • 学位
  • 会议
  • 专利
  • 成果
  • 标准
  • 法规
知识库 >>
  • 临床诊疗知识库
  • 中医药知识库
评价分析 >>
  • 机构
  • 作者
热搜词:
换一批

概念漂移的数据流分类算法研究

摘要近年来,随着计算机技术的快速发展,越来越多的领域产生了源源不断的数据流,如物联网、云计算、智能家居和金融服务等。专用网络同样会产生大量的数据流,如基于卫星的地球勘测数据、雷达衍生的气象监测数据以及大气辐射测量等。这些数据不同于传统的静态数据,而是一类新的数据对象,具有动态、连续、快速和短暂易逝等特点。基于这些特性,数据流的分析和处理面临巨大的挑战,是当前大数据处理领域研究的热点。<br>  分类问题研究作为大数据与机器学习领域的一个重要任务与课题,其目的是从大量数据中提取描述重要类标签的模型并预测未来的数据分布趋势。例如,故障检测、信用卡欺诈检测以及医疗诊断等。传统的数据分类方法是一种有监督的学习方法,基于标记样本来拟合分类器的参数,使得模型可以达到所需的分类性能。例如常规的神经网络的分类算法,支持向量机以及决策树的分类算法等。这些传统的分类算法通常适用于小型的静态数据集,且需要事先获取全部的数据,并需要对数据进行多次扫描使用。然而,实际应用场景中的数据流是实时、连续、动态变化的、无限的序列。此外,数据流中潜在的概念漂移、类别不平衡以及类标签缺失的问题也对已有的数据流分类算法提出了挑战。因此,本课题面向概念漂移的数据流分类问题,探索设计高效的数据流分类算法。主要创新工作如下:<br>  (1)针对概念漂移的数据流分类问题,本文提出了一个将模糊自组织分类器与动态加权算法相结合的新的动态增量集成分类算法(DIEFC)。首先,我们基于模糊自组织分类器训练多个分类器形成了一个集成分类的框架,用于处理动态的数据流分类问题。其次,我们改进了DWMIL算法来自适应赋予分类器权重,动态的实现分类器的增减,采用加权投票机制输出结果。接下来,我们在集成模型上增加了数据采样模块,以增量的方式动态的更新先前的基分类器,从而提升了整个集成模型的分类性并能够更好的适应动态数据流,减少概念漂移对模型分类性能的影响。最后,我们在工业物联网领域和人工合成的10个数据集上进行了对比实验,与对比方法相比,DIEFC在AUC和G-mean指标上分别提升了5%。对于所有数据集,DIEFC方法的平均训练时间比对比方法快50%。这些验证了DIEFC的分类性能以及速度优势,同时证明了比同类的数据流分类方法更适合于工业物联网领域的分类问题。<br>  (2)针对数据流中存在的类别不平衡问题,本文提出了一个基于过采样的动态的集成Lightgbm算法,用于处理IoT数据流中的异常检测问题。在数据平衡方面,通过BorderlineSMOTE方法在训练集中生成少数类样本,使训练集中各类数据达到均衡比例,以缓解数据的不平衡问题。我们采用了真实物联网场景中的数据集去评估提出的BSDWLGB模型的异常检测性能。我们也与最新提出的数据流异常检测算法进行对比,验证了提出模型比同类的数据流分类方法更适合物联网场景中的异常检测问题。<br>  (3)针对数据流中类别不平衡问题以及过采样方法适应性不足对分类模型的影响,本文提出了一种基于装袋(Bagging)的随机欠采样算法来解决异常样本和正常样本之间的不平衡问题。为了减少检测时间并考虑数据的动态性和连续性,我们提出了一种具有随机模糊规则(RFRB)和动态加权策略的自适应集成随机模糊(AERF)算法。AERF增强了分类器的多样性,提高了整个集成模型的检测性能。我们使用两个真实数据集和五个基准数据集来评估AERF在云计算环境中的异常检测问题。我们还将它与最近提出的异常检测算法进行了比较。实验结果表明,AERF比其他数据流分类方法更适合云计算环境中的异常检测问题。<br>  (4)针对数据流中部分类标签缺失的问题,本文提出了一种增量动态加权半监督学习方法(DWSSL)来考虑数据流中丢失的类标签。首先,我们将基于模糊规则(FRB)的方法与动态加权算法相结合,提出了动态加权半监督分类(DWSSL)算法,增强了分类器之间的关系,提高了分类性能。其次,为了充分利用有限的标记数据,进一步提升模型的性能,我们采用增量学习的方法对集成模型进行增量更新。第三,我们使用6个真实世界的数据集来评估所提出的物联网环境中数据流分类问题的方法。我们分别与半监督和监督数据流分类算法进行了比较,验证了所提出的方法比类似的数据流分类方法更适合物联网环境中的分类问题。

更多
广告
  • 浏览0
  • 下载0

加载中!

相似文献

  • 中文期刊
  • 外文期刊
  • 学位论文
  • 会议论文

加载中!

加载中!

加载中!

加载中!

特别提示:本网站仅提供医学学术资源服务,不销售任何药品和器械,有关药品和器械的销售信息,请查阅其他网站。

  • 客服热线:4000-115-888 转3 (周一至周五:8:00至17:00)

  • |
  • 客服邮箱:yiyao@wanfangdata.com.cn

  • 违法和不良信息举报电话:4000-115-888,举报邮箱:problem@wanfangdata.com.cn,举报专区

官方微信
万方医学小程序
new翻译 充值 订阅 收藏 移动端

官方微信

万方医学小程序

使用
帮助
Alternate Text
调查问卷