文档名:基于随机森林模型的不平衡大数据分类算法
摘要:针对目前不平衡大数据分类算法分类效果较差的问题,提出基于随机森林模型的不平衡大数据分类算法.首先采用SVM(SupportVectorMachine)支持向量机算法对不平衡大数据进行信息过滤,然后利用反k近邻法检测并消除离群点,通过增量主成分分析法去掉不平衡大数据中协方差矩阵存在的奇异性,并依据熵值法对其展开权重解析,进而提取不平衡大数据特征信息.将CART(ClassificationandRegressionTrees)决策树当作不平衡大数据的基分类器,进而构建随机森林决策树分类器,最后将提取的不平衡大数据特征信息输入分类器中,实现不平衡大数据分类.实验结果表明,该算法对不平衡大数据的采样效果较好,并且分类精准度、稳定性和性能都较高.
Abstract:Inresponsetotheproblemofpoorclassificationperformancefacedbycurrentimbalancedbigdataclassificationalgorithms,arandomforestmodelbasedimbalancedbigdataclassificationalgorithmisproposed.Firstly,theSVM(SupportVectorMachine)algorithmisusedtofilterinformationonimbalancedbigdata,andthentheantik-nearestneighbormethodisusedtodetectandeliminateoutliers.Thesingularityofthecovariancematrixinimbalancedbigdataisremovedthroughincrementalprincipalcomponentanalysis.Andbasedontheentropymethod,weightanalysisiscarriedouttoextractimbalancedbigdatafeatureinformation.TheCART(ClassificationandRegressionTrees)decisiontreeisusedasthebaseclassifierforimbalancedbigdata,andarandomforestdecisiontreeclassifierisconstructed.Theextractedimbalancedbigdatafeatureinformationisinputintotheclassifiertoachieveimbalancedbigdataclassification.Theexperimentalresultsshowthattheproposedalgorithmhasgoodsamplingperformance,highclassificationaccuracy,highstability,andhighperformanceforimbalancedbigdata.
作者:魏亚明 孟媛 Author:WEIYaming MENGYuan
作者单位:徐州市中心医院信息处,江苏徐州221000江苏师范大学研究生院,江苏徐州221000
刊名:吉林大学学报(信息科学版) ISTIC
Journal:JournalofJilinUniversity(InformationScienceEdition)
年,卷(期):2023, 41(6)
分类号:TP391
关键词:随机森林模型 不平衡大数据分类 SVM支持向量机 反A近邻法 CART决策树
Keywords:stochasticforestmodel unbalancedbigdataclassification supportvectormachine(SVM) Antik-nearestneighbormethod classificationandregressiontrees(CART)decisiontree
机标分类号:TP391TN911.1-34U495
在线出版日期:2024年1月24日
基金项目:江苏省自然科学基金资助项目基于随机森林模型的不平衡大数据分类算法[
期刊论文] 吉林大学学报(信息科学版)--2023, 41(6)魏亚明 孟媛针对目前不平衡大数据分类算法分类效果较差的问题,提出基于随机森林模型的不平衡大数据分类算法.首先采用SVM(SupportVectorMachine)支持向量机算法对不平衡大数据进行信息过滤,然后利用反k近邻法检测并消除离群点,通...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
基于随机森林模型的不平衡大数据分类算法 Unbalanced Big Data Classification Algorithm Based on Random Forest Model
基于随机森林模型的不平衡大数据分类算法.pdf
- 文件大小:
- 5.44 MB
- 下载次数:
- 60
-
高速下载
|
|