基于优化样本分布抽样集成学习的半监督文本分类方法研究

236 0
2024-12-10 15:39 | 查看全部 阅读模式

文档名:基于优化样本分布抽样集成学习的半监督文本分类方法研究
针对现有文本分类方法在即时性文本信息上的挑战,考虑到即时性文本信息具有已标注数据规模小的特点,为了提高半监督学习的分类性能,本文提出一种基于优化样本分布抽样集成学习的半监督文本分类方法.首先,通过运用一种新的样本抽样的优化策略,获取多个新的子分类器训练集,以增加训练集之间的多样性和减少噪声的扩散范围,从而提高分类器的总体泛化能力;然后,采用基于置信度相乘的投票机制对预测结果进行集成,对未标注数据进行标注;最后,选取出适量的数据来更新训练模型.实验结果表明,该方法在长文本和短文本上都取得了优于研究进展方法的分类性能.
作者:徐禹洪 黄沛杰
作者单位:华南农业大学数学与信息学院,广东广州510642;华南理工大学计算机科学与工程学院,广东广州510006华南农业大学数学与信息学院,广东广州510642
母体文献:第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会论文集
会议名称:第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会  
会议时间:2017年10月13日
会议地点:南京
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:文本分类  半监督学习  集成学习  样本抽样策略
在线出版日期:2020年7月21日
基金项目:
相似文献
相关博文
2024-12-10 15:39 上传
文件大小:
441.65 KB
下载次数:
60
高速下载
【温馨提示】 您好!以下是下载说明,请您仔细阅读:
1、推荐使用360安全浏览器访问本站,选择您所需的PDF文档,点击页面下方“下载”按钮。
2、耐心等待两秒钟,系统将自动开始下载,本站文件均为高速下载。
3、下载完成后,请查看您浏览器的下载文件夹,找到对应的PDF文件。
4、使用PDF阅读器打开文档,开始阅读学习。
5、使用过程中遇到问题,请联系QQ客服

本站提供的所有PDF文档、软件、资料等均为网友上传或网络收集,仅供学习和研究使用,不得用于任何商业用途。
本站尊重知识产权,若本站内容侵犯了您的权益,请及时通知我们,我们将尽快予以删除。
2026 资料下载 z3060.com 联系邮件:1991591830#qq.com 浙ICP备2024084428号-1
快速回复 返回顶部 返回列表