文档名:微博文本挖掘关键技术研究与实现
数据挖掘技术是人们分析数据和处理数据的有效手段.针对微博数据的分析和挖掘需求,本文研究微博文本挖掘关键技术,提出对微博文本进行挖掘的技术方案.在该方案中,首先利用Python语言的爬虫技术,从微博账户相关网站和微博网站采集数据;然后对采集到的数据人工判断,把积极语句逐条复制到指定文件;接着去掉不需要的字符,并利用TF-IDF词频向量化对采集到的的数据进行预处理;然后对数据进行降维,对降维后的数据集进行默认交叉验证划分和五层折叠交叉验证;最后通过逻辑回归(LogisticRegression)、朴素贝叶斯(NaiveBayes)、支持向量机(SVM)、K最近邻(K-NearestNeighbor,KNN)等常用的分类器,对预处理后的微博文本数据集进行分类.
作者:李陶深于斐钥
作者单位:广西大学计算机与电子信息学院,南宁,530004
母体文献:2021中国高校计算机教育大会论文集
会议名称:2021中国高校计算机教育大会
会议时间:2021年10月1日
会议地点:南宁
主办单位:全国高等学校计算机教育研究会,教育部
语种:chi
分类号:TP3TP1
关键词:微博文本 数据挖掘 爬虫技术 分类器
在线出版日期:2022年4月27日
基金项目:
相似文献
相关博文
- 文件大小:
- 8.95 MB
- 下载次数:
- 60
-
高速下载
|