微博文本挖掘关键技术研究与实现

admin · 发表于 2024-12-11 17:34

文档名：微博文本挖掘关键技术研究与实现
数据挖掘技术是人们分析数据和处理数据的有效手段.针对微博数据的分析和挖掘需求,本文研究微博文本挖掘关键技术,提出对微博文本进行挖掘的技术方案.在该方案中,首先利用Python语言的爬虫技术,从微博账户相关网站和微博网站采集数据;然后对采集到的数据人工判断,把积极语句逐条复制到指定文件;接着去掉不需要的字符,并利用TF-IDF词频向量化对采集到的的数据进行预处理;然后对数据进行降维,对降维后的数据集进行默认交叉验证划分和五层折叠交叉验证;最后通过逻辑回归(LogisticRegression)、朴素贝叶斯(NaiveBayes)、支持向量机(SVM)、K最近邻(K-NearestNeighbor,KNN)等常用的分类器,对预处理后的微博文本数据集进行分类.
作者：李陶深于斐钥
作者单位：广西大学计算机与电子信息学院,南宁,530004
母体文献：2021中国高校计算机教育大会论文集
会议名称：2021中国高校计算机教育大会
会议时间：2021年10月1日
会议地点：南宁
主办单位：全国高等学校计算机教育研究会,教育部
语种：chi
分类号：TP3TP1
关键词：微博文本数据挖掘爬虫技术分类器
在线出版日期：2022年4月27日
基金项目：
相似文献
相关博文

2024-12-11 17:34 上传

微博文本挖掘关键技术研究与实现.pdf

文件大小:: 8.95 MB

下载次数:: 60

高速下载

微博文本挖掘关键技术研究与实现

能源电力

化工

建筑工程

机械

电子信息

医药

科学