设为首页
收藏本站
首页
BBS
地方标准
参考文献
行业资料
打包下载
淘帖
Collection
登录
注册
医药卫生
经济
文教
农业
环境与安全
交通
工业技术
期刊杂志
电子书
商务办公
建工
电力
新能源
新资汇
»
首页
›
参考资料
›
工业技术
›
基于Spark和SimHash的大数据K近邻分类算法
基于Spark和SimHash的大数据K近邻分类算法
31
0
admin
发表于 2024-12-10 13:34
|
查看全部
阅读模式
文档名:基于Spark和SimHash的大数据K近邻分类算法
在之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第一次从磁盘读入内存,生成一种抽象的内存对象RDD(ResilientDistributedDatasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.
作者:张素芳 王婷婷 赵春玲 翟俊海
作者单位:中国气象局气象干部培训学院河北分院保定071000河北大学数学与信息科学学院保定071002
母体文献:第六届中国计算机学会大数据学术会议论文集
会议名称:第六届中国计算机学会大数据学术会议
会议时间:2018年10月11日
会议地点:西安
主办单位:中国计算机学会
语种:chi
分类号:TP3TN9
关键词:大数据处理 K-近邻算法 哈希算法
在线出版日期:2020年11月30日
基金项目:
相似文献
相关博文
2024-12-10 13:34 上传
基于Spark和SimHash的大数据K近邻分类算法.pdf
文件大小:
762.92 KB
下载次数:
60
高速下载
基于
,
Spark
,
SimHash
,
数据
,
近邻
【温馨提示】 您好!以下是下载说明,请您仔细阅读: 1、推荐使用360安全浏览器访问本站,选择您所需的PDF文档,点击页面下方“本地下载”按钮。 2、耐心等待两秒钟,系统将自动开始下载,本站文件均为高速下载。 3、下载完成后,请查看您浏览器的下载文件夹,找到对应的PDF文件。 4、使用PDF阅读器打开文档,开始阅读学习。 5、使用过程中遇到问题,请联系QQ客服。 本站提供的所有PDF文档、软件、资料等均为网友上传或网络收集,仅供学习和研究使用,不得用于任何商业用途。 本站尊重知识产权,若本站内容侵犯了您的权益,请及时通知我们,我们将尽快予以删除。
回复
举报
+ 搜索一下
推荐下载
1
DB23T 3920—2024 埋地管道磁记忆评估指南.pdf
2
DBJ41T304-2024 城镇排水管道非开挖修复技术标准【2024-10-09发布】.pdf
3
DB23T 3921—2024 高寒地区城镇燃气埋地聚乙烯管道安全评估指南.pdf
4
DB61_T 1858-2024 二氧化碳驱埋地钢质管道外腐蚀控制技术规范
5
DB61_T 1878-2024 餐饮业油烟管道系统清洗规范
6
DB3502_T 168-2024 排水管道非开挖修复技术指南
7
T_CAPEC 50—2024_石油和化学工业 海底管道用钢管制造监理技术要求.pdf
8
DB3201_T 1185-2024 燃气用聚乙烯管道定期检验技术规范
能源电力
光伏发电
风力发电
电动储能
电力行业
电网
化工
压力容器
管道
特种设备
化学分析
试剂
建筑工程
钢结构
设计规范
施工
检测
地质勘探
机械
无损检测
阀门
起重机
数控
焊接
电子信息
电子
电路
半导体
集成电路
信息技术
医药
常见病
中西医结合
高血压
养生
传染病
科学
天文地理
农业
气象
艺术
教育
手机访问
微信扫一扫
联系QQ客服
QQ扫一扫
2022-2025
新资汇 - 参考资料免费下载网站
浙ICP备2024084428号-1
关灯
返回顶部
快速回复
返回顶部
返回列表