天津市 鄂伦春自治旗 宝应县 中牟县 济南市 汉川市 邮箱 垦利县 华池县 海城市 景宁 会东县 台北县 北安市 青河县 吉隆县
淘豆网
下载此文档放大查看缩小查看   1/3
0/100
标签:科技新闻 注册送1000金币捕鱼 您的浏览器不支持进度条
更多>>该用户其他文档
下载所得到的文件列表
大数据处理实践project 2.docx
文档介绍:
工程实践与科技创新IV-G:大数据处理实践
Project 2
(1)任务要求
使用Wikipedia页面间链接数据集实现PageRank排序。
数据集下载地址:
links-simple-sorted.zip (323MB)
titles-sorted.zip (28MB)
文件包含所有Wikipedia页面间的链接(英文Wikipedia页面)。
在links-simple-sorted.txt文件中,每行表示一个Wikipedia页面,跟着该页面上的所有链接,以邻接图形式表示如下:
from1: to11 to12 to13 ...
from2: to21 to22 to23 ...

from1是一个整数,表示Wikipedia的一个页面,to11 to12…是所有从from1链接到的页面。可以在titles-sorted.txt中找到对应的页面标题,titles-sorted.txt中行数与Wikipedia页面标号一一对应。
要求每组同学安装并配置自己的Hadoop环境,并基于MapReduce实现PageRank算法,然后在自己的Hadoop集群上对给定数据集进行排序,给出最终排序结果中top 100的标题和PageRank
值。每组同学可以使用不同的参数值(teleport)去运行PageRank算法,对结果做相关比较。必须包含一组teleport 参数值(beta)为0.85, iteration=10的结果。同时,可以与基于in-links的排序算法进行对比。
当然,每组同学可以在给定的数据集上做很多其他有趣的工作,鼓励每组同学完成项目基本要求后实现一些自己的idea,有所创新的小组将会在最后成绩上得到20%的附加分。
提交的所有资料必须完全是每个小组自己的工作,被发现***的小组将得到0分。
Tips:1、遇到问题及时反馈给助教;
2、数据集过大,运行时间可能过长,可以提取部分数据供调试用。
(2)任务结果形式
(2.1)P 内容来自淘豆网www.taodocs.com转载请标明出处.
更多>>相关文档
文档信息
最近更新
文档标签