收藏私塾在线
 

欢迎您来到私塾在线网!   

请登录! 

免费注册 


hadoop的笔记
状态: 离线
人气:2647369
访问用户量:2918
笔记经验:1309
总积分:1409
级别:普通会员
搜索本笔记
ta的交流分类
ta的交流主题贴(131)
ta的所有交流贴(138)
ta的全部笔记
全部笔记(249)
未分类笔记(0)
hadoop(109)
luoli的Hado……(19)
精通hadoop(10)
Hadoop原理与代……(6)
HBase(15)
深入浅出学Hive(11)
Hadoop实战-中……(11)
Hadoop实战-初……(8)
hadoop & h……(9)
Hive(18)
zookeeper(8)
Hadoop Str……(14)
云计算综合实战项目(11)
存档
2013-04(11)
2012-10(11)
2012-09(10)
2012-08(191)
2012-07(26)

2016-08-19 13:42:28
数据清洗与导入模块——某大型互联网企业用户上网行为日志分析系统——云计算项目实战
浏览(5916)|评论(2)   交流分类:Java|笔记分类: 云计算综合实战项目

配套视频课程:http://sishuok.com/product/681

配套PPT下载:http://sishuok.com/forum/posts/list/6765.html

 

第一部分 需求分析

将原始日志做清洗,提取符合规范的数据
将用户信息保存到用户信息表
将未爬去过的网页信息保存到为爬去的网页列表中
原始日志格式

用户ID

昵称

访问URL

访问开始时间

访问结束时间

IP地址

流量

 
               
               
               

 

属性规范

IP 地址不能为 127.0.0.1
IP 地址不能为内网地址
用户昵称长度能不能超过 40
日志表-log(Hive)

字段名

用户ID

昵称

 

访问URL

 

访问开始时间

访问结束时间

IP地址

流量

字段类型

String

 

String

 

String

 

String

 

String

 

String

 

bigint

 

               

 

userid!`!username!`!url!`!visit_begin_time!`’

 

用户表-user_inof(HBase)

rowkey

用户ID!~!~!昵称

 

 

 

CF:empty

   

 

 

未爬取URL-UnKnowURL(HBase)

rowkey

url

 

 

 

CF:empty

   

 

 

已爬取URL-knownURL(HBase)

rowkey

url

 

 

 

CF:empty

 

   

 


 

部分 代码实现

步骤

建立 Hive
建立 HBase 的表
编写 MapReduce 程序


私塾在线原创独家云计算课程,转载请注明【http://sishuok.com/forum/blogPost/list/6770.html

浏览(5916)|评论(2)   交流分类:Java|笔记分类: 云计算综合实战项目

评论(2)
2楼 hsqqg  2016-08-19 引用

灰常需要

1楼 feiyewumian  2014-04-04 引用

谢谢分享

请登录后评论 登录

关于我们 | 联系我们 | 用户协议 | 私塾在线服务协议 | 版权声明 | 隐私保护

版权所有 Copyright(C)2009-2012 私塾在线学习网