收藏私塾在线
 

欢迎您来到私塾在线网!   

请登录! 

免费注册 


hadoop的笔记
状态: 离线
人气:2906040
访问用户量:3010
笔记经验:
总积分:1409
级别:普通会员
搜索本笔记
ta的交流分类
ta的交流主题贴(131)
ta的所有交流贴(138)
ta的全部笔记
全部笔记(249)
未分类笔记(0)
hadoop(109)
luoli的Hado……(19)
精通hadoop(10)
Hadoop原理与代……(6)
HBase(15)
深入浅出学Hive(11)
Hadoop实战-中……(11)
Hadoop实战-初……(8)
hadoop & h……(9)
Hive(18)
zookeeper(8)
Hadoop Str……(14)
云计算综合实战项目(11)
存档
2013-04(11)
2012-10(11)
2012-09(10)
2012-08(191)
2012-07(26)

2017-03-19 15:37:57
爬虫部分——某大型互联网企业用户上网行为日志分析系统——云计算项目实战
浏览(7283)|评论(10)   交流分类:Java|笔记分类: 云计算综合实战项目

第一部分 需求分析

 

爬虫在项目中间的作用

分析用户的行为需要根据用户浏览网页的分类及特征来决定,所以获取网页内容需要爬虫
单线程爬虫难以满足项目的需求,需要多线程爬虫来处理

部分 技术点

WgetHttpClient

Wget 是一个从网络上自动下载文件的自由工具 支持通过 HTTP HTTPS FTP 三个最常见的 TCP/IP 协议下载,并可以使用 HTTP 代理
HttpClient Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议

 

功能需求

分析网页内容取得词频
获取词与网页的对应关系
Page

rowkey:

url

C_FAMILY

category


Term_Page

rowkey:

term!`!url

C_FAMILY

cg_raw

部分 代码实现

请参考视频和源码

 

私塾在线原创独家云计算课程,转载请注明【http://sishuok.com/forum/blogPost/list/6770.html

浏览(7283)|评论(10)   交流分类:Java|笔记分类: 云计算综合实战项目

评论(10)
10楼 张通  2017-03-19 引用

很好!

9楼 天才在左疯子在右  2016-08-19 引用

学习

8楼 liao210  2016-08-19 引用
mark
7楼 SOUTH KING  2016-05-16 引用

非常棒的爬虫开源技术  可以用来做一些分析

6楼 jhl1985  2016-04-11 引用

学习学习了

5楼 chenchao_007  2016-02-02 引用
学习!!!
4楼 ↓堕天↓  2015-12-22 引用

学习学习

3楼 旗仔  2015-12-07 引用

学习

 

2楼  2015-11-06 引用

复反反复复

1楼 weisongyao  2013-12-28 引用
thanks
请登录后评论 登录

关于我们 | 联系我们 | 用户协议 | 私塾在线服务协议 | 版权声明 | 隐私保护

版权所有 Copyright(C)2009-2012 私塾在线学习网