收藏私塾在线
 

欢迎您来到私塾在线网!   

请登录! 

免费注册 


hadoop的笔记
状态: 离线
人气:3292032
访问用户量:3108
笔记经验:
总积分:1409
级别:普通会员
搜索本笔记
ta的交流分类
ta的交流主题贴(89)
ta的所有交流贴(96)
ta的全部笔记
全部笔记(163)
未分类笔记(0)
hadoop(62)
luoli的Hado……(18)
精通hadoop(7)
Hadoop原理与代……(1)
HBase(6)
深入浅出学Hive(11)
Hadoop实战-中……(11)
Hadoop实战-初……(8)
hadoop & h……(2)
Hive(15)
zookeeper(4)
Hadoop Str……(7)
云计算综合实战项目(11)
存档
2013-04(11)
2012-10(11)
2012-09(10)
2012-08(112)
2012-07(19)

2013-04-26 15:09:04
分词管理——某大型互联网企业用户上网行为日志分析系统——云计算项目实战
浏览(7057)|评论(0)   交流分类:Java|笔记分类: 云计算综合实战项目

配套视频课程:http://sishuok.com/product/681

配套PPT下载:http://sishuok.com/forum/posts/list/6765.html

 

 

第一部分 需求分析

什么是中文分词

中文分词 ( Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词
中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果
什么是庖丁词汇
Paoding (庖丁解牛分词)基于 Java 的开源中文分词组件,提供 lucene solr 接口,具有极  高效率 和  高扩展性
采用基于  不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义
庖丁系统是个完全基于 lucene 的中文分词系统,它就是新建了一个 analyzer, 叫做 PaodingAnalyzer 这个 analyer 的核心任务就是生成一个可以切词 TokenStream
仅支持 Java 语言。
功能需求
庖丁词汇初始化
分词表的基本维护与查询
第二部分: 技术点
安装与配置庖丁分词
下载庖丁最新的 Jar
https ://code.google.com/p/paoding
将字典文件装载到本地的某个文件夹
例如 /home/test/ dic
paoding-analysis.properties 放在 resources 文件下或者修改 jar 包内该配置文件,指定
paoding.dic.home =/home/test/ dic
基本使用演示

Analyzer a = new PaodingAnalyzer();

String doctext = test  test;

 

TokenStream token = a.tokenStream(doctext ,new StringReader(doctext));

 

Token k = null;

 while((k = token.next)  != null){

    System.out.println(k);

  }

 

 

关键词

作用:生成用画像时候的一个元素

 

Keyword_keywordId

rowkey:

keyword!`!keywordid

C_FAMILY

data


 

Keywordid_keyword

rowkey:

keywordid!`!keyword

C_FAMILY

data

部分 代码实现

请参考视频和源码

 


私塾在线原创独家云计算课程,转载请注明【http://sishuok.com/forum/blogPost/list/6770.html
精品视频课程推荐

Java数据结构和算法精讲版
本课程专注于数据结构和算法的内容,使用Java来进行代码示例,不空洞的讲解概念和理论,重点放在代码的实现和示例上。 从零开始、全面系统、成体系的讲解数据结构和基本算法,循序渐进的讲述构建软件系统所常见的数据结构和算法。

深入浅出学Shrio视频教程
内容概述:Shiro是目前最热门、最易用、功能超强大的Java权限管理框架,强烈推荐,每个项目都必备的权限管理技术!通过本课程,你将从零开始直到彻底掌握Shiro的相关开发知识,达到可以进行实际项目开发的能力。包括:权限管理基础、Shiro入门、配置、身份认证、授权、Realms、Session管理、和Spring的集成、Web、Cache等众多开发细节技术 技术要点:源码级分析Shiro的授权过程、自定义开发Realm、多个Realms的开发配置、自定义开发AuthenticationStrategy、自定义开发自定义SessionDAO、和Struts2+Spring3的集成(包括修正struts2的bug)、Shiro和SpringMVC+Spring3的集成、包装使用其他的Cache框架、缓存数据同步更新的解决方案等等实际开发中常用的内容

log4j&slf4j基础实战视频教程
学习在java项目中使用log4j、jdk自带的日志框架和slf4j

XML基础视频教程
创建规范的XML文档,DTD的作用,并且可以根据要求创建私用的DTD,通过JavaScript解析XML DOM

深入浅出学Spring Web MVC视频教程
系统、完整的学习Spring Web MVC开发的知识。包括:Spring Web MVC入门;理解DispatcherServlet;注解式控制器开发详解;数据类型转换;数据格式化;数据验证; 拦截器;对Ajax的支持;文件上传下载;表单标签等内容;最后以一个综合的CRUD带翻页的应用示例来综合所学的知识

浏览(7057)|评论(0)   交流分类:Java|笔记分类: 云计算综合实战项目

评论(0)
请登录后评论 登录

关于我们 | 联系我们 | 用户协议 | 私塾在线服务协议 | 版权声明 | 隐私保护

版权所有 Copyright(C)2009-2012 私塾在线学习网