收藏私塾在线
 

欢迎您来到私塾在线网!   

请登录! 

免费注册 


hadoop的笔记
状态: 离线
人气:2866684
访问用户量:2996
笔记经验:
总积分:1409
级别:普通会员
搜索本笔记
ta的交流分类
ta的交流主题贴(131)
ta的所有交流贴(138)
ta的全部笔记
全部笔记(249)
未分类笔记(0)
hadoop(109)
luoli的Hado……(19)
精通hadoop(10)
Hadoop原理与代……(6)
HBase(15)
深入浅出学Hive(11)
Hadoop实战-中……(11)
Hadoop实战-初……(8)
hadoop & h……(9)
Hive(18)
zookeeper(8)
Hadoop Str……(14)
云计算综合实战项目(11)
存档
2013-04(11)
2012-10(11)
2012-09(10)
2012-08(191)
2012-07(26)

记笔记 » hadoop的笔记» luoli的Hadoop笔记
2012-08-30 14:47:26
提高hadoop的mapreduce job效率笔记之二(尽量的用Combiner)
交流分类:Java

当job 运行中发现如下的现象,通常job是 可以优化的: Job的运行过程中会有一系列的sort 的操作,并且reduce input groups的counter变量的值远远要小于reduce input records counter。 Job在 mapper完成以后,shuffle过程中传输……
浏览(2102)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-30 14:47:09
提高hadoop的mapreduce job效率笔记之一(修改mapper和reducer数量)
交流分类:Java

hadoop 的mapreduce 的作业在运行过程中常常碰到一些这样的情 况: 每一个map或者reduce只有30-40秒钟就结束 超 大规模的job 时,通常会需要大量的map和reduce的slots 支持,但是job运行起来后,running的map和reduce并没有沾满集群的可用slo……
浏览(3459)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-30 14:46:49
hadoop中使用lzo压缩格式支持笔记
交流分类:Java

通常hadoop中的mapreduce作业都会产生大量都中间文 件 ,当要处理当原始数 据 非常大,并且在一定大map处理逻辑的情况下,这些中间文件会非常的大,hadoop mapreduce的中间文件是通过slave上hadoop-site.xml配置文件中的mapred.local.dir 配置……
浏览(1302)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-30 14:46:23
使hadoop支持Splittable压缩lzo
交流分类:Java

在hadoop中使用lzo的压缩算法可以减小数 据 的大小和数据的磁盘读写时间,不仅如此,lzo是基于block分块的,这样他就允许数据被分解成chunk,并行 的被hadoop处理。这样的特点,就可以让lzo在hadoop上成为一种非常好用的压缩格式。     由于压缩的数据通常只有原始数据的1/……
浏览(3364)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-30 14:45:59
hadoop中使用 Gzip 压缩格式支持笔记
交流分类:Java

hadoop中支持的压缩方式有多种,比如Gzip,bzip2,zlib等,其中Gzip是hadoop中内置就支持的一种压缩方式,这种压缩方式在平 时linux 的开发人员和管理 员中使用的比较广泛,压缩比也比较高,压缩速度也还不 错,所以很多人都喜欢第一趋向于使用这种压缩格式进行文 件 的压缩。  ……
浏览(6195)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-30 14:45:24
hadoop海量put时出现的socket超时导致put失败解决方案
交流分类:Java

当一个HDFS系统同时处理许多个并行的put操作,往HDFS上传数 据 时,有时候会出现dfsclient 端发生socket 链接超时的报错,有的时候甚至会由于这种原因导致最终的put操作失败,造成数据上传不完整。 log类似如下: All datanodes  *** are bad. Abor……
浏览(5759)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-24 11:45:43
由于namenode和datanode的bug导致hdfs replication block不正常问题
交流分类:Java

hadoop集群使用的时间长了,或者datnaode, namenode dfs一次运行的时间长了,会发现有很多的文 件的block , 在under replication 的 情况下,很长时间内仍然无法得到复制,始终处于under replication的状态,导致如果时间一长,磁盘损坏多的情况……
浏览(1854)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-24 11:45:18
提高hadoop的mapreduce job效率笔记之二(尽量的用Combiner)
交流分类:Java

当job 运行中发现如下的现象,通常job是 可以优化的: Job的运行过程中会有一系列的sort 的操作,并且reduce input groups的counter变量的值远远要小于reduce input records counter。 Job在 mapper完成以后,shuffle过程中传输……
浏览(5199)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-24 11:44:56
提高hadoop的mapreduce job效率笔记之一(修改mapper和reducer数量)
交流分类:Java

hadoop 的mapreduce 的作业在运行过程中常常碰到一些这样的情 况: 每一个map或者reduce只有30-40秒钟就结束 超 大规模的job 时,通常会需要大量的map和reduce的slots 支持,但是job运行起来后,running的map和reduce并没有沾满集群的可用slo……
浏览(6927)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-24 11:44:25
使hadoop支持Splittable压缩lzo
交流分类:Java

在hadoop中使用lzo的压缩算法可以减小数 据 的大小和数据的磁盘读写时间,不仅如此,lzo是基于block分块的,这样他就允许数据被分解成chunk,并行 的被hadoop处理。这样的特点,就可以让lzo在hadoop上成为一种非常好用的压缩格式。     由于压缩的数据通常只有原始数据的1/……
浏览(1061)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-24 11:43:55
hadoop中使用 Gzip 压缩格式支持笔记
交流分类:Java

hadoop中支持的压缩方式有多种,比如Gzip,bzip2,zlib等,其中Gzip是hadoop中内置就支持的一种压缩方式,这种压缩方式在平 时linux 的开发人员和管理 员中使用的比较广泛,压缩比也比较高,压缩速度也还不 错,所以很多人都喜欢第一趋向于使用这种压缩格式进行文 件 的压缩。  ……
浏览(1257)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-24 11:43:18
hadoop海量put时出现的socket超时导致put失败解决方案
交流分类:Java

当一个HDFS系统同时处理许多个并行的put操作,往HDFS上传数 据 时,有时候会出现dfsclient 端发生socket 链接超时的报错,有的时候甚至会由于这种原因导致最终的put操作失败,造成数据上传不完整。 log类似如下: All datanodes  *** are bad. Abor……
浏览(2517)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-24 10:28:33
Hadoop关于处理大量小文件的问题和解决方法
交流分类:Java

HDFS处理大量小文件 时的问题 小 文件指的是那些size比HDFS 的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。 而 HDFS的问题在于无法很有效的处理大量小文件。 任何一个文件,目录……
浏览(2300)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-24 10:27:59
hadoop下运行多个SecondaryNameNode的配置
交流分类:Java

光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的……
浏览(1863)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-24 10:27:33
DatanodeProtocol
交流分类:Java

DatanodeProtocol是一个接口类,从它的名字就可以看出它是用来实现datanode 和 namenode之间通信的一个协议 类。在实际的代码 中,namenode是实现了这个接口的,也就是说namenode实现了这个接口中的各种方法,以满足在特定情况下datanode应该如何根据和 na……
浏览(843)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-24 10:26:31
远程debug hadoop的daemon进程(jt,nn,tt,dn)
交流分类:Java

在对hadoop 的代码进行hack或者编写自己的 mapreduce程序的时候,经常需要对代码进行debug , 但是由于hadoop是一个分布式的系 统 ,而且很多的进 程 都是多线程的,对它的代码进行debug就变得很麻烦,而且运用IBM之前contrib的哪个eclipse- plugin工……
浏览(2030)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-24 10:22:09
hadoop Datanode支持磁盘故障代码hack
交流分类:Java

背景 hadoop当中的每一个datanode上,都会保存 一些HDFS中文件 的blocks,而 这些blocks实际上都是按照一定的格式保存在 datanode这台机器的某些本地目录中的,当通过hadoop向HDFS中保存文件的时候,这些文件就会被hadoop按照blocksize切分成 多个b……
浏览(2363)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-24 10:20:20
hadoop中map/reduce编程中关于mapper和reducer的Format问题
交流分类:Java

hadoop中的map/reduce编程中有几个非常关键的组件,其中包括 Mapper,Reducer,InputFormat,OutputFormat,OutputKeyClass,OutputValueClass 等,在刚接触map/reduce编程的时候很容易由于 InputFormat,Ou……
浏览(3257)|评论 (0)|笔记分类 luoli的Hadoop

2012-08-24 10:19:48
HOD集群搭建指南
交流分类:Java

前言 本文的目的在于从无到有的搭建一套HOD服务集群。在参考本文之前假设读者已经对hadoop系统及其下面 DFSShell,HDFS,MapReduce等已经有了相当的了解。由于Hadoop docs中关于HOD如何搭建和使用的介绍比较少,并且涉及到底层Torque集群组件的结合,在搭建和使用上难……
浏览(1868)|评论 (0)|笔记分类 luoli的Hadoop

关于我们 | 联系我们 | 用户协议 | 私塾在线服务协议 | 版权声明 | 隐私保护

版权所有 Copyright(C)2009-2012 私塾在线学习网