收藏私塾在线
 

欢迎您来到私塾在线网!   

请登录! 

免费注册 


hadoop的笔记
状态: 离线
人气:3301237
访问用户量:3108
笔记经验:
总积分:1409
级别:普通会员
搜索本笔记
ta的交流分类
ta的交流主题贴(89)
ta的所有交流贴(96)
ta的全部笔记
全部笔记(163)
未分类笔记(0)
hadoop(62)
luoli的Hado……(18)
精通hadoop(7)
Hadoop原理与代……(1)
HBase(6)
深入浅出学Hive(11)
Hadoop实战-中……(11)
Hadoop实战-初……(8)
hadoop & h……(2)
Hive(15)
zookeeper(4)
Hadoop Str……(7)
云计算综合实战项目(11)
存档
2013-04(11)
2012-10(11)
2012-09(10)
2012-08(112)
2012-07(19)

记笔记 » hadoop的笔记» hadoop笔记
2012-08-30 14:43:48
Hadoop关于处理大量小文件的问题和解决方法
交流分类:Java

HDFS处理大量小文件 时的问题 小 文件指的是那些size比HDFS 的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。 而 HDFS的问题在于无法很有效的处理大量小文件。 任何一个文件,目录……
浏览(3677)|评论 (0)|笔记分类 hadoop

2012-08-29 15:20:17
hadoop下运行多个SecondaryNameNode的配置
交流分类:Java

光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的……
浏览(4372)|评论 (0)|笔记分类 hadoop

2012-08-29 15:13:56
DatanodeProtocol
交流分类:Java

DatanodeProtocol是一个接口类,从它的名字就可以看出它是用来实现datanode 和 namenode之间通信的一个协议 类。在实际的代码 中,namenode是实现了这个接口的,也就是说namenode实现了这个接口中的各种方法,以满足在特定情况下datanode应该如何根据和 na……
浏览(1765)|评论 (0)|笔记分类 hadoop

2012-08-29 15:12:13
远程debug hadoop的daemon进程(jt,nn,tt,dn)
交流分类:Java

在对hadoop 的代码进行hack或者编写自己的 mapreduce程序的时候,经常需要对代码进行debug , 但是由于hadoop是一个分布式的系 统 ,而且很多的进 程 都是多线程的,对它的代码进行debug就变得很麻烦,而且运用IBM之前contrib的哪个eclipse- plugin工……
浏览(4360)|评论 (0)|笔记分类 hadoop

2012-08-29 15:11:47
hadoop Datanode支持磁盘故障代码hack
交流分类:Java

背景 hadoop当中的每一个datanode上,都会保存 一些HDFS中文件 的blocks,而 这些blocks实际上都是按照一定的格式保存在 datanode这台机器的某些本地目录中的,当通过hadoop向HDFS中保存文件的时候,这些文件就会被hadoop按照blocksize切分成 多个b……
浏览(2243)|评论 (0)|笔记分类 hadoop

2012-08-29 15:10:23
hadoop中map/reduce编程中关于mapper和reducer的Format问题
交流分类:Java

hadoop中的map/reduce编程中有几个非常关键的组件,其中包括 Mapper,Reducer,InputFormat,OutputFormat,OutputKeyClass,OutputValueClass 等,在刚接触map/reduce编程的时候很容易由于 InputFormat,Ou……
浏览(3927)|评论 (0)|笔记分类 hadoop

2012-08-23 15:08:53
hadoop balance
交流分类:Java

在要balance的slave执行: start-balancer.sh -threshold 10% 或 ./hadoop balancer -threshold 10     由于hadoop集群的机器磁盘容量大小不等,造成磁盘使用率不同,有的使用了10%,而有的已经100%,这个对整个系统的运……
浏览(10425)|评论 (0)|笔记分类 hadoop

2012-08-23 15:06:23
hadoop 关键属性配置
交流分类:Java

摘自网友: 其中红色的配置为必须配置参数   参数取值备注 fs.default.name NameNode 的URI。 hdfs://主机名/ dfs.hosts/dfs.hosts.exclude 许可/拒绝DataNode列表。 如有必要,用这个文件控制许可的datanode列表。 dfs.r……
浏览(2182)|评论 (0)|笔记分类 hadoop

2012-08-23 14:59:29
hadoop添加垃圾回收站 管用
交流分类:Java

在core-site.xml中增加如下配置,表明rm后会在trash中保留多少分钟: fs.trash.interval 10080 Number of minutes between trash checkpoints. If zero, the trash feature is disabled……
浏览(1976)|评论 (0)|笔记分类 hadoop

2012-08-23 14:57:08
(转)无法启动namenode
交流分类:Java

(1)hadoop集群我维护有一段时间了,今天忽然出现了一个问题,当我stop-all.sh后hadoop的web页面无法显示,分析应该是namenode没有启动,检查后果然namenode没有启动,凭借经验,我猜想应该是配置文件的问题,于是仔细检查了conf下的每一个文件,但是配置文件配置无误,n……
浏览(16985)|评论 (0)|笔记分类 hadoop

2012-08-23 14:56:41
hadoop主节点(NameNode)备份策略以及恢复方法
交流分类:Java

link:http://jiajun.iteye.com/blog/809125 一、dits和fsimage  首先要提到两个文件edits和fsimage,下面来说说他们是做什么的。 集群中的名称节点(NameNode)会把文件系统的变化以追加保存到日志文件edits中。 当名称节点(NameN……
浏览(4990)|评论 (0)|笔记分类 hadoop

2012-08-18 10:10:10
Hadoop的调度器总结
交流分类:Java

随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分……
浏览(2631)|评论 (0)|笔记分类 hadoop

2012-08-15 11:34:36
Hadoop的调度器总结(转)
交流分类:Java

随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分……
浏览(3263)|评论 (0)|笔记分类 hadoop

2012-08-14 13:57:11
hadoop之failed task和killed task
交流分类:Java

failed task可理解为自杀,也就是task本身出了问题而自杀;killed task可理解为是他杀,也就是jobtracker认为这个任务的执行是多余的,所以把任务直接杀掉。起初用hadoop的时候经常在一个complete的job中看到几个failed 或者是 killed task,还经……
浏览(2929)|评论 (0)|笔记分类 hadoop

2012-08-14 13:44:24
How MapReduce Works
交流分类:Java

一、从Map到Reduce MapReduce其实是分治算法的一种实现,其处理过程亦和用管道命令来处理十分相似,一些简单的文本字符的处理甚至也可以使用Unix的管道命令来替代,从处理流程的角度来看大概如下: cat input | grep | sort | uniq -c | cat > ……
浏览(3745)|评论 (0)|笔记分类 hadoop

2012-08-14 13:41:33
HDFS 读写流程
交流分类:Java

 HDFS简介 HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。 目前HDFS支持的使用接口除了Java的还有,……
浏览(10657)|评论 (0)|笔记分类 hadoop

2012-08-14 13:41:10
hadoop mapreduce作业流程概论
交流分类:Java

mapreduce的一个完整作业流程是怎么样的呢,相信刚接触hadoop,刚写mapreduce的初学者都有很大的困扰,下面的图来自http://horicky.blogspot.com/2008/11/hadoop-mapreduce-implementation.html,是我看到的讲MapRe……
浏览(5354)|评论 (0)|笔记分类 hadoop

2012-08-14 13:40:46
hadoop升级
交流分类:Java

1.运行dfsadmin -upgradeProgress status 检查是否存在备份 如果是第一次升级 就不存在备份(在升级Hadoop前,如果已经存在备份,需要先结束 finalize 它。) 2.备份dfs.namenode.dir下文件,同时要备份下hdfs的文件目录的元数据信息: bi……
浏览(4260)|评论 (0)|笔记分类 hadoop

2012-08-14 13:39:40
hadoop的dfs.replication
交流分类:Java

首先 dfs.replication这个参数是个client参数,即node level参数。需要在每台datanode上设置。 其实默认为3个副本已经够用了,设置太多也没什么用。 一个文件,上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数,对已经上传了的文件也不会起作用。可以再上传文……
浏览(21169)|评论 (0)|笔记分类 hadoop

2012-08-14 13:38:26
HDFS 安全模式
交流分类:Java

NameNode在启动的时候首先进入安全模式,如果 datanode 丢失的block达到一定的比例(1-dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。 dfs.safemode.threshold.pct(缺省值0.999f)表示HDFS启动的时候……
浏览(2933)|评论 (0)|笔记分类 hadoop

关于我们 | 联系我们 | 用户协议 | 私塾在线服务协议 | 版权声明 | 隐私保护

版权所有 Copyright(C)2009-2012 私塾在线学习网