收藏私塾在线
 

欢迎您来到私塾在线网!   

请登录! 

免费注册 


elicer的笔记
状态: 离线
人气:90270
访问用户量:92
笔记经验:
总积分:200
级别:普通会员
搜索本笔记
ta的交流分类
ta的交流主题贴(12)
ta的所有交流贴(12)
ta的全部笔记
全部笔记(18)
未分类笔记(0)
课程问题(0)
Hadoop实战-初……(7)
转载(11)
存档
2013-06(18)

2013-06-28 16:55:56
Hadoop HDFS——Hadoop实战初级部分学习笔记
浏览(9087)|评论(0)   交流分类:Java|笔记分类: Hadoop实战-初……

5、Hadoop HDFS

HDFS 分布式文件系统,高容错性,部署到成本低的硬件;

 

HDFS架构设计

典型的观察者结构,NameNode(1)-----(*)DataNode, NameNode存储元数据,DataNode存小数据,

 

HDFS设计目标

假设节点失效是常态,任何一个节点挂了,不影响使用(自动的备份,副本);

简单一致的模型,假设一次写-多次读 模式;

流式数据访问;

不支持文件并发写入

不支持文件修改

轻便的访问异构的平台

 

http://coderplay.iteye.com/blog/1067463

HDFS不适合

存储小文件、随机读、文件修改

 

 

 

HDFS概念

NameNode:存储元数据,元数据存在内存和磁盘,保存文件—block DataNode之间的映射关系;

 

DataNode:存文件内容,磁盘上,维护block id 到datanode本地文件的映射

 

SecondaryNameNode:将NameNode的fsimage与edit log从NameNode复制到临时目录 将fsimage同edit log合并并产生新的fsimage  将产生的新的fsimage上传给NameNode 清除NameNode中的edit log

 

NameNode是单点,SecondaryNameNode可以认为是NameNode的备份,不是热切,可能会丢数据。

 

Block块

数据块,HDFS默认的最基本存储单位,默认64M

 

好处:抽象的,跟磁盘大小无关,可以存储到多个节点上;

 

 

 

HDFS命令行接口

hadoop fs命令

 

跟linux的类似

 

ls(显示一层) lsr(递归)

 

du(显示所有文件及大小)  dus(文件夹大小)  count(多少个文件、大小)

 

hadoop fs –help mv  帮助

 

mv(移动)

cp(复制)

rm(删除) rmr(递归删除)

mkdir(新文件夹)

 

put(从本地文件复制到hdfs)

get(从hdfs复制到本地)

getmerge(合并目录中到多个文件 到 本地系统)

 

copyFromLocal(从本地拷贝到hdfs)

movelFromLocal(从本地移动到hdfs)

 

copyToLocal(从hdfs拷贝到本地)

 

 

text(允许压缩包)

cat(输出到控制台)

 

stat(分析,如修改时间 块大小 复制)

 

setrep(指定备份几份)

 

touchz(往文件写一个时间戳 内容是yyyy-MM-dd HH:mm:ss(文件必须零长度))

 

tail

 

chmod  chowm chgrp

 

 

 

 

hdfs dfsadmin –report    dfs信息

 

hdfs dfsadmin –savemode  enter 进入  leave 离开  get得到当前状态 wait等待结束

 

hdfs dfsadmin –saveNamespace 保存内存信息到磁盘

 

hdfs dfsadmin –saveNamespace 保存内存信息到磁盘(必须安全模式)

 

hdfs dfsadmin –refreshNodes 比如新加节点 重新通信

 

hdfs dfsadmin –upgradeProgress status 升级信息

hdfs dfsadmin –finalizeUpgrade 停止升级

 

hdfs dfsadmin –metasave filename 存meta到本地文件

 

hdfs dfsadmin –setQuota 2 path 最多放几个文件(从现在开始的)

hdfs dfsadmin –clrQuota 2 path 清除

 

hdfs dfsadmin –setSpaceQuota 2 path  (包含当前的)

hdfs dfsadmin –clrSpaceQuota 2 path  (包含当前的)

 

hdfs dfsadmin –setBalancerBandwidth [byte per second] 负载均衡带宽

 

 

Hadoop文件系统

KFS:差点写成KFC了, c++写的

S3(本地):Amazon S3支持的

S3(基于块):

HAR:

 

我的博客:http://sishuok.com/forum/blogPost/list/6915.html

精品视频课程推荐

Hadoop实战-初级部分视频教程
Hadoop初级精品课程,帮助学员快速掌握Hadoop入门到上手开发,并掌握一定的开发技巧。通过Hadoop初级课程,学员可以掌握基本的Hadoop 原理,Hadoop环境搭建,Hadoop Shell,Hadoop HDFS基本操作和编程,Hadoop Mapreduce编程。

Java Web开发理论部分视频教程
系统掌握开发实际的Java Web应用所需的理论知识和技能(Servlet、Jsp、JavaBean、TagLib、EL、JSTL、MVC模式、连接池DataSource、JNDI等知识)。涉及项目:在线投票计数、在线人数统计、登录检查、购物车、商品管理、非法字符替换等多个随堂演示小应用。

云计算综合实战项目视频教程(更新版)
内容概述:通过一个真实完整的项目——某大型互联网企业用户上网行为日志分析系统,系统学习Hadoop、Hive,HBase、Zookeeper等云计算开发技术在真实商业系统中到底如何使用。具有极高的学习和参考价值。 该系统是一个每天5亿条数据,上百个节点的实际商业项目,该系统将海量日志数据进行分布式存储,并通过分布式算法和网络爬虫技术形成标签化的用户模型,最终实现人与内容、人与行为、人与商品的智能配对。 技术要点:Hadoop、Hive、HBase、Zookeeper、爬虫技术等

Hadoop实战-中高级部分视频教程
Hadoop中高级精品课程,帮助学员快速掌握Hadoop HDFS的原理;MapReduce的原理;MapReduce高级编程;Hadoop的IO机制,如序列化、压缩;Hadoop的RPC,RESTFul API等高级特性;彻底理解Hadoop,成为一名合格的云计算开发者。并掌握一些云端基本的运维知识,从而实现开发和运维兼修的高级人才。

深入浅出学Zookeeper
内容概述:本课程深入浅出的讲解Hadoop 体系下的分布式协调组件-Zookeeper,向大家介绍了Zookeeper的原理与使用,深入浅出,结合生动实例,具有很高的实战意味 技术要点:Zookeepr 原理,Zookeeper 架构,Zookeeper 简单使用,Zookeeper Watch等

浏览(9087)|评论(0)   交流分类:Java|笔记分类: Hadoop实战-初……

评论(0)
请登录后评论 登录

关于我们 | 联系我们 | 用户协议 | 私塾在线服务协议 | 版权声明 | 隐私保护

版权所有 Copyright(C)2009-2012 私塾在线学习网