|
记笔记 » hadoop的笔记» Hadoop Streaming实战笔记
2012-08-10 15:20:21 Hadoop运行流程分析 交流分类:Java
1. 概述 Hadoop MapReduce基于“分而治之”的思想,将计算任务抽象成map和reduce两个计算过程,计算流程如下: map过程包括: 1). 从磁盘读入数据 2). 运行map任务 3). 写结果到磁盘 reduce过程包括: 1). shuffle&sort 2). 运行redu……
浏览(2179)|评论 (0)|笔记分类 Hadoop Streaming实战
2012-08-10 15:17:46 Hadoop Streaming 实战: c++编写map&reduce程序 交流分类:Java
1. 输入文件: 姓名 年龄(以'/t’分割) eg: 张三 15 李四 15 张三 16 张三 15 输出:将姓名和年龄相同的归一,并输出其人数 eg:上述输入,输出为: 姓名 年龄 人数(以'/t’分割) 张三 15 2 李四 15 1 张三 16 1 ……
浏览(2359)|评论 (0)|笔记分类 Hadoop Streaming实战
2012-08-10 15:15:38 Hadoop Streaming 实战: grep 交流分类:Java
streaming支持shell 命令的使用。但是,需要注意的是,对于多个命令,不能使用形如cat; grep 之类的多命令,而需要使用脚本,后面将具体介绍。 下面示例用grep检索巨量数据: 1. 待检索的数据放入hdfs $ hadoop fs -put localfi……
浏览(5615)|评论 (0)|笔记分类 Hadoop Streaming实战
2012-08-10 15:15:21 Hadoop客户端环境配置 交流分类:Java
1. 安装客户端(通过端用户可以方便的和集群 交互) 2. 修改客户端~/.bashrc alias hadoop='/home/work/hadoop/client/hadoop-client/hadoop/bin/hadoop' #hadoop 可执行文件位置 alias hls='hado……
浏览(9841)|评论 (0)|笔记分类 Hadoop Streaming实战
2012-08-10 15:14:30 Hadoop Streaming 交流分类:Java
Hadoop MapReduce和HDFS采用Java实现,默认提供Java编程接口,另外提供了C++编程接口和Streaming框架。Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。 Streaming的原理是用Java……
浏览(9800)|评论 (0)|笔记分类 Hadoop Streaming实战
2012-08-10 15:13:18 Hadoop MapReduce 交流分类:Java
Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题,可以使没有并行处理或者分布式计算经验的工程师,也能很轻松地写出结构简单的、应用于成百上千台机器处理大规模数据的并行分布式程序。 Hadoop MapRedu……
浏览(4089)|评论 (0)|笔记分类 Hadoop Streaming实战
2012-08-10 15:11:45 Map-Reduce简介 交流分类:Java
MapReduce是一种编程模型,始于:Dean, Jeffrey & Ghemawat, Sanjay (2004). "MapReduce: Simplified Data Processing on Large Clusters"。主要应用于大规模数据集的并行运算。其将并行计算简化……
浏览(2157)|评论 (0)|笔记分类 Hadoop Streaming实战
|