Hadoop 自动安装脚本

博客分类：

Hadoop

Email:biansutao[@]gmail[DOT]com还不能实现完全自动安装，只能算半自动的。进行交互主要障碍有两点：1. ssh-keygen的时候需要点击回车。2. passwd 需要设置密码如果谁能解决以上两点，欢迎email给我。

2012-05-08 16:57
浏览 1894
评论(0)
分类:开源软件

1. 创建目录 public static void main(String[] args) throws IOException{ String hdfsDest = "hdfs://192.168.1.150:9000/tmp/123/321"; // HDFS中存储的文件名 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(URI.create(hdfsDest), conf); fs.mkdirs(new Path(hdfsDest ...

2012-04-13 14:47
浏览 714
评论(0)
分类:开源软件

HDFS 中写入数据

import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop. ...

2012-04-13 14:43
浏览 2168
评论(0)
分类:开源软件

HDFS 中读取数据的方法

博客分类：

Hadoop

方法之一：通过URL import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.apache.hadoop.io.IOUtils; ...

2012-04-13 13:53
浏览 1618
评论(0)
分类:开源软件

Hadoop 任务调度

博客分类：

Hadoop

mapred-site.xml 文件 <property> <name>mapred.jobtracker.taskScheduler</name> <value>org.apache.hadoop.mapred.FairScheduler</value> // 确保存在此Jar包 </property> ...

2012-03-30 14:52
浏览 1433
评论(0)
分类:开源软件

Hadoop 运行硬件的选择

博客分类：

Hadoop

Hadoop权威指南上推荐的硬件配置： CPU：2个四核的 intel Xeon 2.0GHZ Memory: 8GB ECC RAM Disk: 4 TB SATA 硬盘 Network：千兆以太网最少3台 DataNode 节点否则Replication = 3 不能实现。

2012-03-16 11:16
浏览 1076
评论(0)
分类:开源软件

如何配置Hadoop的 Secondary节点 & NameNode节点失效恢复

博客分类：

Hadoop

原创：第一部分：如何设置Secondary NameNode节点（单独的） 1. 在masters文件中添加 Secondary节点的主机名。 2. 修改hdfs-default.xml 文件 <property> <name>dfs.http.address</name> � ...

2012-03-16 09:58
浏览 4717
评论(0)
分类:开源软件

Hadoop SecondaryNameNode 异常

博客分类：

Hadoop

异常信息 2012-03-15 16:52:01,150 WARN org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Checkpoint Period :3600 secs (60 min) 2012-03-15 16:52:01,151 WARN org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Log Size Trigger :67108864 bytes (65536 KB) 2012-03-15 16:57:01,389 ER ...

2012-03-15 17:21
浏览 1910
评论(0)
分类:开源软件

Warning: $HADOOP_HOME is deprecated. 关闭

博客分类：

Hadoop

添加 export HADOOP_HOME_WARN_SUPPRESS=TRUE 到 hadoop-env.sh 中注意要添加到集群中每一个节点中。版本：hadoop 0.20.205 原因： Hadoop 在bin/hadoop-config.sh 中对HADOOP_HOME 进行了判断判断发生的地方： # the root of the Hadoop installation export HADOOP_PREFIX=`dirname "$this"`/.. export HADOOP_HOME=${HADOOP_P ...

2012-03-15 16:02
浏览 6003
评论(0)
分类:开源软件

Hive 中写Transform

#!/usr/bin/python #coding:utf8 import sys for line in sys.stdin: line = line.strip('\n') arr = line.split('\t') arr[1] = arr[1].replace("sutao","biansutao").replace("bian","biansutao") print '\t'.join([arr[0],arr[1]]) ...

2012-03-09 18:05
浏览 5299
评论(0)
分类:开源软件

Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by, Cluster By,

博客分类：

Hadoop

Hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法 1. order by set hive.mapred.mode=nonstrict; (default value / 默认值) set hive.mapred.mode=strict; order by 和数据库中的Order by 功能一致，按照某一项 & 几项排序输出。与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下必须指定 limit 否则执行会报错。 ...

2012-03-09 12:43
浏览 19158
评论(0)
分类:开源软件

Hadoop Hive 复合数据结构Array,Struct,Maps

博客分类：

Hadoop

在Hive 中如何使用符合数据结构 maps，array，structs 1. Array的使用创建数据库表，以array作为数据类型 create table person(name string,work_locations array<string>) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY ','; 数据 biansutao beijing,shanghai,tianjin,hangzhou linan ch ...

2012-03-07 16:43
浏览 5020
评论(0)
分类:开源软件

Hadoop RPC 机制和流程和实现

博客分类：

Hadoop，RPC

什么是RPC RPC(Remote Procedure Call) 远程过程调用，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术。RPC假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。 RPC使得开发包括网络分布式程序在内的应用程序更加容易 Hadoop 中的RPC RPC 分为 Server & Client 两种角色。Server 提供方法调用，Client通过网络来调用Server端的方法，处理返回的数据。

2012-03-01 18:40
浏览 1383
评论(0)
分类:开源软件

Hadoop 安装配置

博客分类：

Hadoop

主要安装流程和注意事项红色两天要特别注意 1. 安装JDK，JRE (jdk-7u3-linux-x64.tar.gz) 64位操作系统 2. 设置环境变量JAVA_HOME and PATH (/etc/profile) 对所有用户都生效 JAVA_HOME=/usr/local/jdk1.7.0_03 export JAVA_HOME PATH=$JAVA_HOME/bin:/opt/hadoop/bin:$PATH export PATH 如果更改.basrc 文件只会对当前用户生效 3. SSH 无密码访问 (从Nam ...

2012-03-01 16:27
浏览 1109
评论(0)
分类:开源软件

Hadoop 各参数优化

博客分类：

Hadoop

<property> <name>mapred.tasktracker.map.tasks.maximum</name> <value>4</value> </property> // 单机Map端最大可执行的Map任务数 <property> <name>mapred.tasktracker.reduce.tasks.ma ...

2012-03-01 11:18
浏览 1300
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop 自动安装脚本

HDFS 中的其他操作

HDFS 中写入数据

HDFS 中读取数据的方法

Hadoop 任务调度

Hadoop 运行硬件的选择

如何配置Hadoop的 Secondary节点 & NameNode节点失效恢复

Hadoop SecondaryNameNode 异常

Warning: $HADOOP_HOME is deprecated. 关闭

Hive 中写Transform

Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by, Cluster By,

Hadoop Hive 复合数据结构Array,Struct,Maps

Hadoop RPC 机制和流程和实现

Hadoop 安装配置

Hadoop 各参数优化

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>