- 浏览: 70815 次
- 性别:
- 来自: 北京
最新评论
文章列表
Hadoop 自动安装脚本
- 博客分类:
- Hadoop
Email:biansutao[@]gmail[DOT]com还不能实现完全自动安装,只能算半自动的。进行交互主要障碍有两点:1. ssh-keygen的时候需要点击回车。2. passwd 需要设置密码 如果谁能解决以上两点,欢迎email给我。
1. 创建目录
public static void main(String[] args) throws IOException{
String hdfsDest = "hdfs://192.168.1.150:9000/tmp/123/321"; // HDFS中存储的文件名
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create(hdfsDest), conf);
fs.mkdirs(new Path(hdfsDest ...
import java.io.BufferedInputStream;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop. ...
HDFS 中读取数据的方法
- 博客分类:
- Hadoop
方法之一: 通过URL
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;
import org.apache.hadoop.io.IOUtils; ...
Hadoop 任务调度
- 博客分类:
- Hadoop
mapred-site.xml 文件
<property>
<name>mapred.jobtracker.taskScheduler</name>
<value>org.apache.hadoop.mapred.FairScheduler</value> // 确保存在此Jar包
</property>
...
Hadoop 运行硬件的选择
- 博客分类:
- Hadoop
Hadoop权威指南上推荐的硬件配置:
CPU:2个四核的 intel Xeon 2.0GHZ
Memory: 8GB ECC RAM
Disk: 4 TB SATA 硬盘
Network:千兆以太网
最少3台 DataNode 节点否则Replication = 3 不能实现。
原创:
第一部分: 如何设置Secondary NameNode节点(单独的)
1. 在masters文件中添加 Secondary节点的主机名。
2. 修改hdfs-default.xml 文件
<property>
<name>dfs.http.address</name>
...
异常信息
2012-03-15 16:52:01,150 WARN org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Checkpoint Period :3600 secs (60 min)
2012-03-15 16:52:01,151 WARN org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Log Size Trigger :67108864 bytes (65536 KB)
2012-03-15 16:57:01,389 ER ...
添加 export HADOOP_HOME_WARN_SUPPRESS=TRUE 到 hadoop-env.sh 中
注意要添加到集群中每一个节点中。
版本:hadoop 0.20.205
原因: Hadoop 在bin/hadoop-config.sh 中对HADOOP_HOME 进行了判断
判断发生的地方:
# the root of the Hadoop installation
export HADOOP_PREFIX=`dirname "$this"`/..
export HADOOP_HOME=${HADOOP_P ...
#!/usr/bin/python
#coding:utf8
import sys
for line in sys.stdin:
line = line.strip('\n')
arr = line.split('\t')
arr[1] = arr[1].replace("sutao","biansutao").replace("bian","biansutao")
print '\t'.join([arr[0],arr[1]])
...
Hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法
1. order by
set hive.mapred.mode=nonstrict; (default value / 默认值)
set hive.mapred.mode=strict;
order by 和数据库中的Order by 功能一致,按照某一项 & 几项 排序输出。
与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下 必须指定 limit 否则执行会报错。
...
在Hive 中如何使用符合数据结构 maps,array,structs
1. Array的使用
创建数据库表,以array作为数据类型
create table person(name string,work_locations array<string>)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
COLLECTION ITEMS TERMINATED BY ',';
数据
biansutao beijing,shanghai,tianjin,hangzhou
linan ch ...
什么是RPC
RPC(Remote Procedure Call) 远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术。RPC假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。
RPC使得开发包括网络分布式程序在内的应用程序更加容易
Hadoop 中的RPC
RPC 分为 Server & Client 两种角色。Server 提供方法调用,Client通过网络来调用Server端的方法,处理返回的数据。
Hadoop 安装配置
- 博客分类:
- Hadoop
主要安装流程和注意事项
红色两天要特别注意
1. 安装JDK,JRE (jdk-7u3-linux-x64.tar.gz) 64位操作系统
2. 设置环境变量JAVA_HOME and PATH (/etc/profile) 对所有用户都生效
JAVA_HOME=/usr/local/jdk1.7.0_03
export JAVA_HOME
PATH=$JAVA_HOME/bin:/opt/hadoop/bin:$PATH
export PATH
如果更改.basrc 文件只会对当前用户生效
3. SSH 无密码访问 (从Nam ...
Hadoop 各参数优化
- 博客分类:
- Hadoop
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>4</value>
</property> // 单机Map端最大可执行的Map任务数
<property>
<name>mapred.tasktracker.reduce.tasks.ma ...