`
metooxi
  • 浏览: 70815 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
Email:biansutao[@]gmail[DOT]com还不能实现完全自动安装,只能算半自动的。进行交互主要障碍有两点:1. ssh-keygen的时候需要点击回车。2. passwd 需要设置密码 如果谁能解决以上两点,欢迎email给我。
1. 创建目录   public static void main(String[] args) throws IOException{ String hdfsDest = "hdfs://192.168.1.150:9000/tmp/123/321"; // HDFS中存储的文件名 Configuration conf = new Configuration(); FileSystem fs =  FileSystem.get(URI.create(hdfsDest), conf); fs.mkdirs(new Path(hdfsDest ...
  import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net.URI;   import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop. ...
方法之一: 通过URL     import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL;   import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.apache.hadoop.io.IOUtils; ...

Hadoop 任务调度

mapred-site.xml 文件                       <property>                         <name>mapred.jobtracker.taskScheduler</name>                         <value>org.apache.hadoop.mapred.FairScheduler</value> // 确保存在此Jar包                 </property>                 ...
Hadoop权威指南上推荐的硬件配置:   CPU:2个四核的 intel Xeon 2.0GHZ    Memory: 8GB ECC RAM   Disk: 4 TB  SATA 硬盘   Network:千兆以太网       最少3台 DataNode 节点否则Replication = 3 不能实现。    
原创:   第一部分: 如何设置Secondary NameNode节点(单独的)   1. 在masters文件中添加 Secondary节点的主机名。    2.  修改hdfs-default.xml  文件           <property>                <name>dfs.http.address</name>     ...
异常信息   2012-03-15 16:52:01,150 WARN org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Checkpoint Period   :3600 secs (60 min) 2012-03-15 16:52:01,151 WARN org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Log Size Trigger    :67108864 bytes (65536 KB) 2012-03-15 16:57:01,389 ER ...
添加   export HADOOP_HOME_WARN_SUPPRESS=TRUE 到 hadoop-env.sh  中   注意要添加到集群中每一个节点中。   版本:hadoop 0.20.205   原因: Hadoop 在bin/hadoop-config.sh 中对HADOOP_HOME 进行了判断   判断发生的地方: # the root of the Hadoop installation export HADOOP_PREFIX=`dirname "$this"`/.. export HADOOP_HOME=${HADOOP_P ...
  #!/usr/bin/python #coding:utf8 import sys     for line in sys.stdin:       line = line.strip('\n')       arr = line.split('\t')       arr[1] = arr[1].replace("sutao","biansutao").replace("bian","biansutao")     print '\t'.join([arr[0],arr[1]])     ...
Hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法 1. order by   set hive.mapred.mode=nonstrict; (default value / 默认值) set hive.mapred.mode=strict;   order by 和数据库中的Order by 功能一致,按照某一项 & 几项 排序输出。   与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下 必须指定 limit 否则执行会报错。       ...
在Hive 中如何使用符合数据结构  maps,array,structs   1. Array的使用   创建数据库表,以array作为数据类型   create table  person(name string,work_locations array<string>) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY ',';   数据   biansutao beijing,shanghai,tianjin,hangzhou linan ch ...
  什么是RPC        RPC(Remote Procedure Call) 远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术。RPC假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。 RPC使得开发包括网络分布式程序在内的应用程序更加容易   Hadoop 中的RPC   RPC 分为 Server & Client 两种角色。Server 提供方法调用,Client通过网络来调用Server端的方法,处理返回的数据。    

Hadoop 安装配置

主要安装流程和注意事项     红色两天要特别注意   1. 安装JDK,JRE  (jdk-7u3-linux-x64.tar.gz) 64位操作系统 2. 设置环境变量JAVA_HOME and PATH (/etc/profile) 对所有用户都生效   JAVA_HOME=/usr/local/jdk1.7.0_03 export JAVA_HOME   PATH=$JAVA_HOME/bin:/opt/hadoop/bin:$PATH export PATH   如果更改.basrc 文件只会对当前用户生效   3. SSH 无密码访问 (从Nam ...

Hadoop 各参数优化

    <property>                         <name>mapred.tasktracker.map.tasks.maximum</name>                         <value>4</value> </property> // 单机Map端最大可执行的Map任务数     <property>                         <name>mapred.tasktracker.reduce.tasks.ma ...
Global site tag (gtag.js) - Google Analytics