`
metooxi
  • 浏览: 70811 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hive 中写Transform

 
阅读更多

 

#!/usr/bin/python

#coding:utf8

import sys  

 

for line in sys.stdin:  

    line = line.strip('\n')  

    arr = line.split('\t')  

    arr[1] = arr[1].replace("sutao","biansutao").replace("bian","biansutao")

    print '\t'.join([arr[0],arr[1]])  

 

 

'''

    add file /home/hadoop/demo.py

    select transform(t.id,t.name) using '/usr/bin/python demo.py' as (a int,b string) from test t; 

'''

 

 

'''

ADD FILE mapper.py;

ADD FILE reducer.py;

 

FROM (

    FROM tweets_parsed

    MAP tweets_parsed.time, tweets_parsed.id, tweets_parsed.tweet

    USING 'python mapper.py'

    AS word, count

    CLUSTER BY word) map_output

 

INSERT OVERWRITE TABLE word_count

REDUCE map_output.word, map_output.count

  USING 'python reducer.py'

 

AS word, count;

'''

分享到:
评论

相关推荐

    如何在python中写hive脚本

    主要介绍了如何在python中写hive脚本,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

    部分普通sql查询在hive中的实现方式

    部分普通sql查询在hive中的实现方式详细说明;

    Apache Hive 中文手册_hive_

    Apache Hive 是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供...

    hive修改过的jdbc包,用于显示hive中的中文内容

    如果系统语言不是utf-8的话,通过jdbc调用hive的数据时,中文会是乱码,通过修改jdbc包加上utf8标识后就好了,这个是改好了的包

    Hive中SQL详解

    Hive中SQL详解

    利用Hive进行复杂用户行为大数据分析及优化案例

    04_HIve中的case when、cast及unix_timestamp的使用 05_复杂日志分析-需求分析 06_复杂日志分析-需求字段讲解及过滤 07_复杂日志分析-字段提取及临时表的创建 08_复杂日志分析-指标结果的分析实现 09_Hive中数据文件...

    hive

    hive hive hive hive hive hive hive hive hive hive hive hive

    hive 语句总结

    自己平时用到的hive语句做进一步总结和汇总! 方便我们开发人员开发查阅!

    大数据之Hive官方文档简要翻译(中文文档)

    将官方文档做了简要翻译 ...元数据使用JPOX ORM解决方案(Data Nucleus)持久化,因此它支持的任何数据库都可以被Hive使用。大多数商业关 系数据库和许多开源数据库都受到支持。请参阅下面一节中支持的数据库列表。

    Hive用户指南(Hive_user_guide)_中文版.pdf

    由于 Hive 是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。 因此, Hive 中不支持对数据的改写和添加,所有的数据都是在加载的时候中确定好的。 而数据库中的数据通常是需要经常进行修改的,因此可以...

    Hive3.1.2编译源码

    使用hive3.1.2和spark3.0.0配置hive on spark的时候,发现官方下载的hive3.1.2和spark3.0.0不兼容,hive3.1.2对应的版本是spark2.3.0,而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。 所以,如果想要使用高...

    hive编程指南中文

    《Hive编程指南》是一本Apache Hive的编程指南 旨在介绍如何使用Hive的SQL方法 HiveQL来汇总 查询和分析存储在Hadoop分布式文件系统上的大数据集合 全书通过大量的实例 首先介绍如何在用户环境下安装和配置Hive 并对...

    hive-jdbc hive jdbc驱动

    hive-jdbc

    hive-3.1.1安装包

    Hive也不是分布式计算框架,Hive的核心工作就是把sql语句翻译成MR程序去执行,不用我们再手动去写MapReduce了。 Hive也不提供资源调度系统,默认由Hadoop集群中的YARN集群来调度。 Hive可以将结构化的数据映射为...

    Hive表生成工具,Hive表生成工具Hive表生成工具

    Hive表生成工具,Hive表生成工具Hive表生成工具

    Hive使用手册Hive使用手册

    1 Hive 概念与连接使用: 2 2 Hive支持的数据类型: 2 2.1原子数据类型: 2 2.2复杂数据类型: 2 2.3 Hive类型转换: 3 3 Hive创建/删除数据库 3 3.1创建数据库: 3 3.2 删除数据库: 3 4 Hive 表相关语句 3 4.1 Hive ...

    hive jdbc连接方式加密

    hive权限,通过自定义jar对hive的10000端口进行权限管控,直接放入到hive所在的lib环境下,然后对xml文件进行相应的配置

    注册表文件读写,解析HIVE文件方式

    注册表文件读写,解析HIVE文件方式 NT Registry Hive access library, constants & structures 以直接读写注册表所属文件方式读写注册表,可以避开注册表监控软件. 支持系统:win2ksp4,winxp sp2, winxp sp3

    【63课时完整版】大数据实践HIVE详解及实战

    7.Hive中基本命令的使用 8.Hive中常用的属性配置 9.Hive中常用的交互式命令 10Hive中数据库的管理与使用 11.Hive中表的管理与使用 12.Hive中外部表的使用 第2章:Hive 常用DML、UDF及连接方式 13.Hive中分区表的...

Global site tag (gtag.js) - Google Analytics