Fork me on GitHub

Hive 学习笔记

【文件存储格式】
在建表语句中通过” STORED AS FILE_FORMAT” 指定。

  • TEXTFILE:默认格式,数据不做压缩,磁盘开销大,数据解析开销大,结合Gzip/Bizp2使用,采用此种方式不支持对数据进行切分,从而无法实现数据的并行操作。
  • SEQUENCEFILE:Hadoop API提供的一种二进制文件,使用方便,支持数据切分与压缩。有三种压缩方式,NONE,RECORD(压缩率低)、BLOCK(推荐使用)。
  • RCFILE:一种行列存储相结合的方式。首先将数据按行分块,保证同一行记录在同一个块上;其次将块数据进行行列式存储,这样有利于数据压缩和快速的列存储。采用这种格式在数据加载时耗费的性能较大,但是具备较好的数据压缩比和查询响应,在一次写入多次读取的场景下推荐采用。
  • 自定义格式:当用户的数据文件格式不能被Hive识别时,通过实行InputFormat和OutputFormat来自定义输入输出格式。
-------------本文结束感谢您的阅读-------------

本文标题:Hive 学习笔记

文章作者:ElwinHe

发布时间:2017年10月08日 - 11:10

最后更新:2018年01月08日 - 22:01

原始链接:http://www.elwinhe.xyz/blog/7ed447e8.html

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。