Pig和Hive的区别

2015-02-09 walter lee 更多博文 » 博客 » GitHub »

原文链接 http://www.xiangguo.li/big-data-base/2015/02/09/pighive
注：以下为加速网络访问所做的原文缓存，经过重新格式化，可能存在格式方面的问题，或偶有遗漏信息，请以原文为准。

{% include JB/setup %}

对于开发人员，直接使用Java APIs可能是乏味或容易出错的，同时也限制了Java程序员在Hadoop上编程的运用灵活性。于是Hadoop提供了两个解决方案，使得Hadoop编程变得更加容易。

Pig

一个Pig Latin程序是相对于输入的一步步操作。其中每一步都是对数据的一个简单的变换。用Pig Latin编程更像在RDBMS中“查询规划器”（query planner）这一层对数据进行操作，查询规划器决定了如何将描述型语句转化为一系列系统化执行的步骤。 Pig对它所处理的数据要求则宽松得多；可以在运行时定义模式，而且这是可选的。本质上，Pig可以在任何来源的元组上进行操作。（当然数据源必须支持并行的读操作，例如存放在多个文件中）。它使用UDF（User define feature）从原始格式中读取元组。最常用的输入格式使用制表符分隔的字段组成的文本文件。Pig为这种输入提供了内置加载函数。和传统的数据库不同，Pig并不提供专门的数据导入过程将数据加载到RDBMS。在第一步处理中，数据是从文件系统（通常是HDFS中加载的）。 Pig对复杂、嵌套数据结构的支持也使其不同于处理平面数据类型的SQL。Pig的语言能和UDF及流式操作紧密集成。它的这一能力及其嵌套数据结构，使Pig Latin比大多数SQL的变种具有更强的定制能力。

Hive

HIVE介于Pig和传统的RDBMS之间，和Pig一样，Hive也被设计为HDFS作为存储，但是他们之间有着显著的区别。Hive的查询语言HiveQL，是基于SQL的。任何熟悉SQL的人都可以轻松使用HiveQL写查询。和RDBMS相同。Hive要求所有数据必须存储在表中，表必须有模式，而模式由Hive进行管理。但是Hive允许为预先存在于HDFS的数据关联一个模式。所以，数据的加载步骤是可选的。

So

Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。
Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS（hive superimposes structure on data in HDFS），并允许使用类似于SQL语法进行数据查询。与Pig一样，Hive的核心功能是可扩展的。 Hive更适合于数据仓库的任务，Hive主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。Pig赋予开发人员在大数据集领域更多的灵活性，并允许开发简洁的脚本用于转换数据流以便嵌入到较大的应用程序。Pig相比Hive相对轻量，它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量。
结论性的阅读感觉是：Pig用来写一些即时脚本吧，比如领导问你要份数据，半个小时要出来之类；Hive嘛，就是一个产品经理过来，问这个啥回事?于是你Hive一下，一个简洁的类SQL语句...Done！

参考：http://book.douban.com/annotation/17153277