Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践

Shark迁移到Spark 1.1.0 编程指南

Shark迁移到Spark 1.1.0 编程指南

SQL on Hadoop:场景和结论

SQL on Hadoop:场景和结论

Zookeeper Monitor集群监控开发

Zookeeper Monitor集群监控开发

如何在CDH 5上运行Spark应用程序

如何在CDH 5上运行Spark应用程序

Spark 1.0.1发布了

Java 8的lambda使得编写Spark应用更简单

Java 8的lambda使得编写Spark应用更简单

Spark读取Hbase中的数据

Spark读取Hbase中的数据

下面文章您可能感兴趣

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]

Spark函数讲解：cache

第四次杭州Spark Meetup活动详情

在Kafka中使用Avro编码消息：Consumer篇

Apache Spark 2.4.0 正式发布

Spark Streaming kafka实现数据零丢失的几种方式

Hive几种数据导出方式

Mapreduce程序：从Hadoop1.x升级Hadoop2.x

Spark性能优化：shuffle调优

Flink Forward 201809PPT资料下载

万亿级大数据监控平台建设实践

[电子书]Machine Learning with Spark Second Edition PDF下载

HBase MOB（Medium Object）使用入门指南

Spark Summit 2016 Europe全部PPT下载[共75个]

Flink 1.11 与 Hive 批流一体数仓实践

Akka学习笔记：Actor消息处理-请求和响应(2)

为什么不建议在 HBase 中使用过多的列族

Spark函数讲解：checkpoint

Flink独立集群模式安装(Cluster Standalone)

Apache Spark 1.4.1正式发布(稳定版)

(1)个小伙伴在吐槽

这一点不是很理解，因为shark是内存计算模型，所以hive中部分优化（索引）就没有必要支持。基于内存就不能在扫描全表之前先看索引文件来决定是否加载内存嘛？这是一点。还有就是spark sql已经到了2.4.4了都，现在支持hive部分优化。特指索引这个优化。因为orc压缩格式中的索引提升很大，spark sql不支持太可惜了。
zhaobf2019-09-29 16:19 回复