Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践

Shark迁移到Spark 1.1.0 编程指南

Shark迁移到Spark 1.1.0 编程指南

SQL on Hadoop:场景和结论

SQL on Hadoop:场景和结论

Zookeeper Monitor集群监控开发

Zookeeper Monitor集群监控开发

如何在CDH 5上运行Spark应用程序

如何在CDH 5上运行Spark应用程序

Spark 1.0.1发布了

Java 8的lambda使得编写Spark应用更简单

Java 8的lambda使得编写Spark应用更简单

Spark读取Hbase中的数据

Spark读取Hbase中的数据

下面文章您可能感兴趣

Alluxio 对 Presto 的查询性能加速测试报告

Guava学习之Splitter

Apache Spark 2.4.0 正式发布

[电子书]Mastering Apache Spark下载

WordPress自定义页面(非模版)

在 Presto Iceberg 数据源上使用 Alluxio 缓存

重磅 | HPE 宣布收购 MapR！

Spark MLlib 1.6.1之特征抽取和变换

Flink China社区线下 Meetup·北京站 PPT 资料分享

Spark Checkpoint读操作代码分析

使用idea阅读Kafka源码

Java 8的lambda使得编写Spark应用更简单

Apache Flink 1.3.0正式发布及其新功能介绍

脱离JVM？ Hadoop生态圈的挣扎与演化

Spark优化：禁止应用程序将依赖的Jar包传到HDFS

用分数形式精确表达有理数和循环无理数

避免 Presto 中的数据孤岛：从 Raptor 到 RaptorX 的旅程

Elasticsearch 5.0.0版本新特性介绍

实时数仓在有赞的实践

Akka学习笔记：ActorSystem(调度)

(1)个小伙伴在吐槽

这一点不是很理解，因为shark是内存计算模型，所以hive中部分优化（索引）就没有必要支持。基于内存就不能在扫描全表之前先看索引文件来决定是否加载内存嘛？这是一点。还有就是spark sql已经到了2.4.4了都，现在支持hive部分优化。特指索引这个优化。因为orc压缩格式中的索引提升很大，spark sql不支持太可惜了。
zhaobf2019-09-29 16:19 回复