Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践
下面文章您可能感兴趣
  • Alluxio 对 Presto 的查询性能加速测试报告
  • Guava学习之Splitter
  • Apache Spark 2.4.0 正式发布
  • [电子书]Mastering Apache Spark下载
  • WordPress自定义页面(非模版)
  • 在 Presto Iceberg 数据源上使用 Alluxio 缓存
  • 重磅 | HPE 宣布收购 MapR!
  • Spark MLlib 1.6.1之特征抽取和变换
  • Flink China社区线下 Meetup·北京站 PPT 资料分享
  • Spark Checkpoint读操作代码分析
  • 使用idea阅读Kafka源码
  • Java 8的lambda使得编写Spark应用更简单
  • Apache Flink 1.3.0正式发布及其新功能介绍
  • 脱离JVM? Hadoop生态圈的挣扎与演化
  • Spark优化:禁止应用程序将依赖的Jar包传到HDFS
  • 用分数形式精确表达有理数和循环无理数
  • 避免 Presto 中的数据孤岛:从 Raptor 到 RaptorX 的旅程
  • Elasticsearch 5.0.0版本新特性介绍
  • 实时数仓在有赞的实践
  • Akka学习笔记:ActorSystem(调度)
  • 发表我的评论
    取消评论

    表情
    本博客评论系统带有自动识别垃圾评论功能,请写一些有意义的评论,谢谢!
    (1)个小伙伴在吐槽
    1. 这一点不是很理解,因为shark是内存计算模型,所以hive中部分优化(索引)就没有必要支持。基于内存就不能在扫描全表之前先看索引文件来决定是否加载内存嘛?这是一点。还有就是spark sql已经到了2.4.4了都,现在支持hive部分优化。特指索引这个优化。因为orc压缩格式中的索引提升很大,spark sql不支持太可惜了。

      zhaobf2019-09-29 16:19 回复