Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践
下面文章您可能感兴趣
  • 通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]
  • Spark函数讲解:cache
  • 第四次杭州Spark Meetup活动详情
  • 在Kafka中使用Avro编码消息:Consumer篇
  • Apache Spark 2.4.0 正式发布
  • Spark Streaming kafka实现数据零丢失的几种方式
  • Hive几种数据导出方式
  • Mapreduce程序:从Hadoop1.x升级Hadoop2.x
  • Spark性能优化:shuffle调优
  • Flink Forward 201809PPT资料下载
  • 万亿级大数据监控平台建设实践
  • [电子书]Machine Learning with Spark Second Edition PDF下载
  • HBase MOB(Medium Object)使用入门指南
  • Spark Summit 2016 Europe全部PPT下载[共75个]
  • Flink 1.11 与 Hive 批流一体数仓实践
  • Akka学习笔记:Actor消息处理-请求和响应(2)
  • 为什么不建议在 HBase 中使用过多的列族
  • Spark函数讲解:checkpoint
  • Flink独立集群模式安装(Cluster Standalone)
  • Apache Spark 1.4.1正式发布(稳定版)
  • 发表我的评论
    取消评论

    表情
    本博客评论系统带有自动识别垃圾评论功能,请写一些有意义的评论,谢谢!
    (1)个小伙伴在吐槽
    1. 这一点不是很理解,因为shark是内存计算模型,所以hive中部分优化(索引)就没有必要支持。基于内存就不能在扫描全表之前先看索引文件来决定是否加载内存嘛?这是一点。还有就是spark sql已经到了2.4.4了都,现在支持hive部分优化。特指索引这个优化。因为orc压缩格式中的索引提升很大,spark sql不支持太可惜了。

      zhaobf2019-09-29 16:19 回复