SET spark.sql.shuffle.partitions=10; SELECT page, count(*) c FROM logs_last_month_cached GROUP BY page ORDER BY c DESC LIMIT 10;

　　当然，你也可以在hive-site.xml中进行设置来覆盖默认的值。目前，mapred.reduce.tasks属性仍然可以使用，在Spark内部，它被自动地转换成spark.sql.shuffle.partitions了。
　　

二、Caching

shark.cache表属性不再可用，而且以_cached结尾的表格不再自动被缓存。在Spark 1.1.0中提供了CACHE TABLE 和 UNCACHE TABLE语句让用户显示的控制表的缓存。如下：

CACHE TABLE logs_last_month; 
UNCACHE TABLE logs_last_month;

　　需要注意的是，CACHE TABLE logs是lazy的，它只在需要缓存的时候才进行缓存。也就是直到触发了一次查询才进行缓存。为了让强制缓存，你可以在CACHE TABLE之后COUNT一下表格即可强制缓存，如下：

CACHE TABLE logs_last_month; 
SELECT COUNT(1) FROM logs_last_month;

　　另外，目前需要缓存相关的特性还不提供支持，主要包括如下：
1、User defined partition level cache eviction policy
2、RDD reloading
3、In-memory cache write through policy
更多的关于Shark迁移知识请参见官方文档。

本博客文章除特别声明，全部都是原创！
原创文章版权归过往记忆大数据（过往记忆）所有，未经许可不得转载。
本文链接: 【Shark迁移到Spark 1.1.0 编程指南】（https://www.iteblog.com/archives/1116.html）

图文介绍 Presto + Velox 整合

图文介绍 Presto + Velox 整合

Velox 介绍：一个开源的统一执行引擎

Velox 介绍：一个开源的统一执行引擎

Presto 里面如何把 array 或 Map 里面的元素由行转成列

Presto 里面如何把 array 或 Map 里面的元素由行转成列

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 超清视频下载

Data + AI Summit 2022 超清视频下载

历时一年 Apache Spark 3.3.0 正式发布，新特性详解

历时一年 Apache Spark 3.3.0 正式发布，新特性详解

Spark Structured Streaming 2021年最新进展的总结

Spark Structured Streaming 2021年最新进展的总结

Portable UDF：Facebook 工程师为了解决不同计算引擎 UDF 统一的项目

Portable UDF：Facebook 工程师为了解决不同计算引擎 UDF 统一的项目

下面文章您可能感兴趣

北京第六次Spark meetup会议资料分享

Scala:Zip函数族详解

Spark Summit East 2016视频百度网盘免费下载

基于Spark的公安大数据实时运维技术实践

Flink China社区线下 Meetup·北京站 PPT 资料分享

运行Hbase作业出现cannot access its superclass com.google.protobuf.LiteralByteString异常解决

Guava学习之Lists

Apache Zeppelin使用入门指南：添加外部依赖

Hadoop&Spark解决二次排序问题(Spark篇)

为WordPress的suffusion主题添加文章浏览次数

为了让你更全面的了解Apache HBase，我们做了这本专刊

Kafka 是如何保证数据可靠性和一致性

Starburst 性能白皮书一 - Presto CBO 优化

Spark Python API函数学习：pyspark API(2)

Hive和HBase整合用户指南

Apache Kafka 2.0.0 正式发布，多项重要功能更新

[电子书]High Performance Spark下载

Tachyon 0.7.0伪分布式集群安装与测试

Hadoop元数据合并异常及解决方法

上海(Shanghai) Apache Spark Meetup第十四次聚会

(2)个小伙伴在吐槽

博主更新速度好快啊，还没发不出来就已经出文章了！！
412554112014-09-13 10:54 回复