从 Hive 迁移到 Spark SQL 在有赞的实践

有赞数据平台从2017年上半年开始，逐步使用 SparkSQL 替代 Hive 执行离线任务，目前 SparkSQL 每天的运行作业数量5000个，占离线作业数目的55%，消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验和优化建议，包括以下方面的内容：有赞数据平台的整体架构。SparkSQL 在有赞的技术演进

w397090770 6年前 (2019-03-20) 8280℃ 5评论29喜欢

ElasticSearch

　　本系列文章将展示ElasticSearch中23种非常有用的查询使用方法。由于篇幅原因，本系列文章分为六篇，本文是此系列的第二篇文章。欢迎关注大数据技术博客微信公共账号:iteblog_hadoop。《23种非常有用的ElasticSearch查询例子(1)》《23种非常有用的ElasticSearch查询例子(2)》《23种非常有用的ElasticSearch查询例子(3)》《23种非常有用

w397090770 8年前 (2016-08-16) 5588℃ 0评论6喜欢

ElasticSearch

ElasticSearch系列文章：基本介绍

　　ElasticSearch是一个基于Lucene构建的开源的分布式搜索和分析引擎，具备高可靠性和扩展性。它允许你快速准实时存储，搜索和分析海量数据。它通常作为底层引擎/计算来驱动企业级复杂搜索特性和需求。　　下面列举一些使用ElasticSearch的应用场景：　　1、运行一个在线的网店，你允许客户能够去搜索你销售的商品。在这

w397090770 8年前 (2016-08-09) 2194℃ 0评论3喜欢

Spark

Apache Spark常见的三大误解

最近几年关于Apache Spark框架的声音是越来越多，而且慢慢地成为大数据领域的主流系统。最近几年Apache Spark和Apache Hadoop的Google趋势可以证明这一点：如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop上图已经明显展示出最近五年，Apache Spark越来越受开发者们的欢迎，大家通过Google搜索更多关

w397090770 8年前 (2017-04-12) 6682℃ 0评论46喜欢

Node.js

Ubuntu/Debian上安装Node.js和npm

　　本文仅仅是简单地介绍如何在Ubuntu/Debian系统上安装Node.js（任何版本）和npm（Node Package Manager的简写），其他类Linux系统安装步骤和这个类似。　　一、更新你的系统[code lang="bash"]iteblog# sudo apt-get updateiteblog# sudo apt-get install git-core curl build-essential openssl libssl-dev[/code]　　二、安装Node.js　　首先我们先从github上将Node

w397090770 10年前 (2015-04-11) 27768℃ 0评论22喜欢

nginx

Nginx：504 Gateway Time-out解决

　　如果你使用Nginx web server，你可能在访问你网站的时候出现了504 Gateway Time-out错误，这个错误代码很常见，这可能是因为超过了PHP的最大执行时间的限制或者是FastCGI读超时。这篇文章将向大家展示如何解决Nginx的504 gateway timeout的问题。一、修改php.ini文件　　下面都是以CentOS服务器为例进行介绍，如果你是CentOS，那么可以直

w397090770 9年前 (2015-08-18) 19826℃ 2评论16喜欢

Flume

Flume-0.9.4和Hbase-0.96整合(1)

　　这几天由于项目的需要，需要将Flume收集到的日志插入到Hbase中，有人说，这不很简单么？Flume里面自带了Hbase sink，可以直接调用啊，还用说么？是的，我在本博客的《Flume-1.4.0和Hbase-0.96.0整合》文章中就提到如何用Flume和Hbase整合，从文章中就看出整个过程不太复杂，直接做相应的配置就行了。那么为什么今天还要特意提一下Flum

w397090770 11年前 (2014-01-27) 5148℃ 1评论1喜欢

Spark

四种解决Spark数据倾斜（Data Skew）的方法

本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。为何要处理数据倾斜（Data Skew）什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。何谓数据倾

w397090770 8年前 (2017-03-07) 13336℃ 2评论27喜欢

Spark

Spark 2.0介绍：Spark SQL中的Time Window使用

　　《Spark 2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的发展奠定了方向，所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列

w397090770 8年前 (2016-07-12) 9787℃ 4评论11喜欢

Kafka

几种常见的 Kafka 集群监控工具

一个功能健全的kafka集群可以处理相当大的数据量，由于消息系统是很多大型应用的基石，因此broker集群在性能上的缺陷，都会引起整个应用栈的各种问题。Kafka的度量指标主要有以下三类：1.Kafka服务器（Kafka）指标2.生产者指标3.消费者指标另外，由于Kafka的状态靠Zookeeper来维护，对于Zookeeper性能的监控也成为了整个Ka

zz~~ 3年前 (2022-05-01) 1347℃ 0评论0喜欢

CarbonData

Apache CarbonData 中文文档

Apache CarbonData 是一种新的融合存储解决方案，利用先进的列式存储，索引，压缩和编码技术提高计算效率，从而加快查询速度，其查询速度比 PetaBytes 数据快一个数量级。鉴于目前使用 Apache CarbonData 用户越来越多，其中就包含了大量的中国用户，这些中国用户可能有很多人英文不是特别好，或者没那么多时间去看英文文档。基于

w397090770 7年前 (2018-05-09) 10796℃ 0评论22喜欢

Spark

Spark快速入门指南(Quick Start Spark)

　　这个文档只是简单的介绍如何快速地使用Spark。在下面的介绍中我将介绍如何通过Spark的交互式shell来使用API。Basics　　Spark shell提供一种简单的方式来学习它的API，同时也提供强大的方式来交互式地分析数据。Spark shell支持Scala和Python。可以通过以下方式进入到Spark shell中。[code lang="JAVA"]# 本文原文地址：https://www.iteblog.com/ar

w397090770 11年前 (2014-06-10) 77091℃ 26评论156喜欢

Flink

Flink：Scala Shell使用指南

　　Flink内置支持交互式的Scala Shell，我们既可以在本地安装模式下或者集群模式下运行它。我们可以通过下面的命令在单机模式下启动Shell:[code lang="scala"]bin/start-scala-shell.sh local[/code]同样，我们可以通过启动Shell时指定remote参数，并提供JobManager的hostname和port等信息，如下：[code lang="scala"]bin/start-scala-shell.sh remote <hostnam

w397090770 9年前 (2016-04-26) 6318℃ 0评论4喜欢

Flink

Apache Flink 1.3.0正式发布及其新功能介绍

下面文档是今天早上翻译的，因为要上班，时间比较仓促，有些部分没有翻译，请见谅。2017年06月01日儿童节 Apache Flink 社区正式发布了 1.3.0 版本。此版本经历了四个月的开发，共解决了680个issues。Apache Flink 1.3.0 是 1.x.y 版本线上的第四个主要版本，其 API 和其他 1.x.y 使用 @Public 注释的API是兼容的。此外，Apache Flink 社区目前制

w397090770 8年前 (2017-06-01) 2598℃ 1评论10喜欢

Scala

Get Programming with Scala 下载

《Get Programming with Scala》于2021年7月由 Manning 出版，ISBN 为 9781617295270 全书共 560 页。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop图书介绍The perfect starting point for your journey into Scala and functional programming.In Get Programming in Scala you will learn:Object-oriented principles in ScalaExpress program designs in fun

w397090770 3年前 (2021-08-30) 348℃ 0评论4喜欢

Flume

Flume-0.9.4配置Hbase sink

　　在本博客的《Flume-1.4.0和Hbase-0.96.0整合》我们已经学习了如何使用Flume-1.4.0和Hbase-0.96.0进行整合。我们可以很容易的配置Hbase sink，并和最新版的Hbase整合，但是由于项目的特殊情况，我需要将Flume-0.9.4和Hbase-0.96整合，搞过这个的人应该知道，Flume-0.9.4和Hbase-0.96非常棘手，各种版本的不兼容等情况，最终通过我和同事的两天奋战

w397090770 11年前 (2014-01-25) 7175℃ 1评论2喜欢

Data + AI Summit

Data + AI Summit 2021 全部超清 PPT 下载

Data + AI Summit 2021 于2021年05月24日至28日举行。本次会议是在线举办的，一共为期五天，第一、二天是培训，第三天到第五天是正式会议。本次会议有超过200个议题，演讲嘉宾包括业界、研究和学术界的专家，会议涵盖来自从业者的技术内容，他们将使用 Apache Spark™、Delta Lake、MLflow、Structured Streaming、BI和SQL分析、深度学习和机器学习

w397090770 3年前 (2021-06-20) 1548℃ 0评论3喜欢

开源软件

Apache SystemML：为大数据优化的声明式机器学习平台

Apache SystemML 是由 IBM 开发并开源的优化大数据机器学习平台，为使用大数据的机器学习提供了最佳的工作场所。它可以在 Apache Spark上运行，会自动缩放数据，逐行确定代码是否应在驱动程序或 Apache Spark 群集上运行。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoopSystemML 是声明式机器

w397090770 7年前 (2018-01-07) 1612℃ 0评论9喜欢

Spark

Spark Summit North America 201806 全部PPT下载[共147个]

为期三天的 Spark Summit 在美国时间 2018-06-04 ~ 06-06 于旧金山的 Moscone Center 举行，不少人已经注意到，今年的会议已经更名为 Spark+AI, 去年 12 月份时，Databricks 在他们的博客中就已经提到过，2018 年的会议将包括更多人工智能的内容，某种意义上也代表着 Spark 未来的发展方向。作为大数据领域的顶级会议，Spark Summit 2018 吸引了全球近 200

w397090770 6年前 (2018-06-18) 3635℃ 0评论14喜欢

API

过往记忆博客免费手机归属地API

本博客收集的手机号段截止时间为2020年03月的，共计450000+条。包含以下字段：电信：133 153 173(新) 177 (新) 180 181 189 199 (新)移动：134 135 136 137 138 139 150 151 152 157 158 159 172(新) 178(新) 182 183 184 187 188 198(新) 联通：130 131 132 155 156 166(新) 175(新) 176(新) 185 186数据卡：145 147 149其他：170(新) 171 (新)API地址/api/mobile.php使用本AP

w397090770 8年前 (2016-08-02) 5081℃ 0评论15喜欢

Cassandra

欢迎加入中国 Cassandra 技术社区

Apache Cassandra 是一个开源的、分布式、无中心、弹性可扩展、高可用、容错、一致性可调、面向行的数据库，它基于 Amazon Dynamo 的分布式设计和 Google Bigtable 的数据模型，由 Facebook 创建，在一些最流行的网站中得到应用。更多特点请参见一篇文章了解 Apache Cassandra 是什么。由于 Cassandra 数据库的众多优点，在国内外多达 1500+ 家公

w397090770 6年前 (2019-05-08) 1785℃ 0评论5喜欢

Java

Intellij IDEA 中 Java Language Level 设置

最近使用 Intellij IDEA 打开之前写的 HBase 工程代码，发现里面有个语法错误，但之前都没问题。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop后面发现，不管你使用的 JDK 是什么版本（我这里用的是 JDK 1.8），Intellij IDEA 设置的 Language Level 都是 1.5，如下：如果想及时了解Spark、Hadoop或者Hbase

w397090770 6年前 (2018-07-12) 6106℃ 0评论4喜欢

wordpress开发

WordPress获取文章附件(多媒体)

　　在Wordpress后台里面有个选项是多媒体->媒体库里面显示的是所有文章的附件，包括了图片、视频、文件等。我们在开发Wordpress的时候，有时候需要列出文章中相应的附件，可以通过下面的方式来解决：[code lang="php"]$args = array(　　'caller_get_posts' => 1,　　'paged' => $paged);query_posts($args);if ( have_posts() ) : while ( have_posts

w397090770 10年前 (2014-11-10) 6651℃ 1评论6喜欢

Spark

Spark Summit East 2017高清视频和PPT下载

　　Spark Summit East 2017会议于2017年2月07日到09日在波士顿进行，本次会议有来自工业界的上百位Speaker；官方日程：https://spark-summit.org/east-2017/schedule/。　　目前本站昨晚已经把里面的85（今天早上发现又上传了25个视频，晚上我补全）个视频全部从Youtube下载下来，已经上传到百度网盘（访问https://github.com/397090770/spark-summit-east-2017获

w397090770 8年前 (2017-02-15) 2799℃ 0评论15喜欢

Shark

Shark 0.9.1安装遇到的问题及解决办法

这几天在集群上部署了Shark 0.9.1，我下载的是已经编译好的，Hadoop版本是2.2.0，下面就总结一下我在安装Shark的过程中遇到的问题及其解决方案。一、YARN mode not available ?[code lang="JAVA"]Exception in thread "main" org.apache.spark.SparkException: YARN mode not available ? at org.apache.spark.SparkContext$.org$apache$spark$SparkContext$$createTaskScheduler(SparkContext.

w397090770 11年前 (2014-05-05) 16065℃ 3评论4喜欢

Spark

[电子书]Apache Spark 2 for Beginners pdf下载

　　本书由Packt出版，2016年10月发行，全书共332页。从标题可以看出这本书是适用于初学者的，全书的例子有Scala和Python两个版本，涵盖了Spark基础、编程模型、SQL、Streaming、机器学习以及图计算等知识。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop本书的章节如下：[code lang="bash"]Chapter 1:

w397090770 8年前 (2016-10-24) 5887℃ 0评论8喜欢

Tachyon

Tachyon 0.7.0伪分布式集群安装与测试

　　我们先来看看官方文档是怎么对Tachyon进行描述的：Tachyon is a memory-centric distributed storage system enabling reliable data sharing at memory-speed across cluster frameworks, such as Spark and MapReduce. It achieves high performance by leveraging lineage information and using memory aggressively. Tachyon caches working set files in memory, thereby avoiding going to disk to load datasets that are frequently

w397090770 9年前 (2015-08-27) 3184℃ 4评论2喜欢

Kafka

Apache kafka入门篇:工作原理简介

消息队列　　消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列，应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中，为了集成分布式应用，开发者需要对异构网络环

w397090770 9年前 (2015-08-11) 8116℃ 2评论17喜欢

算法

C++函数前和函数后加const修饰符区别

c++中关于const的用法有很多，const既可以修饰变量，也可以函数，不同的环境下，是有不同的含义。今天来讲讲const加在函数前和函数后面的区别。比如：[code lang="CPP"]#include<iostream>using namespace std;// Ahthor: 过往记忆// E-mail: wyphao.2007@163.com// Blog: // 转载请注明出处class TestClass {public: size_t length() const; const char* ge

w397090770 12年前 (2013-04-05) 25036℃ 1评论55喜欢