Apache Spark 3.1 中 Structured Streaming 方面的改进

Apache Spark 3.1.x 版本发布到现在已经过了两个多月了，这个版本继续保持使得 Spark 更快，更容易和更智能的目标，Spark 3.1 的主要目标如下：提升了 Python 的可用性；加强了 ANSI SQL 兼容性；加强了查询优化；Shuffle hash join 性能提升；History Server 支持 structured streaming更多详情请参见这里。在这篇博文中，我们总结了3.1版本中

w397090770 3年前 (2021-05-16) 744℃ 0评论3喜欢

招聘

【阿里云】数据湖分析DLA 招聘-平台研发技术专家

数据湖分析Data Lake Analytics是阿里云数据库自研的云原生数据湖分析系统，目前已有数千企业在使用，是阿里云库、仓、湖战略高地之一 !!!现紧急招聘【数据湖平台工程师】产品链接：https://www.aliyun.com/product/datalakeanalytics !!!如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop团队内部拥有多

w397090770 4年前 (2020-05-22) 916℃ 0评论1喜欢

[电子书]Learning Real-time Processing with Spark Streaming PDF下载

　　通过使用易于理解的实例，本书将教你如何使用Spark Streaming构建实时应用程序。从安装和设置所需的环境开始，您将编写并执行第一个程序Spark Streaming。接下来将探讨Spark Streaming的架构和组件以及概述Spark公开的库/函数的。接下来，您将通过处理分布式日志文件的用例来了解有关Spark中的各种客户端API编码。然后，您将学习到各

w397090770 8年前 (2017-02-12) 3107℃ 0评论6喜欢

nginx

nginx: if逻辑运算(&&,||)实现

　　今天我想开通博客的二级域名(http://download.iteblog.com/)，然后在nginx配置文件里面配置好了。那个域名可以正常访问，但是如果用户输入了http://bbs.iteblog.com/这个也当作一个二级页面进行处理，但是我博客没有bbs这个二级域名，所以会导致访问失败，我想把除了http://download.iteblog.com/二级之外的其他二级域名都重定向到/中去，于是

w397090770 10年前 (2015-01-01) 21010℃ 0评论2喜欢

Presto

Portable UDF：Facebook 工程师为了解决不同计算引擎 UDF 统一的项目

本文来自 Data + AI Summit 2021 会议中 Facebook 的Rongrong Zhong（Facebook Presto 团队的 TL）和 Tejas Patil（Facebook Spark 团队的 TL）工程师带来的名为《Portable UDFs : Write Once, Run Anywhere》的分享。虽然大多数查询引擎都提供了丰富的内置函数，但它并不能满足用户的所有需求。在这种情况下，用户定义函数（UDF）允许用户表达他们的业

w397090770 3年前 (2021-12-17) 495℃ 0评论2喜欢

大数据

OPPO大数据离线计算平台架构演进

前言 OPPO的大数据离线计算发展，经历了哪些阶段？在生产中遇到哪些经典的大数据问题？我们是怎么解决的，从中有哪些架构上的升级演进？未来的OPPO离线平台有哪些方向规划？今天会给大家一一揭秘。OPPO大数据离线计算发展历史大数据行业发展阶段一家公司的技术发展，离不开整个行业的发展背景。我们简短回归

w397090770 3年前 (2021-10-29) 735℃ 0评论2喜欢

PostgreSQL

Spark SQL整合PostgreSQL

　　本博客的《Spark与Mysql(JdbcRDD)整合开发》和《Spark RDD写入RMDB(Mysql)方法二》文章中介绍了如何通过Spark读写Mysql中的数据。　　在生产环境下，很多公司都会使用PostgreSQL数据库，这篇文章将介绍如何通过Spark获取PostgreSQL中的数据。我将使用Spark 1.3中的DataFrame（也就是之前的SchemaRDD），我们可以通过SQLContext加载数据库中的数据，

w397090770 9年前 (2015-05-23) 13001℃ 0评论11喜欢

Flink

如何给Apache Flink贡献你的代码

　　Apache Flink开源大数据处理系统最近比较火，特别是其流处理框架的设计。本文并不打算介绍Apache Flink的相关概念，如果你感兴趣可以到本博客的Flink分类目录查看Flink的相关文章。　　转入正题了，下面将一步一步教你如何提交你的代码到Flink社区。1、提交Issue　　既然能够提交代码肯定是发现了什么Bug，或者有什么好

w397090770 8年前 (2016-11-21) 3417℃ 0评论4喜欢

ElasticSearch

ElasticSearch系列文章：集群操作

rest 接口　　现在我们已经有一个正常运行的节点（和集群），下一步就是要去理解怎样与其通信。幸运的是，Elasticsearch提供了非常全面和强大的REST API，利用这个REST API你可以同你的集群交互。下面是利用这个API，可以做的几件事情：　　1、查你的集群、节点和索引的健康状态和各种统计信息　　2、管理你的集群、节点、

zz~~ 8年前 (2016-08-31) 1427℃ 0评论2喜欢

Kafka 团队修改 KSQL 开源许可证，禁止其作为 SaaS 产品来提供

在今年的十月份，MongoDB 宣布其开源许可证从 GNU AGPLv3 切换到 Server Side Public License (SSPL)，十一月份，图数据库 Neo4j 也宣布企业版彻底闭源。今天，Confluent 公司的联合创始人兼 CEO Jay Kreps 在 Confluent 官方博客宣布 Confluent 平台部分开源组件从 Apache 2.0 切换到 Confluent Community License，参见这里，下面是这篇文章的全部翻译。我们正在将

w397090770 6年前 (2018-12-15) 1998℃ 0评论3喜欢

API

过往记忆博客免费手机归属地API

本博客收集的手机号段截止时间为2020年03月的，共计450000+条。包含以下字段：电信：133 153 173(新) 177 (新) 180 181 189 199 (新)移动：134 135 136 137 138 139 150 151 152 157 158 159 172(新) 178(新) 182 183 184 187 188 198(新) 联通：130 131 132 155 156 166(新) 175(新) 176(新) 185 186数据卡：145 147 149其他：170(新) 171 (新)API地址/api/mobile.php使用本AP

w397090770 8年前 (2016-08-02) 5075℃ 0评论15喜欢

OpenCloud 2015大会PPT资料免费下载[Spark篇]

　　由CSDN主办OpenCloud 2015大会于4月16日-18日在国家会议中心成功举办。“2015 OpenStack技术大会”、“2015 Spark技术峰会”、“2015 Container技术峰会”三大峰会及三场深度行业实战培训赢得了讲师和听众们高度认可，40余位一线专家的深度主题演讲赢得阵阵掌声。　　2015 spark技术峰会.pushed{color:#f60;}时间议题演讲者09:

w397090770 10年前 (2015-04-28) 7566℃ 0评论2喜欢

Flume

Flume-ng与Mysql整合开发

　　我们知道，Flume可以和许多的系统进行整合，包括了Hadoop、Spark、Kafka、Hbase等等；当然，强悍的Flume也是可以和Mysql进行整合，将分析好的日志存储到Mysql（当然，你也可以存放到pg、oracle等等关系型数据库）。　　不过我这里想多说一些：Flume是分布式收集日志的系统；既然都分布式了，数据量应该很大，为什么你要将Flume分

w397090770 10年前 (2014-09-04) 25722℃ 21评论40喜欢

Spark SQL中Join常用的几种实现

引言Join是SQL语句中的常用操作，良好的表结构能够将数据分散在不同的表中，使其符合某种范式，减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现，自然也对Join操作做了不少优化，今天主要看一下在SparkSQL中对于Join，常见的3种实现。Spark SQL中Join常用的实现Broadc

zz~~ 7年前 (2017-07-09) 8319℃ 0评论16喜欢

Hadoop安全模式详解及配置

　　在《Hadoop 1.x中fsimage和edits合并实现》文章中提到，Hadoop的NameNode在重启的时候，将会进入到安全模式。而在安全模式，HDFS只支持访问元数据的操作才会返回成功，其他的操作诸如创建、删除文件等操作都会导致失败。　　NameNode在重启的时候，DataNode需要向NameNode发送块的信息，NameNode只有获取到整个文件系统中有99.9%（可以配

w397090770 11年前 (2014-03-13) 17328℃ 3评论16喜欢

如何在Apache Spark 2.0中使用SparkSession

　　Apache Spark 2.0引入了SparkSession，其为用户提供了一个统一的切入点来使用Spark的各项功能，并且允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序。最重要的是，它减少了用户需要了解的一些概念，使得我们可以很容易地与Spark交互。　　本文我们将介绍在Spark 2.0中如何使用SparkSession。更多关于SparkSession的文章请参见：

w397090770 8年前 (2016-08-24) 15143℃ 2评论11喜欢

Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍

Apache Hadoop 3.0.0-alpha1相对于hadoop-2.x来说包含了许多重要的改进。这里介绍的是Hadoop 3.0.0的alpha版本，主要是便于检测和收集应用开发人员和其他用户的使用反馈。因为是alpha版本，所以本版本的API稳定性和质量没有保证，如果需要在正式开发中使用，请耐心等待稳定版的发布吧。本文将对Hadoop 3.0.0重要的改进进行介绍。Java最低

zz~~ 8年前 (2016-09-22) 3363℃ 0评论7喜欢

Apache Hadoop 基础设施容器化在 Uber 的实践

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据过往记忆大数据备注：以下的我们均代表 Uber 的 Hadoop 运维团队。介绍随着 Uber 业务的增长，Uber 公司在 5 年内将 Apache Hadoop（本文简称为“Hadoop”）部署扩展到 21000 台以上的节点，以支持各种分析和机器学习用例。我们组建了一支拥有各

w397090770 3年前 (2021-08-22) 752℃ 0评论4喜欢

Spark Streaming kafka实现数据零丢失的几种方式

　　在使用Spark streaming消费kafka数据时，程序异常中断的情况下发现会有数据丢失的风险，本文简单介绍如何解决这些问题。　　在问题开始之前先解释下流处理中的几种可靠性语义：　　1、At most once - 每条数据最多被处理一次（0次或1次），这种语义下会出现数据丢失的问题；　　2、At least once - 每条数据最少被处理一次 (1

w397090770 8年前 (2016-07-26) 10905℃ 3评论17喜欢

Java

Maven如何手动添加依赖的jar文件到本地Maven仓库

　　Apache Maven，是一个软件（特别是Java软件）项目管理及自动构建工具，由Apache软件基金会所提供。基于项目对象模型（缩写：POM）概念，Maven利用一个中央信息片断能管理一个项目的构建、报告和文档等步骤。曾是Jakarta项目的子项目，现为独立Apache项目。　　大家肯定遇到过想在pom文件中加入自己开发的依赖包，这些包肯定是

w397090770 11年前 (2013-08-02) 39406℃ 0评论19喜欢

Hive

如何彻底解决 Hive 小文件问题

最近发现离线任务对一个增量Hive表的查询越来越慢，这引起了我的注意，我在cmd窗口手动执行count操作查询发现，速度确实很慢，才不到五千万的数据，居然需要300s，这显然是有问题的，我推测可能是有小文件。我去hdfs目录查看了一下该目录：发现确实有很多小文件，有480个小文件，我觉得我找到了问题所在，那么合并一

zz~~ 3年前 (2021-08-20) 1193℃ 0评论4喜欢

Apache Kafka 不需要管理员：删除 Apache ZooKeeper 的依赖

目前，Apache Kafka 使用 Apache ZooKeeper 来存储它的元数据，比如分区的位置和主题的配置等数据就是存储在 ZooKeeper 集群中。在 2019 年社区提出了一个计划，以打破这种依赖关系，并将元数据管理引入 Kafka 本身。所以 Apache Kafka 为什么要移除 Zookeeper 的依赖？Zookeeper 有什么问题？实际上，问题不在于 ZooKeeper 本身，而在于外部元数据

w397090770 4年前 (2020-05-19) 1384℃ 0评论1喜欢

Kafka剖析：Kafka背景及架构介绍

《Kafka剖析：Kafka背景及架构介绍》《Kafka设计解析：Kafka High Availability（上）》《Kafka设计解析：Kafka High Availability （下）》《Kafka设计解析：Replication工具》《Kafka设计解析：Kafka Consumer解析》　　Kafka是由LinkedIn开发的一个分布式的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源

w397090770 10年前 (2015-04-08) 7880℃ 2评论16喜欢

HDFS 慢节点监控及处理

HDFS集群随着使用时间的增长，难免会出现一些“性能退化”的节点，主要表现为磁盘读写变慢、网络传输变慢，我们统称这些节点为慢节点。当集群扩大到一定规模，比如上千个节点的集群，慢节点通常是不容易被发现的。大多数时候，慢节点都藏匿于众多健康节点中，只有在客户端频繁访问这些有问题的节点，发现读写变慢了，

w397090770 4年前 (2020-11-12) 1540℃ 0评论7喜欢

Flink

如何选择Apache Spark和Apache Flink

　　Spark Streaming和Flink都能提供恰好一次的保证，即每条记录都仅处理一次。与其他处理系统（比如Storm）相比，它们都能提供一个非常高的吞吐量。它们的容错开销也都非常低。之前，Spark提供了可配置的内存管理，而Flink提供了自动内存管理，但从1.6版本开始，Spark也提供了自动内存管理。这两个流处理引擎确实有许多相似之处，

w397090770 9年前 (2016-04-02) 4730℃ 0评论5喜欢

Hadoop 2.2.0编译hadoop-eclipse-plugin插件

　　前提条件：　　1、安装好jdk1.6或以上版本　　2、部署好Hadoop 2.2.0（可以参见本博客《Hadoop2.2.0完全分布式集群平台安装与设置》）　　3、安装好ant，这很简单：[code lang="JAVA"]$ wget http://mirrors.cnnic.cn/apache/ant/binaries/apache-ant-1.9.3-bin.tar.gz$ tar -zxvf apache-ant-1.9.3-bin.tar.gz[/code]然后设置好ANT_HOME和PATH就行　　4、安装好相

w397090770 11年前 (2014-03-26) 23786℃ 1评论35喜欢