最近使用 Intellij IDEA 打开之前写的 HBase 工程代码,发现里面有个语法错误,但之前都没问题。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop后面发现,不管你使用的 JDK 是什么版本(我这里用的是 JDK 1.8),Intellij IDEA 设置的 Language Level 都是 1.5,如下:如果想及时了解Spark、Hadoop或者Hbase

w397090770   6年前 (2018-07-12) 6058℃ 0评论4喜欢

Spark meetup

上海Spark Meetup第九次聚会

上海Spark Meetup第九次聚会
  Shanghai Apache Spark Meetup第九次聚会将在6月18日下午13:00-17:00由Intel联手饿了么在上海市普陀区金沙江路1518弄2号近铁城市广场饿了么公司5楼会议室(榴莲酥+螺狮粉)举行。欢迎大家前来参加!会议主题开场/Opening Keynote: 毕洪宇,饿了么数据运营部副总监  毕洪宇个人介绍:饿了么数据运营部副总监。本科和研究生都是同济

w397090770   8年前 (2016-06-12) 1810℃ 0评论5喜欢

Spark

Apache Spark 3.1 中 Structured Streaming 方面的改进

Apache Spark 3.1 中 Structured Streaming 方面的改进
Apache Spark 3.1.x 版本发布到现在已经过了两个多月了,这个版本继续保持使得 Spark 更快,更容易和更智能的目标,Spark 3.1 的主要目标如下:提升了 Python 的可用性;加强了 ANSI SQL 兼容性;加强了查询优化;Shuffle hash join 性能提升;History Server 支持 structured streaming更多详情请参见这里。在这篇博文中,我们总结了3.1版本中

w397090770   3年前 (2021-05-16) 744℃ 0评论3喜欢

招聘

【阿里云】数据湖分析DLA 招聘-平台研发技术专家

【阿里云】数据湖分析DLA 招聘-平台研发技术专家
数据湖分析Data Lake Analytics是阿里云数据库自研的云原生数据湖分析系统,目前已有数千企业在使用,是阿里云 库、仓、湖战略高地之一 !!!现紧急招聘【 数据湖平台工程师】 产品链接:https://www.aliyun.com/product/datalakeanalytics !!!如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop团队内部拥有多

w397090770   4年前 (2020-05-22) 916℃ 0评论1喜欢

Spark

[电子书]Learning Real-time Processing with Spark Streaming PDF下载

[电子书]Learning Real-time Processing with Spark Streaming PDF下载
  通过使用易于理解的实例,本书将教你如何使用Spark Streaming构建实时应用程序。从安装和设置所需的环境开始,您将编写并执行第一个程序Spark Streaming。接下来将探讨Spark Streaming的架构和组件以及概述Spark公开的库/函数的。接下来,您将通过处理分布式日志文件的用例来了解有关Spark中的各种客户端API编码。然后,您将学习到各

w397090770   8年前 (2017-02-12) 3107℃ 0评论6喜欢

nginx

nginx: if逻辑运算(&&,||)实现

nginx: if逻辑运算(&&,||)实现
  今天我想开通博客的二级域名(http://download.iteblog.com/),然后在nginx配置文件里面配置好了。那个域名可以正常访问,但是如果用户输入了http://bbs.iteblog.com/这个也当作一个二级页面进行处理,但是我博客没有bbs这个二级域名,所以会导致访问失败,我想把除了http://download.iteblog.com/二级之外的其他二级域名都重定向到/中去,于是

w397090770   10年前 (2015-01-01) 21010℃ 0评论2喜欢

Presto

Portable UDF:Facebook 工程师为了解决不同计算引擎 UDF 统一的项目

Portable UDF:Facebook 工程师为了解决不同计算引擎 UDF 统一的项目
本文来自 Data + AI Summit 2021 会议中 Facebook 的Rongrong Zhong(Facebook Presto 团队的 TL) 和 Tejas Patil(Facebook Spark 团队的 TL) 工程师带来的名为 《Portable UDFs : Write Once, Run Anywhere》的分享。 虽然大多数查询引擎都提供了丰富的内置函数,但它并不能满足用户的所有需求。在这种情况下,用户定义函数(UDF)允许用户表达他们的业

w397090770   3年前 (2021-12-17) 495℃ 0评论2喜欢

大数据

OPPO大数据离线计算平台架构演进

OPPO大数据离线计算平台架构演进
前言 OPPO的大数据离线计算发展,经历了哪些阶段?在生产中遇到哪些经典的大数据问题?我们是怎么解决的,从中有哪些架构上的升级演进?未来的OPPO离线平台有哪些方向规划?今天会给大家一一揭秘。OPPO大数据离线计算发展历史大数据行业发展阶段 一家公司的技术发展,离不开整个行业的发展背景。我们简短回归

w397090770   3年前 (2021-10-29) 735℃ 0评论2喜欢

PostgreSQL

Spark SQL整合PostgreSQL

Spark SQL整合PostgreSQL
  本博客的《Spark与Mysql(JdbcRDD)整合开发》和《Spark RDD写入RMDB(Mysql)方法二》文章中介绍了如何通过Spark读写Mysql中的数据。  在生产环境下,很多公司都会使用PostgreSQL数据库,这篇文章将介绍如何通过Spark获取PostgreSQL中的数据。我将使用Spark 1.3中的DataFrame(也就是之前的SchemaRDD),我们可以通过SQLContext加载数据库中的数据,

w397090770   9年前 (2015-05-23) 13001℃ 0评论11喜欢

Flink

如何给Apache Flink贡献你的代码

如何给Apache Flink贡献你的代码
  Apache Flink开源大数据处理系统最近比较火,特别是其流处理框架的设计。本文并不打算介绍Apache Flink的相关概念,如果你感兴趣可以到本博客的Flink分类目录查看Flink的相关文章。  转入正题了,下面将一步一步教你如何提交你的代码到Flink社区。1、提交Issue  既然能够提交代码肯定是发现了什么Bug,或者有什么好

w397090770   8年前 (2016-11-21) 3417℃ 0评论4喜欢

ElasticSearch

ElasticSearch系列文章:集群操作

ElasticSearch系列文章:集群操作
rest 接口  现在我们已经有一个正常运行的节点(和集群),下一步就是要去理解怎样与其通信。幸运的是,Elasticsearch提供了非常全面和强大的REST API,利用这个REST API你可以同你的集群交互。下面是利用这个API,可以做的几件事情:  1、查你的集群、节点和索引的健康状态和各种统计信息  2、管理你的集群、节点、

zz~~   8年前 (2016-08-31) 1427℃ 0评论2喜欢

Kafka

Kafka 团队修改 KSQL 开源许可证,禁止其作为 SaaS 产品来提供

Kafka 团队修改 KSQL 开源许可证,禁止其作为 SaaS 产品来提供
在今年的十月份,MongoDB 宣布其开源许可证从 GNU AGPLv3 切换到 Server Side Public License (SSPL),十一月份,图数据库 Neo4j 也宣布企业版彻底闭源。今天,Confluent 公司的联合创始人兼 CEO Jay Kreps 在 Confluent 官方博客宣布 Confluent 平台部分开源组件从 Apache 2.0 切换到 Confluent Community License,参见这里,下面是这篇文章的全部翻译。我们正在将

w397090770   6年前 (2018-12-15) 1998℃ 0评论3喜欢

API

过往记忆博客免费手机归属地API

过往记忆博客免费手机归属地API
本博客收集的手机号段截止时间为2020年03月的,共计450000+条。包含以下字段:电信:133 153 173(新) 177 (新) 180 181 189 199 (新)移动:134 135 136 137 138 139 150 151 152 157 158 159 172(新) 178(新) 182 183 184 187 188 198(新) 联通:130 131 132 155 156 166(新) 175(新) 176(新) 185 186数据卡:145 147 149其他:170(新) 171 (新)API地址/api/mobile.php使用本AP

w397090770   8年前 (2016-08-02) 5075℃ 0评论15喜欢

Spark

OpenCloud 2015大会PPT资料免费下载[Spark篇]

OpenCloud 2015大会PPT资料免费下载[Spark篇]
  由CSDN主办OpenCloud 2015大会于4月16日-18日在国家会议中心成功举办。“2015 OpenStack技术大会”、“2015 Spark技术峰会”、“2015 Container技术峰会”三大峰会及三场深度行业实战培训赢得了讲师和听众们高度认可,40余位一线专家的深度主题演讲赢得阵阵掌声。  2015 spark技术峰会.pushed{color:#f60;}时间议题演讲者09:

w397090770   10年前 (2015-04-28) 7566℃ 0评论2喜欢

Flume

Flume-ng与Mysql整合开发

Flume-ng与Mysql整合开发
  我们知道,Flume可以和许多的系统进行整合,包括了Hadoop、Spark、Kafka、Hbase等等;当然,强悍的Flume也是可以和Mysql进行整合,将分析好的日志存储到Mysql(当然,你也可以存放到pg、oracle等等关系型数据库)。  不过我这里想多说一些:Flume是分布式收集日志的系统;既然都分布式了,数据量应该很大,为什么你要将Flume分

w397090770   10年前 (2014-09-04) 25722℃ 21评论40喜欢

Spark

Spark SQL中Join常用的几种实现

Spark SQL中Join常用的几种实现
引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Join,常见的3种实现。Spark SQL中Join常用的实现Broadc

zz~~   7年前 (2017-07-09) 8319℃ 0评论16喜欢

Hadoop

Hadoop安全模式详解及配置

Hadoop安全模式详解及配置
  在《Hadoop 1.x中fsimage和edits合并实现》文章中提到,Hadoop的NameNode在重启的时候,将会进入到安全模式。而在安全模式,HDFS只支持访问元数据的操作才会返回成功,其他的操作诸如创建、删除文件等操作都会导致失败。  NameNode在重启的时候,DataNode需要向NameNode发送块的信息,NameNode只有获取到整个文件系统中有99.9%(可以配

w397090770   11年前 (2014-03-13) 17328℃ 3评论16喜欢

Spark

如何在Apache Spark 2.0中使用SparkSession

如何在Apache Spark 2.0中使用SparkSession
  Apache Spark 2.0引入了SparkSession,其为用户提供了一个统一的切入点来使用Spark的各项功能,并且允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序。最重要的是,它减少了用户需要了解的一些概念,使得我们可以很容易地与Spark交互。  本文我们将介绍在Spark 2.0中如何使用SparkSession。更多关于SparkSession的文章请参见:

w397090770   8年前 (2016-08-24) 15143℃ 2评论11喜欢

Hadoop

Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍

Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍
Apache Hadoop 3.0.0-alpha1相对于hadoop-2.x来说包含了许多重要的改进。这里介绍的是Hadoop 3.0.0的alpha版本,主要是便于检测和收集应用开发人员和其他用户的使用反馈。因为是alpha版本,所以本版本的API稳定性和质量没有保证,如果需要在正式开发中使用,请耐心等待稳定版的发布吧。本文将对Hadoop 3.0.0重要的改进进行介绍。Java最低

zz~~   8年前 (2016-09-22) 3363℃ 0评论7喜欢

Hadoop

Apache Hadoop 基础设施容器化在 Uber 的实践

Apache Hadoop 基础设施容器化在 Uber 的实践
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据过往记忆大数据备注:以下的我们均代表 Uber 的 Hadoop 运维团队。介绍随着 Uber 业务的增长,Uber 公司在 5 年内将 Apache Hadoop(本文简称为“Hadoop”)部署扩展到 21000 台以上的节点,以支持各种分析和机器学习用例。我们组建了一支拥有各

w397090770   3年前 (2021-08-22) 752℃ 0评论4喜欢

Kafka

Spark Streaming kafka实现数据零丢失的几种方式

Spark Streaming kafka实现数据零丢失的几种方式
  在使用Spark streaming消费kafka数据时,程序异常中断的情况下发现会有数据丢失的风险,本文简单介绍如何解决这些问题。  在问题开始之前先解释下流处理中的几种可靠性语义:  1、At most once - 每条数据最多被处理一次(0次或1次),这种语义下会出现数据丢失的问题;  2、At least once - 每条数据最少被处理一次 (1

w397090770   8年前 (2016-07-26) 10905℃ 3评论17喜欢

Java

Maven如何手动添加依赖的jar文件到本地Maven仓库

Maven如何手动添加依赖的jar文件到本地Maven仓库
  Apache Maven,是一个软件(特别是Java软件)项目管理及自动构建工具,由Apache软件基金会所提供。基于项目对象模型(缩写:POM)概念,Maven利用一个中央信息片断能管理一个项目的构建、报告和文档等步骤。曾是Jakarta项目的子项目,现为独立Apache项目。  大家肯定遇到过想在pom文件中加入自己开发的依赖包,这些包肯定是

w397090770   11年前 (2013-08-02) 39406℃ 0评论19喜欢

Hive

如何彻底解决 Hive 小文件问题

如何彻底解决 Hive 小文件问题
最近发现离线任务对一个增量Hive表的查询越来越慢,这引起了我的注意,我在cmd窗口手动执行count操作查询发现,速度确实很慢,才不到五千万的数据,居然需要300s,这显然是有问题的,我推测可能是有小文件。我去hdfs目录查看了一下该目录:发现确实有很多小文件,有480个小文件,我觉得我找到了问题所在,那么合并一

zz~~   3年前 (2021-08-20) 1193℃ 0评论4喜欢

Kafka

Apache Kafka 不需要管理员:删除 Apache ZooKeeper 的依赖

Apache Kafka 不需要管理员:删除 Apache ZooKeeper 的依赖
目前,Apache Kafka 使用 Apache ZooKeeper 来存储它的元数据,比如分区的位置和主题的配置等数据就是存储在 ZooKeeper 集群中。在 2019 年社区提出了一个计划,以打破这种依赖关系,并将元数据管理引入 Kafka 本身。所以 Apache Kafka 为什么要移除 Zookeeper 的依赖?Zookeeper 有什么问题?实际上,问题不在于 ZooKeeper 本身,而在于外部元数据

w397090770   4年前 (2020-05-19) 1384℃ 0评论1喜欢

Kafka

Kafka剖析:Kafka背景及架构介绍

Kafka剖析:Kafka背景及架构介绍
《Kafka剖析:Kafka背景及架构介绍》《Kafka设计解析:Kafka High Availability(上)》《Kafka设计解析:Kafka High Availability (下)》《Kafka设计解析:Replication工具》《Kafka设计解析:Kafka Consumer解析》  Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源

w397090770   10年前 (2015-04-08) 7880℃ 2评论16喜欢

Hadoop

HDFS 慢节点监控及处理

HDFS 慢节点监控及处理
HDFS集群随着使用时间的增长,难免会出现一些“性能退化”的节点,主要表现为磁盘读写变慢、网络传输变慢,我们统称这些节点为慢节点。当集群扩大到一定规模,比如上千个节点的集群,慢节点通常是不容易被发现的。大多数时候,慢节点都藏匿于众多健康节点中,只有在客户端频繁访问这些有问题的节点,发现读写变慢了,

w397090770   4年前 (2020-11-12) 1540℃ 0评论7喜欢

Flink

如何选择Apache Spark和Apache Flink

如何选择Apache Spark和Apache Flink
  Spark Streaming和Flink都能提供恰好一次的保证,即每条记录都仅处理一次。与其他处理系统(比如Storm)相比,它们都能提供一个非常高的吞吐量。它们的容错开销也都非常低。之前,Spark提供了可配置的内存管理,而Flink提供了自动内存管理,但从1.6版本开始,Spark也提供了自动内存管理。这两个流处理引擎确实有许多相似之处,

w397090770   9年前 (2016-04-02) 4730℃ 0评论5喜欢

Hadoop

Hadoop 2.2.0编译hadoop-eclipse-plugin插件

Hadoop 2.2.0编译hadoop-eclipse-plugin插件
  前提条件:  1、安装好jdk1.6或以上版本  2、部署好Hadoop 2.2.0(可以参见本博客《Hadoop2.2.0完全分布式集群平台安装与设置》)  3、安装好ant,这很简单:[code lang="JAVA"]$ wget http://mirrors.cnnic.cn/apache/ant/binaries/apache-ant-1.9.3-bin.tar.gz$ tar -zxvf apache-ant-1.9.3-bin.tar.gz[/code]然后设置好ANT_HOME和PATH就行  4、安装好相

w397090770   11年前 (2014-03-26) 23786℃ 1评论35喜欢

Hadoop

操作系统级别对Hadoop性能优化

操作系统级别对Hadoop性能优化
  由于Hadoop自身的一些特点,它只适合用于将Linux作为操作系统的生产环境。在实际应用场景中,管理员适当对Linux内核参数进行调优,可在一定程度上提高作业的运行效率,比较有用的调整选项如下。一、增大同时打开的文件描述符和网络连接上限  在Hadoop集群中,由于涉及的作业和任务数目非常多,对于某个节点,由于

w397090770   11年前 (2014-04-02) 13057℃ 1评论7喜欢

HBase

HBase Rowkey 设计指南

HBase Rowkey 设计指南
本文来自本人于2018年12月25日在 HBase生态+Spark社区钉钉大群直播,本群每周二下午18点-19点之间进行 HBase+Spark技术分享。加群地址:https://dwz.cn/Fvqv066s。本文 PPT 下载:关注 iteblog_hadoop 微信公众号,并回复 HBase_Rowkey 关键字获取。为什么Rowkey这么重要RowKey 到底是什么如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微

w397090770   6年前 (2018-12-25) 7431℃ 0评论29喜欢