官宣，Apache Hudi 正式成为 Apache 顶级项目

2020年6月4日，马萨诸塞州韦克菲尔德（Wakefield, MA）—— Apache 软件基金会（ASF），超过350个开源项目和计划的全志愿者开发人员、管理人员和孵化器，正式宣布 Apache Hudi 成为顶级项目（Top-Level Project 、TLP）。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoopApache Hudi (Hadoop Upserts delete and Incrementa

w397090770 4年前 (2020-06-04) 1217℃ 0评论5喜欢

Hadoop

Submarine：在 Apache Hadoop 中运行深度学习框架

本文来自 submarine 团队投稿。作者： Wangda Tan & Sunil Govindan & Zhankun Tang(这篇博文由网易的刘勋和周全协助编写)。原文地址：https://hortonworks.com/blog/submarine-running-deep-learning-workloads-apache-hadoop/介绍Hadoop 是用于大型企业数据集的分布式处理的最流行的开源框架，它在本地和云端环境中都有很多重要用途。深度学习对于语

w397090770 6年前 (2019-01-01) 4027℃ 0评论4喜欢

Spark

SparkSession：新的切入点

　　在Spark 1.x版本，我们收到了很多询问SparkContext, SQLContext和HiveContext之间关系的问题。当人们想使用DataFrame API的时候把HiveContext当做切入点的确有点奇怪。在Spark 2.0，引入了SparkSession，作为一个新的切入点并且包含了SQLContext和HiveContext的功能。为了向后兼容，SQLContext和HiveContext被保存下来。SparkSession拥有许多特性，下面将展示SparkS

w397090770 8年前 (2016-05-26) 14024℃ 0评论13喜欢

Guava

Guava学习之Multisets

　　今天谈谈Guava类库中的Multisets数据结构，虽然它不怎么经常用，但是还是有必要对它进行探讨。我们知道Java类库中的Set不能存放相同的元素，且里面的元素是无顺序的；而List是能存放相同的元素，而且是有顺序的。而今天要谈的Multisets是能存放相同的元素，但是元素之间的顺序是无序的。从这里也可以看出，Multisets肯定不是实

w397090770 11年前 (2013-07-11) 4670℃ 0评论1喜欢

Spark

SparkRDMA：使用RDMA技术提升Spark的Shuffle性能

Spark Shuffle 基础在 MapReduce 框架中，Shuffle 是连接 Map 和 Reduce 之间的桥梁，Reduce 要读取到 Map 的输出必须要经过 Shuffle 这个环节；而 Reduce 和 Map 过程通常不在一台节点，这意味着 Shuffle 阶段通常需要跨网络以及一些磁盘的读写操作，因此 Shuffle 的性能高低直接影响了整个程序的性能和吞吐量。与 MapReduce 计算框架一样，Spark 作

w397090770 7年前 (2017-11-15) 7464℃ 3评论30喜欢

Spark

Spark北京Meetup第四次活动（SparkSQL专题）

　　这是Spark北京Meetup第四次活动，主要是SparkSQL专题。可以在这里报名，活动免费。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop活动时间　　12月13日下午14:00活动地点　　地址：淀区中关村软件园二期，西北旺东路10号院东区，亚信大厦一层会议室　　时间：13:20-13:40活动内容:

w397090770 10年前 (2014-12-02) 4979℃ 0评论3喜欢

Spark

Spark函数讲解：coalesce

　　对RDD中的分区重新进行合并。函数原型[code lang="scala"]def coalesce(numPartitions: Int, shuffle: Boolean = false)　　　　(implicit ord: Ordering[T] = null): RDD[T][/code]　　返回一个新的RDD，且该RDD的分区个数等于numPartitions个数。如果shuffle设置为true，则会进行shuffle。实例[code lang="scala"]/** * User: 过往记忆 * Date: 15-03-09 * Time: 上午0

w397090770 10年前 (2015-03-09) 14239℃ 1评论5喜欢

资料分享

2018 最新 hosts 文件持续更新

本文已经不再更新，谢谢支持。本页面长期更新最新 Google、谷歌学术、维基百科、ccFox.info、ProjectH、3DM、Battle.NET 、WordPress、Microsoft Live、GitHub、Box.com、SoundCloud、inoreader、Feedly、FlipBoard、Twitter、Facebook、Flickr、imgur、DuckDuckGo、Ixquick、Google Services、Google apis、Android、Youtube、Google Drive、UpLoad、Appspot、Googl eusercontent、Gstatic、Google othe

w397090770 5年前 (2019-11-19) 1090℃ 0评论3喜欢

Hadoop

[电子书]Hadoop权威指南第3版中文版PDF下载

　　本书是《Hadoop权威指南》第三版，新版新特色，内容更详细。本书是为程序员写的，可帮助他们分析任何大小的数据集。本书同时也是为管理员写的，帮助他们了解如何设置和运行Hadoop集群。　　本书通过丰富的案例学习来解释Hadoop的幕后机理，阐述了Hadoop如何解决现实生活中的具体问题。第3版覆盖Hadoop的新动态，包括新增

zz~~ 8年前 (2016-12-16) 17234℃ 0评论43喜欢

Spark

Spark on yarn上遇到的问题

　　最近在Yarn上使用Spark，不管是yarn-cluster模式还是yarn-client模式，都出现了以下的异常：[code lang="java"]Application application_1434099279301_123706 failed 2 times due to AM Container for appattempt_1434099279301_123706_000002 exited with exitCode: 127 due to: Exception from container-launch:org.apache.hadoop.util.Shell$ExitCodeException:at org.apache.hadoop.util.Shell.runCommand(Shell.java:464)

w397090770 9年前 (2015-06-19) 7858℃ 0评论3喜欢

Spark

Spark解析Json数据(非Sql方式)

　　Spark支持读取很多格式的文件，其中包括了所有继承了Hadoop的InputFormat类的输入文件，以及平时我们常用的Text、Json、CSV (Comma Separated Values) 以及TSV (Tab Separated Values)文件。本文主要介绍如何通过Spark来读取Json文件。很多人会说，直接用Spark SQL模块的jsonFile方法不就可以读取解析Json文件吗？是的，没错，我们是可以通过那个读取Json

w397090770 10年前 (2015-01-06) 26936℃ 10评论15喜欢

数据仓库

网易云音乐数仓建设之路

网易云音乐作为一个MAU已经超过亿级的业务，在数据仓库、数据体系、数据应用建设是怎么做的？在近日举办的“网易数帆技术沙龙”上，网易云音乐数据专家雷剑波就此话题做了全面的分享，介绍了数仓建设的目标，为此建立的一系列规范和机制，如何通过系统保证这些规范和机制的落地，以及取得的效果。数仓建设痛点与目

w397090770 3年前 (2021-06-30) 975℃ 0评论1喜欢

HBase

SHC：使用 Spark SQL 高效地读写 HBase

Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用 Spark 分析/查询 HBase 中的数据，而目前 Spark 内置是支持很多数据源的，其中就包括了 HBase，但是内置的读取数据源还是使用了 TableInputFormat 来读取 HBase 中的数据。这个 TableInputFormat 有一些缺点：一个 Task 里面只能启动一个 Scan 去 HBase 中读取数据；TableIn

w397090770 6年前 (2019-04-02) 13073℃ 5评论18喜欢

Hadoop

Hadoop2.x 深入浅出企业级应用实战视频下载

　　本博客分享的其他视频下载地址：《传智播客Hadoop实战视频下载地址[共14集]》、《传智播客Hadoop课程视频资料[共七天]》、《Hadoop入门视频分享[共44集]》、《Hadoop大数据零基础实战培训教程下载》、《Hadoop2.x 深入浅出企业级应用实战视频下载》、《Hadoop新手入门视频百度网盘下载[全十集]》　　本博客收集到的Hadoop学习书

w397090770 10年前 (2014-09-16) 119806℃ 4评论290喜欢

Spark

Apache Zeppelin & Spark 解析Json异常

　　我下载的Apache Zeppelin和Apache Spark版本分别为：0.6.0-incubating-SNAPSHOT和1.5.2，在Zeppelin中使用SQLContext读取Json文件创建DataFrame的过程中出现了以下的异常：[code lanh="scala"]val profilesJsonRdd =sqlc.jsonFile("hdfs://www.iteblog.com/tmp/json")val profileDF=profilesJsonRdd.toDF()profileDF.printSchema()profileDF.show()profileDF.registerTempTable("profiles")

w397090770 9年前 (2016-01-21) 6845℃ 2评论11喜欢

Kafka

Apache Kafka 0.10.2.0正式发布

Apache Kafka 0.10.2.0正式发布，此版本供修复超过200个bugs，合并超过500个 PR。本版本添加了一下的新功能：　　1、支持session windows，参见KAFKA-3452　　2、提供ProcessorContext中低层次Metrics的访问，参见KAFKA-3537　　3、不用配置文件的情况下支持为 Kafka clients JAAS配置，参见KAFKA-4259　　4、为Kafka Streams提供全局Table支持，参见KAFKA-4490

w397090770 8年前 (2017-02-23) 2561℃ 0评论1喜欢

Zookeeper

Apache Zookeeper 磁盘空间预分配策略

我们知道，Zookeeper 会将所有事务操作的数据记录到日志文件中，这个文件的存储路径可以通过 dataLogDir 参数配置。在写数据之前，Zookeeper 会采用磁盘空间预分配策略；磁盘空间预分配策略主要有以下几点好处：可以让文件尽可能的占用连续的磁盘扇区，减少后续写入和读取文件时的磁盘寻道开销；迅速占用磁盘空间，防止使用

w397090770 7年前 (2018-03-23) 2064℃ 0评论5喜欢

机器学习

奇虎360正式开源深度学习调度平台XLearning

本文系奇虎360系统部相关工程师投稿。近两年人工智能技术发展迅速，以Google开源的TensorFlow为代表的各种深度学习框架层出不穷。为了方便算法工程师使用各类深度学习技术，减少繁杂的诸如运行环境部署运维等工作，提升GPU等硬件资源利用率，节省硬件投入成本，奇虎360系统部大数据团队与人工智能研究院联合开发了深度学习

w397090770 7年前 (2017-12-08) 2744℃ 0评论15喜欢

Spark

Apache Spark 1.4.1正式发布(稳定版)

　　Apache Spark于北京时间2015年07月16日05点正式发布。Spark 1.4.1主要是维护版本，包含了大量的稳定性修复。该版本是基于branch-1.4分支。社区推荐所有1.4.0使用升级到这个稳定版本。此版本有85位开发者参与。　　Spark 1.4.1包含了大量的Bug修复，这些Bug出现在Spark的DataFrame、外部数据源支持以及其他组建的一些bug修复。一些比较重要

w397090770 9年前 (2015-07-16) 4361℃ 0评论10喜欢

Linux

六种使用Linux命令发送带附件的邮件

在很多场景中我们会使用Shell命令来发送邮件，而且我们还可能在邮件里面添加附件，本文将介绍使用Shell命令发送带附件邮件的几种方式，希望对大家有所帮助。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop使用mail命令mail命令是mailutils(On Debian)或mailx(On RedHat)包中的一部分，我们可以使

w397090770 8年前 (2017-02-23) 16263℃ 0评论12喜欢

wordpress开发

WordPress所有分页URL由/page/n/变成/page-n.html实现

　　最近，本博客由于流量增加，网站响应速度变慢，于是将全站页面全部静态化了；其中采取的方式主要是（1）、把所有https://www.iteblog.com/archives/\d{1,}全部跳转成https://www.iteblog.com/archives/\d{1,}.html，比如之前访问https://www.iteblog.com/archives/1983链接会自动跳转到https://www.iteblog.com/archives/1983.html；（2）、所有https://www.iteblog.com/page页

w397090770 8年前 (2017-02-22) 3716℃ 2评论9喜欢

Flink

Apache Flink 在唯品会的实践

本文来自于王新春在2018年7月29日 Flink China社区线下 Meetup·上海站的分享。王新春目前在唯品会负责实时平台相关内容，主要包括实时计算框架和提供实时基础数据，以及机器学习平台的工作。之前在美团点评，也是负责大数据平台工作。他已经在大数据实时处理方向积累了丰富的工作经验。。本文主要内容如下：唯品会实时

zz~~ 6年前 (2018-08-15) 7243℃ 0评论14喜欢

Docker

Docker 入门教程：一文了解什么是 Docker

2010年，几个大胡子年轻人在旧金山成立了一家名为 dotCloud 的 PaaS 平台的公司。dotCloud 主要是基于 PaaS 平台为开发者或开发商提供技术服务。PaaS 的全称是 Platform as a Service，也就是平台即服务。dotCloud 把需要花费大量时间的手工工作和重复劳动抽象成组件和服务，并放到了云端，另外，它还提供了各种监控、告警和控制功能，方便开

w397090770 5年前 (2020-01-15) 853℃ 0评论8喜欢

Kafka

雅虎开源的Kafka集群管理器(Kafka Manager)

《Apache Kafka监控之Kafka Web Console》《Apache Kafka监控之KafkaOffsetMonitor》《雅虎开源的Kafka集群管理器(Kafka Manager)》Kafka在雅虎内部被很多团队使用,媒体团队用它做实时分析流水线,可以处理高达20Gbps(压缩数据)的峰值带宽。为了简化开发者和服务工程师维护Kafka集群的工作，构建了一个叫做Kafka管理器的基于Web工具，叫做 Kafka M

w397090770 10年前 (2015-02-04) 22088℃ 0评论14喜欢

Spark

为Spark 2.x添加ALTER TABLE ADD COLUMNS语法支持

　　Spark SQL从2.0开始已经不再支持ALTER TABLE table_name ADD COLUMNS (col_name data_type [COMMENT col_comment], ...)这种语法了（下文简称add columns语法）。如果你的Spark项目中用到了SparkSQL+Hive这种模式，从Spark1.x升级到2.x很有可能遇到这个问题。为了解决这个问题，我们一般有3种方案可以选择：　　1、启动一个hiveserver2服务，通过jdbc直接调用hive

w397090770 8年前 (2017-02-27) 3033℃ 0评论5喜欢

Flink

Flink on YARN部署快速入门指南

　　Apache Flink是一个高效、分布式、基于Java和Scala(主要是由Java实现)实现的通用大数据分析引擎，它具有分布式 MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案，它支持批量和基于流的数据分析，且提供了基于Java和Scala的API。　　从Flink官方文档可以知道，目前Flink支持三大部署模式：Local、Cluster以及Cloud

w397090770 9年前 (2016-03-30) 24213℃ 6评论22喜欢

Linux

Ubuntu使用技巧之MySQL

　　MySQL是一个开放源码的小型关联式数据库管理系统，开发者为瑞典MySQL AB公司。MySQL被广泛地应用在Internet上的中小型网站中。由于其体积小、速度快、总体拥有成本低，尤其是开放源码这一特点，许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。　　MySQL是一种跨平台的数据库，在Ubuntu下安装Server的命令

w397090770 11年前 (2013-07-21) 3622℃ 0评论2喜欢

Hadoop

在shell中如何判断HDFS中的文件目录是否存在

　　在Linux文件系统中，我们可以使用下面的Shell脚本判断某个文件是否存在：[code lang="bash"]# 这里的-f参数判断$file是否存在 if [ ! -f "$file" ]; then 　　echo "文件不存在!"fi [/code]但是我们想判断HDFS上某个文件是否存在咋办呢？别急，Hadoop内置提供了判断某个文件是否存在的命令：[code lang="bash"][iteblog@www.it

w397090770 9年前 (2016-03-21) 10758℃ 0评论19喜欢

Hive

Hive表与外部表

　　写在前面的话，学Hive这么久了，发现目前国内还没有一本完整的介绍Hive的书籍，而且互联网上面的资料很乱，于是我决定写一些关于《Hive的那些事》序列文章，分享给大家。我会在接下来的时间整理有关Hive的资料，如果对Hive的东西感兴趣，请关注本博客。/archives/tag/hive的那些事　　这几天比较忙，公司里面各种事，所以

w397090770 11年前 (2014-01-14) 30608℃ 4评论42喜欢