Alluxio Meetup 上海站开始报名了

Alluxio Meetup 上海站由 Alluxio、七牛主办，示说网、过往记忆协办，本次会议将于2018年10月27日 13:30-17:00 在上海市张江高科博霞路66号浦东软件园Q座举行。报名地址扫描下面二维码：如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop活动详情Alluxio：未来是数据的时代，数据的高效管理、存储

w397090770 6年前 (2018-10-17) 1314℃ 0评论1喜欢

Spark

Spark+AI Summit Europe 2018 PPT下载[共95个]

为期三天的 Spark+AI Summit Europe 于 2018-10-02 ~ 04 在伦敦举行，一如往前，本次会议包含大量 AI 相关的议题，某种意义上也代表着 Spark 未来的发展方向。作为大数据领域的顶级会议，Spark+AI Summit Europe 2018 吸引了全球大量技术大咖参会，本次会议议题超过了140多个。会议的全部日程请参见：https://databricks.com/sparkaisummit/europe/schedule。注意

w397090770 6年前 (2018-10-13) 3508℃ 1评论8喜欢

Hadoop

如何从根源上解决 HDFS 小文件问题

我们知道，HDFS 被设计成存储大规模的数据集，我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据（比如文件由哪些块组成、这些块分别存储在哪些节点上）全部都是由 NameNode 节点维护，为了达到高效的访问， NameNode 在启动的时候会将这些元数据全部加载到内存中。而 HDFS 中的每一个文件、目录以及文件块，

w397090770 6年前 (2018-10-09) 9371℃ 2评论31喜欢

Beam

大规模数据处理的演化历程(2003-2018)

本文翻译自《Streaming System》最后一章《The Evolution of Large-Scale Data Processing》，在探讨流式系统方面本书是市面上难得一见的深度书籍，非常值得学习。大数据如果从 Google 对外发布 MapReduce 论文算起，已经前后跨越十五年，我打算在本文和你蜻蜓点水般一起浏览下大数据的发展史，我们从最开始 MapReduce 计算模型开始，一路走马观

w397090770 6年前 (2018-10-08) 10318℃ 2评论27喜欢

Spark

Spark Structured Streaming特性介绍

为帮助开发者更深入的了解这三个大数据开源技术及其实际应用场景，9月8日，InfoQ联合华为云举办了一场实时大数据Meetup，集结了来自Databricks、华为及美团点评的大咖级嘉宾前来分享。作为Spark Structured Streaming最核心的开发人员、Databricks工程师，Tathagata Das（以下简称“TD”）在开场演讲中介绍了Structured Streaming的基本概念

w397090770 6年前 (2018-09-21) 4819℃ 0评论10喜欢

Spark

即将发布的 Apache Spark 2.4 都有哪些新功能

本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop即将发布的 Apache Spark 2.4 版本是 2.x 系列的第五个版本。本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。新的调度模型（Barrier Scheduling），使用户能够将分布式深度学

w397090770 6年前 (2018-09-20) 3298℃ 0评论8喜欢

Flink

Flink Forward 201809PPT资料下载

这次整理的 PPT 来自于2018年09月03日至05日在 Berlin 进行的 flink forward 会议，这种性质的会议和大家熟知的Spark summit类似。本次会议的官方日程参见：https://berlin-2018.flink-forward.org/。本次会议共有超过350个 Flink 社区会员的人参与，因为原始的 PPT 是在 http://www.slideshare.net/ 网站，这个网站需要翻墙；为了学习交流的方便，本博客将这些 P

w397090770 6年前 (2018-09-19) 2599℃ 2评论5喜欢

Hadoop

Hadoop Archives 编程指南

概述Hadoop archives 是特殊的档案格式。一个 Hadoop archive 对应一个文件系统目录。 Hadoop archive 的扩展名是 *.har。Hadoop archive 包含元数据（形式是 _index 和 _masterindx）和数据（part-*）文件。_index 文件包含了档案中文件的文件名和位置信息。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop如何

w397090770 6年前 (2018-09-17) 2130℃ 0评论1喜欢

Kafka

Spark 从 Kafka 读数并发问题

经常使用 Apache Spark 从 Kafka 读数的同学肯定会遇到这样的问题：某些 Spark 分区已经处理完数据了，另一部分分区还在处理数据，从而导致这个批次的作业总消耗时间变长；甚至导致 Spark 作业无法及时消费 Kafka 中的数据。为了简便起见，本文讨论的 Spark Direct 方式读取 Kafka 中的数据，这种情况下 Spark RDD 中分区和 Kafka 分区是一一对

w397090770 6年前 (2018-09-08) 6641℃ 0评论25喜欢