Hadoop: The Definitive Guide, 4th Edition[pdf]

Hadoop权威指南英文版第四版，它的内容组织得当，思路清晰，紧密结合实际。但是要把它翻译成中文介绍给中国的读者，并非易事。它不单单要求译者能够熟练地掌握英文，还要求他们对书中的技术性内容有深入、准确的了解和掌握。从这两点来审视，本书的译者团队完全足以胜任。作为大学老师，他们不仅在大数据领域从事一线

w397090770 10年前 (2015-08-15) 4795℃ 0评论9喜欢

电子书

Hadoop Application Architectures[PDF]

Hadoop Application Architectures - Designing Real-World Big Data Applications由 O'Reilly 于2015年7月出版，共364页。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop目录Chapter 1 Data Modeling in HadoopChapter 2 Data MovementChapter 3 Processing Data in HadoopChapter 4 Common Hadoop Processing PatternsChapter 5 Graph Processing on HadoopChapter 6

w397090770 10年前 (2015-08-14) 7818℃ 0评论10喜欢

Flume

Hadoop等大数据学习相关电子书[共85本]

　　下面的大数据学习电子书我会陆续上传，敬请关注。一、Hadoop1、Hadoop Application Architectures2、Hadoop: The Definitive Guide, 4th Edition3、Hadoop Security Protecting Your Big Data Platform4、Field Guide to Hadoop An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies5、Hadoop Operations A Guide for Developers and Administrators6、Hadoop Backup and Recovery Solutions

w397090770 10年前 (2015-08-11) 20477℃ 2评论56喜欢

Kafka

Apache kafka入门篇:工作原理简介

消息队列　　消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列，应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中，为了集成分布式应用，开发者需要对异构网络环

w397090770 10年前 (2015-08-11) 8118℃ 2评论17喜欢

Spark

Spark北京Meetup第九次活动－Zeppelin主题

一、活动时间　　北京第九次Spark Meetup活动将于2015年08月22日进行；下午14：00-18：00。二、活动地点　　北京市海淀区丹棱街5号微软亚太研发集团总部大厦1号楼三、活动内容　　1、《Keynote》，分享人：Sejun Ra ，CEO of NFLabs.com　　2、《An introduction to Zeppelin with a demo》，分享人： Anthony Corbacho， Engineer from NFLabs and

w397090770 10年前 (2015-08-07) 2843℃ 0评论1喜欢

Hadoop

Hadoop&Spark解决二次排序问题(Hadoop篇)

《Hadoop&Spark解决二次排序问题(Spark篇)》《Hadoop&Spark解决二次排序问题(Hadoop篇)》问题描述二次排序就是key之间有序，而且每个Key对应的value也是有序的；也就是对MapReduce的输出(KEY, Value(v1,v2,v3,......,vn))中的Value(v1,v2,v3,......,vn)值进行排序（升序或者降序），使得Value(s1,s2,s3,......,sn)，si ∈ (v1,v2,v3,......,vn)且s1 < s2 < s3 < .....

w397090770 10年前 (2015-08-06) 11324℃ 6评论29喜欢

Spark

使用SequoiaDB Connector和Apache Spark整合

为什么选择Spark　　SequoiaDB是NoSQL数据库，它可以将数据复制到不同的物理节点上，而且用户可以在应用程序中指定使用哪个备份块。它能够在同一个集群中使用最少的I/O或者CPU来分析或者操作一些工作。　　Apache Spark和SequoiaDB的整合允许用户创建单个平台来在同一个物理集群上同时运行多种不同的workloads 。Spark-SequoiaDB Conne

w397090770 10年前 (2015-08-05) 4612℃ 0评论2喜欢

HBase

使用Spark SQL读取HBase上的数据

　　近日，由华为团队开发的Spark-SQL-on-HBase项目通过Spark SQL/DataFrame并调用Hbase内置的访问API读取HBase上面的数据，该项目具有很好的可扩展性和可靠性。这个项目具有以下的特点：　　1、基于部分评估技术，该项目具有强大的数据剪枝和智能扫描特点；　　2、支持自定义过滤规则、协处理器等以便支持超低延迟的处理；　　3

w397090770 10年前 (2015-07-23) 22686℃ 0评论22喜欢

Spark

Apache Spark 1.4.1正式发布(稳定版)

　　Apache Spark于北京时间2015年07月16日05点正式发布。Spark 1.4.1主要是维护版本，包含了大量的稳定性修复。该版本是基于branch-1.4分支。社区推荐所有1.4.0使用升级到这个稳定版本。此版本有85位开发者参与。　　Spark 1.4.1包含了大量的Bug修复，这些Bug出现在Spark的DataFrame、外部数据源支持以及其他组建的一些bug修复。一些比较重要

w397090770 10年前 (2015-07-16) 4375℃ 0评论10喜欢