/** * User: 过往记忆 * Date: 15-03-10 * Time: 上午07:30 * bolg: * 本文地址：/archives/1275 * 过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量的干货 * 过往记忆博客微信公共帐号：iteblog_hadoop */ package scala import java.sql.{DriverManager, PreparedStatement, Connection} import org.apache.spark.{SparkContext, SparkConf} object RDDtoMysql { case class Blog(name: String, count: Int) def myFun(iterator: Iterator[(String, Int)]): Unit = { var conn: Connection = null var ps: PreparedStatement = null val sql = "insert into blog(name, count) values (?, ?)" try { conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/spark", 　　　　"root", "123456") iterator.foreach(data => { ps = conn.prepareStatement(sql) ps.setString(1, data._1) ps.setInt(2, data._2) ps.executeUpdate() } ) } catch { case e: Exception => println("Mysql Exception") } finally { if (ps != null) { ps.close() } if (conn != null) { conn.close() } } } def main(args: Array[String]) { val conf = new SparkConf().setAppName("RDDToMysql").setMaster("local") val sc = new SparkContext(conf) val data = sc.parallelize(List(("www", 10), ("iteblog", 20), ("com", 30))) data.foreachPartition(myFun) } }

　　其实是通过foreachPartition遍历RDD的每个分区，并调用普通的Scala方法来写数据库。在运行程序之前需要确保数据库里面存在blog表，可以通过下面语句创建：

CREATE TABLE `blog` (
  `name` varchar(255) NOT NULL,
  `count` int(10) unsigned DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf-8

　　然后直接运行上述的代码即可。运行完成你就可以在数据库里面查询结果：

SELECT * FROM blog b;
www　　10
iteblog　　20
com　　30

　　需要注意的是：
　　1、你最好使用forEachPartition 函数来遍历RDD，并且在每台Work上面创建数据库的connection。
　　2、如果你的数据库并发受限，可以通过控制数据的分区来减少并发。
　　3、在插入Mysql的时候最好使用批量插入。
　　4、确保你写入数据库过程能够处理失败，因为你插入数据库的过程可能会经过网络，这可能会导致数据插入到数据库失败。
　　5、不建议将你的RDD数据写入到Mysql等关系型数据库中。

本博客文章除特别声明，全部都是原创！
原创文章版权归过往记忆大数据（过往记忆）所有，未经许可不得转载。
本文链接: 【Spark将计算结果写入到Mysql中】（https://www.iteblog.com/archives/1275.html）

图文介绍 Presto + Velox 整合

Velox 介绍：一个开源的统一执行引擎

Presto 里面如何把 array 或 Map 里面的元素由行转成列

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 超清视频下载

历时一年 Apache Spark 3.3.0 正式发布，新特性详解

Spark Structured Streaming 2021年最新进展的总结

Portable UDF：Facebook 工程师为了解决不同计算引擎 UDF 统一的项目

下面文章您可能感兴趣

Alluxio Local Cache 加速 Presto 查询在 Uber 的应用

恭喜！新一代分布式对象存储 Ozone 成为顶级项目

如何在 Apache Hive 中解析 Json 数组

Apache Spark 自定义优化规则：Custom Strategy

Spark 1.2.1稳定版本发布(released)

Elasticsearch 6.3 发布，你们要的 SQL 功能来了

Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍

SPARK SUMMIT 2015会议PPT百度网盘免费下载(2)

如何为Kafka集群选择合适的Topics/Partitions数量？

Apache CarbonData 1.0.0发布及其新特性介绍

Spark 3.0 中七个必须知道的 SQL 性能优化

中缀表达式转成后缀表达式实现

Spark 从 Kafka 读数并发问题

Zookeeper从入门到精通视频百度网盘下载

Apache Cassandra Composite Key\Partition key\Clustering key 介绍

Apache Hadoop 3.0.0-beta1 正式发布，下一个版本(GA)即可在线上使用

Intellij IDEA 中 Java Language Level 设置

Spark性能优化：开发调优篇

IntelliJ IDEA 2020.3 正式版发布，多项超酷新功能

CentOS平台升级OpenSSL到1.0.1t

(5)个小伙伴在吐槽

楼主, 你好, 请问sparkstreaming可以整合springboot线程池和druid连接池吗?可以实现每个分区简历连接druid连接池吗?
先每个分区实现实现循环遍历,通过线程池对记录的key加锁,保证相同记录的数据同一条只有一个能够进入,然后每条进入的记录获得连接池的一个连接插入记录?
海东青2020-12-29 14:44 回复
楼主, 你好, 请问sparkstreaming可以整合springboot线程池和druid连接池吗?可以实现每个分区简历连接druid连接池吗? 先每个分区实现
海东青2020-12-29 14:41 回复
从RDD到Mysql这个过程产生数据的重复插入该怎么解决呢
Reynold.C2016-05-25 19:06 回复
你给每条记录设置一个主键，下一次再插入的时候就会出现异常，你处理一下就行。
w3970907702016-05-25 19:40 回复

请问如果我要是都HDFS上的文件该怎么写这个data 写来写去老是说不符合myFun函数

kylinjjt2015-03-14 15:13 回复