java-spark中各种常用算子的写法示例

spark的算子的分类

从大方向来说，spark 算子大致可以分为以下两类:

1）transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。

transformation 操作是延迟计算的，也就是说从一个rdd 转换生成另一个 rdd 的转换操作不是马上执行，需要等到有 action 操作的时候才会真正触发运算。

2）action 行动算子：这类算子会触发 sparkcontext 提交 job 作业。

action 算子会触发 spark 提交作业（job），并将数据输出 spark系统。

从小方向来说，spark 算子大致可以分为以下三类:

1）value数据类型的transformation算子，这种变换并不触发提交作业，针对处理的数据项是value型的数据。

2）key-value数据类型的transfromation算子，这种变换并不触发提交作业，针对处理的数据项是key-value型的数据对。

3）action算子，这类算子会触发sparkcontext提交job作业。

引言

通常写spark的程序用scala比较方便，毕竟spark的源码就是用scala写的。然而，目前java开发者特别多，尤其进行数据对接、上线服务的时候，这时候，就需要掌握一些spark在java中的使用方法了

一、map

map在进行数据处理、转换的时候，不能更常用了

在使用map之前首先要定义一个转换的函数格式如下：