java-spark中各种常用算子的写法示例

2025-05-29 0 63

spark算子的分类

从大方向来说,spark 算子大致可以分为以下两类:

1)transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。

transformation 操作是延迟计算的,也就是说从一个rdd 转换生成另一个 rdd 的转换操作不是马上执行,需要等到有 action 操作的时候才会真正触发运算。

2)action 行动算子:这类算子会触发 sparkcontext 提交 job 作业。

action 算子会触发 spark 提交作业(job),并将数据输出 spark系统。

从小方向来说,spark 算子大致可以分为以下三类:

1)value数据类型的transformation算子,这种变换并不触发提交作业,针对处理的数据项是value型的数据。

2)key-value数据类型的transfromation算子,这种变换并不触发提交作业,针对处理的数据项是key-value型的数据对。

3)action算子,这类算子会触发sparkcontext提交job作业。

引言

通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在java中的使用方法了

一、map

map在进行数据处理、转换的时候,不能更常用了

在使用map之前 首先要定义一个转换的函数 格式如下:

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22
function<string, labeledpoint> transform = new function<string, labeledpoint>() {//string是某一行的输入类型 labeledpoint是转换后的输出类型

@override

public labeledpoint call(string row) throws exception {//重写call方法

string[] rowarr = row.split(",");

int rowsize = rowarr.length;

double[] doublearr = new double[rowsize-1];

//除了第一位的lable外 其余的部分解析成double 然后放到数组中

for (int i = 1; i < rowsize; i++) {

string each = rowarr[i];

doublearr[i] = double.parsedouble(each);

}

//用刚才得到的数据 转成向量

vector feature = vectors.dense(doublearr);

double label = double.parsedouble(rowarr[0]);

//构造用于分类训练的数据格式 labelpoint

labeledpoint point = new labeledpoint(label, feature);

return point;

}

};

需要特别注意的是:

1、call方法的输入应该是转换之前的数据行的类型 返回值应是处理之后的数据行类型

2、如果转换方法中调用了自定义的类,注意该类名必须实现序列化 比如

?

1

2
public class treeensemble implements serializable {

}

3、转换函数中如果调用了某些类的对象,比如该方法需要调用外部的一个参数,或者数值处理模型(标准化,归一化等),则该对象需要声明是final

然后就是在合适的时候调用该转换函数了

?

1
javardd<labeledpoint> rdd = oridata.tojavardd().map(transform);

这种方式是需要将普通的rdd转成javardd才能使用的,转成javardd的这一步操作不耗时,不用担心

二、filter

在避免数据出现空值、0等场景中也非常常用,可以满足sql中where的功能

这里首先也是要定义一个函数,该函数给定数据行 返回布尔值 实际效果是将返回为true的数据保留

?

1

2

3

4

5

6

7
function<string, boolean> boolfilter = new function<string, boolean>() {//string是某一行的输入类型 boolean是对应的输出类型 用于判断数据是否保留

@override

public boolean call(string row) throws exception {//重写call方法

boolean flag = row!=null;

return flag;

}

};

通常该函数实际使用中需要修改的仅仅是row的类型 也就是数据行的输入类型,和上面的转换函数不同,此call方法的返回值应是固定为boolean

然后是调用方式

?

1
javardd<labeledpoint> rdd = oridata.tojavardd().filter(boolfilter);

三、maptopair

该方法和map方法有一些类似,也是对数据进行一些转换。不过此函数输入一行 输出的是一个元组,最常用的方法是用来做交叉验证 或者统计错误率 召回率 计算auc等等

同样,需要先定义一个转换函数

?

1

2

3

4

5

6

7

8
function<string, boolean> transformer = new pairfunction<labeledpoint, object, object>() {//labeledpoint是输入类型 后面的两个object不要改动

@override

public tuple2 call(labeledpoint row) throws exception {//重写call方法 通常只改动输入参数 输出不要改动

double predicton = thismodel.predict(row.features());

double label = row.label();

return new tuple2(predicton, label);

}

});

关于调用的类、类的对象,要求和之前的一致,类需要实现序列化,类的对象需要声明成final类型

相应的调用如下:

?

1
javapairrdd<object, object> predictionsandlabels = oridata.maptopair(transformer);

然后对该predictionsandlabels的使用,计算准确率、召回率、精准率、auc,接下来的博客中会有,敬请期待

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对快网idc的支持。

原文链接:https://www.cnblogs.com/starwater/p/9195764.html

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

快网idc优惠网 建站教程 java-spark中各种常用算子的写法示例 https://www.kuaiidc.com/111440.html

相关文章

发表评论
暂无评论