首页建站教程正文

我要投稿

使用Spark Streaming转换不同的JSON有效负载

站长建站教程

2025-05-29 0 52

Spark Streaming 是底层基于 Spark Core 的对大数据进行实时计算的框架，可以流方式从源读取数据。只需要从数据源创建一个读取流，然后我们可以创建写入流以将数据加载到目标数据源中。

接下来的演示，将假设我们有不同的 JSON 有效负载进入一个 kafka 主题，我们需要将其转换并写入另一个 kafka 主题。

创建一个ReadStream

为了能连续接收JSON有效负载作为消息。我们需要首先读取消息并使用spark的readstream创建数据帧。Spark 中提供了 readStream 函数，我们可以使用这个函数基本上创建一个 readStream。这将从 kafka 主题中读取流负载。

valdf=spark
.readStream
.format("kafka")
.option("kafka.bootstrap.servers","host1:port1,host2:port2")
.option("subscribe","topic1")
.load()

我们可以创建一个 case-class(例如CustomerUnion)，它将包含JSON有效负载的所有可能字段。这样，我们就能在数据帧上运行select查询而不会失败。

valrawDfValue=rawData.selectExpr("CAST(valueASSTRING)").as[String]
valschema=ScalaReflection.schemaFor[CustomerUnion].dataType.asInstanceOf[StructType]
valextractedDFWithSchema=rawDfValue.select(from_json(col("value"),schema).as("data")).select("data.*")
extractedDFWithSchema.createOrReplaceTempView(“tempView”)

这将为我们提供一个数据帧提取的 DFWithSchema，其中包含作为有效负载字段的列。

示例输入负载

这是两个样本输入有效负载，但也可以有更多的有效负载，有些字段不存在(变量)。

{
“id”:1234,
“firstName”:”Jon”,
“lastName”:”Butler”,
“City”:”Newyork”,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

{
“firstName”:”Jon”,
“lastName”:”Butler”,
“City”:”Newyork”,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

样例输出负载

根据id字段，我们将决定输出有效负载。如果存在一个 id 字段，我们将把它视为一个用户更新案例，并且在输出有效负载中只发送“Email”和“Phone”。我们可以根据某些条件配置任何字段。这只是一个例子。

如果 id 不存在，我们将发送所有字段。下面是两个输出载荷的示例：

{
“userid”:1234,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

{
“fullname”:”JonButler”,
“City”:”Newyork”,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

开始WriteStreams

一旦我们有了数据帧，我们就可以运行尽可能多的sql查询，并根据所需的有效负载写入 kafka 主题。因此，我们可以创建一个包含所有sql查询的列表，并通过该列表进行循环，并调用writeStream函数。让我们假设，我们有一个名为 queryList 的列表，它只包含字符串(即sql查询)。

下面为写入流定义的一个函数：

defstartWriteStream(query:String):Unit={
valtransformedDf=spark.sql(query)
transformedDf
.selectExpr("CAST(keyASSTRING)","CAST(valueASSTRING)")
.writeStream
.format("kafka")
.option("kafka.bootstrap.servers","host1:port1,host2:port2")
.option("topic","topic1")
.start()
}

这将启动列表中每个查询的写入流。

queryList.foreach(startWriteStream)
spark.streams.awaitAnyTermination()

如果我们知道输入有效负载的所有可能字段，那么即使有一些字段不存在，我们的sql查询也不会失败。我们已经将有效负载的模式指定为case-class，它将为缺席字段创建指定 NULL 的数据帧。

通过这种方式，我们可以使用 spark-streaming 在所需的转换/过滤器之后将多个有效负载从同一主题写入不同的主题。

【51CTO译稿，合作站点转载请注明原文译者和出处为51CTO.com】

文章来源：https://developer.51cto.com/art/202108/678717.htm

收藏 (0) 打赏

感谢您的支持，我会继续努力的!

打开微信/支付宝扫一扫，即可进行扫码打赏哦，分享从这里开始，精彩与您同在

点赞 (0)

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

快网idc优惠网建站教程使用Spark Streaming转换不同的JSON有效负载 https://www.kuaiidc.com/93822.html

JSON spark Streaming

站长

如何用最快的方式发送 10 万个 HTTP 请求

关于iOS获取属性你真的了解吗？

相关文章

ASP.NET自助建站系统中的用户注册和登录功能定制方法

ASP.NET自助建站系统中的用户注册和登录功能定制方法

建站教程

站长

3个月前 130

ASP.NET自助建站系统的域名绑定与解析教程

ASP.NET自助建站系统的域名绑定与解析教程

建站教程

站长

3个月前 100

个人服务器网站搭建：如何选择合适的服务器提供商？

个人服务器网站搭建：如何选择合适的服务器提供商？

建站教程

站长

3个月前 50

ASP.NET自助建站系统中如何实现多语言支持？

ASP.NET自助建站系统中如何实现多语言支持？

建站教程

站长

3个月前 90

猜你喜欢

发表评论

暂无评论

如遇问题，请联系客服咨询在线客服
联系客服请注明来意高端主题开发
微信公众号

高端主题
返回顶部