Kafka利用Java实现数据的生产和消费实例教程

前言

在上一篇中讲述如何搭建kafka集群，本篇则讲述如何简单的使用 kafka 。不过在使用kafka的时候，还是应该简单的了解下kafka。

kafka的介绍

kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。

kafka 有如下特性：

kafka的术语

broker：kafka集群包含一个或多个服务器，这种服务器被称为broker。
topic：每条发布到kafka集群的消息都有一个类别，这个类别被称为topic。（物理上不同topic的消息分开存储，逻辑上一个topic的消息虽然保存于一个或多个broker上但用户只需指定消息的topic即可生产或消费数据而不必关心数据存于何处）
partition：partition是物理上的概念，每个topic包含一个或多个partition。
producer：负责发布消息到kafka broker。
consumer：消息消费者，向kafka broker读取消息的客户端。
consumer group:每个consumer属于一个特定的consumer group（可为每个consumer指定group name，若不指定group name则属于默认的group）。

kafka核心api

kafka有四个核心api

示例图如下:

kafka 应用场景

以上介绍参考kafka官方文档。

开发准备

如果我们要开发一个kafka的程序，应该做些什么呢？

首先，在搭建好kafka环境之后，我们要考虑的是我们是生产者还是消费者，也就是消息的发送者还是接受者。
不过在本篇中，生产者和消费者都会进行开发和讲解。

在大致的了解kafka之后，我们来开发第一个程序。

这里用的开发语言是java，构建工具maven。

maven的依赖如下:

<dependency>

<groupid>org.apache.kafka</groupid>

<artifactid>kafka_2.12</artifactid>

<version>1.0.0</version>

<scope>provided</scope>

</dependency>

<dependency>

<groupid>org.apache.kafka</groupid>

<artifactid>kafka-clients</artifactid>

<version>1.0.0</version>

</dependency>

<dependency>

<groupid>org.apache.kafka</groupid>

<artifactid>kafka-streams</artifactid>

<version>1.0.0</version>

</dependency>

kafka producer

在开发生产的时候，先简单的介绍下kafka各种配置说明：

bootstrap.servers： kafka的地址。
acks:消息的确认机制，默认值是0。
acks=0：如果设置为0，生产者不会等待kafka的响应。
acks=1：这个配置意味着kafka会把这条消息写到本地日志文件中，但是不会等待集群中其他机器的成功响应。
acks=all：这个配置意味着leader会等待所有的follower同步完成。这个确保消息不会丢失，除非kafka集群中所有机器挂掉。这是最强的可用性保证。
retries：配置为大于0的值的话，客户端会在消息发送失败时重新发送。
batch.size:当多条消息需要发送到同一个分区时，生产者会尝试合并网络请求。这会提高client和生产者的效率。
key.serializer: 键序列化，默认org.apache.kafka.common.serialization.stringdeserializer。
value.deserializer:值序列化，默认org.apache.kafka.common.serialization.stringdeserializer。