使用kafka如何选择分区数及kafka性能测试_Java教程

kafka选择分区数及kafka性能测试

1、简言

如何选择合适的分区，这是我们经常面临的问题，不过针对这个问题，在网上并没有搜到固定的答案。因此，今天在这里主要通过性能测试的工具来告诉如何选择相对应的kafka分区。

2、性能测试工具

kafka本身提供了比较的性能测试工具，我们可以使用它来测试适用于我们机器的kafka分区。

① 生产者性能测试

分别创建三个topic，副本数设置为1。

				?

									bin/kafka-topics.sh --zookeeper zk --create --replication-factor 1 --partitions 15 --topic test1

									bin/kafka-topics.sh --zookeeper zk --create --replication-factor 1 --partitions 150 --topic test2

									bin/kafka-topics.sh --zookeeper zk --create --replication-factor 1 --partitions 100 --topic test3

采用生产者性能测试工具来测试：

num-records 100万条消息
record-size 20480 每条消息是20K
throughput 用来进行限流控制当设置为0的时候不限流(尽量还是限流，否则很有可能kafka顶不住压力)，所以这里设置为每秒钟30000条消息数

				?

									bin/kafka-producer-perf-test.sh --topic topic --num-records 1000000 --record-size 20480 --throughput 30000 --producer-props bootstrap.servers="server01" acks=1

我们看实际的效果

15个分区结果

1000000 records sent, 6411.448282 records/sec (125.22 MB/sec), 253.02 ms avg latency, 1680.00 ms max latency, 108 ms 50th, 1026 ms 95th, 1173 ms 99th, 1650 ms 99.9th.

50个分区

1000000 records sent, 6274.549174 records/sec (122.55 MB/sec), 259.04 ms avg latency, 2163.00 ms max latency, 56 ms 50th, 1087 ms 95th, 1334 ms 99th, 2077 ms 99.9th.

100个分区

1000000 records sent, 6417.990912 records/sec (125.35 MB/sec), 253.42 ms avg latency, 2594.00 ms max latency, 38 ms 50th, 1154 ms 95th, 1331 ms 99th, 2537 ms 99.9th.

从中我们可以看出，分区数并不是越多越好，在吞吐量到达一定程度的时候，我们不一定要增大分区数，因为分区数过大，不会提升吞吐量（可以测试一下1000个分区甚至10000个分区，吞吐量会下降，这里就不一一演示），且会造成错误(后面解释)

② 消费者性能测试

				?

									bin/kafka-consumer-perf-test.sh --topic test5 --messages 100000 --broker-list "kafka-node1,kafka-node2"

消费者测试结果，我们知道kafka出来的数据单元为message，所以我们的messages就是kafka消费的条数

start.time（开始时间）, end.time（结束时间）, data.consumed.in.MB（消费的消息总量，单位为M）, MB.sec(消费吞吐量（MB/S）), data.consumed.in.nMsg（消费的消息总数）, nMsg.sec（按消息个数计算的吞吐量）, rebalance.time.ms（再平衡的时间，单位为ms）, fetch.time.ms（拉取消息的持续时间，单位为ms）, fetch.MB.sec（每秒拉取消息的字节大小，MB/S）, fetch.nMsg.sec（每秒拉取消息的个数） 2019-03-19 20:05:54:470, 2019-03-19 20:06:09:001, 1954.3359, 134.4942, 100062, 6886.1056, 3904, 10627, 183.9029, 9415.8276

这是消费者拉取数据测试的结果，我们也可以多测不同分区的几组数据，获得一个合适的kafka分区数据，来保证我们集群的稳定运行。

当然，如果想要测试其他参数，可以使用下图的方式，同理我们的生产者压测也可以通过此方式知道每个参数的含义

使用kafka如何选择分区数及kafka性能测试