From Zero to Hero with Kafka Connect

A presentation at BruJUG / Apache Kafka meetup in February 2020 in Brussels, Belgium by Robin Moffatt

@rmoff #KafkaMeetup @BruJUG What is Kafka Connect? From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Streaming Integration with Kafka Connect syslog Sources Kafka Connect Kafka Brokers From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Streaming Integration with Kafka Connect Amazon S3 Sinks Google BigQuery Kafka Connect Kafka Brokers From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Streaming Integration with Kafka Connect Amazon S3 syslog Google BigQuery Kafka Connect Kafka Brokers From Zero to Hero with Kafka Connect

Look Ma, No Code! @rmoff #KafkaMeetup @BruJUG { “connector.class”: “io.confluent.connect.jdbc.JdbcSourceConnector”, “jdbc:mysql://asgard:3306/demo”, “table.whitelist”: “sales,orders,customers” } https://docs.confluent.io/current/connect/ “connection.url”: From Zero to Hero with Kafka Connect

Streaming Pipelines @rmoff #KafkaMeetup @BruJUG Amazon S3 RDBMS Kafka Connect Kafka Connect HDFS From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Writing to data stores from Kafka App Kaf ka Con nec t Data Store From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Evolve processing from old systems to new Existing App New App <x> a k f Ka t c e n n o C RDBMS From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Demo http:!//rmoff.dev/kafka-connect-code From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Configuring Kafka Connect Inside the API - connectors, transforms, converters From Zero to Hero with Kafka Connect

Kafka Connect basics Source Kafka Connect @rmoff #KafkaMeetup @BruJUG Kafka From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Connectors Connector Source Kafka Connect Kafka From Zero to Hero with Kafka Connect

Connectors @rmoff #KafkaMeetup @BruJUG “config”: { […] “connector.class”: “io.confluent.connect.jdbc.JdbcSinkConnector”, “connection.url”: “jdbc:postgresql://postgres:5432/”, “topics”: “asgard.demo.orders”, } From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Connectors Connector Native data Connect Record Source Kafka Connect Kafka From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Converters Converter Connector Native data Connect bytes[] Record Source Kafka Connect Kafka From Zero to Hero with Kafka Connect

Serialisation & Schemas Avro -> Confluent Schema Registry Protobuf @rmoff #KafkaMeetup @BruJUG JSON CSV https://qconnewyork.com/system/files/presentation-slides/qcon_17_-_schemas_and_apis.pdf From Zero to Hero with Kafka Connect

The Confluent Schema Registry Avro Schema @rmoff #KafkaMeetup @BruJUG Schema Registry Target Source Kafka Connect Avro Message Avro Message Kafka Connect From Zero to Hero with Kafka Connect

Converters @rmoff #KafkaMeetup @BruJUG key.converter=io.confluent.connect.avro.AvroConverter key.converter.schema.registry.url=http://localhost:8081 value.converter=io.confluent.connect.avro.AvroConverter value.converter.schema.registry.url=http://localhost:8081 Set as a global default per-worker; optionally can be overriden per-connector From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG What about internal converters? value.converter=org.apache.kafka.connect.json.JsonConverter internal.value.converter=org.apache.kafka.connect.json.JsonConverter key.internal.value.converter=org.apache.kafka.connect.json.JsonConverter value.internal.value.converter=org.apache.kafka.connect.json.JsonConverter key.internal.value.converter.bork.bork.bork=org.apache.kafka.connect.json.JsonConverter key.internal.value.please.just.work.converter=org.apache.kafka.connect.json.JsonConverter From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Single Message Transforms Connector Source Transform(s) Converter Kafka Connect Kafka From Zero to Hero with Kafka Connect

Single Message Transforms “config”: { @rmoff #KafkaMeetup @BruJUG Do these transforms […] “transforms”: “addDateToTopic,labelFooBar”, “transforms.addDateToTopic.type”: “org.apache.kafka.connect.transforms.TimestampRouter”, “transforms.addDateToTopic.topic.format”: “${topic}-${timestamp}”, “transforms.addDateToTopic.timestamp.format”: “YYYYMM”, “transforms.labelFooBar.type”: “org.apache.kafka.connect.transforms.ReplaceField$Value”, “transforms.labelFooBar.renames”: “delivery_address:shipping_address”, } Transforms config Config per transform From Zero to Hero with Kafka Connect

Extensible Connector @rmoff #KafkaMeetup @BruJUG Transform(s) Converter From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Confluent Hub hub.confluent.io From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Deploying Kafka Connect Connectors, Tasks, and Workers From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Connectors and Tasks JDBC Source S3 Sink S3 Task #1 JDBC Task #1 JDBC Task #2 From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Tasks and Workers JDBC Source S3 Sink S3 Task #1 JDBC Task #1 JDBC Task #2 Worker From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Kafka Connect Standalone Worker S3 Task #1 JDBC Task #1 JDBC Task #2 Worker Offsets From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG “Scaling” the Standalone Worker JDBC Task #1 S3 Task #1 JDBC Task #2 Worker Offsets Worker Offsets Fault-tolerant? Nope. From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Kafka Connect Distributed Worker S3 Task #1 JDBC Task #1 JDBC Task #2 Kafka Connect cluster Worker Offsets Config Status Fault-tolerant? Yeah! From Zero to Hero with Kafka Connect

Scaling the Distributed Worker @rmoff #KafkaMeetup @BruJUG S3 Task #1 JDBC Task #1 Kafka Connect cluster JDBC Task #2 Worker Worker Offsets Config Status Fault-tolerant? Yeah! From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Distributed Worker - fault tolerance S3 Task #1 JDBC Task #1 Kafka Connect cluster Worker Worker Offsets Config Status From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Distributed Worker - fault tolerance S3 Task #1 JDBC Task #1 JDBC Task #2 Kafka Connect cluster Worker Offsets Config Status From Zero to Hero with Kafka Connect

Multiple Distributed Clusters @rmoff #KafkaMeetup @BruJUG S3 Task #1 JDBC Task #1 Kafka Connect cluster #1 JDBC Task #2 Kafka Connect cluster #2 Offsets Offsets Config Config Status Status From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Containers From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Kafka Connect images on Docker Hub kafka-connect-elasticsearch kafka-connect-jdbc kafka-connect-hdfs […] confluentinc/cp-kafka-connect-base confluentinc/cp-kafka-connect From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Adding connectors to a container Confluent Hub JAR confluentinc/cp-kafka-connect-base From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG At runtime kafka-connect: image: confluentinc/cp-kafka-connect:5.4.0 environment: CONNECT_PLUGIN_PATH: ‘/usr/share/java,/usr/share/confluent-hub-components’ command: - bash - -c - | confluent-hub install —no-prompt neo4j/kafka-connect-neo4j:1.0.0 /etc/confluent/docker/run JAR confluentinc/cp-kafka-connect-base http://rmoff.dev/ksln19-connect-docker From Zero to Hero with Kafka Connect

Build a new image @rmoff #KafkaMeetup @BruJUG FROM confluentinc/cp-kafka-connect:5.4.0 ENV CONNECT_PLUGIN_PATH=”/usr/share/java,/usr/share/confluent-hub-components” RUN confluent-hub install —no-prompt neo4j/kafka-connect-neo4j:1.0.0 JAR confluentinc/cp-kafka-connect-base From Zero to Hero with Kafka Connect

Automating connector creation @rmoff #KafkaMeetup @BruJUG
Launch Kafka Connect http://rmoff.dev/ksln19-connect-docker /etc/confluent/docker/run & # # Wait for Kafka Connect listener while [ $$(curl -s -o /dev/null -w %{http_code} http:”//$$CONNECT echo -e $$(date) ” Kafka Connect listener HTTP state: ” $$(cur sleep 5 done # # Create JDBC Source connector curl -X POST http:”//localhost:8083/connectors -H “Content-Type: “name”: “jdbc_source_mysql_00”, “config”: { “connector.class”: “io.confluent.connect.jdbc. “connection.url”: “jdbc:mysql:”//mysql:3306/dem From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Troubleshooting Kafka Connect From Zero to Hero with Kafka Connect

Troubleshooting Kafka Connect @rmoff #KafkaMeetup @BruJUG Task FAILED Connector RUNNING $ curl -s “http://localhost:8083/connectors/source-debezium-orders/status” | \ jq ‘.connector.state’ “RUNNING” $ curl -s “http://localhost:8083/connectors/source-debezium-orders/status” | \ jq ‘.tasks[0].state’ “FAILED” http://go.rmoff.net/connector-status From Zero to Hero with Kafka Connect

Troubleshooting Kafka Connect @rmoff #KafkaMeetup @BruJUG curl -s “http:!//localhost:8083/connectors/source-debezium-orders-00/status” | jq ‘.tasks[0].trace’ “org.apache.kafka.connect.errors.ConnectException\n\tat io.debezium.connector.mysql.AbstractReader.wrap(AbstractReader.java:230)\n\tat io.debezium.connector.mysql.AbstractReader.failed(AbstractReader.java:197)\n\tat io.debezium.connector.mysql.BinlogReader$ReaderThreadLifecycleListener.onCommunicationFailure(BinlogReader.java:1018)\n\t at com.github.shyiko.mysql.binlog.BinaryLogClient.listenForEventPackets(BinaryLogClient.java:950)\n\tat com.github.shyiko.mysql.binlog.BinaryLogClient.connect(BinaryLogClient.java:580)\n\tat com.github.shyiko.mysql.binlog.BinaryLogClient$7.run(BinaryLogClient.java:825)\n\tat java.lang.Thread.run(Thread.java:748)\nCaused by: java.io.EOFException\n\tat com.github.shyiko.mysql.binlog.io.ByteArrayInputStream.read(ByteArrayInputStream.java:190)\n\tat com.github.shyiko.mysql.binlog.io.ByteArrayInputStream.readInteger(ByteArrayInputStream.java:46)\n\tat com.github.shyiko.mysql.binlog.event.deserialization.EventHeaderV4Deserializer.deserialize(EventHeaderV4Deserializer.java :35)\n\tat com.github.shyiko.mysql.binlog.event.deserialization.EventHeaderV4Deserializer.deserialize(EventHeaderV4Deserializer.java :27)\n\tat com.github.shyiko.mysql.binlog.event.deserialization.EventDeserializer.nextEvent(EventDeserializer.java:212)\n\tat io.debezium.connector.mysql.BinlogReader$1.nextEvent(BinlogReader.java:224)\n\tat com.github.shyiko.mysql.binlog.BinaryLogClient.listenForEventPackets(BinaryLogClient.java:922)\n\t!!… 3 more\n” From Zero to Hero with Kafka Connect

The log is the source of truth @rmoff #KafkaMeetup @BruJUG $ confluent log connect $ docker-compose logs kafka-connect $ cat /var/log/kafka/connect.log From Zero to Hero with Kafka Connect

Dynamic log levels @rmoff #KafkaMeetup @BruJUG (Added in Apache Kafka 2.4 / Confluent Platform 5.4) curl -s http://localhost:8083/admin/loggers/ | jq { “org.apache.kafka.connect.runtime.rest”: { “level”: “WARN” }, “org.reflections”: { “level”: “ERROR” }, “root”: { “level”: “INFO” } } curl -s -X PUT http://localhost:8083/admin/loggers/io.debezium -H “Content-Type:application/json” -d ‘{“level”: “TRACE”}’ https://rmoff.dev/kc-dynamic-log-level From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Error Handling and Dead Letter Queues From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG org.apache.kafka.common.errors.SerializationException: Unknown magic byte! From Zero to Hero with Kafka Connect

Mismatched converters @rmoff #KafkaMeetup @BruJUG org.apache.kafka.common.errors.SerializationException: Unknown magic byte! Messages are not Avro “value.converter”: “AvroConverter” ⓘ Use the correct Converter for the source data From Zero to Hero with Kafka Connect

Mixed serialisation methods @rmoff #KafkaMeetup @BruJUG org.apache.kafka.common.errors.SerializationException: Unknown magic byte! Some messages are not Avro “value.converter”: “AvroConverter” ⓘ Use error handling to deal with bad messages From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Error Handling and DLQ Handled Not Handled Convert Start -> read/write from Kafka -> [de]-serialisation Transform -> Connections to a data store Poll / Put -> Read/Write from/to data store* * can be retried by Connect https://cnfl.io/connect-dlq From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Fail Fast Source topic messages Kafka Connect https://cnfl.io/connect-dlq Sink messages From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG YOLO ¯_(ツ)_/¯ Source topic messages errors.tolerance=all Kafka Connect https://cnfl.io/connect-dlq Sink messages From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Dead Letter Queue Dead letter queue Source topic messages Kafka Connect errors.tolerance=all errors.deadletterqueue.topic.name=my_dlq https://cnfl.io/connect-dlq Sink messages From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Re-processing the Dead Letter Queue Source topic messages Dead letter queue Kafka Connect (Avro sink) Kafka Connect (JSON sink) https://cnfl.io/connect-dlq Sink messages From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG Metrics and Monitoring From Zero to Hero with Kafka Connect

REST API @rmoff #KafkaMeetup @BruJUG http://go.rmoff.net/connector-status From Zero to Hero with Kafka Connect

Confluent Control Center @rmoff #KafkaMeetup @BruJUG From Zero to Hero with Kafka Connect

Consumer lag @rmoff #KafkaMeetup @BruJUG From Zero to Hero with Kafka Connect

JMX @rmoff #KafkaMeetup @BruJUG From Zero to Hero with Kafka Connect

kafka-summit.org Moffatt30 30% OFF* *Standard Priced Conference pass

@rmoff #KafkaMeetup @BruJUG Free Books! https://rmoff.dev/BruJUG From Zero to Hero with Kafka Connect

@rmoff #KafkaMeetup @BruJUG #EOF 💬 Join the Confluent Community Slack group at http://cnfl.io/slack https://talks.rmoff.net

Robin Moffatt
@rmoff

1 / 67

Integrating Apache Kafka with other systems in a reliable and scalable way is often a key part of a streaming platform. Fortunately, Apache Kafka includes the Connect API that enables streaming integration both in and out of Kafka. Like any technology, understanding its architecture and deployment patterns is key to successful use, as is knowing where to go looking when things aren’t working.

This talk will discuss the key design concepts within Kafka Connect and the pros and cons of standalone vs distributed deployment modes. We’ll do a live demo of building pipelines with Kafka Connect for streaming data in from databases, and out to targets including Elasticsearch. With some gremlins along the way, we’ll go hands-on in methodically diagnosing and resolving common issues encountered with Kafka Connect. The talk will finish off by discussing more advanced topics including Single Message Transforms, and deployment of Kafka Connect in containers.

Resources

The following resources were mentioned during the presentation or are useful additional information.

☁️Confluent Cloud

Fully Managed Apache Kafka, Schema Registry, KSQL, and Connectors
📚Free eBooks

Free eBooks to download, including Kafka: The Definitive Guide.
💬 Confluent Community Slack group
👾 Demo code

All you need is Docker & Docker Compose!
🎥 Recording

Same talk, different occassion.
🖼️No More Silos: Integrating Databases and Apache Kafka

The ins and outs of streaming data from RDBMS into Kafka, including how to choose between query-based CDC (JDBC Source connector) and log-based CDC (e.g. Debezium, GoldenGate, etc)
🖼️The Changing Face of ETL: Event-Driven Architectures for Data Engineers
✍️Kafka Connect Deep Dive – Converters and Serialization Explained
✍️Kafka Connect Deep Dive – Error Handling and Dead Letter Queues

Buzz and feedback

Here’s what was said about this presentation on social media.

From Zero to Hero with #Kafka #Connect by @rmoff at @BruJUG

What a great piece of “glue” @confluentinc :) pic.twitter.com/kyntCoQE99
— Ricardo Moreira (@_ramoreira) February 24, 2020
And the show starts ! @rmoff on stage for #kafka #connect
Thanks to @confluentinc for sponsoring and providing food to all those attendees 🙏 pic.twitter.com/iBfN9c5LVH
— Brussels Java UG (@BruJUG) February 24, 2020
Advice when using Kafka connect: choose your schema wisely 😅 pic.twitter.com/g85a5NVt8s
— Brussels Java UG (@BruJUG) February 24, 2020
From Zero to Hero with Kafka Connect 🤓 pic.twitter.com/V27RcLxGcJ
— Sam (@s_debruyn) February 24, 2020

From Zero to Hero with Kafka Connect

Link for this presentation:

HTML code for embedding:

Share on social media:

Resources

☁️Confluent Cloud

📚Free eBooks

💬 Confluent Community Slack group

👾 Demo code

🎥 Recording

🖼️No More Silos: Integrating Databases and Apache Kafka

🖼️The Changing Face of ETL: Event-Driven Architectures for Data Engineers

✍️Kafka Connect Deep Dive – Converters and Serialization Explained

✍️Kafka Connect Deep Dive – Error Handling and Dead Letter Queues

Buzz and feedback