From Zero to Hero with Kafka Connect

A presentation at LJC Virtual Meetup in May 2020 in London, UK by Robin Moffatt

Housekeeping @rmoff #ljcjug • Slides: yes! (talks.rmoff.net) • Recording: yes! (in due course) • Questions: yes! • Video: if you’d like! From Zero to Hero with Kafka Connect

@rmoff #ljcjug What is Kafka Connect? From Zero to Hero with Kafka Connect

@rmoff #ljcjug Streaming Integration with Kafka Connect syslog Sources Kafka Connect Kafka Brokers From Zero to Hero with Kafka Connect

@rmoff #ljcjug Streaming Integration with Kafka Connect Amazon S3 Sinks Google BigQuery Kafka Connect Kafka Brokers From Zero to Hero with Kafka Connect

@rmoff #ljcjug Streaming Integration with Kafka Connect Amazon S3 syslog Google BigQuery Kafka Connect Kafka Brokers From Zero to Hero with Kafka Connect

Look Ma, No Code! @rmoff #ljcjug { “connector.class”: “io.confluent.connect.jdbc.JdbcSourceConnector”, “jdbc:mysql://asgard:3306/demo”, “table.whitelist”: “sales,orders,customers” } https://docs.confluent.io/current/connect/ “connection.url”: From Zero to Hero with Kafka Connect

@rmoff #ljcjug Streaming Pipelines Amazon S3 RDBMS Kafka Connect Kafka Connect HDFS From Zero to Hero with Kafka Connect

Writing to data stores from Kafka @rmoff #ljcjug App Kaf ka Con nec t Data Store From Zero to Hero with Kafka Connect

@rmoff #ljcjug Evolve processing from old systems to new Existing App New App <x> a k f Ka t c e n n o C RDBMS From Zero to Hero with Kafka Connect

@rmoff #ljcjug Demo http:!//rmoff.dev/kafka-connect-code From Zero to Hero with Kafka Connect

@rmoff #ljcjug Configuring Kafka Connect Inside the API - connectors, transforms, converters From Zero to Hero with Kafka Connect

Kafka Connect basics Source Kafka Connect @rmoff #ljcjug Kafka From Zero to Hero with Kafka Connect

@rmoff #ljcjug Connectors Connector Source Kafka Connect Kafka From Zero to Hero with Kafka Connect

@rmoff #ljcjug Connectors “config”: { […] “connector.class”: “io.confluent.connect.jdbc.JdbcSinkConnector”, “connection.url”: “jdbc:postgresql://postgres:5432/”, “topics”: “asgard.demo.orders”, } From Zero to Hero with Kafka Connect

@rmoff #ljcjug Connectors Connector Native data Connect Record Source Kafka Connect Kafka From Zero to Hero with Kafka Connect

@rmoff #ljcjug Converters Converter Connector Native data Connect bytes[] Record Source Kafka Connect Kafka From Zero to Hero with Kafka Connect

@rmoff #ljcjug Serialisation & Schemas Avro -> Confluent Schema Registry Protobuf -> Confluent Schema Registry JSON CSV https://qconnewyork.com/system/files/presentation-slides/qcon_17_-_schemas_and_apis.pdf From Zero to Hero with Kafka Connect

The Confluent Schema Registry Avro Schema @rmoff #ljcjug Schema Registry Target Source Kafka Connect Avro Message Avro Message Kafka Connect From Zero to Hero with Kafka Connect

@rmoff #ljcjug Converters key.converter=io.confluent.connect.avro.AvroConverter key.converter.schema.registry.url=http://localhost:8081 value.converter=io.confluent.connect.avro.AvroConverter value.converter.schema.registry.url=http://localhost:8081 Set as a global default per-worker; optionally can be overriden per-connector From Zero to Hero with Kafka Connect

@rmoff #ljcjug What about internal converters? value.converter=org.apache.kafka.connect.json.JsonConverter internal.value.converter=org.apache.kafka.connect.json.JsonConverter key.internal.value.converter=org.apache.kafka.connect.json.JsonConverter value.internal.value.converter=org.apache.kafka.connect.json.JsonConverter key.internal.value.converter.bork.bork.bork=org.apache.kafka.connect.json.JsonConverter key.internal.value.please.just.work.converter=org.apache.kafka.connect.json.JsonConverter From Zero to Hero with Kafka Connect

@rmoff #ljcjug Single Message Transforms Connector Source Transform(s) Converter Kafka Connect Kafka From Zero to Hero with Kafka Connect

@rmoff #ljcjug Single Message Transforms “config”: { Do these transforms […] “transforms”: “addDateToTopic,labelFooBar”, “transforms.addDateToTopic.type”: “org.apache.kafka.connect.transforms.TimestampRouter”, “transforms.addDateToTopic.topic.format”: “${topic}-${timestamp}”, “transforms.addDateToTopic.timestamp.format”: “YYYYMM”, “transforms.labelFooBar.type”: “org.apache.kafka.connect.transforms.ReplaceField$Value”, “transforms.labelFooBar.renames”: “delivery_address:shipping_address”, } Transforms config Config per transform From Zero to Hero with Kafka Connect

Extensible Connector @rmoff #ljcjug Transform(s) Converter From Zero to Hero with Kafka Connect

@rmoff #ljcjug Confluent Hub hub.confluent.io From Zero to Hero with Kafka Connect

@rmoff #ljcjug Deploying Kafka Connect Connectors, Tasks, and Workers From Zero to Hero with Kafka Connect

@rmoff #ljcjug Connectors and Tasks JDBC Source S3 Sink S3 Task #1 JDBC Task #1 JDBC Task #2 From Zero to Hero with Kafka Connect

@rmoff #ljcjug Tasks and Workers JDBC Source S3 Sink S3 Task #1 JDBC Task #1 JDBC Task #2 Worker From Zero to Hero with Kafka Connect

@rmoff #ljcjug From Zero to Hero with Kafka Connect

@rmoff #ljcjug Kafka Connect Standalone Worker S3 Task #1 JDBC Task #1 JDBC Task #2 Worker Offsets From Zero to Hero with Kafka Connect

@rmoff #ljcjug “Scaling” the Standalone Worker JDBC Task #1 S3 Task #1 JDBC Task #2 Worker Offsets Worker Offsets Fault-tolerant? Nope. From Zero to Hero with Kafka Connect

Kafka Connect Distributed Worker @rmoff #ljcjug S3 Task #1 JDBC Task #1 JDBC Task #2 Kafka Connect cluster Worker Offsets Config Status Fault-tolerant? Yeah! From Zero to Hero with Kafka Connect

Scaling the Distributed Worker @rmoff #ljcjug S3 Task #1 JDBC Task #1 Kafka Connect cluster JDBC Task #2 Worker Worker Offsets Config Status Fault-tolerant? Yeah! From Zero to Hero with Kafka Connect

Distributed Worker - fault tolerance @rmoff #ljcjug S3 Task #1 JDBC Task #1 Kafka Connect cluster Worker Worker Offsets Config Status From Zero to Hero with Kafka Connect

Distributed Worker - fault tolerance @rmoff #ljcjug S3 Task #1 JDBC Task #1 JDBC Task #2 Kafka Connect cluster Worker Offsets Config Status From Zero to Hero with Kafka Connect

Multiple Distributed Clusters @rmoff #ljcjug S3 Task #1 JDBC Task #1 Kafka Connect cluster #1 JDBC Task #2 Kafka Connect cluster #2 Offsets Offsets Config Config Status Status From Zero to Hero with Kafka Connect

@rmoff #ljcjug Containers From Zero to Hero with Kafka Connect

Kafka Connect images on Docker Hub @rmoff #ljcjug kafka-connect-elasticsearch kafka-connect-jdbc kafka-connect-hdfs […] confluentinc/cp-kafka-connect-base confluentinc/cp-kafka-connect From Zero to Hero with Kafka Connect

Adding connectors to a container @rmoff #ljcjug Confluent Hub JAR confluentinc/cp-kafka-connect-base From Zero to Hero with Kafka Connect

@rmoff #ljcjug At runtime kafka-connect: image: confluentinc/cp-kafka-connect:5.5.0 environment: CONNECT_PLUGIN_PATH: ‘/usr/share/java,/usr/share/confluent-hub-components’ command: - bash - -c - | confluent-hub install —no-prompt neo4j/kafka-connect-neo4j:1.0.0 /etc/confluent/docker/run JAR confluentinc/cp-kafka-connect-base http://rmoff.dev/ksln19-connect-docker From Zero to Hero with Kafka Connect

Build a new image @rmoff #ljcjug FROM confluentinc/cp-kafka-connect:5.5.0 ENV CONNECT_PLUGIN_PATH=”/usr/share/java,/usr/share/confluent-hub-components” RUN confluent-hub install —no-prompt neo4j/kafka-connect-neo4j:1.0.0 JAR confluentinc/cp-kafka-connect-base From Zero to Hero with Kafka Connect

Automating connector creation @rmoff #ljcjug
Launch Kafka Connect http://rmoff.dev/ksln19-connect-docker /etc/confluent/docker/run & # # Wait for Kafka Connect listener while [ $$(curl -s -o /dev/null -w %{http_code} http:”//$$CONNECT echo -e $$(date) ” Kafka Connect listener HTTP state: ” $$(cur sleep 5 done # # Create JDBC Source connector curl -X POST http:”//localhost:8083/connectors -H “Content-Type: “name”: “jdbc_source_mysql_00”, “config”: { “connector.class”: “io.confluent.connect.jdbc. From Zero to Hero with Kafka Connect “connection.url”: “jdbc:mysql:”//mysql:3306/dem

@rmoff #ljcjug Troubleshooting Kafka Connect From Zero to Hero with Kafka Connect

Troubleshooting Kafka Connect @rmoff #ljcjug Task FAILED Connector RUNNING $ curl -s “http://localhost:8083/connectors/source-debezium-orders/status” | \ jq ‘.connector.state’ “RUNNING” $ curl -s “http://localhost:8083/connectors/source-debezium-orders/status” | \ jq ‘.tasks[0].state’ “FAILED” http://go.rmoff.net/connector-status From Zero to Hero with Kafka Connect

Troubleshooting Kafka Connect @rmoff #ljcjug curl -s “http:!//localhost:8083/connectors/source-debezium-orders-00/status” | jq ‘.tasks[0].trace’ “org.apache.kafka.connect.errors.ConnectException\n\tat io.debezium.connector.mysql.AbstractReader.wrap(AbstractReader.java:230)\n\tat io.debezium.connector.mysql.AbstractReader.failed(AbstractReader.java:197)\n\tat io.debezium.connector.mysql.BinlogReader$ReaderThreadLifecycleListener.onCommunicationFailure(BinlogReader.java:1018)\n\t at com.github.shyiko.mysql.binlog.BinaryLogClient.listenForEventPackets(BinaryLogClient.java:950)\n\tat com.github.shyiko.mysql.binlog.BinaryLogClient.connect(BinaryLogClient.java:580)\n\tat com.github.shyiko.mysql.binlog.BinaryLogClient$7.run(BinaryLogClient.java:825)\n\tat java.lang.Thread.run(Thread.java:748)\nCaused by: java.io.EOFException\n\tat com.github.shyiko.mysql.binlog.io.ByteArrayInputStream.read(ByteArrayInputStream.java:190)\n\tat com.github.shyiko.mysql.binlog.io.ByteArrayInputStream.readInteger(ByteArrayInputStream.java:46)\n\tat com.github.shyiko.mysql.binlog.event.deserialization.EventHeaderV4Deserializer.deserialize(EventHeaderV4Deserializer.java :35)\n\tat com.github.shyiko.mysql.binlog.event.deserialization.EventHeaderV4Deserializer.deserialize(EventHeaderV4Deserializer.java :27)\n\tat com.github.shyiko.mysql.binlog.event.deserialization.EventDeserializer.nextEvent(EventDeserializer.java:212)\n\tat io.debezium.connector.mysql.BinlogReader$1.nextEvent(BinlogReader.java:224)\n\tat com.github.shyiko.mysql.binlog.BinaryLogClient.listenForEventPackets(BinaryLogClient.java:922)\n\t!!… 3 more\n” From Zero to Hero with Kafka Connect

@rmoff #ljcjug The log is the source of truth $ confluent log connect $ docker-compose logs kafka-connect $ cat /var/log/kafka/connect.log From Zero to Hero with Kafka Connect

@rmoff #ljcjug Dynamic log levels (Added in Apache Kafka 2.4 / Confluent Platform 5.4) curl -s http://localhost:8083/admin/loggers/ | jq { “org.apache.kafka.connect.runtime.rest”: { “level”: “WARN” }, “org.reflections”: { “level”: “ERROR” }, “root”: { “level”: “INFO” } } curl -s -X PUT http://localhost:8083/admin/loggers/io.debezium -H “Content-Type:application/json” -d ‘{“level”: “TRACE”}’ https://rmoff.dev/kc-dynamic-log-level From Zero to Hero with Kafka Connect

@rmoff #ljcjug Error Handling and Dead Letter Queues From Zero to Hero with Kafka Connect

@rmoff #ljcjug org.apache.kafka.common.errors.SerializationException: Unknown magic byte! From Zero to Hero with Kafka Connect

Mismatched converters @rmoff #ljcjug org.apache.kafka.common.errors.SerializationException: Unknown magic byte! Messages are not Avro “value.converter”: “AvroConverter” ⓘ Use the correct Converter for the source data From Zero to Hero with Kafka Connect

Mixed serialisation methods @rmoff #ljcjug org.apache.kafka.common.errors.SerializationException: Unknown magic byte! Some messages are not Avro “value.converter”: “AvroConverter” ⓘ Use error handling to deal with bad messages From Zero to Hero with Kafka Connect

@rmoff #ljcjug Error Handling and DLQ Handled Not Handled Convert Start -> read/write from Kafka -> [de]-serialisation Transform -> Connections to a data store Poll / Put -> Read/Write from/to data store* * can be retried by Connect https://cnfl.io/connect-dlq From Zero to Hero with Kafka Connect

@rmoff #ljcjug Fail Fast Source topic messages Kafka Connect https://cnfl.io/connect-dlq Sink messages From Zero to Hero with Kafka Connect

@rmoff #ljcjug YOLO ¯_(ツ)_/¯ Source topic messages errors.tolerance=all Kafka Connect https://cnfl.io/connect-dlq Sink messages From Zero to Hero with Kafka Connect

@rmoff #ljcjug Dead Letter Queue Dead letter queue Source topic messages Kafka Connect errors.tolerance=all errors.deadletterqueue.topic.name=my_dlq https://cnfl.io/connect-dlq Sink messages From Zero to Hero with Kafka Connect

Re-processing the Dead Letter Queue @rmoff #ljcjug Source topic messages Dead letter queue Kafka Connect (Avro sink) Kafka Connect (JSON sink) https://cnfl.io/connect-dlq Sink messages From Zero to Hero with Kafka Connect

@rmoff #ljcjug Metrics and Monitoring From Zero to Hero with Kafka Connect

@rmoff #ljcjug REST API http://go.rmoff.net/connector-status From Zero to Hero with Kafka Connect

Confluent Control Center @rmoff #ljcjug From Zero to Hero with Kafka Connect

Consumer lag @rmoff #ljcjug From Zero to Hero with Kafka Connect

JMX @rmoff #ljcjug From Zero to Hero with Kafka Connect

@rmoff #ljcjug Standby for resource links… From Zero to Hero with Kafka Connect

Free Books! https://rmoff.dev/ljcjug @rmoff #ljcjug From Zero to Hero with Kafka Connect

Learn Kafka. Start building with Apache Kafka at Confluent Developer. developer.confluent.io

Confluent Community Slack group @rmoff #ljcjug cnfl.io/slack From Zero to Hero with Kafka Connect

@rmoff #ljcjug #EOF https://talks.rmoff.net

Robin Moffatt
@rmoff

1 / 69

Integrating Apache Kafka with other systems in a reliable and scalable way is often a key part of a streaming platform. Fortunately, Apache Kafka includes the Connect API that enables streaming integration both in and out of Kafka. Like any technology, understanding its architecture and deployment patterns is key to successful use, as is knowing where to go looking when things aren’t working.

This talk will discuss the key design concepts within Kafka Connect and the pros and cons of standalone vs distributed deployment modes. We’ll do a live demo of building pipelines with Kafka Connect for streaming data in from databases, and out to targets including Elasticsearch. With some gremlins along the way, we’ll go hands-on in methodically diagnosing and resolving common issues encountered with Kafka Connect. The talk will finish off by discussing more advanced topics including Single Message Transforms, and deployment of Kafka Connect in containers.

Video

Resources

The following resources were mentioned during the presentation or are useful additional information.

☁️Confluent Cloud

Fully Managed Apache Kafka, Schema Registry, KSQL, and Connectors
Streaming data from Oracle into Kafka
📚Free eBooks

Free eBooks to download, including Kafka: The Definitive Guide.
💬 Confluent Community Slack group
👾 Demo code

All you need is Docker & Docker Compose!
🎥 Recording

Same talk, different occassion.
📹Streaming data from Kafka to Elasticsearch
📹Streaming data from Kafka to a Database with the JDBC Sink
📹 How to write streams & tables from ksqlDB to a database, enrich data, build aggregates, and more.
📹Tutorial : How to get data from Apache Kafka into S3 with Kafka Connect
🖼️No More Silos: Integrating Databases and Apache Kafka

The ins and outs of streaming data from RDBMS into Kafka, including how to choose between query-based CDC (JDBC Source connector) and log-based CDC (e.g. Debezium, GoldenGate, etc)
🖼️The Changing Face of ETL: Event-Driven Architectures for Data Engineers
✍️Kafka Connect Deep Dive – Converters and Serialization Explained
✍️Kafka Connect Deep Dive – Error Handling and Dead Letter Queues
📹How to install JDBC Driver for Kafka Connect JDBC connector

Buzz and feedback

Here’s what was said about this presentation on social media.

Really good to see that advocates from @confluentinc are hosting live zoom sessions including deep dive on Kafka Streams as well as how to build complex architectures with Kafka. Attended 2 sessions in a single day from @rmoff as well as Viktor. Amazing sessions. 👏
— Vivek Patil (@vivekpatil2092) May 6, 2020
Thank u very much. This was the first time I listened to ur session & really liked it. Very legible & useful indeed. So, I forward my unanswered question here - Is there any thumb-rule to set the no. of tasks for a connector? For example, in the case of a debezium connector? Thx.
— Vinod Chelladurai (@ShootAtClv) May 6, 2020
@rmoff excellent talk this evening on Kafka connect. Thanks a lot. Aidan
— Aidan McCarthy (@aidangmccarthy) May 6, 2020
@rmoff Thank you - this evening's talk was a proper eye-opener and answered my question from last week about integration and Camel
— Peter Hicks (@poggs) May 6, 2020
Someone getting Rickrolled
— Filipovski (@_filipovskid) May 6, 2020
Great Kafka-connect talk by @rmoff at the @ljcjug virtual meetup 😎👍
— Tim Yates (@tim_yates) May 6, 2020
will be joining these talks from now on. Amazing talk @rmoff 👌🏾. Thank you! #ljcjug #Kafka #Confluent pic.twitter.com/wgQW1qIliu
— Sibonelo Ngobese (@Dabunbeat3r) May 6, 2020
Enjoying the last few rays of #sunset after another fun #ljcjug meetup 🍺 🔗 https://t.co/Gdx3ziAtrC pic.twitter.com/evw8WkkJz7
— Robin Moffatt 🍻🏃🥓 (@rmoff) May 6, 2020

From Zero to Hero with Kafka Connect

Link for this presentation:

HTML code for embedding:

Share on social media:

Video

Resources

☁️Confluent Cloud

Streaming data from Oracle into Kafka

📚Free eBooks

💬 Confluent Community Slack group

👾 Demo code

🎥 Recording

📹Streaming data from Kafka to Elasticsearch

📹Streaming data from Kafka to a Database with the JDBC Sink

📹 How to write streams & tables from ksqlDB to a database, enrich data, build aggregates, and more.

📹Tutorial : How to get data from Apache Kafka into S3 with Kafka Connect

🖼️No More Silos: Integrating Databases and Apache Kafka

🖼️The Changing Face of ETL: Event-Driven Architectures for Data Engineers

✍️Kafka Connect Deep Dive – Converters and Serialization Explained

✍️Kafka Connect Deep Dive – Error Handling and Dead Letter Queues

📹How to install JDBC Driver for Kafka Connect JDBC connector

Buzz and feedback