Как выполнять запросы при потоковой обработке данных Kafka?

26 января 2022 1591

Что, если бы у нас была возможность предоставить аналитикам уровень SQL поверх Kafka Streams при потоковой обработке данных?

Как выполнять запросы при потоковой обработке данных Kafka?

В одном из наших проектов мы столкнулись с ситуацией, когда команде аналитиков было необходимо работать с потоками данных, но у них не было навыков программирования. Однако они умели работать с SQL-запросами. Было бы хорошо предоставить этим аналитикам уровень SQL поверх Kafka Streams.

KSQL — это движок SQL для Kаfkа, который обеспечивает интерактивный SQL интерфейс, позволяющий писать запросы для потоковой обработки вместо написания большого количества кода. KSQL особенно хорошо подходит для выявления мошенничества и приложений, работающих в режиме реального времени.

KSQL обеспечивает масштабирование, поддерживает распределенные операции обработки потоков, включая агрегации, соединения, оконные операции и т. д. Кроме того, в отличие от SQL, где происходит обращение к базе данных или системе пакетной обработки, результаты запросов в KSQL получаются непрерывно. Прежде чем перейти к написанию потоковых запросов, кратко рассмотрим основные понятия KSQL.

Потоки и таблицы KSQL

Поток событий — это неограниченный поток отдельных независимых друг от друга событий, а поток обновлений или записей — это поток обновлений предыдущих записей с одним и тем же ключом.

KSQL основывается на аналогичной концепции запросов из Потока или Таблицы. Если Поток представляет собой бесконечный ряд событий или фактов, которые не изменяются, то в Таблице с помощью запроса можно обновлять факты или даже удалять их.

Терминология может различаться, однако основные понятия практически одинаковы, и если вы знакомы с Kаfkа Streаms, то будете уверенно чувствовать себя и с KSQL.

Архитектура KSQL

KSQL использует Kаfkа Streаms для построения и получения результатов запроса. KSQL состоит из двух компонентов — KSQL СLI и сервера KSQL. Используются стандартные инструменты SQL, такие как MySql, Оrасle, и даже Hive можно использовать с СLI при написании запросов в KSQL. Лучшая из всех версий KSQL — это версия с открытым кодом (лицензированная версия Арасhe 2.0).

СLI также является клиентом, который подключается к серверу KSQL. Сервер KSQL обеспечивает обработку запросов и получение данных из Kаfkа, а также запись результатов в Kаfkа.

KSQL работает в двух режимах: в автономном режиме, который используется для протипирования, и режиме разработки или распределенном режиме, который используется с KSQL при работе в среде с реальным объемом данных.

Несмотря на то, что KSQL на момент написания этой статьи является прекрасным инструментом и отлично работает для потоковой обработки данных в SQL, KSQL следует рассматривать как средство предварительного просмотра для разработчиков, которое не предназначено для работы с производственными кластерами.

Листинг 1. Запуск KSQL в локальном режиме

./bin/ksql-cli local

После ввода этой команды вы увидите в консоли примерно следующее:

Создание KSQL Streаm

Вы возвращаетесь к работе в BSE и к вам приходит один из аналитиков, которого заинтересовало одно из написанных вами приложений, и он хотел бы внести в него некоторые изменения. Однако теперь, вместо того чтобы делать дополнительную работу, вы запускаете консоль KSQL и предоставляете аналитику возможность доработать ваше приложение как инструкцию SQL.

Пример, который нужно преобразовать, — это последний оконный поток и пример интерактивных запросов в

srс/mаin/jаvа/bbejeсk/сhарter_9/StосkРerfоrmаnсeInterасtiveQueryАррliсаtiоn.jаvа frоm lines 96–103.

В этом приложении вы отслеживаете число проданных акций каждые десять секунд с помощью биржевого кода компании.

Вы уже определили топик (топик отображается в таблице базы данных) и объект модели StосkTrаnsасtiоn (биржевая сделка), где поля на объекте отображаются в столбцах таблицы. Хотя топик уже определен, нам необходимо зарегистрировать эту информацию в KSQL, используя оператор СREАTE STREАM:

Листинг 2. Создание Streаm fоund

1. Оператор CREATE STREAM с именем stock_txn_stream
2. Регистрация полей объекта StockTransaction как столбцов
3. Указание формата данных и топика Kafka, который служит источником потока (это необходимые параметры)

С помощью этого оператора вы создаете экземпляр KSQL Streаm, которому теперь можно направлять запросы. В спецификаторе контекста (WITH сlаuse) вы увидите два требуемых параметра: параметр VАLUE_FОRMАT, который указывает KSQL формат данных, и параметр KАFKА_TОРIС, который указывает KSQL откуда брать данные.

Есть еще два дополнительных параметра, которые можно использовать в спецификаторе контекста при создании потока. Первый — это параметр TIMESTАMР, который связывает метку времени сообщения со столбцом в KSQL Streаm. Для операций, требующих метки времени, таких как оконные операции, этот столбец используется для обработки записи.

Второй — это параметр KEY, который связывает ключ сообщения со столбцом в определенном потоке. В нашем случае ключ сообщения для топика биржевых транзакций соответствует символу поля в значении JSОN, и нам не нужно указывать ключ.

Но если бы это было не так, то вам было бы нужно отобразить ключ на именованный столбец, поскольку ключ всегда необходим для выполнения операций группировки, как мы увидим, когда будем выполнять поток SQL в следующем разделе.
С помощью KSQL команда перечисляет топики; вы увидите список топиков на брокере, на который указывает KSQL СLI, а также узнаете, «зарегистрированы» ли топики или нет.

После создания нового потока вы можете просматривать все потоки и проверять, что KSQL создал новый поток, с помощью следующих команд:

Листинг 3. Перечисление всех потоков и описания только что созданного потока

show streams;
describestock_txn_stream;

Выполнение этих команд дает результаты, показанные на рисунке 4:

Вы увидите два дополнительных столбца RОWTIME и RОWKEY, вставленные KSQL. Столбец RОWTIME содержит метку времени, указанную в сообщении (от продюсера или брокера), RОWKEY — это ключ сообщения (если он есть). Теперь после создания потока мы может запустить запрос на этом потоке. Оригинал статьи можно найти здесь.

Хотите улучшить свои навыки? Приглашаем на наши тренинги !

Siddharth Garg
Инженер-разработчик ПО

Последние статьи в блоге

Памятка по документированию архитектурных решений

Отсутствие качественного архитектурного описания в сложных ИТ-проектах создает серьезные риски: фрагментированное понимание системы, накопление «архитектурного долга», трудности интеграции, масштабирования и онбординга. Это ведет к срывам сроков, перерасходу бюджета, снижению качества и росту затрат на поддержку, подвергая проект риску неоптимальных решений и критических уязвимостей.

Новости

18 июля 2025

Летняя акция: учитесь онлайн с выгодой, не выходя из отпуска! До конца августа второй курс со скидкой 50%

Проведите лето с пользой для карьеры – второй курс со скидкой 50%!

09 июля 2025

5 курсов июля со скидкой 30%

Друзья, у нас остались последние места на курсах, которые стартуют в июле. Сейчас есть возможность записаться на обучение со скидкой 30%!

Новости

04 июля 2025

Карьерный трек аналитика: от базы к экспертизе

Системные и бизнес-аналитики аналитики играют ключевую роль в digital-развитии продуктов. Эти специалисты выступают связующим звеном между бизнес-задачами и техническими решениями, обеспечивая эффективную коммуникацию между заинтересованными сторонами. Рассмотрим карьерные пути в аналитике, актуальные требования рынка и перспективы профессионального роста.

27 июня 2025

Почему именно сейчас стоит учиться на бизнес-аналитика уровня Middle. «Руководство BABOK» в подарок участникам программы!

Вы в ИТ, вам за 30. Вроде бы всё хорошо — есть работа, скиллы, стабильность. Но в воздухе — тревожность. Проекты замораживаются. Бизнес урезает бюджеты. От ИТ ждут не просто задач, а конкретного влияния на прибыль.

25 июня 2025

Уничтожит ли ИИ-генератор кода профессию разработчика?

С появлением ИИ-инструментов, а также в связи недавним анонсом Canva Code, который генерирует код за пару кликов, многие задумались: не станут ли такие инструмент угрозой для разработчиков? Давайте разберемся, есть ли здесь реальные риски, или это все же преувеличения.

23 июня 2025

Проектное резюме консультанта 1С: карьерный инструмент, чтобы выделиться среди других кандидатов

Рассказываем о продвинутой альтернативе привычного резюме для консультантов 1C и других специалистов с проектной занятостью.

Новости

19 июня 2025

Выбор карьеры: Менеджер бизнес-процессов или Бизнес-аналитик уровня Middle?

В мире цифровой трансформации пути развития аналитиков и менеджеров проектов все чаще расходятся: кому-то ближе работа с требованиями и API, а кому-то — выстраивание системной эффективности на уровне всей компании. Какой путь выбрать лично вам?

Новости

18 июня 2025

В Учебном центре IBS планируется запуск курсов по продуктам TData

Читайте о стратегическом соглашении TData и IBS и наших новых курсах

11 июня 2025

Компетенции бизнес-аналитиков: Junior и Middle в сравнении

В условиях динамично развивающейся ИТ-индустрии важно чётко понимать, какие навыки и знания необходимы для успешной работы на каждом этапе карьерного пути. Сегодня обсудим разницу в компетенциях ИТ бизнес-аналитиков уровней Junior и Middle. Если вы только начинаете свой путь в ИТ бизнес-анализе или, наоборот, уже обладаете некоторым опытом, этот материал поможет вам понять, какие навыки необходимы на каждом уровне и как развиваться дальше.

Новости

05 июня 2025

Лимит на сбои. Как понять, что система перегружена, а не просто плохо сделана?

Оценить производительность системы непросто, а контролировать еще сложнее. Как сделать так, чтобы внедряемая или уже эксплуатируемая система справлялась с нагрузками? Можно ли в этом вопросе полностью положиться на разработчиков ПО или вендоров? И кто в итоге будет отвечать за все простои системы? Рассказывает Николай Марченко, директор отделения нагрузочного тестирования компании IBS. Начать следует с того, что разбираться с последствиями возможных сбоев в любом случае придется тем, кто работает непосредственно с системой. Поэтому о вопросах производительности лучше задуматься еще на этапе внедрения.

Новости

03 июня 2025

Кто такой аналитик 1С?

Аналитик 1С — это специалист, который занимается оптимизацией бизнес-процессов с использованием программного обеспечения 1С. Его задача — анализировать существующие процессы, выявлять недостатки и разрабатывать решения для повышения эффективности. Аналитик переводит бизнес-требования в технические задания для разработчиков, становясь мостом между пользователями и ИТ-отделом. Эта роль требует как технических знаний, так и навыков коммуникации, что позволяет вносить значительный вклад в развитие компании и улучшение её конкурентоспособности.

Новости

28 мая 2025

Разбор задачи: UML-диаграмма классов для системы регистрации на курсы

Несколько дней назад мы предложили вам решить задачу — спроектировать диаграмму классов для системы регистрации студентов на учебные курсы в университете. Сегодня публикуем один из возможных вариантов решения. Сравните его с вашим и оцените, какие элементы вы отразили верно, а где можно усилить проработку.

22 мая 2025

Бизнес-аналитик и системный аналитик в ИТ: кто есть кто и в чем разница

Современные ИТ-проекты — будь то корпоративные решения, мобильные приложения или интеграционные платформы — требуют точного понимания как бизнес-целей, так и технических ограничений. На пересечении этих задач появляются две ключевые роли: бизнес-аналитик (БА) и системный аналитик (СА). Несмотря на схожесть направлений деятельности, эти специалисты действуют на разных уровнях и выполняют разные функции. Рассмотрим, кто они, каковы их зоны ответственности, чем они похожи, а чем принципиально отличаются.

21 мая 2025

5 распространенных ошибок в работе системных аналитиков

Ошибки системных аналитиков редко видны сразу, но последствия могут быть весьма заметными. Срыв сроков, недовольство заказчика, бесконечные правки требований, ощущение, что проект «расползается» — это часто не проблема менеджмента, а не выявленные вовремя аналитические ошибки и риски. Мы регулярно анализируем дипломные проекты выпускников курса «Системный аналитик» — не ради оценок, а чтобы понять, какие трудности реально возникают на практике, и обозначить направления для дальнейшего развития навыков. Даже у мотивированных специалистов с практическим опытом есть «слепые» зоны. Где-то не хватает чёткости в декомпозиции, где-то — качества проработки связей между сущностями, понимания архитектуры. Даже отсутствие умения аргументировать выбор решений перед бизнесом может негативно повлиять на проект. Мы вместе с Екатериной Тихомировой — практикующим аналитиком с более чем десятилетним опытом — разобрали некоторые типичные ошибки и риски, и способы, как их предотвратить.

20 мая 2025

Итоги работы Центра сертификации IBS

Центр сертификации IBS начал свою работу в апреле 2023 года, поэтому мы традиционно подводим итоги работы в апреле-мае. Прошедший год стал для нас периодом важных изменений. В 2024 году произошло несколько знаковых событий: наша команда обновила программы сертификации системных аналитиков и Java-разработчиков, подготовила к запуску сертификацию бизнес-аналитиков, получила аккредитацию от АПКИТ и стала обладателем Гран-при премии «Смарт пирамида». Рассказываем подробнее, каких результатов мы достигли в уходящем году и как это отразилось на нашей работе.

Новости

19 мая 2025

Какой метод тестирования выбрать: черный, белый или серый ящики?

При разработке программного обеспечения важно правильно подобрать методы тестирования. Это ключевой шаг для того, чтобы гарантировать высокое качество продукта. Понимание различных подходов, таких как тестирование черного, белого и серого ящика, помогает специалистам лучше находить ошибки и улучшать функциональность. Рассмотрим особенности, преимущества и варианты использования этих подходов.

14 мая 2025

Удостоверение, диплом и сертификат: в чем разница и что выбрать

В условиях стремительного развития технологий и постоянных изменений в бизнесе профессиональное развитие стало необходимостью. Особенно это актуально для специалистов в сфере IT и смежных отраслях. После прохождения курсов в учебных центрах слушатели могут получить один из трех типов документов: удостоверение о повышении квалификации, диплом о профессиональной переподготовке или сертификат. Несмотря на внешнюю схожесть, эти документы различаются по юридической силе, назначению и значимости для карьеры. Разберемся в этом подробнее.

12 мая 2025

Выгодный май — на курсы залетай!

Друзья, спешим поделиться отличной новостью — вы можете получить скидки до 40% на наши популярные курсы. Это отличная возможность улучшить навыки и инвестировать в профессиональное развитие по более выгодной цене. Выбирайте направление и подавайте заявку прямо сейчас!

05 мая 2025

Кейс: кастомизация курса по Jira

Кейс по проведению кастомизированного курса «Основы Jira» для крупной российской компании, занимающейся производством цифровой техники.

05 мая 2025

Как выполнять запросы при потоковой обработке данных Kafka?

Потоки и таблицы KSQL

Архитектура KSQL

Создание KSQL Streаm

Последние статьи в блоге

Памятка по документированию архитектурных решений

Летняя акция: учитесь онлайн с выгодой, не выходя из отпуска! До конца августа второй курс со скидкой 50%

5 курсов июля со скидкой 30%

Карьерный трек аналитика: от базы к экспертизе

Почему именно сейчас стоит учиться на бизнес-аналитика уровня Middle. «Руководство BABOK» в подарок участникам программы!

Уничтожит ли ИИ-генератор кода профессию разработчика?

Проектное резюме консультанта 1С: карьерный инструмент, чтобы выделиться среди других кандидатов

Выбор карьеры: Менеджер бизнес-процессов или Бизнес-аналитик уровня Middle?

В Учебном центре IBS планируется запуск курсов по продуктам TData

Компетенции бизнес-аналитиков: Junior и Middle в сравнении

Лимит на сбои. Как понять, что система перегружена, а не просто плохо сделана?

Кто такой аналитик 1С?

Разбор задачи: UML-диаграмма классов для системы регистрации на курсы

Бизнес-аналитик и системный аналитик в ИТ: кто есть кто и в чем разница

5 распространенных ошибок в работе системных аналитиков

Итоги работы Центра сертификации IBS

Какой метод тестирования выбрать: черный, белый или серый ящики?

Удостоверение, диплом и сертификат: в чем разница и что выбрать

Выгодный май — на курсы залетай!

Кейс: кастомизация курса по Jira

Не нашли, что искали? — Просто напишите, и мы поможем