Когда мы тестируем сервис или приложение целиком мы точно знаем какие сценарии нужно покрыть. *Сарказм
В реальной жизни мы сталкиваемся часто с тем, что нужно сгенерировать какие-то тестовые данные для того, чтобы нам запустить функциональные или нагрузочные тесты. Как мы можем их получить? Вероятно, можно взять часть продакшн данных, как-то их обфусцировать и работать с ними. Но дьявол кроется, как всегда в деталях. Такие данные могут быть:
- Уже невалидны, тк схема базы может измениться
- Потерять любую статистическую значимость
- Покрывать не все возможные сценарии (А как узнать все? Хм)
- Некорректны (никто не может быть уверен, что на продет всегда Хорошие данные)
- Недостаточны (для нагрузочного теста нужно не 100, а 10млн пользователей)
Это и многие другое можно решить различными инструментами, которые доступны сегодня.
В докладе расскажу и покажу, почему эти проблемы важны, как их можно решать, какие платные и бесплатные решения существуют и почему анализ SQL запросов, синтезирование данных это важная тема. А так же, вы узнаете почему именно сегодня стоит начать заниматься тестированием данных.
#synthesized #data #greatexpectations #deequ #data-quality #tools #sql