Качество тестовых данных

A presentation at RNDTech 2021 in in Rostov-on-Don, Rostov Oblast, Russia by Vsevolod Brekelov

Когда мы тестируем сервис или приложение целиком мы точно знаем какие сценарии нужно покрыть. *Сарказм
 В реальной жизни мы сталкиваемся часто с тем, что нужно сгенерировать какие-то тестовые данные для того, чтобы нам запустить функциональные или нагрузочные тесты. Как мы можем их получить? Вероятно, можно взять часть продакшн данных, как-то их обфусцировать и работать с ними. Но дьявол кроется, как всегда в деталях. Такие данные могут быть:


  • Уже невалидны, тк схема базы может измениться

  • Потерять любую статистическую значимость

  • Покрывать не все возможные сценарии (А как узнать все? Хм) 
- Некорректны (никто не может быть уверен, что на продет всегда Хорошие данные) 
- Недостаточны (для нагрузочного теста нужно не 100, а 10млн пользователей) Это и многие другое можно решить различными инструментами, которые доступны сегодня.
В докладе расскажу и покажу, почему эти проблемы важны, как их можно решать, какие платные и бесплатные решения существуют и почему анализ SQL запросов, синтезирование данных это важная тема. А так же, вы узнаете почему именно сегодня стоит начать заниматься тестированием данных.

 #synthesized #data #greatexpectations #deequ #data-quality #tools #sql