Появилась некая идея о помощи коллегам из компании - они работают с данными.
У них есть задача: раз в неделю ходить по неким ссылкам и смотреть, не обновилось ли там чего.
Так вот, ссылок очень много, а информация меняется не часто.
Для того, чтобы не тратить время впустую, вонзикла идея атоматизировать процесс идентификации изменений.
То есть, если что-то поменялось, нужно как-то информировать об этом.
Для примера одна из страниц:
https://www.sec.gov/rules/final.shtml
Здесь 7 записей в таблице. Их и нужно трекать:
- если записей стало больше/меньше с момента предыдущего запуска;
- если изменились Details для конкретной строки таблици;
- если изменился PDF файл (который открываєтся по линку Release No.) - достаточно проверить DateOfChange and/or FileSize.
Страницы могут быть и другими, с другой разметкой, файл может быть не PDF по ссылке, а представлен на странице в текстовом формате. Но страницы можно типизировать и работать соответственно разбив на групы.
Для начала парсить страницу из примера.
Идея: скрипт собирает данные, пробегая по ссылкам (скачивает файлы, считывает атрибуты и сохраняет);
скрипт анализирует полученные результаты с теми, что хранятся от предыдущего запуска;
скрипт готовит итоговою таблицу изменений, если такие есть.
Собственно вопрос: посильна ли задача для одного-двух QA инженеров, которые программируют WebDriver тесты на С#?
Какой стек технологий тут можно применить?
Лично я представляю это так:
- есть файл с линками, которые нужно проверить
- есть программа/скрипт, корорую можна запустить - она возьмет каждую ссылку из файла, определит алгоритм ее обработки, соберет данные и сохранит. Куда? в какую-то БД?
- есть приложение (возможно web), которое анализирует два последних запуска и как-то показывает разницу.
Сначала я дал оптимистичное обещание о возможности сделать такое, но чем больше изучаю вопрос, тем больше он меня страшит. Резонно?