Skip to content

Чеклисты по скрапингу

Чеклист поиска способа скрапинга (без авторизации)

Цель: можем собрать данные разово (не отправляем много запросов, чтобы даже теоретически не попасть под блокировку)

TIP

Уже на этом этапе применяем все "бесплатные" способы обхода защит: curl_cffi с impersonate, playwright-stealth, имитацию человеческого поведения в браузере.

Способ / Задача Статус
Спросили PM'a, делали ли мы раньше скрапинг для этого сайта?Не проверено
Нашли официальное/неофициальное API?Не проверено
Нашли на сайте?Не проверено
Нашли в Google?Не проверено
Нашли в ChatGPT?Не проверено
Нашли репозиторий с готовым скрапером?Не проверено
Нашли в Google?Не проверено
Нашли в ChatGPT?Не проверено
Получается скрапить HTML напряму, если сделать copy as curl через F12 -> Python requests + curl_cffi с impersonate?Не проверено
Нашли API через F12?Не проверено
Нашли в десктоп версии браузера?Не проверено
Нашли в моб. версии браузера?Не проверено
Нашли API через сниффинг Android запросов?Не проверено
Сниффинг через FridaНе проверено
Нашли API через сниффинг ПК приложения?Не проверено
Вышло сниффить через mitmproxy?Не проверено
Вышло сниффить через Fiddler?Не проверено
Сработал запрос через requests (curl_cffi с impersonate)?Не проверено
Скопированный через F12 с заголовками\куками + curl_cffi с impersonate?Не проверено
С прокси из страны сервиса?Не проверено
Получилось достать данные через Playwright Stealth?Не проверено
Сымитировать поведение человека в браузере (мышь, скролл, задержки)?Не проверено
Заголовки и fingerprint соответствуют стране сервиса?Не проверено
Подключили прокси из страны сервиса?Не проверено
Смогли достать данные через перехват запросов в CDP?Не проверено
Смогли достать данные через парсинг HTML?Не проверено
Смогли распознать данные через OCR?Не проверено
Получилось достать данные через реальный Chrome (+ CDP)?Не проверено
Смогли достать данные через перехват запросов в CDP?Не проверено
Смогли достать данные через парсинг HTML?Не проверено
Смогли распознать данные через OCR?Не проверено
Получилось достать данные через платный антидетект браузер (Multilogin / GoLogin)?Не проверено
Сымитировать поведение человека в браузере (мышь, скролл, задержки)?Не проверено
Заголовки и fingerprint соответствуют стране сервиса?Не проверено
Подключили прокси из страны сервиса?Не проверено
Смогли достать данные через перехват запросов в CDP?Не проверено
Смогли достать данные через парсинг HTML?Не проверено
Смогли распознать данные через OCR?Не проверено
Получилось достать данные через браузерное расширение?Не проверено
Получилось достать данные через Android приложение?Не проверено
TODOНе проверено
Получилось достать данные через Windows приложение?Не проверено
Смогли прочитать UI-дерево через pywinauto (Win32 / WPF / UIA-контролы)?Не проверено
Смогли прочитать через pyautogui (Electron, Qt, кастомный рендер)?Не проверено
Распознали текст с экрана через OCR (pytesseract)?Не проверено
Получается достать данные через альтернативные источники?Не проверено
Такие же сайты с более простой защитой (спрашиваем Google и ChatGPT)?Не проверено
Кто-то уже продаёт такие данные (спрашиваем Google и ChatGPT)?Не проверено

Чеклист масштабирования (без авторизации)

Цель: можем собирать данные в нужном объёме с нужной регулярностью

Способ / Задача Статус
Определили с какой скоростью блокируют прокси с нашим подходом (чтобы понять безопасную скорость скрапинга)?Не проверено
Определили время cooldown для заблокированных прокси?Не проверено
Определили прокси из какой страны скрапить, чтобы не блокировали?Не проверено
Посчитали, сколько нужно прокси для скрапинга в нужном объеме, исходя из безопасной скорости скрапинга?Не проверено
Подобрали подходящий тип прокси (residential, mobile, datacenter)?Не проверено
У всех прокси разный fingerprint (чтобы нельзя было связать прокси по поведению)?Не проверено
Помогает sticky session для связанных запросов (переход на страницу, получение данных)?Не проверено
Помогает решение капчи (2captcha / AntiCaptcha)?Не проверено
Настроено разделение на скрапинг и парсинг?Не проверено
Настроена валидация данных и healthcheck эндпоинт?Не проверено