Appearance
Чеклисты по скрапингу
Чеклист поиска способа скрапинга (без авторизации)
Цель: можем собрать данные разово (не отправляем много запросов, чтобы даже теоретически не попасть под блокировку)
TIP
Уже на этом этапе применяем все "бесплатные" способы обхода защит: curl_cffi с impersonate, playwright-stealth, имитацию человеческого поведения в браузере.
| Способ / Задача | Статус |
|---|---|
| Спросили PM'a, делали ли мы раньше скрапинг для этого сайта? | Не проверено |
| Нашли официальное/неофициальное API? | Не проверено |
| Нашли на сайте? | Не проверено |
| Нашли в Google? | Не проверено |
| Нашли в ChatGPT? | Не проверено |
| Нашли репозиторий с готовым скрапером? | Не проверено |
| Нашли в Google? | Не проверено |
| Нашли в ChatGPT? | Не проверено |
| Получается скрапить HTML напряму, если сделать copy as curl через F12 -> Python requests + curl_cffi с impersonate? | Не проверено |
| Нашли API через F12? | Не проверено |
| Нашли в десктоп версии браузера? | Не проверено |
| Нашли в моб. версии браузера? | Не проверено |
| Нашли API через сниффинг Android запросов? | Не проверено |
| Сниффинг через Frida | Не проверено |
| Нашли API через сниффинг ПК приложения? | Не проверено |
| Вышло сниффить через mitmproxy? | Не проверено |
| Вышло сниффить через Fiddler? | Не проверено |
| Сработал запрос через requests (curl_cffi с impersonate)? | Не проверено |
| Скопированный через F12 с заголовками\куками + curl_cffi с impersonate? | Не проверено |
| С прокси из страны сервиса? | Не проверено |
| Получилось достать данные через Playwright Stealth? | Не проверено |
| Сымитировать поведение человека в браузере (мышь, скролл, задержки)? | Не проверено |
| Заголовки и fingerprint соответствуют стране сервиса? | Не проверено |
| Подключили прокси из страны сервиса? | Не проверено |
| Смогли достать данные через перехват запросов в CDP? | Не проверено |
| Смогли достать данные через парсинг HTML? | Не проверено |
| Смогли распознать данные через OCR? | Не проверено |
| Получилось достать данные через реальный Chrome (+ CDP)? | Не проверено |
| Смогли достать данные через перехват запросов в CDP? | Не проверено |
| Смогли достать данные через парсинг HTML? | Не проверено |
| Смогли распознать данные через OCR? | Не проверено |
| Получилось достать данные через платный антидетект браузер (Multilogin / GoLogin)? | Не проверено |
| Сымитировать поведение человека в браузере (мышь, скролл, задержки)? | Не проверено |
| Заголовки и fingerprint соответствуют стране сервиса? | Не проверено |
| Подключили прокси из страны сервиса? | Не проверено |
| Смогли достать данные через перехват запросов в CDP? | Не проверено |
| Смогли достать данные через парсинг HTML? | Не проверено |
| Смогли распознать данные через OCR? | Не проверено |
| Получилось достать данные через браузерное расширение? | Не проверено |
| Получилось достать данные через Android приложение? | Не проверено |
| TODO | Не проверено |
| Получилось достать данные через Windows приложение? | Не проверено |
| Смогли прочитать UI-дерево через pywinauto (Win32 / WPF / UIA-контролы)? | Не проверено |
| Смогли прочитать через pyautogui (Electron, Qt, кастомный рендер)? | Не проверено |
| Распознали текст с экрана через OCR (pytesseract)? | Не проверено |
| Получается достать данные через альтернативные источники? | Не проверено |
| Такие же сайты с более простой защитой (спрашиваем Google и ChatGPT)? | Не проверено |
| Кто-то уже продаёт такие данные (спрашиваем Google и ChatGPT)? | Не проверено |
Чеклист масштабирования (без авторизации)
Цель: можем собирать данные в нужном объёме с нужной регулярностью
| Способ / Задача | Статус |
|---|---|
| Определили с какой скоростью блокируют прокси с нашим подходом (чтобы понять безопасную скорость скрапинга)? | Не проверено |
| Определили время cooldown для заблокированных прокси? | Не проверено |
| Определили прокси из какой страны скрапить, чтобы не блокировали? | Не проверено |
| Посчитали, сколько нужно прокси для скрапинга в нужном объеме, исходя из безопасной скорости скрапинга? | Не проверено |
| Подобрали подходящий тип прокси (residential, mobile, datacenter)? | Не проверено |
| У всех прокси разный fingerprint (чтобы нельзя было связать прокси по поведению)? | Не проверено |
| Помогает sticky session для связанных запросов (переход на страницу, получение данных)? | Не проверено |
| Помогает решение капчи (2captcha / AntiCaptcha)? | Не проверено |
| Настроено разделение на скрапинг и парсинг? | Не проверено |
| Настроена валидация данных и healthcheck эндпоинт? | Не проверено |