Zipta ProxyAuto и с чем его едят

Во время вчерашнего общения с тестером ProxyAuto возникло несколько вопросов, которые я решил осветить в данном посте.

Прежде всего назначение софта – это иметь постоянно свежие базы прокси серверов с утра, что-бы не отвлекаться от утреннего чая и физзарядки. Ну или кто там чем занимается по утрам.

Zipta ProxyAuto позволяет, автоматически выуживать свежие страницы из поисковой выдачи(Yandex, Google) по запросу. Блокирование роботов капчей преодолевается с помощью спец сервисов на выбор: Antigate, Captchabot, Ripcaptcha. Ключи к ним задаются в файле конфига config.py:

Шаг 1 – Парсинг ПС выдачи

Рассмотрим пример задачи парсинга поисковой выдачи из файла schedule.py:

  1. Задаёт интервал выполнения задачи. Возможные значения (seconds, minutes, hours, days)
  2. Сам парсинг выдачи. Параметрами идут запрос поисковику и необходимое количество страниц.
  3. Теперь подчищаем базу от прокси которые при тестировании были помечены как нерабочие
  4. Сжимаем базу. Делать не обязательно, но желательно.

Шаг 2 – Получение адресов прокси

После получения страниц с адресами прокси, по расписанию, в автоматическом режиме, выполняется второй шаг, сбор с найденных страниц прокси серверов. Пример задачи из того-же schedule.py:

  1. Задаёт интервал выполнения
  2. Сбор прокси адресов со всех страниц
  3. Удаление страниц на которых прокси адреса не найдены.

Шаг 3 – тестирование серверов и сохранение в файл

  1. Интервал работы
  2. Проверка прокси. Первый параметр – адрес сайта, страницы для проверки на доступность через прокси, второй параметр – строка, которая должна присутствовать на сайте. Если при скачивании страницы строки не найдено, то прокси считается нерабочим, даже если он отвечает. Для ускорения работы с сайта скачивается только 1024 байт данных.
  3. Сохранения работы в файл. Первый параметр – сайт который тестировался, второй – файл для сохранения. Убедитесь, что первые параметры в пунктах 2 и 3 совпадают. Так как прокси может тестироваться на доступность к различным сайтам. Первый параметр позволяет выгрузить прокси для нужного.

Пути файлы для выгрузки необходимо задавать с экранированием.

русские буквы, строка unicode: u'авитопрокси.txt'
полный путь с экранированием: 'c:\\proxy\\avito.txt'
или так, т.е. raw : r'c:\proxy\avito.txt'
или по униксовому: 'c:/proxy/avito.txt'

Как удобнее – решать Вам.

Задания выполняются синхронно. То есть пока одно задание не выполнится другое не начнется. Если запланированное задание не получит возможность начать работу в течении 60 секунд, оно отменяется до следующего запланированного интервала.

Кроме того, при запуске ProxyAuto последовательно выполняются все три задачи, если в этом необходимости нет, просто закомментируйте каждую строку знаком #.

Вот думаю и всё.

Демо версия

  Zipta Proxy AutoChecker (3.8 MiB, 368 hits)

Leave a Comment