Пишем простейший сборщик, использующий Google API на PHP. (Увеличение эффективности Прокси)

В прошлых постах, я создал многопоточный сборщик поисковых результатов Google API на PHP. Из опыта использование получилось что скорость его работы сильно зависела от качества использованных проксей. Сегодня я видоизменил механизм использования проксей в этом сборщике. Для этого был полностью переделан класс CProxyVendor.

скриншот сбора поисковых результатов Google API в многопоточном режиме

скриншот сбора поисковых результатов Google API в многопоточном режиме

Было сделано следующее :

  • прокси теперь берутся не случайно, а циклически
  • после прохождения заданного числа циклов идет выбраковка плохих проксей
  • при достижении минимального числа проксей в файле идет пауза (чтобы сбор продолжался дальше без бана)

Выводы :

В итоге мы получили устойчивый, быстрый сборщик поисковых результатов, производительность которого уже зависит только от количества переданных ему проксей. Теперь чтобы повысить скорость работы всего лишь нужно двигаться в нескольких направлениях :

  1. увеличение числа потоков (весь код готов)
  2. увеличение количества проксей (можно купить или насобирать ручками или нужен скрипт сбора прокси с интернета)

Т.е даже сейчас, если иметь большое число рабочих прокси серверов, то скрипт будет выполнять свои задачи. Как вариант это дело можно и купить. Цены на уже готовые списки прокси серверов не такие большие. Еще вариант получить подписку на платные прокси сервера. И еще вариант воспользоваться уже готовыми программами для сбора и тестирования прокси серверов. Ну и еще вариант — написать скрипт что будет дергать данные сам по мере необходимости с сайтов со списками бесплатных прокси серверов. Также напомню, что материалы о том где найти прокси сервера, можно найти здесь.

В следующей статье я сделаю промежуточные выводы с рекомендациями по созданию и организации сбора данных на PHP на основе предыдущих статей. Так сказать подведу итоги и определю дальнейшие направление развития кода для сбора данных.

Материалы :

Весь исходный код по этой статье можно скачать здесь. Руководство «Как запустить этот и другие PHP скрипты с этого сайта» всегда можно найти здесь. Где взять платные и бесплатные прокси сервера, можно найти здесь.

Опубликовать в Google Plus
Опубликовать в LiveJournal
Опубликовать в Мой Мир
Опубликовать в Одноклассники
Опубликовать в Яндекс
Опубликовано в PHP, Использование Web API, Обучение Метки: , , , , ,
Сентябрь 2021
Пн Вт Ср Чт Пт Сб Вс
« Фев    
 12345
6789101112
13141516171819
20212223242526
27282930