Сбор поисковых подсказок Rambler (многопоточный PHP сборщик)

Идем далее по местам где можно получить поисковые подсказки. Следующая поисковая система это Rambler. С нее тоже можно получать вполне приличные поисковые запросы.

скриншот поисковых подсказок Рамблера по слову

пример поисковых подсказок Рамблера

Посмотрев в интернете мы найдем, что для запросов используется следующий адрес. Все это хорошо вписывается в наш базовый класс и систему сбора. Создаем класс CRamblerSuggest, порожденный от CBaseWebAPI. Меняем в нем $requested_url, $name и метод разбора и сохранения результатов на диск $this->save. На этом все, сбор данных с рамблера готов. Как видим из сделанного, имея базовые классы гораздо проще и быстрее делать готовые полнофункциональные сборщики поисковых подсказок. Так что ООП наше все. Далее запускаем это дело на сбор и у нас получилась уже система из четырех сборщиков получающих поисковые подсказки.

как собрать поисковые подсказки с Rambler.ru

процесс сбора поисковых подсказок с Rambler.ru

Все хорошо работает , но это еще требует большей автоматизации. Например хотелось бы видеть как идет сбор не залезая в логи каждого сборщика, хотелось бы получать уведомления по е-майл или icq и много чего еще … Т.е есть куда двигаться, в следующей статье я создам прообраз системы сбора на основе этих четырех сборщиков.

Материалы :

Как всегда весь исходный код по этой статье можно скачать здесь. Руководство «Как запустить этот и другие PHP скрипты с этого сайта» всегда можно найти здесь. Где взять платные и бесплатные прокси сервера, можно найти здесь. А где взять поисковые запросы и ключевые слова можно найти здесь. Пожелания и предложения по коду и сотрудничеству можно присылать на почту или в комментарии.

Опубликовать в Google Plus
Опубликовать в LiveJournal
Опубликовать в Мой Мир
Опубликовать в Одноклассники
Опубликовать в Яндекс
Опубликовано в PHP, Использование Web API, Сбор ключевых слов Метки: , , , ,
Сентябрь 2021
Пн Вт Ср Чт Пт Сб Вс
« Фев    
 12345
6789101112
13141516171819
20212223242526
27282930