Сборщик слов с Яндекс.Вордстат

В прошлых статьях я сделал обзор функционала программы Human Emulator. В этой статье мы напишем сборщик, который будет собирать информацию с Яндекс.Вордстат в режиме эмуляции браузера. Для многих сайтов режим эмуляции браузера это практически единственный доступный вариант для их парсинга. За основу берем классы, из сборщиков поисковых подсказок. Потратив около трех дней на различные эксперименты (отлаживание устойчивости работы, подбор пауз, и вычисление всех моментов приводящих к бану) я получил рабочий код для сбора ключевых слов с Яндекса. Кроме того этот инструмент еще сохраняет число запросов в месяц по Яндексу, что очень помогает в составлении семантического ядра и оценки посещаемости сайта. Т.с одним махом мы получаем слова и данные по ним.

скриншот сбора поисковых подсказок с Яндекс.Вордстат на основе Human Emulator

сбор поисковых подсказок с Яндекс.Вордстат

Для того чтобы создать этот сборщик я добавил папку Templates из последней версии хуман эмулятора и подключил его к проекту. Далее создал класс CYandexWordstat, производный от CBaseWebAPI и слегка его переделал, чтобы базовый класс поддерживал много страничный сбор по одному запросу ( функция load_next_page и переделал функцию get под многостраничный сбор ). Сборщик ключевых слов работает следующим образом : для начала скрипт переходит на Yandex.Wordstat, далее логинимся в учетную запись Яндекса. После этого читаем и вводим текущий запрос из файла входных данных. Далее сохраняем полученные данные и если есть возможность нажимаем кнопку следующей страницы для сбора следующей порции подсказок по заданному запросу. И так пока не получим все страницы. Если в процессе работы выскакивает капча или диалог логина, то скрипт или становится на паузу или обрабатывает эту ситуацию. Также если происходят ошибки сервера и т.п вещи то скрипт это все отрабатывает. И в результате работы мы получаем следующие результаты :

скриншот результатов сбора ключевыхс слов с Yandex.Wordstat

результаты сбора ключевых слов и поисковых запросов с Яндекс.Вордстат

Вывод :

В результате у нас получился стабильный сборщик поисковых запросов с Яндекса. В сутки такой сборщик проходит около 3000 запросов, что дает на выходе порядка нескольких сотен тысяч ключевых слов с оценкой запросов в месяц по Яндексу. Этого вполне достаточно например для начального составления семантического ядра сайта. Также мы увидели что использование Хуман Эмулятора в качестве эмулятора и автоматизатора браузера вполне подходит для решения задач сбора данных с интернета.

Материалы :

Как всегда весь исходный код по этой статье можно скачать здесь. Руководство «Как запустить этот и другие PHP скрипты с этого сайта» всегда можно найти здесь. Где взять платные и бесплатные прокси сервера, можно найти здесь. А где взять поисковые запросы и ключевые слова можно найти здесь. Пожелания и предложения по коду и сотрудничеству можно присылать на почту или в комментарии.

Опубликовать в Google Plus
Опубликовать в LiveJournal
Опубликовать в Мой Мир
Опубликовать в Одноклассники
Опубликовать в Яндекс
Опубликовано в Human Emulator, Сбор ключевых слов Метки: , , ,

Добавить комментарий

Ноябрь 2017
Пн Вт Ср Чт Пт Сб Вс
« Фев    
 12345
6789101112
13141516171819
20212223242526
27282930