Пишем простейший сборщик, использующий Google API на PHP. (Выводы)

В предыдущих статьях я описал как организовать сбор поисковых результатов Google, используя его API, в многопоточном режиме на PHP. Приведу материалы в порядке публикации :

  1. Немного теории о Сборе Данных с Веба
  2. Пишем простейший сборщик, использующий Google API на PHP. (Запрос и Сохрание)
  3. Пишем простейший сборщик, использующий Google API на PHP. (Циклы и Продолжение)
  4. Пишем простейший сборщик, использующий Google API на PHP. (Прокси)
  5. Пишем простейший сборщик, использующий Google API на PHP. (Многопоточность)
  6. Пишем простейший сборщик, использующий Google API на PHP. (Классы)
  7. Пишем простейший сборщик, использующий Google API на PHP. (Увеличение эффективности Прокси)
скриншот запуска многпоточного сбора Гугл в 5 потоков

сбор поисковых результатов гугла в 5 потоков

Этот цикл статей рассказывал о принципах сбора данных в интернете. Теперь подведем итоги. Как видно из эволюции исходного кода, для того чтобы написать более менее рабочий сборщик данных с интернета нужно пройти следующие этапы :

  • Выбрать источник сбора (мы выбрали Google API для поисковых результатов)
  • Выбрать метод сбора (мы выбрали язык программирования PHP)
  • Написать единичный запрос данных и их сохранение
  • Определится с тем как получать данные массово (мы выбрали текстовый файл с запросами и запросы в цикле)
  • Работать над улучшением эффективности сбора (мы выбрали прокси и многопоточное выполнение PHP кода)
  • Работать над структурированностью и расширяемостью кода (мы выбрали классы и реорганизацию кода)
  • Улучшать по мере сил эффективность сбора (мы выбрали улучшение эффективности использования прокси)
  • Дальнейшие улучшения эффективности сбора (опишу в следующих статьях)

Выводы :

В итоге всех действий мы получили полностью рабочий сборщик. Единственный его минус — это когда прокси становится мало, запросы через них останавливаются или идут с меньшей эффективностью. То есть для полномасштабного сбора надо или вводить паузы чтобы наш сборщик не давал банить эти самые прокси или чтобы прокси пополнялись в процессе работы сборщика или использовать другие методы. При правильном подходе в результате нескольких итераций мы получим сборщик, который будет устраивать нас по всем параметрам. На этом я закончу вводный обучающий курс и перейду к более интересным и практичным задачам.

Далее я собираюсь модифицировать код и написать на основе его сборщик ключевых слов по поисковым подсказкам Google. Отладить и запустить его на сбор. Поисковые слова вещь хорошая и ценная. На основе них можно много чего сделать. Мне же они нужны для своих целей, которые приносят хороший доход. Спасибо за внимание.

Материалы :

Весь исходный код по этой статье можно скачать здесь. Руководство «Как запустить этот и другие PHP скрипты с этого сайта» всегда можно найти здесь. Где взять платные и бесплатные прокси сервера, можно найти здесь.

Опубликовать в Google Plus
Опубликовать в LiveJournal
Опубликовать в Мой Мир
Опубликовать в Одноклассники
Опубликовать в Яндекс
Опубликовано в PHP, Использование Web API, Обучение
Декабрь 2021
Пн Вт Ср Чт Пт Сб Вс
« Фев    
 12345
6789101112
13141516171819
20212223242526
2728293031