Большая задница SEO: ваш сайт слишком объемный, чтобы ползти с Screaming Frog?

  1. Как бороться с этими огромными сайтами?
  2. Использование PHPCrawl в качестве основы вашего ПО для сканирования больших задниц

Многие технические (SEO) онлайн-маркетологи знакомы с хорошей частью программного обеспечения под названием Кричащая лягушка , Функциональные возможности варьируются от проверки дубликатов страниц, заголовков и метаописаний до изучения технических проблем, связанных с состоянием заголовка HTTP, сумасшедшими конструкциями перенаправления и т. Д. Программа стоит всего 99GBP в год, что действительно дешево, учитывая тот факт, что большинство SEO-консультантов будут использовать его на ежедневно.

Однако есть одна большая проблема. Screaming Frog - это программа, которая работает в Windows локально. Это означает, что программное обеспечение зависит от границ вашего ПК или ноутбука. В процессе сканирования определенного веб-сайта Screaming Frog сохраняет определенные точки данных в вашей оперативной памяти. В зависимости от размера доступной памяти существует ограничение на количество страниц, файлов или URL-адресов, которые может обрабатывать программа. Каждый может легко попытаться определить пределы, начав сканировать такие сайты, как Amazon.com или Ebay.com. Эти сайты имеют миллионы уникальных страниц, и я могу заверить вас, что средний компьютер не зайдет так далеко в эти сайты. Это приведет к следующему сообщению:

Еще одна проблема с Screaming Frog заключается в том, что вы не можете сканировать несколько веб-сайтов одной командой. Это полезно, например, если вы хотите проанализировать сети ссылок. После того, как вы определили определенных участников в сети блогов, это сэкономит вам много времени, когда вы сможете ввести список с блогами и вернуть все внешние связанные веб-сайты.

Как бороться с этими огромными сайтами?

Поскольку я работаю на некоторых сайтах, превышающих средний по показателям проиндексированных страниц и посетителей / день, мне пришлось искать решение этой проблемы. Для этого есть несколько коммерческих решений, одним из которых является Deepcrawl в Великобритании , У них была та же проблема, что и у меня, и она сделала коммерческое решение. Проблема, с которой я сталкиваюсь с коммерческими решениями, заключается в том, что вы связаны ограничениями программного пакета, который вы покупаете.

Это заставило меня задуматься: «Как я могу создать масштабируемое решение для сканирования сайтов с более чем 1 000 000 URL-адресов?». Существует много доступных систем сканирования с открытым исходным кодом, из которых только некоторые действительно подходят для работы. В зависимости от языка, который вы можете программировать самостоятельно, вы можете взглянуть на следующие варианты:

Отказ от ответственности: имейте в виду тот факт, что вы можете быть заблокированы сервером или заблокировать веб-сайт, просматривая его слишком агрессивно.

Использование PHPCrawl в качестве основы вашего ПО для сканирования больших задниц

К сожалению, я могу кодировать только PHP и SQL, поэтому лучшим вариантом для меня была библиотека PHPCrawl. На самом деле это действительно полная система сканирования в Интернете, которую можно легко настроить в зависимости от ваших потребностей. Я знаю, что решения на основе языков программирования, таких как Java или C ++, больше подходят для выполнения задач быстрого сканирования, особенно из-за того, что вы можете ускорить процесс сканирования, запустив несколько экземпляров программного обеспечения и используя многоядерные процессоры. PHPCrawl может запускать несколько экземпляров из командной строки, но не каждый сервер подходит для этого. Вы должны проверить необходимые спецификации для этого на их веб-сайте.

Поэтому после того, как вы установили эту библиотеку на свой локальный или внешний сервер, вам нужно настроить базу данных для хранения информации. Я думаю, что самый простой способ сохранить ваши данные в базе данных MySQL. Я не буду вдаваться в подробности, потому что ожидаю, что люди, которые хотят работать с таким сканером, будут обладать достаточными навыками программирования, чтобы разрабатывать их в системе (базы данных внешнего и внутреннего интерфейса), исходя из своих потребностей.

Вы можете скачать небольшой пример PHP + MySQL (ZIP-файл), который можно использовать для сканирования определенного домена или массива доменов для всех внутренних и исходящих ссылок. Данные хранятся в базе данных MySQL. Я думаю, что это простой и понятный пример для начала.

Для больших сайтов системе потребуется время, чтобы получить все URL. Вы можете легко ускорить процесс, запустив несколько экземпляров. Для получения дополнительной информации о настройке PHPCrawl для ускорения процессов читайте инструкции на сайте , Если вы запускаете несколько экземпляров для ускорения процесса, помните о том, что серверы могут блокировать ваш IP-адрес из-за большого количества запросов в секунду, которые вы делаете. Чтобы избежать этого, вы можете встроить прокси-систему, чтобы каждый запрос проходил через случайный IP-адрес.

Вам необходимо убедиться, что вы используете кэширование базы данных вместо локальной памяти, иначе вы получите те же проблемы, что и с Screaming Frog. Оперативная память ограничена, базы данных - нет. PHPCrawl может кэшировать данные в базе данных SQLite. Просто добавьте одну строку кода в ваш скрипт: посетите веб-страницу PHPCrawl прочитайте инструкции ,

Базовая реализация PHPCrawl начинается с одного домена и сканирует каждый найденный URL. Вы также можете указать сканеру сканировать только определенный домен. Используя простой цикл, вы можете легко вставить массив доменов, чтобы он мог проверять и анализировать конкретные сети.

Если у вас есть какие-либо вопросы относительно настройки сканеров, не стесняйтесь отвечать на это сообщение в блоге. Любая помощь с обработкой данных? Просто напишите мне на [электронная почта защищена] , Я также хотел бы знать, как вы справляетесь со сканированием сайтов с более чем одним миллионом страниц, пожалуйста, поделитесь своим опытом в комментариях.

© Частный пансионат "Фортуна"  2013
Разработка сайта:   WEB-студия “KPORT”
При создании сайта использованы фото проекта peschanoe.net