Хотя они выглядят хорошо и иногда могут выступать в качестве платформы для демонстрации, большинству сканеров и скребков сложно смягчить страницы веб-контента с элементами AJAX . Это больно, когда это имеет наибольшее значение в Интернете: поисковая оптимизация (SEO). Проблема с AJAX-страницы - это его динамика , Это производится браузером, и поскольку движки не могут запускать JavaScript , страницы остаются скрытыми для сканеров. Регулярное обслуживание является слишком трудоемким, поскольку оно влечет за собой ручное обновление контента.
Отличный пример Twitter: если вы проверите источник, то твиты не видны. Просто строки и строки кода смотрят на вас, делая все, что вы видите, динамичным! Это где AJAX ползет работы ,
Однако потенциально новые методы сканирования теперь помогают поисковым системам сканировать и индексировать такие сайты / страницы.
Как работает сканирование AJAX?
Главное, чтобы ваш контент был доступен для искателя в 2 версиях: одна, JS -наключенная по URL - адресу в стиле AJAX , и вторая, которая является обычным URL-адресом HTML-типа.
Прошло много времени с тех пор, как Google боты начали ползком Сайты AJAX, но сайт по-прежнему исключает сканеры веб-сайтов, созданные другими движками.
Решение PromptCloud для веб-сканирования Ajax
В PromptCloud мы решили эту проблему с помощью простых запросов GET, несмотря на то, что страницы AJAX работают с запросами POST , которые нелегко отследить для обычного бота.
Исходя из нашего опыта работы с многочисленными сайтами AJAX в Интернете, мы преодолели технический барьер. Несмотря на то, что мы решили проблему AJAX, остаются проблемы, связанные с выполнением обходов AJAX.
Некоторые из них включают в себя:
Решение: Безголовый браузер, имитирующий взаимодействие человека с веб-страницей без интерфейса
Решение: выделение высокой пропускной способности для запросов POST, чтобы уменьшить неполные ответы.
Решение: Crawler должен отслеживать состояние просмотра и проходить проверку; таким образом, чтобы ничто не сломалось на полпути, используется механизм для восстановления состояний.
Решение. Запрос должен быть отправлен в точном формате, как и ожидалось сервером (тип контента или тип носителя, поля приема и т. Д.), И аналогичным образом ответы должны быть проанализированы на основе типа контента.
В целом, AJAX ползком требует большей вычислительной мощности в дополнение к технической экспертизе. И поскольку в сети нет единообразия, всегда есть новая проблема, которую необходимо преодолеть в этой среде.
Как работает сканирование AJAX?