Парсинг из Sitemap
В этом разделе вы ознакомитесь с возможностью создания записей для вашего сайта, используя файл sitemap.xml в качестве источника данных.
Плагин News Parser теперь позволяет вам парсить контент напрямую из файлов sitemap (sitemap.xml). Sitemap представляют собой структурированный список URL-адресов на веб-сайте, что делает их эффективным способом обнаружения и парсинга множества записей с целевого сайта.
Чтобы спарсить контент из sitemap, выполните следующие действия:
Перейдите в раздел парсинга Sitemap: В панели администратора WordPress перейдите в меню News-Parsing -> Парсинг Sitemap. Откроется интерфейс парсинга Sitemap.
Введите URL-адрес Sitemap: В предоставленной строке поиска введите полный URL-адрес файла sitemap.xml, который вы хотите спарсить. Например: https://www.example.com/sitemap.xml.
Запустить парсинг Sitemap: После ввода URL-адреса sitemap нажмите кнопку "Парсить sitemap", чтобы начать парсинг. Плагин получит и обработает файл sitemap по указанному URL-адресу.
Просмотрите полученные данные Sitemap: После получения и обработки данных sitemap на экране отобразится список URL-адресов, извлеченных из sitemap. Каждый URL в этом списке представляет собой потенциальную запись для парсинга.
Создайте шаблон парсинга (Рекомендуется для автопилота и эффективности): На этом этапе вы можете открыть Визуальный конструктор, нажав на значок Визуального конструктора (обычно расположен рядом со списком записей или внизу страницы). Используйте Визуальный конструктор для создания шаблона парсинга, специально разработанного для структуры веб-сайта записей, перечисленных в sitemap. Сохранение шаблона парсинга настоятельно рекомендуется, особенно если вы планируете использовать функцию автопилота для автоматического парсинга или если вы намереваетесь парсить несколько записей из этого источника sitemap в будущем. Шаблон обеспечивает последовательное и эффективное извлечение контента.
Ручной выбор и парсинг записей (Для выборочного парсинга): В качестве альтернативы, если вы хотите спарсить только определенный набор записей из sitemap, вы можете вручную выбрать интересующие вас URL-адреса из отображаемого списка. После выбора нужных записей вы можете запустить ручной парсинг, нажав кнопку, например, "Парсить выбранные записи" или аналогичную. Это позволит спарсить контент только из выбранных вами URL-адресов.
Сохранить как черновик или опубликовать: После парсинга с использованием шаблона или ручного выбора будет представлен извлеченный контент для каждой записи. Затем вы можете просмотреть спарсенный контент, внести необходимые изменения и сохранить записи как черновики или опубликовать их непосредственно на своем веб-сайте.
Важные моменты при парсинге из Sitemap:
Избегайте одновременного парсинга чрезмерного количества записей: Парсинг очень большого количества записей за один раз, особенно из sitemap, содержащего тысячи URL-адресов, может создать значительную нагрузку на ваш сервер. Поскольку парсинг обрабатывается на вашем сервере, запуск парсинга слишком большого количества записей одновременно может потенциально напоминать атаку типа "отказ в обслуживании" (DoS) на целевой веб-сайт, а также может перегрузить ресурсы вашего собственного сервера. Настоятельно рекомендуется парсить записи небольшими пакетами или использовать функцию автопилота с соответствующим расписанием и ограничениями, чтобы избежать перегрузки серверов
Использование шаблона для автопилота: Если вы намереваетесь использовать функцию автопилота для автоматического парсинга записей из источника sitemap на регулярной основе, создание и сохранение шаблона парсинга является обязательным. Автопилот будет использовать этот шаблон для последовательного извлечения контента из новых записей, обнаруженных в sitemap с течением времени.
Следуя этим шагам и принимая во внимание важные моменты, вы можете эффективно использовать функцию парсинга Sitemap плагина News Parser для эффективного обнаружения и импорта контента с веб-сайтов, перечисленных в файлах sitemap.xml. Не забывайте использовать шаблоны для эффективного и последовательного парсинга и помните о нагрузке на сервер при парсинге большого количества записей.
Last updated