Шаблон для Парсинга
В этом разделе вы узнаете о процессе создания шаблонов для оптимизации парсинга контента для вашего веб-сайта.
Теперь вы можете создавать шаблоны парсинга, используя как визуальный выбор, так и CSS-селекторы. Во вкладке «Шаблон» в Визуальном Конструкторе вы найдете новый раздел под названием «Шаблоны парсинга». Этот раздел позволяет вам определить шаблон парсинга, используя либо визуальные клики, либо напрямую вводя CSS-селекторы для точного нацеливания на контент. Когда вы визуально выбираете элементы в главном окне, вы увидите, как их соответствующие CSS-селекторы автоматически заполняются в блоке «Шаблоны парсинга», предоставляя вам отправную точку для шаблонов на основе CSS.
Выберите контент (Визуально или CSS):
Визуальный выбор (По умолчанию): В главном окне Визуального Конструктора отметьте контент, который вы хотите включить в свой шаблон парсинга, нажав на блоки или элементы, содержащие нужный контент. Выбранный блок будет отмечен бирюзовой рамкой. Вы можете разделить разные типы контента на отдельные блоки (например, текст, изображения, видео), нажимая на них по отдельности. CSS-селекторы для вашего визуального выбора появятся в разделе «Шаблоны парсинга».
Редактирование CSS-селекторов (Продвинутый уровень): Если вам требуется более точный контроль или вы предпочитаете работать напрямую с CSS-селекторами, установите флажок «Сохранить шаблон парсинга». Это действие разблокирует поля редактирования «Шаблоны парсинга»: «Шаблон элементов» и «Шаблон исключения элементов».
«Шаблон элементов»: В этом поле вы можете вручную ввести CSS-селекторы, чтобы определить элементы, которые вы хотите включить в свой шаблон. Если вы отредактируете это поле, элементы, которые вы выбрали визуально в конструкторе, будут проигнорированы. Поэтому, если вы в основном используете CSS-селекторы, вы можете свести к минимуму шаг визуального выбора или вообще пропустить его и напрямую ввести свои селекторы здесь.
«Шаблон исключения элементов»: Дополнительно вы можете использовать это поле, чтобы указать CSS-селекторы для элементов, которые вы хотите исключить из спарсенного контента, даже если они соответствуют вашему «Шаблону элементов».
Синтаксис селекторов: При редактировании полей шаблона разделяйте каждый CSS-селектор запятой. Например: .article-content p, .article-image>img.
Синтаксис Text Content: Вы также можете использовать селекторы на основе textContent для нацеливания на элементы на основе их текстового содержимого. Например: p[textContent^=Read more] выберет все элементы <p>, где текстовое содержимое начинается с «Read more».
Сохранить шаблон парсинга:
Визуальные шаблоны: Если вы в основном используете визуальный выбор, убедитесь, что установлен флажок «Сохранить шаблон парсинга». Эта опция позволяет вам сохранить шаблон для будущего использования при автоматическом парсинге из этого источника. Нажмите кнопку «Сохранить шаблон», чтобы сохранить шаблон парсинга на основе вашего визуального выбора (или CSS-селекторов по умолчанию, сгенерированных из них).
Шаблоны CSS-селекторов: После редактирования полей «Шаблон элементов» и/или «Шаблон исключения элементов» нажмите кнопку «Обновить», чтобы применить изменения и сохранить свой шаблон. Это сохранит шаблон на основе ваших вручную введенных шаблонов CSS-селекторов.
Понимание вариаций в контенте: Важно отметить, что отдельные записи, даже из одного и того же источника, могут значительно различаться по своей структуре и содержанию. В результате спарсенные страницы могут не всегда содержать именно тот контент, который вы ожидаете, даже при наличии шаблона. Имейте в виду, что шаблон парсинга обеспечивает структуру для извлечения контента, но могут быть вариации в фактическом контенте внутри макета и элементов каждой записи. Возможно, вам потребуется со временем уточнить свой шаблон, чтобы учесть эти вариации.
Следуя этим шагам, вы можете создать шаблон парсинга в плагине News Parser для извлечения желаемого контента из источника, используя либо интуитивно понятный визуальный конструктор, либо точность CSS-селекторов. Не забывайте настраивать и тестировать свой шаблон по мере необходимости, чтобы учесть любые вариации в структуре контента исходного веб-сайта.
Last updated