Анализ контента: от фантастики к реальности

Большой брат читает и понимает тебя

У фантастов компьютер будущего всегда понимал язык человека и даже разговаривал на нем.В реальности суть обработки естественных языков – получение новой структурированной информации из неупорядоченного набора текстов.

Я все прочитал по вашим губам.
Сверхразумный компьютер HAL 9000. Фильм «2001 год: Космическая одиссея» (1968)

Структурированная информация без проблем обрабатывается компьютером и может быть представлена в виде графиков, диаграмм и таблиц.

В чем сложность естественного языка? Вилка лежит, а тарелка при этом стоит, к тому же мы можем спросить о месте нахождения ресторана десятью разными способами. Не подскажите, как пройти к ресторану N? А вы случайно не знаете дорогу к ресторану N? Подскажите, пожалуйста, где тут N?

И как машине разбираться во всем этом? Текстовая аналитика спешит на помощь!Ее задачи:

  • информационный поиск
  • категоризация текста
  • извлечение информации
Контент маркетинг
Контент маркетинг – доработка старого и создание нового качественного контента для привлечения потенциальных покупателей.
Отправить заявку

Ода эффективности текстового анализа

Анализ текста – процесс трудный. И где-то в голове логичный вопрос – «зачем так сложно?» Продвигали же раньше и продвигают теперь, рассчитывая плотность ключевиков.

Популярная формула BM25 имеет внушительный вид, но в итоге это просто более усложненный вариант расчета плотности ключевиков. Текстовый анализатор заходит с другой стороны – не пытается угадать алгоритмы, которые регулярно меняются и неодинаковы для различных запросов. Он анализирует успешные страницы и помогает понять, как войти в их число.

ТОП сегодня зеленый – мимикрируем

Для большей наглядности посмотрим на результаты эксперимента, проведенного для конференции IBC Russia. Было выбрано пять коммерческих сайтов разной тематики, и страницы каждого были поделены между двумя подходами к оптимизации – текстовым анализом и подсчетом вхождений через BM25.

Для низкоконкурентных запросов оба метода показали высокий результат, который различался в пределах погрешности. Но уже при работе со среднеконкурентными запросами формула BM25 показала снижение вместо повышения, с высококонкурентными – вообще стала причиной ухода из топа. При этом текстовая аналитика подняла видимость страниц на 14% и 7% соответственно.

Чтобы проверить частотность запросов – используйте анализ слов в Яндексе.

Текстовый анализ как инструмент оптимизации

Задача текстовой оптимизации – подстроиться под требования поисковика по запросам. Для этого вычисляется «окно допустимых значений» – число вхождений фраз из запроса в различные блоки страницы, позволяющие ей попасть в ТОП. Речь идет о содержании тегов. Иногда оптимизаторы бездумно «пихают» ключевые слова где ни попадя или, наоборот, мало их используют.

Посмотрим на следующую таблицу.

Пример числа вхождений по тегам

Во-первых, оптимизатор переборщил с зонами text-fragement (содержимое небольших текстовых фрагментов) , plain-text (содержимое всего текста). Во-вторых, неправильно разместил вхождения: большинство запросов расположено в text-fragement и plain-text, а должны быть в теге <a>. Это позволит распределить число вхождений.

Налево пойдешь – в ТОП не попадешь, направо пойдешь – из ТОПа вылетишь

Начинается все с текстового анализа с целью поставить задачу копирайтеру. Вхождения подсчитываются и самостоятельно, но с тем же успехом можно вручную копать котлован – результат будет получен, но уйдет больше времени, а качество будет хуже.

Будни текстового аналитика

 

 

Контент маркетинг
Стоимость контент-маркетинга определяется индивидуально и зависит от следующих факторов: общего состояния сайта на момент начала маркетинговых работ, уровня сложности и степени погружения в тематику контента. Кроме того, отдельно устанавливается количество и объем сгенерированного контента за единицу времени: день, неделю или месяц.
Стоимость – от 35 000 рублей.
Получить консультацию
Наш менеджер свяжется с Вами и ответит на все вопросы
Отправить заявку

Существует два способа текстового анализа. Разберем каждый из них.

1. Анализ по одному запросу: палка о двух концах

Не учитываются витальные ответы (официальные сайты брендов)и заведомо высоко ранжируемые сайты (например, Википедия). Затем запрос разбивается на все возможные вхождения: прямые, точные и разбавленные. Точные пишутся в строке поиска без изменений: с тем же порядком слов и с той же словоформой. Например, у нас есть ключ «организация корпоративов». Получаем следующий результат.

Пример точного вхождения

В прямых вхождениях могут встречаться знаки препинания, но словоформа будет та же. Берем запрос «торты на заказ» и получаем: «В нашей кондитерской можно купить любые торты: на заказ по вашему рецепту, классические или фирменные.»

В случае с разбавленными вхождениями изначальный «ключ» изменяется как угодно.

Было «торты на зазказ», стало – «на заказ тортов»

Какие вхождения лучше? Получается «палка о двух концах»: точные вхождения делают страницу релевантнее, так как полностью соответствуют запросу пользователя. Но если весь текст будет состоять из слов в именительном падеже, его будет невозможно читать.

Оптимальное решение: использовать точные и прямые вхождения в заголовке и подзаголовках, а разбавленные – в основном тексте.

2. Анализ по нескольким запросам – задача для продвинутых

Усложняем задачу. Чаще на страницу продвигается более одного запроса. Секрет успеха в «упаковке» одних вхождений в другие, а их совместимость определяется правильной кластеризацией (поисковик диктует свои условия, а кластеризация выявляет совместимые запросы). Необходимо искать, на какие страницы приводит определенная группа слов, а не строить работу вокруг основного – совместимые с ним запросы могут исключать друг друга. Такой способ называют кластеризацией, о которой мы расскажем в следующем разделе.

Курение вредит вашему здоровью!

Когда ведется работа с несколькими запросами, диапазон вычисляется для каждого отдельно. Вхождения на странице по одному запросу суммируются, и получается формально идеальный набор вхождений для попадания в ТОП.

Кластеризация запросов – инструмент №1

Кластеризация запросов – это разделение ключевых слов на группы (кластеры) по определенным признакам. Такое распределение позволяет быстрее продвинуть сайт на первые позиции выдачи за счет текстов и статей. Осуществляется кластеризация, исходя из схожести результатов поиска для различных запросов.

Зачем это нужно?

  • Для быстрой и эффективной проработки семантического ядра
  • Для устранения из СЯ ненужных запросов
  • Чтобы понимать, какие запросы могут вести на одну страницу
  • Для построения структуры сайта

Распределить ключевые слова по группам можно как вручную, так и автоматически. Приведем список компаний, которым точно можно доверить кластеризацию:

  • TopSite
  • JustMagic
  • Rush Analitics
  • Key Collector
  • Topvisor
Пример кластеризации запросов

Как видим, все запросы распределены на несколько групп. Grp1 — кластеризация по 3 урлам, grp2 — по 4м урлам, и.т.д. Последний столбец «mord» — «тематическая» группировка.

grp1 — это наиболее широкая группа (сформировання по 3м урлам). Это означает, что все запросы, имеющие одинаковый номер группы в столбце grp1, относятся к одной группе. Группа формируется по принципу «существует как минимум 3 урла, которые присутствуют в топ-10 по каждому из запросов группы». Grp2-4 созданы по аналогичному принципу, но минимум урлов для объединения у них 4-6.

Текстовые факторы ранжирования сайта Яндексом

В 2014 году Яндекс отключил ссылочное ранжирование, и теперь seo специалисты вынуждены уделять больше внимания текстовым факторам. Ведь именно от оптимизации текста зависит выведение сайта в ТОП.

В Яндексе существует более 400 текстовых факторов ранжирования! Поделимся с вами секретной табличкой алгоритмов. Спорим, вы знаете далеко не все?

1. Текстовая релевантность

2. Антиспам

3. Вторконтент

4. Качество текста, распознавание спама, машинного текста

Команда Аполло-8 знает все перечисленные алгоритмы и использует их для текстового анализа наравне с Яндексом. Чего и вам советуем!

Выделим две особенности текстового ранжирования Яндексом:

  • В поиске используется большое число текстовых факторов, не собранных в единую формулу.
  • Под каждый запрос или группу запросов есть своя формула.

Погоня за формулой ранжирования – путь непродуктивный, потому что она корректируется рядом способов.

  • Пользовательское поведение – определяющий фактор, к которому сводятся все остальные. Как часто пользователи кликают на результат, сколько времени проводят на сайте, добавляют ли страницы в закладки, делают ли репосты.
  • Асессоры – сотрудники, которые оценивают качество и релевантность сайта с человеческой точки зрения. Так обучается Матрикснет – искусственный интеллект Яндекса, строящий формулу ранжирования.

Персонализация выдачи в соответствии с личными предпочтениями пользователя, т.е. выдача для двух разных пользователей не будет одинакова.

Судьи сайта — это не поисковые системы, а пользователи. Поисковые системы всегда подстраиваются под потребности пользователей, стремятся предсказать, что будет для них полезно.
Александр Садовский, руководитель поисковых сервисов Яндекса
  • Заголовок страницы в выдаче – содержание тега <title>, которое должно быть интересно и информативно для пользователя. Для корректного ранжирования обязательно надо проставить теги заголовков  <Н1> или <Н2>, но не забывать, что они должны соответствовать структуре текста.
  • При поиске по картинкам учитывается не только сама иллюстрация, но и текст рядом с ней. Особенно актуально это для коммерческих проектов, потому что пользователю бывает удобно сначала посмотреть на товар, а потом перейти на сайт продавца, а не последовательно изучат каждую ссылку из выдачи.

Какие параметры должен учесть оптимизатор, чтобы с помощью текста вывести сайт в топ?

Царь, просто царь
  • Релевантность. Текст должен максимально соответствовать запросу. На странице должно быть меньше общих слов и больше узкотематических. Например, для стоматологии это будут названия болезней и предлагаемых процедур.
  • Отсутствие «воды». Не нужно растекаться мыслью по древу – говорите конкретно о конкретных вещах.
  • Отсутствие спама и «тошноты». Не перегружайте текст ключевыми словами – они могут не только сделать сайт нечитаемым, но и привести его к фильтру «Переспам».
  • Практическая полезность. Пользователь получает инструкцию, определение, ответ, который искал.
  • Актуальность. Устаревшая информация повлечет за собой высокий уровень отказов.
  • Надежность. Пользователь предпочитает проверенную информацию: мнения профессионалов, авторитетные источники, отзывы укрепляют доверие.
  • Уникальность. Яндекс не замедлит с понижением в выдаче, если контент окажется вторичным или заспамленным.
  • Естественность и грамотность. Алгоритмы Яндекса на страже великого и могучего – текст должен соответствовать всем правилам русского языка. Машинный текст для человека не читаем, и легко выявляется компьютером.

Как провести текстовый анализ самостоятельно? Проверка текста на уникальность и не только…

Провести качественный анализ текста можно с помощью нескольких онлайн-сервисов. Расскажем, как и в какой последовательности их использовать.

1. Text.ru (https://text.ru)

Скопируйте свой текст в специальное окно – и вы получите сведения об уникальности статьи, заспамленности и «воде».

Оптимальный процент уникальности – более 90%

Прокрутите страницу вниз – и вы увидите кнопки в виде глаз. Кликнете по ним, и сервис выделит ненужные слова. А так же те, которые говорят о заспамленности текста.

Оптимальный процент уникальности – более 90%
Убираем «воду»

Как видим, процент «воды» в этом тексте небольшой, а некоторые слова невозможно выкинуть из предложения: иначе оно потеряет смысл. Поэтому в целом мы можем оставить все так, как есть.

Избавляемся от спама

Для маленького абзаца 40% — плохой показатель. Получилось много повторов, и от них нужно избавиться.

2. PR-CY (http://pr-cy.ru/analysis_content/)

Теперь, когда мы избавились от «воды» и спама, проверим текст с точки зрения оптимизации. На странице сервиса нужно ввести список ключевых слов и разместить ссылку на проверяемую статью.

Показатель «тошноты»

Оптимальный показатель «тошноты» – 5-8%. Если меньше – текст мало оптимизирован, больше – переоптимизирован.

Далее проверяем плотность ключевых слов.

Всё четко!

Слова с пометками title, headers и marked должны иметь вес в пределах 2-5. Здесь снова важно соблюсти тонкую грань между недостаточной оптимизацией и переспамом.

3. Главред (https://glvrd.ru)

И на последнем этапе проверим текст с точки зрения полезности для читателя.

Сервис «Главред» — лучший друг копирайтера

«Главред» создан известным блогером Максимом Ильяховым, который пишет книги о копирайтинге и читает обучающие лекции.

Хорошая оценка – 7 и более баллов. Если вам поставили меньше, статья вряд ли будет интересна читателям. Все ошибки выделены волнистой линией. При наведении на них вы увидите сбоку пояснения о том, что не так и как это исправить.

Курс на всплытие

Подходит к концу сегодняшнее погружение в текстовую аналитику – мощнейший инструмент на базе искусственного интеллекта, который полезен для решения самых разнообразных задач.

Как вы поняли, из-за алгоритмов Яндекса классификация запросов и их продвижение на одной странице зачастую не поддаются логике. Поэтому без огромного труда, вложенного в анализ, и без опыта продвижения сложно добиться реальных результатов. Этот «швейцарский нож» должна направлять умелая рука SEO-специалиста.