Анализ контента: от фантастики к реальности
Если бы текстовые данные были водой, то их объем был бы сопоставим с Мировым океаном. Как и исследование водных глубин, анализ текстовых данных не только таит в себе немало трудностей, но и содержит огромный потенциал. В нашем батискафе еще есть место — к погружению!
Большой брат читает и понимает тебя
У фантастов компьютер будущего всегда понимал язык человека и даже разговаривал на нем.В реальности суть обработки естественных языков – получение новой структурированной информации из неупорядоченного набора текстов.
Структурированная информация без проблем обрабатывается компьютером и может быть представлена в виде графиков, диаграмм и таблиц.
В чем сложность естественного языка? Вилка лежит, а тарелка при этом стоит, к тому же мы можем спросить о месте нахождения ресторана десятью разными способами. Не подскажите, как пройти к ресторану N? А вы случайно не знаете дорогу к ресторану N? Подскажите, пожалуйста, где тут N?
И как машине разбираться во всем этом? Текстовая аналитика спешит на помощь!Ее задачи:
- информационный поиск
- категоризация текста
- извлечение информации
Ода эффективности текстового анализа
Анализ текста – процесс трудный. И где-то в голове логичный вопрос – «зачем так сложно?» Продвигали же раньше и продвигают теперь, рассчитывая плотность ключевиков.
Сотрудники Яндекса сообщили, что из 800 факторов ранжирования около 50 – текстовые. Такое многообразие делает зависимость нелинейной. Следовательно, работа только с одним фактором даст положительный результат только при большой удаче.
Популярная формула BM25 имеет внушительный вид, но в итоге это просто более усложненный вариант расчета плотности ключевиков. Текстовый анализатор заходит с другой стороны – не пытается угадать алгоритмы, которые регулярно меняются и неодинаковы для различных запросов. Он анализирует успешные страницы и помогает понять, как войти в их число.
Для большей наглядности посмотрим на результаты эксперимента, проведенного для конференции IBC Russia. Было выбрано пять коммерческих сайтов разной тематики, и страницы каждого были поделены между двумя подходами к оптимизации – текстовым анализом и подсчетом вхождений через BM25.
Для низкоконкурентных запросов оба метода показали высокий результат, который различался в пределах погрешности. Но уже при работе со среднеконкурентными запросами формула BM25 показала снижение вместо повышения, с высококонкурентными – вообще стала причиной ухода из топа. При этом текстовая аналитика подняла видимость страниц на 14% и 7% соответственно.
Чтобы проверить частотность запросов – используйте анализ слов в Яндексе.
Текстовый анализ как инструмент оптимизации
Задача текстовой оптимизации – подстроиться под требования поисковика по запросам. Для этого вычисляется «окно допустимых значений» – число вхождений фраз из запроса в различные блоки страницы, позволяющие ей попасть в ТОП. Речь идет о содержании тегов. Иногда оптимизаторы бездумно «пихают» ключевые слова где ни попадя или, наоборот, мало их используют.
Посмотрим на следующую таблицу.
Во-первых, оптимизатор переборщил с зонами text-fragement (содержимое небольших текстовых фрагментов) , plain-text (содержимое всего текста). Во-вторых, неправильно разместил вхождения: большинство запросов расположено в text-fragement и plain-text, а должны быть в теге <a>. Это позволит распределить число вхождений.
Начинается все с текстового анализа с целью поставить задачу копирайтеру. Вхождения подсчитываются и самостоятельно, но с тем же успехом можно вручную копать котлован – результат будет получен, но уйдет больше времени, а качество будет хуже.
Существует два способа текстового анализа. Разберем каждый из них.
1. Анализ по одному запросу: палка о двух концах
Не учитываются витальные ответы (официальные сайты брендов)и заведомо высоко ранжируемые сайты (например, Википедия). Затем запрос разбивается на все возможные вхождения: прямые, точные и разбавленные. Точные пишутся в строке поиска без изменений: с тем же порядком слов и с той же словоформой. Например, у нас есть ключ «организация корпоративов». Получаем следующий результат.
В прямых вхождениях могут встречаться знаки препинания, но словоформа будет та же. Берем запрос «торты на заказ» и получаем: «В нашей кондитерской можно купить любые торты: на заказ по вашему рецепту, классические или фирменные.»
В случае с разбавленными вхождениями изначальный «ключ» изменяется как угодно.
Какие вхождения лучше? Получается «палка о двух концах»: точные вхождения делают страницу релевантнее, так как полностью соответствуют запросу пользователя. Но если весь текст будет состоять из слов в именительном падеже, его будет невозможно читать.
Оптимальное решение: использовать точные и прямые вхождения в заголовке и подзаголовках, а разбавленные – в основном тексте.
2. Анализ по нескольким запросам – задача для продвинутых
Усложняем задачу. Чаще на страницу продвигается более одного запроса. Секрет успеха в «упаковке» одних вхождений в другие, а их совместимость определяется правильной кластеризацией (поисковик диктует свои условия, а кластеризация выявляет совместимые запросы). Необходимо искать, на какие страницы приводит определенная группа слов, а не строить работу вокруг основного – совместимые с ним запросы могут исключать друг друга. Такой способ называют кластеризацией, о которой мы расскажем в следующем разделе.
Когда ведется работа с несколькими запросами, диапазон вычисляется для каждого отдельно. Вхождения на странице по одному запросу суммируются, и получается формально идеальный набор вхождений для попадания в ТОП.
Не стоит воспринимать результат текстового анализа как готовое техническое задание для копирайтера. К примеру, анализатор скажет, что для низкоконкурентного запроса вообще необязательно точное вхождение, потому что в ТОПе нет релевантных страниц. Тут человек должен понять, что это возможность не просто подстроиться, а сделать сайт лучше и занять верхние строчки.
Кластеризация запросов – инструмент №1
Кластеризация запросов – это разделение ключевых слов на группы (кластеры) по определенным признакам. Такое распределение позволяет быстрее продвинуть сайт на первые позиции выдачи за счет текстов и статей. Осуществляется кластеризация, исходя из схожести результатов поиска для различных запросов.
Зачем это нужно?
- Для быстрой и эффективной проработки семантического ядра
- Для устранения из СЯ ненужных запросов
- Чтобы понимать, какие запросы могут вести на одну страницу
- Для построения структуры сайта
Распределить ключевые слова по группам можно как вручную, так и автоматически. Приведем список компаний, которым точно можно доверить кластеризацию:
- TopSite
- JustMagic
- Rush Analitics
- Key Collector
- Topvisor
Как видим, все запросы распределены на несколько групп. Grp1 — кластеризация по 3 урлам, grp2 — по 4м урлам, и.т.д. Последний столбец «mord» — «тематическая» группировка.
grp1 — это наиболее широкая группа (сформировання по 3м урлам). Это означает, что все запросы, имеющие одинаковый номер группы в столбце grp1, относятся к одной группе. Группа формируется по принципу «существует как минимум 3 урла, которые присутствуют в топ-10 по каждому из запросов группы». Grp2-4 созданы по аналогичному принципу, но минимум урлов для объединения у них 4-6.
Текстовые факторы ранжирования сайта Яндексом
В 2014 году Яндекс отключил ссылочное ранжирование, и теперь seo специалисты вынуждены уделять больше внимания текстовым факторам. Ведь именно от оптимизации текста зависит выведение сайта в ТОП.
В Яндексе существует более 400 текстовых факторов ранжирования! Поделимся с вами секретной табличкой алгоритмов. Спорим, вы знаете далеко не все?
1. Текстовая релевантность
2. Антиспам
3. Вторконтент
4. Качество текста, распознавание спама, машинного текста
Команда Аполло-8 знает все перечисленные алгоритмы и использует их для текстового анализа наравне с Яндексом. Чего и вам советуем!
Выделим две особенности текстового ранжирования Яндексом:
- В поиске используется большое число текстовых факторов, не собранных в единую формулу.
- Под каждый запрос или группу запросов есть своя формула.
Погоня за формулой ранжирования – путь непродуктивный, потому что она корректируется рядом способов.
- Пользовательское поведение – определяющий фактор, к которому сводятся все остальные. Как часто пользователи кликают на результат, сколько времени проводят на сайте, добавляют ли страницы в закладки, делают ли репосты.
- Асессоры – сотрудники, которые оценивают качество и релевантность сайта с человеческой точки зрения. Так обучается Матрикснет – искусственный интеллект Яндекса, строящий формулу ранжирования.
Персонализация выдачи в соответствии с личными предпочтениями пользователя, т.е. выдача для двух разных пользователей не будет одинакова.
- Заголовок страницы в выдаче – содержание тега <title>, которое должно быть интересно и информативно для пользователя. Для корректного ранжирования обязательно надо проставить теги заголовков <Н1> или <Н2>, но не забывать, что они должны соответствовать структуре текста.
- При поиске по картинкам учитывается не только сама иллюстрация, но и текст рядом с ней. Особенно актуально это для коммерческих проектов, потому что пользователю бывает удобно сначала посмотреть на товар, а потом перейти на сайт продавца, а не последовательно изучат каждую ссылку из выдачи.
Какие параметры должен учесть оптимизатор, чтобы с помощью текста вывести сайт в топ?
- Релевантность. Текст должен максимально соответствовать запросу. На странице должно быть меньше общих слов и больше узкотематических. Например, для стоматологии это будут названия болезней и предлагаемых процедур.
- Отсутствие «воды». Не нужно растекаться мыслью по древу – говорите конкретно о конкретных вещах.
- Отсутствие спама и «тошноты». Не перегружайте текст ключевыми словами – они могут не только сделать сайт нечитаемым, но и привести его к фильтру «Переспам».
- Практическая полезность. Пользователь получает инструкцию, определение, ответ, который искал.
- Актуальность. Устаревшая информация повлечет за собой высокий уровень отказов.
- Надежность. Пользователь предпочитает проверенную информацию: мнения профессионалов, авторитетные источники, отзывы укрепляют доверие.
- Уникальность. Яндекс не замедлит с понижением в выдаче, если контент окажется вторичным или заспамленным.
- Естественность и грамотность. Алгоритмы Яндекса на страже великого и могучего – текст должен соответствовать всем правилам русского языка. Машинный текст для человека не читаем, и легко выявляется компьютером.
Как провести текстовый анализ самостоятельно? Проверка текста на уникальность и не только…
Провести качественный анализ текста можно с помощью нескольких онлайн-сервисов. Расскажем, как и в какой последовательности их использовать.
1. Text.ru (https://text.ru)
Скопируйте свой текст в специальное окно – и вы получите сведения об уникальности статьи, заспамленности и «воде».
Прокрутите страницу вниз – и вы увидите кнопки в виде глаз. Кликнете по ним, и сервис выделит ненужные слова. А так же те, которые говорят о заспамленности текста.
Как видим, процент «воды» в этом тексте небольшой, а некоторые слова невозможно выкинуть из предложения: иначе оно потеряет смысл. Поэтому в целом мы можем оставить все так, как есть.
Для маленького абзаца 40% — плохой показатель. Получилось много повторов, и от них нужно избавиться.
2. PR-CY (http://pr-cy.ru/analysis_content/)
Теперь, когда мы избавились от «воды» и спама, проверим текст с точки зрения оптимизации. На странице сервиса нужно ввести список ключевых слов и разместить ссылку на проверяемую статью.
Оптимальный показатель «тошноты» – 5-8%. Если меньше – текст мало оптимизирован, больше – переоптимизирован.
Далее проверяем плотность ключевых слов.
Слова с пометками title, headers и marked должны иметь вес в пределах 2-5. Здесь снова важно соблюсти тонкую грань между недостаточной оптимизацией и переспамом.
3. Главред (https://glvrd.ru)
И на последнем этапе проверим текст с точки зрения полезности для читателя.
«Главред» создан известным блогером Максимом Ильяховым, который пишет книги о копирайтинге и читает обучающие лекции.
Хорошая оценка – 7 и более баллов. Если вам поставили меньше, статья вряд ли будет интересна читателям. Все ошибки выделены волнистой линией. При наведении на них вы увидите сбоку пояснения о том, что не так и как это исправить.
Курс на всплытие
Подходит к концу сегодняшнее погружение в текстовую аналитику – мощнейший инструмент на базе искусственного интеллекта, который полезен для решения самых разнообразных задач.
Как вы поняли, из-за алгоритмов Яндекса классификация запросов и их продвижение на одной странице зачастую не поддаются логике. Поэтому без огромного труда, вложенного в анализ, и без опыта продвижения сложно добиться реальных результатов. Этот «швейцарский нож» должна направлять умелая рука SEO-специалиста.