Обновлено: 18.04.2024Теги: Аналитика Внутренняя оптимизация

Исследование важности охвата LSI слов и фраз

Я изучаю Python и неплохо владею Zennoposter — потому решил более глубоко копнуть тему контента в тех вещах, которые можно посчитать и сравнить в рамках ТОП-50 выдачи по запросу. Вопросов у меня очень много, потому не буду их перечислять, а буду писать итоговые материалы (кстати, если хотите видеть больше коротких и полезных заметок по автоматизации и аналитике в SEO — рекомендую подписаться на мою телегу — ТЫЦ, там есть промежуточные заметки данного исследования).

Я по сути второй раз провожу такие большие (для меня) исследования (первый был о тошноте ключевых слов в Яндексе и Google), потому буду признателен за любую обратную связь и советы по проведению таких мероприятий (ну и за ссылочки — тоже 😉 ).

Цель:

Узнать насколько охват (или ширина) LSI слов и фраз влияет на позиции и каким образом. Возможно найти какие-то закономерности и сделать полезные для себя выводы, а не основываться на «все делают и я делаю». Быть может мы зря тратим время внедряя LSI в текст и мучая авторов своими ТЗ на копирайтинг 🙂

Содержание скрыть

Общие данные о комплексном исследовании контента
Суть исследования важности охвата LSI слов и фраз
Выводы

Общие данные о комплексном исследовании контента

Вручную были собраны данные семантического анализа (вхождения ключей, n-грамм, LSI слов и фраз, объем, релевантность и т.д.) по ТОП-50 по нескольким запросам из каждой ниши (в основном СЧ и ВЧ, подробнее о видах и типах ключевых слов) в Яндексе и Google. Потом отдельно сделан срез по ТОП-50, но без учета сайтов, которые в теории могли сильно исказить влияние текстовых факторов (например, огромное ссылочное, другой тип сайта, бешеная социальная активность, огромный ИКС и т.д.), т.е. условно был создан портрет стандартного документа для каждого ключа и отсекались все другие сайты, которые вносили искажения.

Я сейчас пишу статью и страшно представить, сколько часов помощников и моих убито на это всё и будет крайне обидно не получить каких-то выводов 🙂 Статью пишу кусками, и в данный момент я даже не свел данные, потому сам не знаю, что получиться — но любой результат, даже отрицательный — это неплохой опыт.

Какие ниши анализировались

Я разбил ниши по типам документов (соответственно запросы брались такие, чтобы все документы в выдаче соответствовали типу), чтобы можно было хотя бы поверхностно, но посмотреть всего по чуть-чуть.

Интернет-магазины и каталоги

Аэродизайн
Элитная недвижимость

Услуги

Строительство
Юриспруденция

Информационка (статьи)

SEO
Сад и огород
Строительство
Юриспруденция

Поиск корреляции

Я использовал корреляцию Пирсона, но ее слабое место — выбросы. Т.е. один выброс может исказить всю картину, но если подкинете формул или алгоритмов мне для изучения — буду признателен.

Условимся по значениям, чтобы никого не напрягать процентами:

Менее 70% — нет корреляции с позициями;
70-80% — слабая корреляция;
80-90% — средняя;
Более 90% — сильная.

Суть исследования важности охвата LSI слов и фраз

А теперь перейдем конкретно к сути именно данного поста.

LSI были получены для каждого запроса через Акварель-генератор. Получается список из монограмм (отдельные слова) и биграмм (фразы из 2 слов). Решил проверить, насколько важно именно количество разнообразных LSI из данных списков и как это влияет на позиции. Я всегда давал довольно большой список LSI (делил на важные и второстепенные) и одной из задач копирайтера была — внедрение как можно большего количества из данных списков (идеально, чтобы важные были все). Это занимает довольно много времени при формировании ТЗ и тяжело для автора.

Пару примеров с разбором по запросам

Для начала покажу несколько графиков с разбором по запросам:

Здесь был взят запрос «Постельный клоп» в нише «Сад и огород», где почти вся выдача — информационные статьи. 2 скриншота, 1 — выдача Google, 2 — выдача Яндекса. Пояснение к графикам по цветам линий:

Синяя — живая выдача, где был взят наш LSI список и леммататизирован. Контент каждой страницы был спаршен и все слова и фразы так же лемматизированы. Теперь можно посчитать количество совпадение на странице с нашим списком. Провалы до 0 — это сайты, которые не удалось спарсить;
Оранжевая — из топа выкинуты сайты, которые «вносили искажения» и «не спаршенные»;
Красная — медиана по значением грязного ТОПа (т.е. по синей линии);
Зеленая — медиана по «чистому» ТОПу (т.е. по оранжевой линии).

По графикам заметно, что в Google в зависимости от ТОПа медиана растет, как по грязному, так и по чистому ТОПу и имеет среднюю корреляцию (т.е. чем больше охват LSI — тем выше позиции). В Яндексе скорее наоборот — корреляция отсутствует.

Здесь был взят запрос «купить воздушные шары» в нише «Аэродизайн», запрос явно коммерческий и в выдаче каталоги. 2 скриншота, 1 — выдача Яндекса, 2 — выдача Google. И здесь уже имеем корреляция отсутствует и в Google и в Яндексе, что говорит о том, что по сути значения в ТОП-10 не особо отличаются от значений в ТОП-50. Но мы сейчас говорим об 1 конкретном запросе только. Давайте смотреть по нишам и типам сайтов.

Охват LSI по нишам

Есть же вероятность, что если мы возьмем N запросов из 1 ниши, то может быть там заметим какие-то корреляции. Давайте смотреть. Но чтобы не кидать кучу скринов, я кину те, где в нишах есть что-то интересное, а остальные опишу текстом.

В элитке (ТИП — каталоги) есть корреляция по ТОПам: слабая в Google и отсутствие в Яндексе. Но разница между ТОП-10 и ТОП-50 заметна.

В огородной нише (информационка) корреляция по ТОПам: средняя в Google и отсутствует в Яндексе.

В сеошной нише (информационка) корреляция по ТОПам: средняя в Google и отсутствует в Яндексе (хотя по графику виден провал в ТОП-30, если его исключить — получим так же среднюю корреляцию).

В строительстве в Яндексе слабая корреляция, в Гугле — аналогично. У юристов ситуация в Google средняя корреляция, а в Яндексе слабая. Всё из-за того, что там как и у строителей были и коммерческий и информационные запросы. Но для этого есть 3 сравнение 🙂

Охват LSI по типам документов

В каталожных страницах имеем сильную корреляцию в Google и слабую в Яндексе. И если вы внимательно смотрели на графики медиан по Яндексу, то заметили странную фигню, которая происходит в ТОП-30 (то провалы, то всплески — если смотреть больше скринов, то ситуация повторяется слишком часто), которые явно портят картину (потому я еще и графики делал). Есть стойкое ощущение, что там находится много пессимизированных сайтов или тех, которые подтягивали другие факторы. Если их откидывать — ситуация будет чуть лучше.

Услуги очень противоречивая штука из-за того, что туда часто примешиваются статьи, где в конце есть возможность оформления заказа, особенно грешит этим юриспруденция. Из-за этого корреляция крайне слабая, потому что вычленить массово такие страницы я не смог. Но если сделать поправку с учетом анализа отдельно каждого запроса — то зачастую в Google мы будем видеть среднюю корреляцию, а в Яндексе ее отсутствие.

Ну и осталась у нас информационка. Сильная корреляция в Google и отсутствие в Яндексе, но обратите внимание насколько может идти прирост в количестве (да, конечно, это из-за длины текстов).

Выводы

Да, у меня далеко не самая репрезентативная выборка, чтобы делать какие-то заключения, но имеем, что имеем + не видел таких статей у нас в нише. И я немного обобщу и сглажу все проценты, чтобы попробовать описать это словами.

Для большей наглядности я свел вообще все данные в 1 график, чтобы показать просто нормализированные средние значения по всем анализируемым запросам. Обратите внимание, как в ТОП-20 прирастает охват LSI.

По нишам	Google	Яндекс
Разделил по конкуренции, т.к. заметил закономерность от силы «среднего сайта» по ТОПам. Т.е. если портрет условного среднего сайта — это 500 доменов, ИКС 600, ссылок около 3000, TR около 30 и т.д. — ситуация будет отличаться от ниш, где средний сайт «проще». Будет называть это «конкуренцией».
Средняя и высокая конкуренция	Чем больше LSI — тем выше позиции во всех случаях. Т.е. сильная корреляция. ТОП-10 лучше, чем ТОП-50 на 40%+.	Аналогичная ситуация в Яндексе.
Низкая конкуренция	В 2 поисковых системах не заметил корреляции.

Другими словами, чем более конкурентный ТОП — тем больше играет роль охват LSI в 2 поисковых системах. Для низкоконкурентных ниш — можно особо не париться.

По типу документа	Google	Яндекс
Каталоги	В 2 поисковиках есть корреляция. Есть разница между ТОП-10 (всегда больше охват LSI) и ТОП-50 — но речь идет о разнице в 20%. В Среднем можно ориентироваться на 60 LSI.
Услуги	Самая сложная штука, т.к. часто есть примеси явной информационки и лонгридов в перемешку с короткими услугами. В этой куче никакой корреляции внятной нет или есть, но слабая. В Среднем можно ориентироваться на 80-100 LSI.
Информационные статьи	Сильная корреляция по всей выборке, т.е. больше LSI = лучше позиция. В ТОП-10 на 61% больше LSI, чем в ТОП-50. Ориентиром может быть 120-150 LSI.	Яндекс таким похвастаться не может. Разница между ТОП-10 и ТОП-50 в 14% с уклоном в первую десятку. Но ориентиром будет 270-300 LSI.

Для каталогов можно не сильно парится по охвату LSI. Корреляция хоть и есть, но речь идет довольно малых цифрах, т.е. вероятность, что вы где-то прям сильно что-то упускаете — минимальная, скорее всего все LSI можно подтянуть просто оптимизацией шаблона страниц.

По услугам — думаю, что более «чистая» выборка дала бы результат максимально схожий с каталогами. Т.е. можно не особо париться.

В информационных статьях всё совсем наоборот — нужно запариться. Для Google хорошо видна корреляция с большой разницей по ТОПам, а в Яндексе вообще нет сайтов с низким показателем охвата LSI в ТОП-50.

Так же хотел бы заметить, что практически во всех случаях в Яндексе (кроме каталогов) в 2-3 раза больший охват LSI, чем в Google. Говорит ли это о том, что Яндекс более требователе к охвату LSI? Думаю да, но это становится сильно заметно только в информационке и, возможно, в услугах.

P.S. Буду очень признателен за комментарии, которые помогут мне лучше разбирать результаты таких исследований, а так же трактовать результаты. Любые подсказки по структуре и подаче таких данных так же приветствуются.

Автор статьи

Роман Вердыш (Romanus)

SEO-Expert, стаж более 10 лет

Написано статей

Об авторе