Пошукові підказки в Google і Яндексі – як виявити накрутку - SEO Blog - все про пошукову оптимізацію та веб розробку українською.

Пошукові підказки в Google і Яндексі – як виявити накрутку

Автор : Микита Шунько , помічник SEO-спеціаліста SiteClinic.ru

Підказки в пошуковому рядку— дієвий метод просування, але не всі користуються ним в благих цілях. Нещодавно мені зустрілася стаття, про те, як Google і Facebook маніпулювали виборцями за допомогою саджестов під час президентських виборів в США в 2016 році. Я вирішив вивчити цю тему докладніше.

Навесні 2018 року американські фахівці опублікували результати масштабного дослідження маніпуляцій з пошуковими підказками. Автори проекту розробили перший робочий метод виявлення «фальсифікованих» підказок у Google. У цій статті я детально розповім про цьому методі, а також про те, як виявляти несправжні підказки в Яндексі.

Пошукові підказки або саджесты (від англ. suggestion — «пропозиція») — одна з найбільш актуальних тем в інтернет-маркетингу. Веб-аналітики припускають, що цей інструмент стане одним із способів просування і перенаправлення трафіку.

Але що, якщо саджесты вже використовують для просування? Адже при введенні пошукового запиту ми часто клікаєм по першій підказці, не замислюючись (особливо при використанні мобільного пристрою).

Як потрапити в пошукові підказки

Підказки – це спливаючі варіанти запитів у пошуковій системі. Вони дублюють початок тексту, введеного користувачем. Саджесты допомагають юзеру точно сформулювати запит і підібрати найбільш релевантну видачу.

Поисковые подсказки Google

У пошуковій системі Google, на відміну від Yandex, у пошукових підказок є «географія», але немає «націлювання» . Наприклад, за запитом користувача, який знаходиться в Бєлгороді, йому покажуть географічну прив'язку. Однак тут же можуть бути запити по Києву, Харкову. І не факт, що при цьому буде згаданий Білгород або хоча б Росія. Yandex здійснює більш точну прив'язку до місцезнаходженням, та кількість з'являються саджестов набагато більше. Обидві системи використовують «власну пам'ять», і в першу чергу будуть пропонувати запити, які вже вводилися на пристрої.

Пошуковики офіційно не використовують підказки в комерційних цілях, однак маніпулювати трафіком і впливати на підсвідомість з їх допомогою, все ж, можна.

Автозаповнення як спосіб накрутки пошукових підказок

Як тільки в пошуковому рядку з'явилися підказки, заповзятливі SEO-фахівці почали використовувати їх для підвищення трафіку своїх сайтів. Створюється велика кількість підроблених запитів із згадкою певного терміну (назва організації, продукту тощо), щоб направляти відвідувачів на «потрібні» сайти й імітувати попит:

Цей тип просування не тільки знижує якість результатів пошуку, але і негативно впливає на репутацію пошукової системи. По дуже багатьом комерційним ВЧ-запитів у списку підказок з'являються такі «домішки», і всі пошукові системи, включаючи Google, Yandex, Bing, Yahoo є жертвами цієї атаки.

Згідно з даними Google, 60% сьогоднішніх пошукових запитів надходять з мобільних пристроїв. Тут форм-фактори ускладнюють введення запиту, тому користувачі планшетів і телефонів, в більшості випадків, покладаються на готові варіанти автозаповнення. Саме так мобільні користувачі піддаються маніпуляціям з допомогою підказок.

Як виявити накручені підказки в Google

Не так давно фахівці з трьох американських університетів провели масштабний експеримент з маніпуляціями за допомогою автозаполнений. Дослідження ґрунтувалося на автоматичному виявлення маніпулятивних пропозицій без доступу до журналів запитів. Вчені розробили метод Sacabuche (Search AutoComplete Abuse Checking), який вирішує дану проблему.

Згідно даного підходу, маніпулятивні підказки можна виявити за семантичної неузгодженості між тригерними фразами (ключовими словами всередині тригера) і відповідними їм цільовими фразами (ключові слова у реченні) . Справжні підказки містять загальні формулювання, наприклад, «огляди», «компанії», «список», «послуги». Маніпулятивні саджесты є більш конкретними (тому що використовуються з метою просування продукту). Для прикладу, ввівши тригер «online backup free download», дослідники виявили, що в його пропозиції з'явилося незнайоме слово «strongvault»:

Манипулируемая подсказка в Google

Виявилося, що це шкідливе програмне забезпечення, яке потрапило в список з автозаполнениями за рахунок маніпуляцій.

Як працює Sacabuche

На рисунку 5 показана архітектура Sacabuche, включаючи Шукач Прогнозування (ІП), аналізатор пошукового терміну (АПТ) і аналізатор результатів пошуку (АРП). ІП призначений для виявлення великої кількості автоматичних пропозицій. Зокрема, він ітеративне запитує пошукові системи з обмеженням глибини до 3 починаючи з набору тригерів в якості вхідних даних. Це дозволяє отримати більшу кількість автозаполнений. Дані пропозиції додатково аналізуються АПТ, який розглядає набір семантичних ознак для виявлення підозрілих термінів. Потім такі терміни запитуються в пошукових системах АРП, і їх результати перевіряються на основі характеристик контенту для захоплення керованих прогнозів.

Структура Sacabuche

Метод Sacabuche використовує двоетапний підхід, заснований на семантику і мінімізує його вплив на продуктивність. Тут застосовується обробка природної мови для аналізу великої кількості комбінацій тригерів і пропозицій без запиту пошукових систем. Таким чином, фільтрується переважна більшість цих підказок. І тільки невеликий набір підозрілих формулювань запускається проти пошукових систем, щоб отримати результати запиту для виявлення маніпуляцій. Маніпулятор може створювати велику кількість запитів, але набагато складніше створити безліч релевантних результатів, проіндексованих пошуковими системами, тому ця особливість допомагає відрізняти проблемні пропозиції від законних.

Ефективність підходу підтверджується точністю більш 96,23% і відгук 95,63%, а його масштабованість дозволила провести дослідження на 114 мільйонів пропозицій.

Для автоматичної ідентифікації маніпуляторів дослідники використовували набір технологій NLP (обробка природної мови):

Векторне представлення слів . Це загальна назва для різних підходів до моделювання мови на основі обробки природної мови. Дані методи спрямовані на зіставлення слів з деякого словника векторів. Теоретичною базою для векторних представлень є дистрибутивна семантика. Векторне представлення призначене для того, щоб синоніми отримували аналогічні вектори, а антоніми зіставлялися з різнорідними векторами. У дослідженні використовувався популярний інструмент для вбудовування слів Word2Vec , який працює на основі штучної нейронної мережі для побудови моделі і генерації векторів. За допомогою цього інструменту порівнювалися семантичні значення різних слів і вимірювалась відстань косинуса між векторами. Наприклад, технологія вбудовування автоматично ідентифікує слова, семантично близькі до «казино», такі як «азартні ігри» (відстань до косинуса 0,35), «вегас» (0,46) і «блекджек» (0,48).
Аналіз залежностей. Аналіз синтаксису — це метод NLP для опису граматичних зв'язків між словами в реченні. Такі відносини включають прямий об'єкт, визначник, модифікатор іменника з'єднання та ін. Такий сучасний аналізатор залежності між словами, як, парсер Стенфорда , досягає 92,2% точності у виявленні граматичних відносин в реченні.
Лемматизация. У документі на природній мові завжди містяться слова в різних формах, з-за тимчасових абревіатур і граматичних потреб. Наприклад, «організувати», «організовує» і «організація». Крім того, існують слова деривації зі схожими значеннями, такими як «повільний» і «повільність». Тому потрібно дізнатися вихідну форму кожного слова, а потім зв'язати їх з виразами в різних формах. Це можна зробити, використовуючи методи лематизації, які зменшують флективные форми, видаляють флективные закінчення і повертають базову або словникову форму. Загальним алгоритмом лематизації є морфологічний аналіз, що дозволяє з'ясувати лемму для кожного слова. Сучасний алгоритм WordNetLemmatizer дозволяє досягти 95% точності.
Протилежна модель. Маніпулятори створюють велику кількість запитів у різних джерелах для поширення незаконного, небажаного або незв'язаного контенту. З-за цього підхід виявлення на основі IP-ідентифікаторів стає менш ефективним. Однак, з іншого боку, передбачається, що таким маніпуляторам важко створювати велику кількість веб-контенту, поширювати його на авторитетних веб-сайтах і індексуватися пошуковими системами. Такі заходи, безумовно, вимагають великих витрат і ресурсів, ніж підроблені запити.

Очевидно, що маніпулятивні підказки «видає» семантична неузгодженість. Вона полягає в тому, що тригер і його пропозиція менш пов'язані, коли відбувається маніпуляція з автозаповненням. Це відбувається тому, що просувається маловідомий продукт, який менш актуальне для відповідного тригера. Наприклад, «грати в онлайн-бінго онлайн-ігри на moonbingo. com» і «безкоштовні сайти для бінго гравців» — це пропозиції для тригера «сайти для бінго». При цьому перший, з яким маніпулюють, конкретніший (просуває moonbingo. com, сайт бінго) і, отже, менш схожий на тригер.

На додаток до семантичної неузгодженості було виявлено, що результати пошуку підроблених підказок не узгоджуються з їх відповідними тригерами, в той час як «хороші» їм відповідають. Це пов'язано з тим, що маніпулятивне пропозицію впливає на розставляння пріоритетів пошуковою системою: просувний контент на робить більш помітним у видачі.

Результаты поиска поддельных и обычных подсказок

На малюнку 6 показано неузгодженість результатів пошуку підроблених і звичайних речень. Результати пошуку «доброякісного» пропозиції «Norton резервне копіювання онлайн безкоштовно» вони були аналогічні пошуковим запитам «резервне копіювання онлайн скачати безкоштовно». У той же час, в 20-ти найкращих результатах пошуку по даному тригеру немає жодної пропозиції, з тих, що нам пропонувала підказка «strongvault онлайн-резервне копіювання безкоштовно».

За результатами дослідження з'ясувалося, що 3 тисячі скомпрометованих сайтів, що знаходяться в ТОП-10 Google, фактично пов'язані з накруткою пошукових підказок.

Як виявити накрутку підказок в Яндексі?

Поисковые подсказки Yandex

У систем підказок Google і Yandex є таке поняття, як «свіжість». Наприклад, якщо якийсь запит стає популярним за короткий термін, у нього є шанс потрапити в підказки. Але також він може зникнути через деякий час з-за спаду інтересу.

Yandex оновлює підказки, як мінімум, один раз в день. Запити, які втрачають актуальність, видаляються. Дана ПС стежить за зростанням їх кількості. Тому актуальні запити, які зацікавили велика кількість юзерів, потрапляють в «швидкі підказки Яндекса. Вони оновлюються кожні півгодини. Такий відбір відбувається на основі різкого зростання інтересу до подій (наприклад, останнім новинам, і новим публікації і в соціальних мережах).

Як же зрозуміти, що запит «накручують»? Наведу приклад очевидної маніпуляції з підказками: випадок, коли просувний сайт перекрив всі пошукові підказки Яндекса по ключу «освіта»:

Очевидная манипуляция подсказок в Yandex

А тепер наведу приклад природних підказок з актуальної теми, яка цікавить багатьох користувачів:

Естественные подсказки Yandex

Отже, визначити накрутку запиту можна по непрямих факторів. Наприклад, якщо серед інформаційних підказок по комерційному запитом попадається підказка, що містить назва невідомої компанії.

У пошуковій системі Yandex можна заглянути в Wordstat — історію запиту. Вона може багато розповісти. Якщо частота запиту за один місяць збільшується з 100 показів до 10000, це повинно насторожити. Такі цифри відносяться до першого прикладу очевидною накрутки.

Також виявити такі маніпуляції дозволяє аналіз журналів пошуку і джерел для створення пропозицій. Однак такий підхід може виконувати тільки постачальник пошуку, наприклад Yandex або Google. Навіть якщо враховувати пошукові журнали, ретельний аналіз величезної кількості даних є нетривіальним.

Висновки

Тема маніпуляції з пошуковими підказками дуже актуальна. Кількість компаній та сервісів, які пропонують послуги просування за рахунок накрутки саджестов, швидко зростає. Однак такий метод знижує якість результатів пошуку і негативно впливає на репутацію пошукової системи. Зважаючи на те що кількість підказок досягає більше сотні мільйонів, і вони постійно оновлюються, такі маніпуляції важко відстежити. Цим можуть користуватися недоброзичливці для фішингу, поширення шкідливих програм або для продажу трафіку через партнерську програму. На мій погляд, це головні проблеми даного методу.

Детальніше про дослідження, можна прочитати тут .

Автор статті: Микита Шунько, помічник SEO-спеціаліста SiteClinic.ru

[email protected]

Опубліковано: 17/10/18 @ 09:09
Розділ Пошуковики

SEO Блог