Використання семантично близьких запитів у процесі інформаційного пошуку

* На правах реклами

Ось таке зарозуміле назва статті я вирішив написати. Отже, 13 квітня Павло Браславський (Яндекс) виступив на професійній конференції «Російські Інтернет Технології РІТ + +/2010» з доповіддю «Як знайти і використовувати близькі запити». Завдяки доповідачу всі присутні на конференції були ознайомлені з новим методом, що робить пошук більш розгорнутим і якісним. Цей метод дозволяє об'єднувати частотні запити у близькі пари.

У доповіді було дано визначення поняттю «близькі запити», показана їхня кваліфікація. Існують близькі запити, підкориговані за допомогою конкретизації запитів (обручка - обручка з діамантом); шляхом збільшення області пошуку (золоте кольє - коштовності); використанням перекладу (дитячий світ - world of children); зміною мети пошуку (купити кільце - ювелірні вироби ). Є також однотипні запити (шевроле - мерседес).

Доповідач провів ретельний аналіз розподілу провідних позицій при пошуку окремими пошуковими системами. По суті сама ідея - виділення близьких запитів, з метою пропозиції користувачам затребувані зв'язки і якісні переформулювання - вже раніше використовувалася різними пошуковими машинами.

Наприклад, в даний час Yahoo досить широко використовує це на практиці. Як це відбувається? Користувач вводить свій запит. Йому пропонують на вибір два варіанти. Для тих, хто хоче більш досконало заглибитися в це, система пропонує використовувати додаткову панель для формулювання більш гарного запиту.

Досить давно і досить серйозно цим займається і Ask. Метод пов'язаних запитів використовується також у Яндекс.Зображення, в Гуглі. Доповідач робив наголос на тому, що сформулювати хороший запит - це не просто. При цьому це дуже важливий фактор більш якісного і швидкого пошуку. Часто кінцева формулювання, яка допомагає знайти потрібну інформацію, сильно відрізняється від первісного тексту запиту.

Павло Браславський у своєму виступі показує, де можна знайти пов'язані питання, такі необхідні користувачам. Як варіант, потрібно шукати в логах запитів, тобто там, де їх багато. Можна також просто формувати запити за змістом тексту. Але це більш обмежений варіант роботи.

Розглянемо варіанти встановлення семантичної близькості по ярку запиту:

  1. Це схожі за словами словосполучення. Ці запити можуть відрізнятися, скажімо, лише одним словом.
  2. За кліках. Припустимо, у вас є два запити. Якщо по них видаються однакові документи, хоча чисто зовні ці запити не схожі, то виходить, що вони в чомусь синонімічні.
  3. Близькість запитів, що формуються одним і тим же користувачем за відносно короткий проміжок часу. Частіше вони бувають про одне й те ж. Розробники Яндекса вважають саме цей варіант більш ефективним.

Виступаючий також розглянув ряд вимог до підказок в Яндексі. Перелічимо їх:

  1. Смислова близькість.
  2. Грамотність. Не повинно бути орфографічних помилок, друкарські помилки, смислових повторень (наприклад, Гаррі Поттер і Поттер Гаррі).
  3. Не повинні виходити порно-відповіді, якщо цього не вимагає запит; відповіді з нецензурною або грубої лексикою.

Яндекс виконує це наступним чином. Перший крок - це контроль чистоти логу, з якого забираються запити, що мають помилки; з внутрішньої мережі Яндекса. Чистка логу також включає в себе і усунення підказок під рядком пошуку в Яндексі. Другий крок - виділення сесій. Як це відбувається? Розглядаються запити одного користувача. Ті запити, які набиралися з великою різницею в часі, будуть ставитися до різних сесій. Третій крок - виділення пар.

Після всіх цих кроків виявляється частота переходів між запитами, тобто будується матриця. Потім оцінюються ці переформулювання. Підсумок: застосування семантично близьких запитів якісно покращує процес пошуку. Хоча в даний час це вже частково реалізовано Яндексом, але, в цілому, це поки що майбутнє процесу пошуку інформації.

Подякуємо спонсора статті - гіганта індустрії продажу онлайн фільмнов - партнерську компанію . Завжди високий і стабільний конверт!

Опубліковано: 21/04/11 @ 04:10
Розділ Пошуковики

Рекомендуємо:

Особливості просування в пошуковій системі Рамблер
Апдейт «Mayday" - це алгоритмічне оновлення
Найпопулярніші запити в Google в 2010 році
Як зайняти два місця в топ 10 пошукачів
Поради тим, хто вирішив заробити на сайті за допомогою контекстної реклами