Просуваємо свій сайт

2873
  • Які проблеми постають перед пошуковими системами
  • Види запитів в залежності від їх частотності — ВЧ, СЧ і НЧ
  • Стратегія просування по низькочастотних запитах
  • Як враховується морфологія мови в роботі пошукових систем
  • Здрастуйте, шановні читачі блогу . У сьогоднішній статті ми продовжимо тему вивчення роботи пошукових систем, розпочату тут. Щоб оптимізувати свій сайт, потрібно хоча б у загальному вигляді представляти, як працюють алгоритми пошуку, як вони проводять індексацію документів, як здійснюють вибірку по індексному базі і багато іншого.

    Просуваємо свій сайт

    Сьогодні ми розглянемо питання врахування морфології мови (що це таке?) при формуванні видачі (результатів пошуку), дізнаємося які проблеми зараз актуальні для Яндекса і Гугла і як вони намагаються їх вирішувати, а так само докладно розглянемо види та особливості запитів користувачів, виходячи з їх частоти використання. Ну, і трохи торкнемося питання, як потрібно здійснювати просування.

    Які проблеми постають перед пошуковими системами

    Перша і основна проблема, яка постає перед будь-яким алгоритмом, це постійно зростаючий розмір індексної бази. Її потрібно десь зберігати, а в зв’язку з тим, що розмір колекцій постійно зростає, то і місця для її зберігання вимагає все більше і більше. Проблема ця буде стояти перед Яндексом і Google завжди і вирішувати її можна тільки за рахунок збільшення кількості серверів в дата-центрах.

    Яндекс використовує для зберігання, на даний момент, вже близько десятка дата-центрів по кілька тисяч серверів в кожному. При цьому він донедавна індексував тільки російськомовний інтернет і лише зараз виходить на світовий рівень і починає проявляти інтерес до документів на інших мовах.

    Що ж говорити про Google, який зараз займає одну з лідируючих позицій по зборці комп’ютерів, у той час як всі ці комп’ютери йдуть виключно на його особисті потреби (їх використовують у дата-центрах для зберігання індексної бази).

    Другою основною проблемою, що стоїть перед пошуковими системами, є боротьба з дублікатами у видачі. Навіщо це потрібно? Їм просто не хочеться витрачати даремно таке дороге місце для зберігання бази. Адже якщо викинути з неї всі дублікати, то видача від цього не погіршиться, а ось місце, необхідне для зберігання, зменшиться, дозволивши заощадити чималі кошти.

    Тому Гугл з Яндексом будуть вести відчайдушну боротьбу за викорінювання дублікатів. Борються з цим злом вони як за допомогою їх видалення з видачі, так і превентивними заходами, розпорядчими вебмайстрам самим боротися з дублювання контенту на власних сайтах.

    Якщо вебмастера будуть ігнорувати це вимога пошукових систем, то до їх проектам, можливо, будуть застосовані різні санкції у вигляді накладення фільтрів, вильоту сторінок ресурсу з індексу та інших репресивних дій. І це можна зрозуміти, бо вони захищають свій гаманець (святе для буржуїв).

    Ще однією проблемою, з якою досить успішно борються сучасні гіганти пошуку — це спам. Він потрапляє у видачу при використанні веб-майстрами чорних методів оптимізації. Ті ж самі дорвеї, які потрапляють в топ по яким-небудь запитам, а при переході на них користувача, його перекидають на зовсім інший ресурс.

    Це може бути клоакінг, який полягає в наданні різної інформації для пошукової системи і для користувача, який перейшов з видачі.

    З усіма цими чорними методами оптимізації (чорне SEO) алгоритми досить успішно борються. Ті ж дорвеї довго не живуть, але все ж до остаточної перемоги ще дуже далеко, бо чорне СЕО приносить не малий дохід власникам дорвеїв і інших хитро-оптимізованих ресурсів, а це значить, що вони будуть вишукувати нові можливості утерти ніс Google і Яндекса.

    Так само стоїть завдання не тільки зберігання постійно розширюється індексної бази, але і проблема її оновлення, для того, щоб вона відповідала реальній дійсності. Потрібно не тільки індексувати нові документи в мережі, але й оновлювати індекси вже раніше проіндексованих.

    Ну, і остання з глобальних проблем — це зрозуміти, що хоче побачити в результатах пошуку користувач, вводячи той або інший запит (я вже писав тут, як правильно шукати в Google, а тут, як шукати в Яндексі, але навіть ці знання не завжди можуть допомогти).

    Розуміння намірів користувача дозволить сформувати найбільш підходящу для цього випадку видачу, тим самим задовольнивши запити користувача. А задоволений користувач знову повернеться до цього пошуковику, т. к. він добре розуміє, що той хотів отримати відповідь на своє питання (хоча він і сам до кінця цього не розумів).

    Одним із способів, що дозволяють конкретизувати запит користувача (який реалізований в Яндексі і Google), є всім відомі підказки, які з’являються під рядком пошуку у вигляді випадаючого списку.

    Користувач ввів яке-небудь слово в рядку, а алгоритм підкидає йому найбільш часто зустрічаються варіанти запитань з цим словом. Таким чином пошуковики уточнюють, що ж саме хотів побачити у відповідь користувач, вводячи це слово.

    Просуваємо свій сайтПросуваємо свій сайт

    При введенні запиту з граматичними помилками, Яндекс покаже вам видачу з помилкою, але при цьому припустить, що ви все-таки помилилися і, можливо, захочете побачити результати по граматично правильно складеним запитом. Для цього користувачеві потрібно буде клацнути по виправленому варіанті написання:

    Просуваємо свій сайтПросуваємо свій сайт

    P. S. Зараз все в точності до навпаки — неправильне написання виправляється автоматично, а щоб побачити результати щодо питання з помилкою, то доведеться клацнути по спеціальному посиланню.

    Звичайно ж, ідеальним варіантом, на мій погляд, була можливість користувачеві задати область пошуку по введеному ним питання. Що я маю на увазі?

    Наприклад, коли ви шукайте за назвою якої-небудь моделі стільникового телефону, то в залежності від того, на якій стадії вибору продукту ви знаходитесь, ви захочете побачити у відповідях небудь конкретні пропозиції про продаж або матеріали, що розповідають про переваги та недоліки даної моделі.

    Для уточнення свого бажання ви, звичайно, можете використовувати додаткові слова, але як було б здорово мати можливість поставити галочку в полі «Комерційний» або «комерційний». І все, цього було б достатньо для фільтрації того, що вам в даний момент не потрібно.

    Але це, як я розумію, або досить складно реалізувати, або є які-небудь шкурні інтереси в пошукових систем цього не робити. Кажуть, що в однієї з них колись було щось подібне реалізовано, але потім все скурвилось.

    Види запитів в залежності від їх частотності — ВЧ, СЧ і НЧ

    Запити користувачів можна розділити на три групи за частотою їх повторення протягом одного місяця. Природно, що існують популярні питання, які дуже часто користувачі використовують при пошуку, що використовуються трохи менш часто і є питання, які задаються Яндексу або Гуглу вкрай рідко.

    У зв’язку з цим прийнято відносити їх до певної групи:

  • Високочастотні запити (ВЧ) — які вводять користувачі більше десяти тисяч разів в місяць. Просунутися в топ (перші десять позицій, як правило, ділять між собою левову частку користувачів, які набрали цей запит) за ним дуже складно (я б навіть сказав, що неймовірно складно) і дорого (кілька десятків тисяч доларів на місяць не гранична ціна для просування по конкурентним ВЧ), але зате, якщо вам це вдасться, то отримаєте дуже великий приплив відвідувачів на ваш ресурс.

    І, як результат, підвищення рівня продажів. Я кажу продажів, тому що просуватися по ВЧ будуть саме комерційні проекти, здатні платити за це серйозні гроші і які здатні потім відбити їх за рахунок підвищення рівня продажів, після попадання ресурсу в топ по цьому ВЧ.

    Що примітно, тенденція розвитку сучасного інтернету така, що відсоток ВЧ в загальній масі пошукових запитів неухильно знижується. Зараз він становить лише кілька відсотків від усієї маси. Раніше ВЧ мали набагато більший відсоток, але зараз рулять низькочастотні запити (сильно уточнені ВЧ), про які мова піде трохи нижче.

  • Середньочастотні запити (СЧ) — які вводять користувачі від тисячі до десяти тисяч разів в місяць. Просування по СЧ схоже на просування по ВЧ, хіба тільки, що бюджет тут можна закладати скромніше, але й віддача від попадання в топ буде нижче.
  • Низькочастотні запити (НЧ) — які вводять користувачі менше тисячі разів в місяць. На даний момент НЧ забирають на себе левову частку пошукового трафіку. Пов’язано це з тим, що НЧ, як правило, складаються з декількох слів, а тенденція розвитку інтернету, і пошукачів зокрема, зараз полягає в тому, що збільшується кількість слів у запитах користувачів.

    Скажімо, якщо десять років тому середня кількість слів, що вводиться користувачем в пошуковий рядок, було трохи більше одного слова, то зараз середній запит складається майже з трьох слів. ВЧ більш односкладові і їх частка в пошуковому трафіку знижується, а багатоскладові низкочастотники і сверхнизкочастотники забирають на себе близько трьох чвертей від усієї кількості.

    Ще однією важливою особливість НЧ є те, що по них можна просунутися і потрапити в топ не використовуючи взагалі зовнішню пошукову оптимізацію (покупку посилань, наприклад). Для просування по них буде достатньо однієї лише грамотної внутрішньої оптимізації сторінки (докладні статті ви можете знайти по цій темі тут і тут про технічний аудит).

    Як правило, добре оптимізовані внутрішні сторінки сайту, навіть без проставлення на них зворотних посилань з потрібними анкорами, здатні потрапити в топ по НЧ. Хоча, для підвищення ймовірності цієї події кілька зворотних ссилочек не завадить проставити, але цього можна і не робити.

  • Стратегія просування по низькочастотних запитах

    Доля такого блогу, як мій (https:///), це НЧ запити. Стратегія просування по ним при цьому може бути приблизно наступної: кожна окрема стаття заточується під певні ключові слова, які присутні в заголовку сторінки TITLE, в проміжних заголовках статті, а так само злегка виділяються тегами STRONG чи EM в тексті.

    Так само, шляхом використання в тексті ключових слів досягається певна нудота сторінки саме з ним, а не з якихось інших паразитних і заважає просуванню словами. Після цього стаття повинна сама пробитися в топ за деякими НЧ, в яких будуть присутні обрані ключі.

    Так як частка НЧ велика, то таким чином можна отримати дуже пристойний трафік з пошукових систем (у мене він на даний момент становить трохи менше півтора тисяч відвідувачів на добу).

    Як враховується морфологія мови в роботі пошукових систем

    Коли, наприклад, Яндекс, здійснює індексацію будь-якої сторінки в інтернеті, то крім того, що з оригінального документа створюється так званий зворотний індекс, здійснюється приведення усіх використаних у ньому слів до словникової формі (наприклад, для іменників — називний відмінок однини).

    Для того, щоб це можна було робити в автоматичному режимі, пошукачам необхідно розташовувати всеосяжними словниками, зокрема, російської мови.

    Використовується в индексируемом документі слово відшукується автоматично в такому тлумачному словнику, і замість оригіналу у зворотний індекс записується його словникова форма. Нагадаю вам, що алгоритми шукають не за реальним вебстраницам, які знаходяться в інтернеті, а по створеним на їх основі зворотним індексами, які створюються в момент індексації цих сторінок і оновлюються по мірі необхідності.

    Ще однією важливою особливістю формування зворотних індексів є те, що в них не потрапляють службові символи (крапки, коми, двокрапки, питальні знаки, прогалини тощо). Ці символи не здатні поліпшити якість пошуку і підвищити релевантність пошукових видач, а значить їх не навіщо враховувати.

    Так що якщо у вас проблеми з орфографією, то Яндекс і Гугл про це навіть не здогадуватимуться, хоча відвідувачі вашого ресурсу це, звичайно ж, помітять.

    У зв’язку з чим стає ясно, що не так важливо, які саме знаки пунктуації або ж службові символи (наприклад, такий — |) ви використовуєте в заголовках сторінок (TITLE) або ж зворотніх посилань. Але тут теж є свої нюанси і хитрощі.

    Стоп-слова — всякі там прийменники, займенники, вигуки, частки, сполучники, які самі по собі не несуть будь-якої смислового навантаження. На даний момент вони є повноцінними учасниками видачі, хоча до певного часу в цілях економії місця на серверах, пошуковики їх не індексували.

    Ми вже говорили, що в зворотний індекс потрапляє словникова тільки форма. Але при цьому враховується і початкова форма слова, т. к. на даний момент видача буде різна для різних форм (відмінка, множини або однини і т. д).

    Ще пару років тому Яндекс не робив різниці (відмінок, число і т. д.) в пошуковому запиті, а зараз видача на запит з ключовим словом в однині та множині буде різна.

    Удачі вам! До зустрічей на сторінках блогу