Тестуємо онлайн-сервіси

320
  • Основні пошуковики російськомовного інтернету
  • Пошукові системи рунета з другого ешелону
  • Пошукові системи масштабу всього інтернету
  • Здрастуйте, шановні читачі блогу . Коли інтернет був ще зовсім молодий, то його нечисленним користувачам було достатньо власних закладок. Проте, як ви пам’ятаєте, зростання аудиторії всесвітньої павутини відбувався в геометричній прогресії, і зовсім скоро орієнтуватися у всьому її різноманітті стало складніше.

    Тестуємо онлайн-сервіси

    Тоді з’явилися каталоги (Яху, Дмоз та інші), в яких їх автори додавали і сортували за категоріями різні сайти. Це відразу ж полегшило життя тодішнім, ще не дуже численним користувачам глобальної мережі. Багато з цих каталогів живі і досі.

    Але через деякий час розміри їх баз стали настільки великими, що розробники спочатку задумалися про створення пошуку всередині них, а потім вже і про створення автоматизованої системи індексації всього вмісту інтернету, щоб зробити його доступним усім бажаючим.

    Основні пошуковики російськомовного сегменту інтернету

    Як ви розумієте, ця ідея реалізувалася з приголомшливим успіхом, але, правда, все склалося добре лише для жменьки обраних компаній, яким вдалося не згинути на просторах інтернету. Майже всі пошукові системи, які з’явилися на першій хвилі, зараз або зникли, або животіють, або були куплені більш вдалими конкурентами.

    Пошукова система являє собою дуже складний і, що важливо, дуже вибагливий механізм (маються на увазі не лише матеріальні ресурси, але і людські). За зовні простий головною сторінкою Яндекса, або її аскетичним аналогом від Гугла, стоять тисячі співробітників, сотні тисяч серверів і багато мільярди вкладень, які необхідні для того, щоб ця махина продовжувала працювати і залишалася конкурентоспроможною.

    Вийти на цей ринок зараз і почати все з нуля — це радше утопія, ніж реальний бізнес-проект. Наприклад, одна з найбагатших у світі корпорацій Мікрософт десятиліттями намагалася закріпитися на ринку пошуку, і лише зараз їх пошуковик Bing починає потихеньку виправдовувати їхні сподівання. А до цього була ціла низка провалів і невдач.

    Що вже говорити про те, щоб вийти на цей ринок без особливих фінансових впливів. Приміром, наша вітчизняна пошукова система Нигма має багато чого корисного та інноваційного в своєму арсеналі, але їх відвідуваність у тисячі разів поступається лідерам ринку Росії. Для прикладу погляньте на добову аудиторію Яндекса:

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    У зв’язку з цим можна вважати, що перелік основних (кращих і найщасливіших) пошукачів рунету й інтернету вже сформувався і вся інтрига полягає лише в тому, хто кого в результаті зжере, ну або яким чином розподілиться їх відсоткова частка, якщо всі вони вціліють і залишаться на плаву.

    Ринок пошукових систем Росії дуже добре проглядається і тут, напевно, можна виділити двох або трьох основних гравців і кілька другорядних. Взагалі, в рунеті склалася досить унікальна ситуація, яка повторилася, як я розумію, ще в двох країнах у світі.

    Я кажу про те, що пошуковик Google, прийшовши в Росію в 2004 році, не зміг досі захопити лідерства. Насправді, вони намагалися приблизно в цей період купити Яндекс, але щось там не склалося і зараз «наша Раша» разом з Чехією і Китаєм є тими місцями, де всемогутній Гугл, якщо не зазнав поразки, то, у всякому разі, зустрів серйозний опір.

    Насправді, побачити поточний стан справ серед кращих пошукових систем рунета може будь-який бажаючий. Достатньо буде вставити цей Урл в адресний рядок вашого браузера:

    http://www.liveinternet.ru/stat/ru/searches.html?period=month;total=yes

    Справа в тому, що велика частина вебмайстрів в RuNet використовує на своїх сайтах лічильник від ЛайвИнтернета, а даний Урл дозволяє побачити статистику заходу відвідувачів з різних пошукових систем на всі сайти, які належать доменній зоні RU.

    Після введення наведеного Урла ви побачите не дуже приглядную та презентабельні, але зате добре відображає суть справи картинку. Зверніть увагу на першу п’ятірку пошукових систем, з яких сайти російською мовою отримують трафік:

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Так, звичайно ж, не всі ресурси з україномовним контентом розміщуються в цій зоні. Є ще й SU, і РФ, так і загальних зонах типу COM або NET повно інтернет проектів орієнтованих на рунет, але все ж, вибірка виходить досить-таки репрезентативна.

    Цю залежність можна оформити і більш барвисто, як, наприклад, зробив хтось в мережі для своєї презентації:

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Суті це не змінює. Є пара лідерів і кілька сильно і дуже сильно відстають пошукових систем. До речі, про багатьох з них я вже писав. Іноді буває досить цікаво поринути в історію успіху або, навпаки, покопатися в причинах невдач коли перспективних пошуковиків.

    Отже, в порядку значимості для Росії і рунета в цілому, перерахую їх і дам їм короткі характеристики:

  • Яндекс — з наведених вище графіків видно, що це безумовний лідер. Більше того, якщо брати в розрахунок комерційні запити, то їх число, що вводиться користувачами в цій пошуковій системі, напевно, в рази перевершує найближчого конкурента.

    Вважають, що причиною цього є аудиторія Яндекса — мовляв там шукають одні лише обивателі. Можливо, але швидше за все тут основну роль грає набагато більш виражена регіональність, яка ще не так відточена в Гуглі.

    Цей пошуковик веде своє існування аж з далекого 1997 року і йому нещодавно виповнилося 16 років. Про історію Яндекса читайте за наведеним посиланням, а я лише наголошую, що засновники цієї компанії (Ілля Сегалович і Аркадій Волож) досі перебувають біля керма.

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Про те, як шукати щось в Яндексі, я вже писав. Там же я згадував, що у них є аскетичний варіант головної сторінки, сімейний пошук і можливість в живу подивитися, що в даний момент запитують користувачі. Ну, і ще сотні інших сервісів і можливостей.

  • Google.ru — регіональне відділення найпопулярнішою в світі, але не в Росії пошукової системи. Сама компанія з’явилася на світ приблизно в один час з Yandex, а на російський ринок пошуку вийшла лише в 2004, коли основний конкурент встиг там вже добре окопатися (на наведеною трохи вище фотці праворуч стоять її засновники — Ларрі Пейдж і Сергій Брінг, про яких можете почитати в історії пошуковика Гугл).

    Пошук в Гуглі став для багатьох жителів планети вже прозивним — про те, як правильно гуглити, ви можете прочитати за посиланням. Мені в цьому пошуковику подобався варіант «переклад результатів», коли відповіді ви отримували з усього світу, але на своїй рідній мові, однак зараз він, на жаль, не доступний (у всякому разі на google.ru).

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Так само останнім часом мене спантеличує і якість їх видачі (Search Engine Result Page). Особисто я завжди спочатку використовую пошукову систему дзеркала рунеті (там є фавиконы сайтів, ну і звик я до неї) і тільки не знайшовши там зрозумілої відповіді звертаюся до Гуглу.

    Зазвичай їх видача мене радувала, але останнім часом тільки спантеличує — деколи таку маячню вилазить. Можливо, що їх боротьба за підвищення доходу з контекстної реклами і постійна перетасовування видачі з метою дискредитувати Seo просування можуть призвести до зворотного результату. У всякому разі в рунеті конкурент у цього пошуковика є, та ще який.

  • Пошукова система Майл.ру — за заявами їх представника, влітку 2013 року вони вийшли з-під крила Google і за формування відповідей на запитання користувачів тепер цілком і повністю відповідає їх власний пошуковик Go.mail.ru. Ну, чудово, бо, чим сильніша конкуренція, тим краще повинно бути кінцевому користувачеві, тобто нам з вами, шановні читачі.

    Пошукова частка Майл.ру не велика, але вже наближається до десяти відсоткам, що можна вважати величиною серйозною. Однак варто розуміти, що ця цифра забезпечена насамперед величезним електоратом різних сервісів цієї мегакорпарации (Однокласники, Мій світ, пошти Майл.ру тощо).

    Думаю, що навряд чи хтось спеціально буде заходити на Go.mail.ru для пошуку в рунеті. Тому трафік на розважальних проектах з цієї пошукової системи може бути істотно більше, ніж десять відсотків. Власникам таких проектів варто звернути увагу на цю систему.

  • Однак, крім яскраво виражених лідерів на ринку пошукових систем російськомовного сегменту інтернету, існує ще кілька гравців, частка яких досить низька, але тим не менше, сам факт їх існування змушує сказати про них кілька слів.

    Пошукові системи рунета з другого ешелону

  • Рамблер — найстаріша пошукова система інтернету, яка веде свій відлік з 1996. У неї були всі шанси стати номером один в рунеті, але цього не сталося з цілого ряду причин. Тепер це вже не пошуковик у загальновідомому розумінні слова, а лише набір сервісів з досить високою відвідуваністю, на яких в якості пошуку використовується движок Яндекса.

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Про те, як Рамблер перестав бути пошуковою системою, читайте за посиланням. Власне, його історія почалася зі створення каталогу Rambler top 100 і схоже, що вони до цього ж і повернулися.

  • Бінг — за свою історію цей пошуковик кілька разів змінював назву. Починаючи з 1998 до 2006 року він був MSN Search, потім Windows Live Search, потім просто Live Search і, нарешті, став зватися Bing. Якість пошуку в ньому цілком відповідає закладеному Гуглом стандарту.

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Із наведених у цій частині статті учасників, він, мабуть, єдиний, хто ще використовує свій власний движок, що сама по собі заслуговує на повагу. Варто спробувати пошукову систему Bing в роботі, особливо, якщо ви іноді шукайте не тільки в рунеті, але і в глобальній мережі інтернет.

  • Yahoo — частка цього пошуковика в Росії і в російськомовному інтернеті в цілому дуже мала, та й за великим рахунком це вже і не пошукова система, бо не так давно вони уклали з Microsoft договір, за яким на всіх майданчиках належать Яху буде використовуватися пошуковий движок Бінга. Детальніше про Yahoo по-російськи читайте у цій статті.
  • Вебальта — ось навіть посилання на неї ставити не буду, бо цей, з дозволу сказати, пошуковик, сам себе додає пошуком за замовчуванням в браузери користувача та выковырить його потім звідти не так вже і просто. Звичайно ж, багато пошукові системи використовують подібну тактику, але Webalta переходить всі межі.

    Її установка в браузер відбувається без вашого відома і більше нагадує дію вірусу. Власне, той обсяг відвідувачів, які отримує цей сервіс, обумовлений саме такими їх безцеремонними діями. Тому користувачів в інтернеті більше цікавить питання, як видалити Webalta з комп’ютера, а не те, наскільки коректно працює її пошук. Така ось сумна історія.

  • Aport — домен, на якому розміщувалася ця пошукова система (існувала з 1997 року) був проданий деякий час тому комерційної компанії, після чого пошуковик переїхав на піддомен, зазначені трохи вище. Природно, що алгоритми з тих пір не розвиваються, тому Апорт можна вважати скоріше мертвим, ніж живим.
  • Пошукові системи масштабу всього інтернету

    За великим рахунком в масштабах всього інтернету серйозний гравець тільки один — Гугл. Це безумовний лідер, однак деяка конкуренція у нього все ж є.

    По-перше, це все той же Бінг, який, наприклад, на американському ринку має дуже хороші позиції, особливо, якщо враховувати, що його движок використовується так само і на всіх сервісах Яху (майже третина від усього ринку пошуку США).

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Ну, а по-друге, в силу величезної частки, яку складають користувачі з Китаю в загальному числі користувачів інтернету, їх головний пошуковик під назвою Baidu втручається у розподіл місць на світовому олімпі. Він з’явився на світ у 2000 році і зараз його частка становить близько 80% від всієї національної аудиторії Китаю.

    Важко про Байду сказати ще щось зрозуміле, але на просторах інтернету зустрічаються судження, що місця в його Топі займають не тільки найбільш релевантні запиту сайти, але і ті, хто за це заплатив (безпосередньо пошуковику, а не Сео конторі). Звичайно ж, це відноситься в першу чергу до комерційної видачі.

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Загалом-то, дивлячись на статистику стає зрозуміло, чому Google там легко йде на те, щоб погіршувати свою видачу в обмін на збільшення прибутку з контекстної реклами. Фактично вони не бояться відтоку користувачів, бо в більшості випадків їм йти особливо й нікуди. Така ситуація дещо засмучує, але подивимося, що буде далі.

    До слова сказати, щоб ще більше ускладнити життя оптимізаторам, а може бути, щоб підтримати спокій користувачів пошуковика Google з недавніх пір застосовує шифрування при передачі запитів з браузера користувачів в пошуковий рядок. Скоро вже не можна буде побачити в статистиці лічильників відвідувачів, за яким запитам приходили до вас користувачі з Гугла.

    Звичайно ж, крім озвучених у цій публікації пошукових систем, існує ще не одна тисяча інших — регіональних, спеціалізованих, екзотичних і т. д. Намагатися їх все перерахувати і описати в рамках однієї статті буде не можливо, та й, напевно, не потрібно. Давайте краще скажу пару слів про те, як не легко створити пошуковик і як не просто і не дешево його підтримувати в актуальному стані.

    Переважна більшість систем працюють за схожими принципами (читайте про те, як працюють пошукові системи і про облік морфології в пошуку) і переслідують одну і ту ж мету — дати користувачам відповідь на їх питання. Причому відповідь цей повинен бути релевантним (відповідним питання), є вичерпним і, що не маловажно, актуальним (першої свіжості).

    Вирішити це завдання не так-то вже й просто, особливо враховуючи, що пошуковій системі потрібно буде нальоту проаналізувати вміст мільярдів інтернет сторінок, відсіяти зайві, а з решти сформувати список (видачу), де спочатку будуть йти найбільш підходящі під питання користувача відповіді.

    Ця надскладне завдання вирішується попереднім збором інформації з цих сторінок за допомогою різних яких індексується роботів. Вони збирають посилання з усіх відвіданих сторінок і завантажують з них інформацію в базу пошукової системи. Бувають боти индексирующие текст (звичайний і быстробот, який живе на новинних і часто оновлюваних ресурсах, щоб у видачі завжди були представлені найсвіжіші дані).

    Крім цього бувають роботи волонтери зображень (для подальшого їх виведення в Яндекс і Гугл картинках), фавіконок, дзеркал сайтів (для їх подальшого порівняння та можливої склеювання), боти перевіряють працездатність інтернет сторінок, які користувачі додали через аддурилку пошукача або ж через інструменти для вебмайстрів (тут можете почитати про панелі Яндекса, інструменти Гугла, вебмастер Бінга і кабінет Майл.ру).

    Сам процес індексації і наступний за ним процес оновлення індексних баз досить времязатратный. Хоча Гугл робить це значно швидше конкурентів, у всякому разі Яндекса, якому ця справа вимагає тиждень-інша (читайте про апи Яндекса).

    Зазвичай текстове вміст інтернет сторінки пошуковик розбиває на окремі слова, що призводить до базових основ, щоб потім можна було давати правильні відповіді на питання, задані в різних морфологічних формах. Весь зайвий обвіс у вигляді Html тегів пропусків і т. п. речей видаляється, а решту слова сортуються за алфавітом і поруч з ними вказується їх позиція в даному документі.

    Така шняга називається зворотним індексом і дозволяє шукати вже не за вебстраницам, а по структурованих даних, що знаходяться на серверах пошукової системи.

    Число таких серверів у Яндекса (який шукає в основному тільки по російськомовних сайтів і трохи з українським і турецьким) обчислюється десятками або навіть сотнями тисяч, а у Google (який шукає на сотнях мов) — мільйонами.

    Багато серверів мають копії, які служать як для підвищення збереженості документів, так і допомагають збільшити швидкість обробки запиту (за рахунок розподілу навантаження). Оцініть витрати на підтримку всього цього господарства.

    Запит користувача буде направлятися балансировщиком навантаження на той серверний сегмент, який менше за все зараз навантажений. Потім проводиться аналіз регіону, звідки користувач пошукової системи відправив свій запит, і робиться його морфологічно розбір. Якщо аналогічний запит нещодавно вводили в пошуковому рядку, то користувачеві підсуваються дані з кеша, щоб зайвий раз не вантажити сервера.

    Якщо запит не був закеширован, то його передають в область, де розташована індексна база пошуковика. У відповідь буде отримано список інтернет сторінок, які мають хоч якесь відношення до запиту. Враховуються не тільки прямі входження, але й інші морфологічні форми, а так само синоніми, омоніми і т. п. речі.

    Їх потрібно отранжіровани, і на цьому етапі в справу вступає алгоритм (штучний інтелект). Фактично запит користувача розмножується за рахунок усіх можливих варіантів його інтерпретації і шукаються одночасно відповіді на безліч запитів (за рахунок використання операторів мови запитів, деякі з яких доступні звичайним користувачам).

    Як правило, у видачі присутній на одній сторінці від кожного сайту (іноді більше). Алгоритми ранжирування зараз дуже складні і враховують безліч факторів. До того ж, для їх коригування використовуються і живі люди (асесори), які вручну оцінюють реперні сайтиЗагалом, справа ясна, що справа темна. Говорити про це можна довго, але і так зрозуміло, що задоволеність користувачів пошуковою системою досягається, ох як не просто. І завжди знайдуться ті, кому щось не подобається, як, наприклад, нам з вами, шановні читачі.

    Удачі вам! До зустрічей на сторінках блогу