Допомагаємо вебмайстру

192
  • Карта сайту sitemap xml — а воно мені треба
  • Навіщо взагалі потрібен сайт мап і файл robots.txt
  • Як створити Sitemap.xml самому в Joomla і Вордпрес
  • Генерація карти сайту Joomla та WordPress
  • Як додати сайт мап в Яндекс і Гугл Вебмастер
  • Онлайн генератори Sitemap Generator і XML Sitemaps
  • Здрастуйте, шановні читачі блогу . Вирішив узагальнити в одній статті все, що я вже писав про карту сайту (Sitemap xml), яка в першу чергу потрібна для вказівки пошуковим системам тих сторінок, які їм слід індексувати в першу чергу. Вона є дуже важливим і фактично обов’язковим атрибутом будь-якого веб-проекту, але багато хто цього не знають, або не надають Site map великого значення.

    Допомагаємо вебмайстру

    Відразу давайте розставимо всі крапки над «i» і спробуємо відокремити два поняття — карти сайту у форматі xml у форматі Html (є ще і географічна інтерпретація цього слова, про яку я писав у статті «Як вставити Яндекс карту на сайт»). Другий варіант являє собою звичайний список всіх матеріалів web-ресурсу, який буде доступний кожному бажаючому по натисненню на відповідний пункт меню. Такий варіант теж корисний і сприяє прискоренню та поліпшення індексації вашого ресурсу пошуковими системами.

    Карта сайту sitemap xml — а воно мені треба

    Але основним інструментом, призначеним для прямої вказівки пошуковикам тих сторінок ресурсу, які потрібно буде обов’язково проіндексувати, є файл під назвою Sitemap.xml (це його найбільш часте назву, але по ідеї його можна назвати як завгодно, не суть важливо), який не буде видно відвідувачам вашого веб-проекту.

    Він складається з урахуванням спеціального синтаксису, зрозумілого пошуковим машинам, де будуть перераховані всі сторінки, підлягають індексації з зазначенням ступеня їх важливості, дати останнього оновлення і зразкової частоти оновлення.

    Є два основних файлу, які повинні бути у будь-якого проекту web — robots.txt і sitemap.xml. Якщо у вашого проекту їх немає або вони заповнені не правильно, то з великою часткою ймовірності ви сильно шкодите своєму ресурсу і не дозволяєте йому розкритися на всі сто відсотків.

    Ви, звичайно ж, можете не послухати мене (бо я не є авторитет, силу щодо малого накопиченого фактичного матеріалу), але думаю, що з фахівцями, що мають під рукою статистику з десятків тисяч проектів, ви огульно сперечатися не станете.

    На цей випадок у мене виявився припасений «рояль в кущах». Прямо перед написанням цієї статті попалася на очі публікація фахівців з всім відомої системи автоматичного просування під незвичною назвою «Руки» (це аналог MegaIndex, про який я писав Мегаиндекса).

    Зрозуміло, що будь-яка подібна їм система зацікавлена в тому, щоб проекти їх клієнтів успішно просувалися, але вони можуть тільки накачувати ресурси клієнтів посилальної масою, а впливати на наповнення та правильну технічну налаштування сайтів вони, на жаль, не можуть.

    Тому і було проведено дуже цікавий і показовий дослідження, яке було покликане виявити 10 найбільш популярних причин, які ускладнюють просування проектів і ткнути цими даними клієнтам прямо в …

    На першому місці, звичайно ж, був «не унікальний контент» (або ви скопистили, або у вас вкрали тексти, що суті не міняє). Але на другому місці була як раз саме карта сайту у форматі xml, а точніше її відсутність або невідповідність визнаному формату створення. Ну, а на третьому місці був вже згаданий раніше файл robots.txt (його відсутність або неправильне створення):

    Допомагаємо вебмайструДопомагаємо вебмайстру

    Коли голослівно стверджуєш, що карта повинна бути у вашого проекту обов’язково (інакше кирдик), то це не звучить так переконливо, як у разі підкріплення цього твердження реальними фактами з досить-таки репрезентативного дослідження.

    Гаразд, будемо вважати, що я вас переконав і давайте подивимося, як можна самим створити сайтмап (синтаксис формату), як зробити її для Joomla та WordPress, а так само подивимося, як можна буде створити її за допомогою спеціальних онлайн генераторів (generator).

    Але просто створити sitemap ще не достатньо для того, щоб бути впевненим у правильної індексації вашого проекту пошуковими системами. Потрібно буде зробити так, щоб про цю самій карті сайту дізналися пошукові системи (у нашому випадку це Google і Яндекс). Зробити це можна двома способами, але про це ми поговоримо трохи пізніше (повинна ж бути хоч якась інтрига, що утримує увагу читачів).

    Навіщо взагалі потрібен сайт мап і файл robots.txt

    Давайте для початку спробуємо обґрунтувати логічну необхідність використання файлу robots.txt забороняє індексацію певних елементів вашого веб-проекту, так і файлу сайт мап, який передбачає індексацію певних сторінок. Для цього повернемося на п’ять-десять років тому, коли більшість ресурсів в інтернеті представляли собою просто набір Html файликів, в яких містилися тексти всіх статей.

    Пошуковий робот Гугла або Яндекса просто заходив на такий Html проект і починав індексувати все, що попадеться під руку, бо практично скрізь утримували контент проекту. А що ж відбувається зараз, в умовах повального використання CMS (систем управління контентом)? Власне, навіть відразу після установки движка пошуковий робот вже виявить у вас кілька тисяч файлів і це при тому, що ніякого контенту у вас ще може й не бути (ну, не написали ви ще жодної статті).

    Та й взагалі, контент в сучасних CMS, як правило, зберігається у файлах, а в базі даних, яку пошуковий робот безпосередньо проіндексувати, природно, не зможе (для роботи з базами раджу безкоштовно завантажити, встановити і налаштувати PhpMyAdmin).

    Зрозуміло, що потыркавшись туди сюди, пошукові роботи Яндекса і Google все ж знайдуть ваш контент і проіндексують його, але ось наскільки швидко це станеться і наскільки повною буде індексація вашого проекту — дуже велике питання.

    Ось саме для спрощення і прискорення індексації проектів пошуковими системами в умовах повального використання CMS і слід в обов’язковому порядку створювати robots.txt і sitemap.xml. C допомогою першого файлу ви підказуєте роботам пошукових систем на індексацію яких файлів не варто витрачати час (об’єкти движка, наприклад), а так само за допомогою нього можна закрити від індексації та частина сторінок для усунення ефекту дублювання контенту, який притаманний багатьом CMS (читайте про це детальніше у статті про robots.txt).

    А з допомогою файлу сайтмап ви чітко і ясно говорите роботів Яндекса і Гугла, що саме на вашому проекті містить контент, щоб вони не тыркались даремно по кутах файлового господарства використовуваного движка. Не забувайте, що у ботів є певні ліміти на час і кількість переглянутих документів. Він поблукає у вас файлів движка і піде, а контент залишиться не проіндексованим ще довгий час. Про як.

    Пам’ятаєте, як у відомій комедії казав один колоритний персонаж: «Ти туди не ходи, ти сюди ходи, а то…». Ось саме функцію цього персонажа і виконують robots.txt і сайт мап з розширенням xml для регулювання переміщень пошукових роботів по закутках вашого веб-проекту. Зрозуміло, що боти можуть і взбрыктуть, але швидше за все вони слухняно виконуватимуть ваші грамотно написані забороняють і розпорядчі (в карті сайту) інструкції.

    Зрозуміло? Тоді приступаємо безпосередньо до вирішення питання, як створити sitemap.xml різними способами і як повідомити про його існування двох китам пошуку в рунеті — Google і Яндексу, щоб вони не шарились по вашому проекту дарма, створюючи при цьому ще й додаткове навантаження на сервер вашого хостингу, але це, правда, вже сильно другорядна річ, головне — це саме індексація (швидка і всеосяжна).

    На відміну від robots.txt, який вам доведеться писати швидше за все власноруч, файл карти сайту формте xml, як правило, намагаються створити яким-або автоматичним способом. Воно й зрозуміло, бо при великій кількості сторінок часто оновлюваному проекті ручне його створення може призвести до пошкодження розуму у вебмастера.

    Та це зовсім і не обов’язково, оскільки практично для кожної CMS знайдеться розширення, яке дозволить створити, а при появі нових матеріалів і відновити файл сайтмап. Ну, або можна завжди скористатися яким-небудь онлайн генератором (generator) карти сайту у вигляді готового рішення.

    Але все ж, мені здається, буде не зайвим ознайомитися з нехитрим (та що там говорити — простим) синтаксисом створення sitemap. До того ж на маленьких і рідко оновлюються проектах можна накидати його і вручну.

    Як створити Sitemap.xml самому в Joomla і Вордпрес

    Цей файл ви можете створювати в будь-якому текстовому редакторі, наприклад, все в тому ж Notepad++, про який тут я вам всі вуха прожужжали. Карта сайту у форматі xml має зазвичай приблизно таку структуру.

    Спочатку йде стандартна частина:

    А потім йде серія повторюваних блоків, укладених в теги «url», кожен з яких описує одну з сторінок вашого проекту, для якого пишеться дана карта:

    https:///
    2011-05-12T19:22:36+00:00
    daily
    1.0

    Обов’язковим у цьому xml коді є тільки пара тегів «loc», в яких полягає адреса сторінок вашого проекту, яку повинні будуть проіндексувати пошукові системи. Теги «lastmod» укладена дата останнього оновлення даної сторінки, що дозволить роботу зайвий раз не заходити на не змінилася з моменту останнього заходу сторінку.

    У тегах «changefreq» вказується приблизна частота оновлення даної сторінки (раз на день, тиждень, місяць), ну, а в тезі «priority» вказується пріоритетність її індексації. Початковий пріоритет у всіх сторінок дорівнює 0.5, але ви можете змінювати його для визначення черговості індексації вашого веб-проекту (від 0 до 1).

    Не забувайте, що за один прохід робот не зможе пройти по всіх посиланнях у великій карті сайту (зазвичай близько сотні посилань за раз проходить), а значить з допомогою більшого пріоритету можна вибрати найбільш важливі для швидкої індексації сторінки.

    За стандартом sitemap.xml не може містити більш 50 000 посилань і важити більше 10 Мб. Хоча, багато хто навіть при перевищенні 500 — 1000 посилань в карті сайту намагаються розбити її на декілька файлів, підсунувши пошуковим системам і вказавши в robots.txt індексний файл сайтмап, в якому є посилання на всі інші файли карт великого сайту.

    Його синтаксис буде приблизно таким:

    Генерація карти сайту Joomla та WordPress

    Створити карту сайту для WordPress можна буде за допомогою плагіна Google XML Sitemaps. Для неї ви зможете провести безліч налаштувань, які дозволять виключити частину матеріалів вашого сайту, а так само можете задати передбачувану частоту оновлення. Крім створення карти, плагін Google XML Sitemaps при публікації нових матеріалів на вашому блозі повідомляє про це багато пошукові системи, запрошуючи їх швидше провести індексацію.

    Шлях до файлу сайтмап можете задати самі в налаштуваннях плагіна і навіть можете дати йому назву відмінне від класичного sitemap.xml. Багато власників саме так і роблять — називаю цей файл kjfdjkf.xml і закопують його у величезній кількості вкладених папок. Тим сами вони ховають карту сайту від сторонніх очей. У роботс.тхт вони теж цей шлях не вказують, а повідомляють його тільки Яндексу і Гуглу в їх панелях для вебмайстрів, про які мова піде трохи нижче.

    Допомагаємо вебмайструДопомагаємо вебмайстру

    Створити карту сайту для Joomla можна з допомогою компонента Xmap. За наведеною трохи вище посиланням ви знайдете досить докладну інструкцію, як по її створенню у вигляді xml-файлу, так і у форматі Html, орієнтовану в першу чергу не на прискорення індексації, а на зручність користувачів.

    Допомагаємо вебмайструДопомагаємо вебмайстру

    Посилання на створений сайтмап зможете знайти в налаштуваннях компонента, як показано на наведеному скріншоті.

    Як додати сайт мап в Яндекс і Гугл Вебмастер

    Як бачите, на відміну від файлів robots.txt (який обов’язково повинен знаходитися в кореневій папці вашого веб-проекту), файл сайт мап може лежати де завгодно. Але вам потрібно буде повідомити про його місцезнаходження пошуковим системам. Зробити це можна двома способами.

    По-перше, в robots.txt передбачена спеціальна директива «Sitemap», яка, наприклад, для мого блогу буде виглядати так:

    Sitemap: https:///sitemap.xml

    або так (файл карти сайту зовсім не обов’язково повинен називатися sitemap.xml як я вже згадував вище)

    Sitemap: https:///forum/index.php?action=sitemap;xml

    Обов’язково потрібно прописувати повний абсолютний шлях до сайтмапа, не опускаючи «https://». Це я кажу тому, що шляхи у всіх інших директивах robots.txt пишуться без вказівки «https://» (читайте тут про відносні і абсолютні шляхи).

    Зазвичай директиву «Sitemap» прописують в самому кінці. Пошукові роботи при черговому заході на ваш web проект обов’язково переглянуть вміст robots.txt і завантажать для вивчення вашу карту. Однак, таким чином можуть дізнатися про її існування всякі редиски, яким сайт мап допоможе тирити у вас контент.

    Але існує ще один спосіб вже безпосередньо передати інформацію про місцезнаходження карти сайту пошуковикам без посередництва robots.txt. Робиться це через інтерфейс Яндекс Вебмастера і панелі інструментів Google, хоча можна Bing вебмастер використовувати. Ви вже знайомі з цими інструментами пошукових систем?

    Якщо ні, то обов’язково додайте свій проект та інструменти Яндекс для вебмайстрів, і панель інструментів Гугла, а потім вкажіть у відповідних вкладках шлях до карти сайту у форматі Xml.

    Так виглядає форма додавання сайтмапа для Яндекс Вебмастера:

    Допомагаємо вебмайструДопомагаємо вебмайстру

    А так виглядає аналогічна форма для прописування шляху в панелі інструментів Google:

    Допомагаємо вебмайструДопомагаємо вебмайстру

    Онлайн генератори Sitemap Generator і XML Sitemaps

    Якщо вам не хочеться шукати розширення для CMS, що дозволяють автоматично створити сайт мап, то можете скористатися в цьому випадку онлайн генераторами. Тут, правда, є один недолік порівняно з автоматичним створенням карти в самої CMS — після додавання нових матеріалів вам доведеться знову йти на онлайн сервіс та повторно створювати цей файл, а потім завантажувати його до себе на сервер.

    Напевно, один з найбільш відомих онлайн генераторів карти сайту — це Sitemap Generator. Він володіє досить великим функціоналом і дозволить вам безкоштовно генерувати сайтмап на 1500 сторінок, що досить багато.

    Sitemap Generator буде враховувати вміст вашого файлу robots.txt, щоб в карту не потрапили заборонені до індексації сторінки. Саме по собі це не страшно, бо заборона роботсе по любому буде мати більший пріоритет, зате позбавить вас від зайвої інформації в створюваному файлі Site map. Для того, щоб зробити карту, вам достатньо вказати URL головної сторінки і повідомити свій E-mail, після чого вас поставлять в чергу на генерацію:

    Допомагаємо вебмайструДопомагаємо вебмайстру

    Коли до вас дійде черга, ви отримаєте про це поштове повідомлення і перейшовши по посиланню з листа зможете скачати файл, який зробив для вас Sitemap Generator. Залишиться тільки закинути його в потрібне місце на своєму сервері. Ну, і таку процедуру вам доведеться повторювати час від часу для того, щоб підтримувати актуальність вашої карти сайту.

    Є схожий англомовний сервіс онлайн генератора, який ви можете знайти за цим посиланням — XML Sitemaps. На ньому існує обмеження в 500 сторінок, а в іншому все практично теж саме, що і в описаному вище.

    Удачі вам! До зустрічей на сторінках блогу