Тестуємо онлайн-сервіси

3547
  • Як можна використовувати архів сайтів інтернету?
  • Умови попадання сайту в archive.org
  • Як знайти потрібний веб-архів і відновити з нього сайт?
  • Як витягнути з Webarchive унікальний контент?
  • Здрастуйте, шановні читачі блогу . Не так давно я писав про те, що таке народна енциклопедія Вікіпедія, яка безумовно заслуговує усіляких утішних епітетів, незважаючи на властиві їй невеликі недоліки і критику її статей з боку наукового співтовариства.

    Сам факт того, що некомерційний проект вже не одне десятиліття працює на благо всього інтернет-співтовариства, заслуговує величезної поваги. Але в мережі є ще такий масштабний проект, який не отримуючи з цього доходу виконує дуже важливу роль — зберігає архіви сайтів, відео, аудіо та друкованої продукції.

    Тестуємо онлайн-сервіси

    Я кажу, звичайно ж, про web.archive.org — глобальний проект з здавалося б нездійсненною місією — створення архіву всіх сайтів, коли або розміщених в інтернеті. Причому, сайти зберігаються не у вигляді скріншотів, а у вигляді повноцінно працюють веб-сторінок з усіма посиланнями, картинками і стильовим оформленням (CSS). Причому, для кожного сайту за час його існування в мережі в цьому архіві може накопичитися і по кілька сотень копій, датованих різними етапами життя ресурсу.

    Як можна використовувати архів сайтів інтернету

    Чим може бути корисний даний webarchive?

  • Ну, по-перше, ви можете поринути в приємну ностальгію подорожуючи по вашому сайту багаторічної давності. Простежити історію змін можна буде для будь-якого іншого ресурсу інтернету (наприклад, я брав скріншоти для статей про вже померлий Апорт саме це вебархива, так і скріншоти, ілюструють еволюцію головної сторінки Яндекса, мають теж саме походження).
  • Але це не все. Якщо сторінка доданого вами в закладки сайту не відкривається, то ви, звичайно ж, можете спробувати витягнути її з кеша Яндекса або Гугла (читайте детальніше про те, як краще шукати в Google). Але якщо ресурс недоступний вже дуже давно, то такі мертві посилання ніде крім archive.org відкрити вже буде не можливо (правда, і там його може не виявитися з описаних трохи нижче причин).
  • Так само, якщо ви з якихось форс-мажорних обставин не робили бекап (резервне копіювання) вашого сайту, то даний web archive буде єдиною можливістю відновити свій сайт. Є можливість очистити всі посилання від прив’язки до web.archive.org і зробити їх прямими саме для вашого ресурсу (про це читайте нижче).
  • Ну, і останнє, що приходить в голову — пошук унікального контенту. Якщо ви не здатні самі створювати унікальний контент для сайту (писати статті), то тут ви зможете ними розжитися, правда, зусилля докласти все одно доведеться. Суть така, що багато сайтів вмирають і стають недоступні разом з наявними на них контентом.

    Відшукавши такі ресурси ви зможете витягнути тексти з інтернет-архів і розмістити їх у себе, попередньо перевіривши їх на унікальність. Таким чином ви не займаєтесь плагіатом та не порушуєте авторські права (копірайт), але шукати в вебархиве багатьом може здатися дуже трудомістким завданням.

  • Онлайн сервіс Webarchive веде свою історію аж з 1996 року. Поставлена перед проектом завдання здавалася нездійсненною навіть з урахуванням того, що сайтів на той час в інтернеті було значно менше, ніж зараз (на кілька порядків). По початку, сайти архівувалися не дуже часто, але з часом, підвищуючи потужності сховищ, Веб-архів став робити все більше і більше зліпків сайтів.

    Сам себе цей веб архів заніс в базу лише в 1997 році і виглядала його головна сторінка тоді так:

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Зараз на все про все (включаючи аудіо, відео та відскановані книги) у цієї некомерційної організації задіяно дисковий простір жахливих розмірів, що вимірюється десяткою з п’ятнадцятьма нулями байт. Сайт має дзеркала в різних дата-центрах, а сам проект віднедавна отримав офіційний статус бібліотеки. Якщо розглядати тільки архів сторінок сайтів, то їх вже там налічується близько ста мільярдів (тут враховуються всі зліпки сторінок коли-небудь зняті і збережені).

    На головній сторінці доступний не тільки архів сторінок інтернету Wayback Machine, але й архіви різних кинохроник, телепередач, аудіо записів і відсканованих в різних бібліотеках книжок:

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Але нас цікавить саме WEB область з логотипом Wayback Machine. В розташовану там форму можна ввести URL-адресу або доменне ім’я, що цікавить вас сайту (читайте про те, що таке домен і чим він відрізняється від URL), щоб потрапити на сторінку з календарем:

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    З наведеного прикладу видно, що мій блог був вперше архивирован 27 серпня 2009 року (через п’ять днів після реєстрації (купівлі) домену ). За минулий інтервал часу було створено 125 архівних копій сайту, кожну з яких можна буде подивитися і помацати руками (здійснюючи переходи за внутрішніми посиланнями).

    Відкриття мертвих посилань і умови попадання сайту в archive.org

    У календарі голубими кружальцями відзначені дати, в які був створений зліпок (вебархив) даного сайту. Природно, що моменти зняття зліпка ніяк не буде корелюватися з виробленими на вашому ресурсі змінами, і їх час Webarchive визначає строго виходячи зі своїх внутрішніх алгоритмів і таймерів.

    Тому використовувати архів інтернету, як інструмент для відкриття тимчасово недоступних сайтів, напевно, не завжди буде слушним. Для цього у Яндекса є можливість перегляду архівної копії документа:

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Так, і в Google можна завжди подивитися збережену копію веб-сторінки:

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Даний онлайн сервіс знадобиться в особливо важких випадках, коли шукана сторінка вже не існує і навряд чи вже буде існувати в реальному інтернеті, але зате вона буде доступна в машині часу.

    Правда, тут необхідно дотримуватися кілька умов того, щоб сайт потрапив у archive.org:

  • Він не повинен містити в своєму файлі robots.txt заборона для індексації роботом з web.archive.org. Така заборона, зазвичай виглядає так:

    User-agent: ia_archiver
    Disallow: /

    Коли я писав статтю про електронну пошту mail.ru, то не зміг знайти в Архіві Інтернету збережених копій сайту mail.ru, т. до. його файл robots.txt містив у собі схожий заборона:

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

  • Деякі сайти Вебархив з якихось причин банально не знайшов. Ймовірність попадання ресурсу в базу підвищується, якщо він буде доданий в каталог Dmoz або ж якщо на нього будуть проставлені посилання з інших популярних ресурсів, які в Webarchive вже знаходяться. Загалом, навіть простий запит через форму на головній сторінці цього сервісу може послужити поштовхом до залучення уваги цього архіватора до вашого ресурсу.
  • Як знайти потрібний веб-архів і відновити сайт без бекапу

    По архівах можна переміщатися і з допомогою тимчасової шкали розташованої вгорі сторінки, де вертикальними чорними рисками відзначені наявні для цього сайту зліпки. Іноді, веб-архіви можуть бути битими, тоді доведеться відкрити найближчий до нього зліпок.

    Клацнувши по блакитному кружечку ми можемо побачити посилання на декілька архівів, що відрізняються часом їх зняття.

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Можливо, що це робиться задля уникнення втрати даних за рахунок неминучою псування жорстких дисків в сховищах. Перейшовши до перегляду одного з веб-архівів, ви побачите копію свого (в даному прикладі мого) сайту з працюючими внутрішніми посиланнями і підключеним стильовим оформленням. Правда, не ідеально працюючим.

    Наприклад, дещо з дизайну в мене перекосило і бічне меню працює на ДжаваСкрипте повністю зникло:

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Але це не настільки важливо, бо у вихідному коді сторінки web.archive.org це меню, звичайно, присутня. Однак, просто так скопіювати текст цієї сторінки до себе на сайт взамін загубленої не вийде. Чому? Та тому що подорож всередині сайту з минулого буде можливо лише в разі заміни всіх внутрішніх посилань на ті, що генерує Webarchive (в іншому випадку вас перекинуло б на сучасну версію ресурсу).

    Виглядають ці посилання приблизно так:

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    http://web.archive.org/web/20111013120145/https:///seo/search/samostoyatelnoe-prodvizhenie-sajta-kak-prodvigat-samomu-vnutrennej-optimizaciej.html

    Зрозуміло, що можна буде вручну відсікти вступну частину посилань (http://web.archive.org/web/20111013120145/), отримавши таким чином робочий варіант. Можна цей процес навіть автоматизувати за допомогою інструменту пошуку та заміни редактора Notepad, але ще простіше буде скористатися вбудованою в цей сервіс можливістю заміни внутрішніх посилань на оригінальні.

    Для цього копіюєте адресу сторінки з потрібною зліпком вашого сайту (з адресного рядка браузера — починається з http://web.archive.org/). Він буде мати приблизно такий вигляд:

    http://web.archive.org/web/20111013120145/https:///

    І вставляєте в нього конструкцію «id_» в кінці дати (20111013120145), щоб вийшло так:

    http://web.archive.org/web/20111013120145id_/https:///

    Тепер змінений адреса назад повертаєте в адресний рядок браузера і тиснете на Enter. Після цього сторінка c архівом вашого сайту оновиться і всі внутрішні посилання стануть прямими. Можна буде копіювати текст статті з вихідного коду вебархива.

    Зрозуміло, що відновлення таким чином величезного сайту займе жахливе кількість часу, але коли іншого варіанту немає, то і такий здасться манною небесною. До того ж, страждають безповоротною втратою контенту зазвичай тільки початківці вебмастера, у яких цього самого контенту було мало, а більш-менш досвідчені сайтовласників, вже не раз обжигавшиеся на подібних речах, роблять бекапи файлів і бази по п’ять разів на дню.

    Якщо ви захочете побачити всі сторінки вашого (або чужого) сайту, які містяться в надрах цього мастодонта, то вам потрібно буде вставити в адресний рядок браузера наступний адресу та натиснути Enter:

    http://wayback.archive.org/web/*/*

    Замість мого домену можна використовувати свій. На сторінці, що відкриється, ви отримаєте можливість накласти фільтр в призначеній для цього формі:

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Наприклад, я захотів побачити лише текстові файли свого блогу, які ковтнув Web Archive. Навіщо — не знаю, але захотів.

    Як витягнути з Webarchive унікальний контент для сайту

    Описаний нижче спосіб особисто я не використовував, але чисто теоретично все має працювати. Саму ідею я почерпнув на цьому молодому ресурсі, де і були описані всі кроки. Принцип методу полягає в тому, що кожен день вмирають і ніколи не відроджуються десятки сайтів.

    Причин цьому може бути багато і більшість з спочилих у бозі ресурсів ніякої особливої цінності в плані контенту ніколи і не представляли. Але з кожного правила бувають винятки і потрібно буде всього-навсього відокремити зерна від плевел. Головне щоб зниклі сайти з більш-менш пристойним контентом були б представлені в Web Archive, хоча б однією копією.

    Т. к. після смерті контент цих сайтів поступово випаде з індексу пошукових систем, то взявши його з інтернет-архіву ви, по ідеї, станете його законним власником і першоджерелом для пошукових систем. Чудово, якщо буде саме так (є варіант, що ще при житті ресурсу його нещадно могли откопипастить). Але крім проблеми унікальності текстів, існує проблема їх відшукання.

    По-перше, нам потрібен список сайтів, які скоро помруть або вже померли. Автор методу пропонує завантажити з сайту реєстратора доменних імен Nic.ru список вивільнюваних або вже звільнилися доменів.

    Що примітно, в останній колонці цього списку, його можна відкрити в Excel) буде відображатися кількість архівів, створених для кожного сайту Web Archive (правда, перевірити наявність домена в веб-архіві можна і в ряді онлайн сервісів).

    Тестуємо онлайн-сервісиТестуємо онлайн-сервіси

    Список буржуйських доменних імен, вивільнюваних або вже звільнилися, пропонується завантажити за цим посиланням. Ну, а далі переглядаємо вміст сайтів, яке зберіг Web Archive і намагаємося знайти щось вартісне. Потім перевіряємо унікальність цих матеріалів (посилання наводив трохи вище) і в разі успіху публікуємо їх на своєму ресурсі, або продаємо в який-небудь біржі контенту.

    Так, спосіб тоскний і мною особисто не перевірений. Але, думаю, що при деякій мірі автоматизації і обмозговывания він може давати непоганий вихлоп. Напевно, хто-небудь вже це поставив на потік. А ви як думаєте?

    Удачі вам! До зустрічей на сторінках блогу