Використовуємо програми

289
  • Як завантажити в Disavow links список всіх посилань на сайт
  • Як в Notepad++ видалити http:// і символи після якогось знаку
  • Як в Notepad++ видалити дублі рядків і додати символи в початок
  • Здрастуйте, шановні читачі блогу . Суть завдання яка? У мене є список URL-адрес (зворотні посилання зі сторінок, що посилаються на https://), яких більше 60 000. Якщо ви в курсі, то в пошуковій системі Гугл зараз лютує злий Пінгвін (читайте статтю про те, як вийти з під фільтра Гугл Пінгвін).

    Є такий інструмент відхилення посилань в Google, як Disavow links. Коли я писав ту статтю, то одні з читачів прислав мені вивантаження з Сео сервісу Ahrefs з усіма Урлами сторінок, які посилаються на мій блог. Величезне йому за це спасибі.

    Як завантажити в Disavow links список всіх посилань на сайт

    Я витратив тиждень на перегляд цих посилань і складання списку для додавання в інструмент Гугла Disavow links. Вийшло близько тисячі доменів. Але через пару місяців Пінгвін мене клюнув ще сильніше (ще половина трафіку з Google пішла в небуття).

    Тому зараз зважився на крайні заходи — додати в цей список взагалі всі зворотні посилання. Зробити це прямо не виходить, бо подібний список у форматі txt важить близько десяти мегабайт, а сервіс Disavow links дозволяє завантажувати файли розміром не більше двох.

    Вихід я побачив у тому, щоб виділити з усього списку тільки доменні імена сайтів, які на мене посилаються, і додати в бан-лист саме їх (близько трьох тисяч доменів).

    Дана задача розбивається на кілька етапів. Виділити і залишити в списку з усіх Урл адрес лише ту частину, де прописано доменне ім’я. Якщо пам’ятаєте, то в статті про URL-адреси, а так само відносні й абсолютні посилання, я розповідав про їх пристрій. Наприклад, посилання на цю сторінку (її Урл — універсальний ідентифікатор ресурсу) виглядає так:

    https:///voprosy-i-otvety/kak-iz-spiska-url-adresov-vychlenit-domeny-i-ubrat-ix-povtory-s-pomoshhyu-notepad-gotovim-spisok-dlya-disavow-links.html

    У моєму випадку це був такий список:

    Використовуємо програми

    Мені ж потрібно залишити від цього URL адреси тільки домен:

    Т. к. в списку багато посилань з одного і того ж домена, то потім треба буде видалити всі дублюючі рядка. Ну і в рядку з кожним доменом, в самому її початку, треба додати «domain:», щоб вийшло так:

    domain:

    Список для Disavow links вийшов у такому вигляді:

    Використовуємо програмиВикористовуємо програмиВикористовуємо програми

    Для тих хто дружить з Excel завдання вирішується за допомогою написання відповідних формул. Особисто я добре знаю тільки Ворд, а ось на вивчення Екселю в свій час терпіння вже не вистачило, та й не було тоді в цьому особливої потреби.

    Тому я вирішував цю задачу винятково за допомогою можливостей текстового редактору Notepad++ з його багатим функціоналом і купою корисних плагінів.

    Як в Notepad++ видалити http:// і символи після певного знака

    Отже, спочатку я виділив стовпець з Урлами донорів у файлі Excel і скопіював їх в буфер обміну (до речі, копіювання пішли хвилини, а не секунди, бо обсяг був дуже великий). Після чого вставив його на нову сторінку в Notepad++.

    Спочатку я позбувся http:// або https:// у всіх рядках. Для цього відкриваєте в Нотепаде з верхнього меню пункти «Правка» — «Замінити на» (можна просто натиснути на Ctrl+H). У верхнє поле вставляєте http://, а нижнє залишаєте порожнім.

    Використовуємо програмиВикористовуємо програми

    Тиснете на кнопку «Замінити все». Потім у верхнє поле замість http:// вставляєте https:// і знову тиснете на цю ж кнопку. Вийшло приблизно так:

    Використовуємо програмиВикористовуємо програми

    Наступним нашим завданням буде видалити в Notepad++ після певного символу (першого слеші (/)) все, що там буде стояти. Для цього знову ж тиснете Ctrl+H. Переходимо в режим «Регулярні вирази» (внизу вікна), вставляємо в перше поле (/.+)$ (якщо вам потрібно буде після іншого символу все видалити, то вставте замість слеша), друге поле «Замінити на» залиште порожнім і жмакайте на кнопочку «Замінити все».

    Використовуємо програмиВикористовуємо програми

    В результаті наш список Урлов (а зараз вже доменів) прийме такий вигляд:

    Використовуємо програмиВикористовуємо програми

    Подекуди в кінці залишилися слеші, тому знову клацнете по Ctrl+H, перейдіть у звичайний режим і вставити у верхнє поле слеш, а нижні — нічого. Ну і на кнопочку «Замінити все» натисніть.

    Тепер нам потрібно видалити повторювані рядки в Notepad++ (однакові домени залишилися після їх виокремлення з URL-адрес). Для цього потрібно скористатися плагіном для Нотепада під назвою Text FX Caracters.

    Як в Notepad++ видалити повторювані рядки і додати символи початок всіх рядків

    Якщо він у вас ще не встановлений, то виберіть з верхнього меню текстового редактора «Плагіни» — «Plagin Manager» — «Show Plagin Manager».

    Використовуємо програмиВикористовуємо програми

    У вікні, знайдіть Text FX Caracters, поставте навпроти нього галочку і натисніть на розташовану внизу кнопку «Install».

    Використовуємо програмиВикористовуємо програми

    Тепер всі рядки у нашому документі потрібно буде виділити з допомогою CTRL+A, після чого вибрати з верхнього меню «TextFX» — «TextFX Tools» і поставити галочку в полі «+Sort outputs only UNIQUE (at column) lines». Після чого знову зайти в «TextFX» — «TextFX Tools» і вибрати пункт «Sort Lines case sensitive (at column)».

    Використовуємо програмиВикористовуємо програми

    В результаті всі дублі рядків у відкритому вікні Notepad++ зникнуть і залишаться одні лише унікальні домени.

    Використовуємо програмиВикористовуємо програми

    Але в синтаксисі файлу Disavow links для доменів необхідно спочатку вказувати «domain:». Значить перед нами стоїть наступна задача: додати символи до початку рядка в Notepad++. Вирішується вона досить просто.

    Знову ж жмакаете по клавішах Ctrl+H і переходите в режим «Регулярні вирази». У верхньому рядку пишіть «\n» (так позначається символ переведення рядка), а в нижній — «\ndomain:»:

    Використовуємо програмиВикористовуємо програми

    Тиснете на кнопку «Замінити все» і отримуєте те, що нам і було потрібно — готовий список, який сміливо можна буде завантажувати в Disavow links.

    Використовуємо програмиВикористовуємо програмиВикористовуємо програми

    Все, дякую за увагу.

    Удачі вам! До зустрічей на сторінках блогу