Автоматичне складання семантичного ядра з URL. Стоп-слова для Кей Колектора – найповніша база! Підготовка акаунту до використання у програмі

За допомогою Key Collector можна не тільки суттєво спростити процедуру збору семантичного ядра для рекламної кампанії, але також отримати найбільш повний і якісний результат і аналіз.

Варто відмітити що дана програмапрацює не з готовими базами даних і не займається генеруванням ключових фраз, а натомість вона дозволяє збирати актуальну інформацію безпосередньо з сервісів-джерел.

Додаток дозволяє отримувати інформацію з більшості популярних російськомовних та зарубіжних джерел, за допомогою яких можна отримати максимально повну вибірку високочастотних, середньочастотних та, звичайно, низькочастотних фраз.

З отриманими результатами можна працювати як, не виходячи із програми, так і експортувавши їх у формат Microsoft Excelабо CSV.

Зручне класичне табличне представлення даних з можливістю фільтрації та додатковими редакторами, що спливають, дозволяє аналізувати додаткові відомості.

Key Collector активно використовують не тільки в контекстній рекламі, а й у SEO.

Що можна зробити за допомогою Key Collector?

Налаштування Key Collector для парсингу даних Wordstat Яндекс

Для початку необхідно завантажити - купити програму на наступному сайті: http://www.key-collector.ru/.

1 Заходимо в налаштування програми, але для цього необхідно натиснути на шестерню, розташовану в блоці основних інструментів програми, в лівому верхньому кутку, відповідно до рисунка 1.

Мал. 1 - Налаштування програми

2 Вибираємо вкладку "Парсинг", в якій будуть ще кілька вкладок, з них вибираємо Yandex.Direct.

Мал. 2 - Налаштування парсингу Yandex.Direct

3
Налаштовуємо обліковий запис, для цього необхідно створити пошту на Яндексі, ту яка призначатиметься тільки для цієї програми, щоб раптом не заблокували, відповідно до рисунка 3.

Варто зазначити, що потрібна обов'язкова авторизація через акаунти, створені в сервісі Яндекс Директ.

Мал. 3 - Налаштування облікового запису Yandex.Direct

4 Після того, як все налаштовано, необхідно розпочати новий проект, для цього необхідно натиснути «Новий проект» та даємо йому назву, а відповідно до рисунка 4 та 5.

Мал. 4 - Початок роботи

Мал. 5 - Назва проекту

5 Вказуємо регіон парсингу, у разі регіон — «Екатеринбург». Для цього потрібно внизу програми натиснути на відповідне поле введення, навпроти червоної гістограми та вибрати необхідне місто відповідно до малюнків 6 та 7.

Мал. 6 - Вибір регіону

Мал. 7 - Вибір регіону, наприклад Єкатеринбург

6 Запуск програми на парсинг даних з Яндекс Вордстату, для цього необхідно натиснути на панелі інструментів на значок, у вигляді червоної гістограми, відповідно до рисунка 8.

Мал. 8 - Запуск на парсинг

7 В відкритому вікні, вводимо список основних високочастотних або середньочастотних ключових фраз, які були підібрані вручну для складання семантичного ядра запитів та натискаємо кнопку «Почати збір», відповідно до рисунка 9.

Мал. 9 - діалогове вікно для введення ключових фраз

8
Потрібно деякий час, поки програма закінчить збір даних.

В результаті виходить список із великої кількості слів, відповідно до рисунка 10.

Час збору залежить від вибраного регіону, а також ключових слів, Виходить, що час може займати від декількох хвилин до декількох годин.

Мал. 10 - Список зібраних всіх ключових фраз

9
Проводимо чищення від нерелевантних та малоефективних слів, які не дадуть результату для майбутньої рекламної кампанії.

Звичайно, можна займатися ручним відсіванням фраз, натискати по кожному і відсівати, але це займе багато часу, особливо коли кілька сотень фраз. Тому для цього застосуємо спеціальний фільтр стоп-слів, який скоротить час. Необхідно натиснути на іконку стоп-слова в інтерфейсі програми відповідно до рисунка 11.

Мал. 11 - Іконка фільтр стоп-слова

Тут є 2 вкладки зі списком 1 і 2. У першому списку задаються непотрібні стоп-слова, які аж ніяк не відносяться до проекту, в другу вкладку навпаки, ті слова, які вигідні для проекту, відповідно до рисунка 12.

Мал. 12 - Дві вкладки списку 1 і 2 "стоп - слова"

10 Виставляємо налаштування, як представлено на скріншоті, подібні налаштування дозволяють шукати збіги у всіх фразах, перебираючи всі слова фраз, якщо фраза частково збігається зі стоп-словом, такі ключові фрази будуть виділені в загальній таблиці, природно якщо натиснути кнопку: «Відзначити в таблиці», відповідно до рисунка 13. Далі натискаємо «Відзначити фрази» у таблиці.

Мал. 13 - Налаштування «стоп-слова»

11
Після того, як визначено «стоп-слова», виділені у таблиці фрази можна сміливо видалити, вибравши вкладку «Дані» та натиснувши на «Видалити зазначені фрази», відповідно до рисунка 14.

В результаті в таблиці залишаться ті слова, які будуть значно ефективнішими для проекту.

Мал. 14 - Видалення непотрібних фраз

12 Знімаємо точні частотності ключових фраз, щоб відсіяти слова-пустушки. Для цього використовуємо статистику Яндекс.Директ, яка дозволяє пакетно знімати дані відповідно до рисунка 15.

Мал. 15 - Збір частоти ключових фраз

На наступному скріншоті наведено дані, відсортовані по другій колонці «Частота «»» запитів відповідно до рисунка 16.

Мал. 16 – Частота «»

13 Далі вивантажуємо всі ключові фрази у формат Exel для подальшої роботи над фразами відповідно до малюнку 17.

Мал. 17 - Експорт ключових фраз у формат Microsoft Excel або CSV

Збір сезонності

Програма дозволяє збирати інформацію про популярність запиту за минулий період, будувати графік за цими даними та висловлювати припущення про сезонність заданого запиту на підставі отриманих даних.

Щоб зняти інформацію про сезонність запиту, натисніть кнопку з іконкою графіка у групі кнопок "Збір ключових слів та статистики" відповідно до рисунка 18.

Мал. 18 - Іконка сезонності

Під час знімання інформації про сезонність запиту також обчислюються значення середньої арифметичної частотності та її медіани. Змінити період, протягом якого розглядається статистика для обчислення цих значень, можна в налаштуваннях збору Yandex.Wordstat.

За потреби можна отримати статистику з угрупуванням на тижні, а не на місяці. У цьому випадку запуск слід здійснювати через відповідний пункт у меню, що розкривається, кнопки збору даних сезонності Yandex.Wordstat, відповідно до рисунка 19.

Мал. 19 - Вид сезонності у таблиці

Переглянути розширену інформацію про сезонність можна, натиснувши на комірку, що відповідає даній фразі, відповідно до рисунка 20.

Мал. 20 - Графік сезонності

При необхідності ви можете вивантажити розширені дані про частоти для всіх фраз в файл CSV. Для цього необхідно скористатися відповідною кнопкою в меню кнопки запуску збору сезонності.

Збір статистики із лічильників системи статистики Yandex.Metrika

Програма підтримує збирання статистики з лічильників системи статистики Yandex.Metrika. За допомогою Key Collector можна зібрати слова та трафік із зазначеного лічильника.

Процес збирання статистики з лічильника Yandex.Metrika

1 Натискаємо кнопку з логотипом сервісу в групі кнопок "Збір ключових слів та статистики" та вводимо дані авторизації у системі статистики, відповідно до малюнків 21 та 22.

Рис.21 - Кнопка збору статистики із лічильника системи статистики Yandex.Metrika

* Для збору статистики Yandex.Metrika необхідно авторизуватися в обліковому записі, який має доступ до лічильників, статистику з яких необхідно зібрати. Програма підтримує як звичайний, і пакетний збір статистики Yandex.Metrika. При використанні звичайного збору можна або вибрати необхідний сайт у списку, що розкривається, або ввести його ідентифікатор вручну.

2 Вибираємо період, за який потрібно отримати статистику. Можна ввести період самостійно або скористатися шаблоном (квартал, рік тощо) відповідно до малюнку 22.

Опція "Оновлювати статистику для існуючих у таблиці фраз" дозволяє оновлювати статистику переходів для існуючих у таблиці фраз. Наприклад, раніше в таблиці було додано фразу "ручка". Якщо опція вимкнена, і хоч у звіті й зустрінеться ця фраза, але програма не запише значення переходів. Якщо ж опція була увімкнена, то програма оновить це значення.
Опція "Не додавати до таблиці нових фраз" є доповненням до попередньої опції. Включивши її, відбувається заборона програмі додавати в таблицю фрази, яких раніше не було. Це може бути корисним, якщо необхідно просто оновити або зібрати дані про переходи до раніше зібраної статистики, не розбавляючи список фраз у таблиці новими фразами, для яких потім може знадобитися додаткова обробка.

3 Вибираємо спосіб отримання статистики: безпосередньо засобами API або подобово засобами програми відповідно до рисунка 22.

У першому випадку програма просто формує запит до API Yandex.Metrika, передавши параметри межі періоду збору. У відповідь вона отримує список фраз відразу зі статистикою про переходи, яку можна записувати в таблицю даних. Цей режим є швидшим, але в результаті деякі НЧ фрази можуть бути не отримані через особливості роботи самого API.
У другому випадку програма переглядає статистику за вказаний період подобово, а потім при повному завершенні збору обчислює значення переходів. Подобовий перегляд частинами іноді дозволяє отримати більше фраз, які API в звичайному режиміне видає (НЧ фрази), проте це займає значно більше часу. Також слід враховувати, що якщо процес збору було перервано, то статистика переходів та відмов не буде обчислена. Тому під час роботи з цим режимом слід чекати повного завершення процесу збору.
Опція "Не додавати фразу, якщо вона вже є на будь-яких інших вкладках" може стати в нагоді, якщо не хочемо, щоб до таблиці не надходили фрази, які вже обробили на інших вкладках.

Збір статистики із лічильників системи статистики Google.Analytics

Програма Key Collector підтримує збирання статистики з лічильників системи статистики Google.Analytics.

За допомогою неї можна зібрати слова, кількість візитів, відсоткове ставлення відмов та цільові сторінки із зазначеного лічильника.

Процес збирання статистики з лічильника Google.Analytics.

1 Натискаємо кнопку з логотипом сервісу у групі кнопок "Збір ключових слів та статистики" і після цього відкриється вікно збору статистики Google Analytics, відповідно до рисунка 23.

Рис.23 - Кнопка збору статистики із лічильника системи статистики Google.Analytics

*Для збору статистики Google Analytics необхідно вказати логін та пароль від облікового запису, який має доступ до лічильників, статистику з яких буде збиратися інформація. За бажанням можна увімкнути опцію "Зберігати дані авторизації в налаштуваннях програми".

Після введення логіну і пароля натискаємо на список, що розкривається, з майданчиками і вибираємо лічильник, статистика з якого цікавить.

Потім вибираємо період, протягом якого збираємо статистику.

Ввести період можна самостійно або скористатися шаблоном (квартал, рік тощо), відповідно до рисунка 24.

Опція "Оновлювати статистику для існуючих у таблиці фраз" дозволяє оновлювати статистику переходів для існуючих у таблиці фраз.
Опція "Не додавати до таблиці нових фраз" є доповненням до попередньої опції. Увімкнувши її, можна заборонити програмі додавати в таблицю фрази, яких раніше не було. Це може бути корисним, якщо необхідно просто оновити або зібрати дані про переходи до раніше зібраної статистики, не розбавляючи список фраз у таблиці новими фразами, для яких потім може знадобитися додаткова обробка.

2 Також можна вибрати спосіб отримання статистики: безпосередньо засобами API або подобово засобами програми відповідно до рисунка 24.

У першому випадку програма просто формує запит до API Google.Analytics, передавши параметри межі періоду збору. У відповідь вона отримує список фраз відразу зі статистикою про переходи, % відмов та цільові сторінки, яку відразу можна записати в таблицю даних. Цей режим є швидшим, але в результаті деякі НЧ фрази можуть бути не отримані через особливості роботи самого API.
У другому випадку програма переглядає статистику за зазначений період вручну подобово, а потім при повному завершенні збору обчислює значення переходів та % відмов. Подобовий перегляд частинами іноді дозволяє отримати більше фраз, які API у звичайному режимі не видає (НЧ фрази), проте це займає значно більше часу. Слід враховувати, що якщо процес збору було перервано, то статистика переходів та відмов не буде обчислена. Тому під час роботи з цим режимом слід чекати повного завершення процесу збору.
Опція "Не додавати фразу, якщо вона вже є на будь-яких інших вкладках" може стати в нагоді, якщо необхідно, щоб до таблиці не надходили фрази, які вже були оброблені на інших вкладках.

Пошукові підказки

Програма підтримує збір пошукових підказок із шести популярних пошукових систем: Яндекс, Google, Mail, Rambler, Nigma, Yahoo, Яндекс.Директ.

Для того, щоб зібрати пошукові підказки з цікавих пошукових систем, натисніть кнопку з іконкою трьох різнокольорових стільників у групі кнопок "Збір ключових слів та статистики", відповідно до рисунка 25.

Мал. 25 - Кнопка «пошукові підказки»

У вікні пакетного введення слів можна ввести вручну або завантажити з файлу цікаві фрази. При цьому можна вибрати, куди необхідно помістити результати парсингу по кожній із вхідних фраз: на поточну вкладку або розподілити по декількох вкладках. Після цього відзначаємо прапорцями пошуковий системи, в яких слід виконати пошук, і натиснути кнопку початку збору інформації (для того, щоб прапорець "Yandex.Direct" став доступним, необхідно попередньо прописати один або кілька акаунтів в "Налаштуваннях - Парсинг - Яндекс.Директ"), відповідно до малюнком 26.

Рис.26 - Вікно пакетного введення слів для збору пошукових підказок

Варто звернути увагу, що збір підказок з Yandex.Direct має дуже невеликий ліміт кількості запитів. Рекомендується використовувати збір пошукових підказок з Yandex.Direct тільки для обмеженого числа фраз за потреби.

Опція "З підбором закінчень" дозволяє збирати ще більше підказок за рахунок того, що програма підбиратиме закінчення слів автоматично.

Перебір закінчень некорисний, якщо як вихідні слова задаються повні слова, відповідно до рисунка 27.

Рис.27 - Налаштування «пошукових підказок»

Варто звернути увагу, що не треба включати опцію підбору закінчень без потреби, т.к. її використання дуже сильно впливає на кількість запитів і на загальний час виконання завдання.

Key Collector підтримує збір схожі пошукових запитівз пошукової видачіПС Яндекс, Google, Mail.

Для того, щоб зібрати пошукові підказки з пошукових систем, що цікавлять, натисніть кнопку в групі кнопок "Збір ключових слів і статистики", відповідно до малюнку 28.

Рис.28 - Кнопка "Збір ключових слів та статистики"

У вікні пакетного введення слів можна ввести вручну або завантажити з файлу цікаві фрази. При цьому можна вибрати, куди необхідно помістити результати парсингу по кожній із вхідних фраз: на поточну вкладку або розподілити по декількох вкладках. Після цього необхідно відзначити прапорцями пошукової системи, в яких слід здійснити пошук, і натиснути кнопку початку збору інформації, відповідно до рисунка 29.

Рис.29 - Вікно пакетного введення слів

Обчислення найкращої словоформи

Для того щоб зібрати найкращі словоформи для наявних ключових фраз, натискаємо на кнопку з логотипом сервісу в групі кнопок "Збір ключових слів та статистики" і вибираємо відповідний пункт у меню кнопки, що розкривається, відповідно до рисунка 30.

Рис.30 - Кнопка "Збір ключових слів та статистики"

Збір розширень для ключових фраз

Для того щоб запустити збір розширень (нових ключових фраз) за наявним списком фраз, натискаємо на кнопку з логотипом сервісу в групі кнопок "Збір ключових слів та статистики" і вибираємо відповідний пункт у меню кнопки, що розкривається, відповідно до рисунка 31.

Рис.31 - Кнопка "Збір розширень ключових фраз"

У вікні пакетного введення слів можна ввести вручну або завантажити з файлу цікаві слова. При цьому надається вибір, куди помістити результати парсингу по кожній із вхідних фраз: на поточну вкладку або розподілити за декількома вкладками. Після натискання кнопки запуску процесу програма приступить до збору даних за заданими ключовими фразами, відповідно до рисунка 32.

Рис.32 - Вікно пакетного введення слів

Якщо працюєте з величезними проектами (десятки або сотні тисяч фраз) і збираєте фрази в пакетному режимі, то може бути корисною опція "Не оновлювати вміст таблиці після групових операцій вставки та оновлення при парсингу" в "Налаштуваннях - Інтерфейс - Інше".

Отже, у цій статті описані можливості Key Collector для контекстної реклами, а також робочий спосіб того, як можна створити семантичне ядро (створення семантичного ядра необхідно і в SEO) для рекламної кампанії, використовуючи ключові фрази, спарсовані з Яндекс Вордстат.

Також ми можемо визначити слова - пустушки, які будуть неефективними для РК.

Key Collector – один із основних інструментів SEO-оптимізатора. Ця програма, створена для підбору семантичного ядра, належить до категорії маст-хев інструментів для просування. Вона така ж важлива, як скальпель для хірурга чи штурвал — для пілота. Адже без ключових слів немислима.

У цій статті розглянемо, що таке Кей Колектор і як працювати з ним.

Для чого потрібний Key Collector

Потім зайдіть в налаштування (кнопка шестерні в панелі у верхньому лівому куті вікна програми) та знайдіть вкладку « Yandex.Direct«.

Натисніть на кнопку " Додати списком» та введіть створені облікові записи у форматі Логін: Пароль.

Увага!додавати @yandex.ru після логіну не потрібно!

Після всіх операцій вийде приблизно таке:

Але це ще не все. Тепер потрібно створити обліковий запис Google AdWords, який буде прив'язаний до даному акаунту Google. Без облікового запису в AdWords отримувати дані за ключовими словами неможливо, оскільки вони беруться саме звідти. Під час створення облікового запису виберіть мову, часовий пояс та валюту. Врахуйте, що ці дані не можна будезмінити.

Після створення облікового запису AdWords знову відкрийте налаштування Key Collector та вкладку « Google.AdWords«. У налаштуваннях рекомендується використовувати лише один обліковий запис Google.

Антикапча

Цей пункт не є обов'язковим, але я все ж таки рекомендую використовувати антикапчу. Звичайно, якщо вам подобається щоразу вводити капчу вручну, справа ваша. Але якщо вам не хочеться витрачати на це свій час, знайдіть в налаштуваннях вкладку «Антикапча», увімкніть радіокнопку «Antigate» (або будь-який інший із запропонованих варіантів) і в полі введіть свій ключ антикачі. Якщо у вас немає ключа, створіть його.

Розпізнавання капчі - це платна послуга, але 10 доларів вистачає щонайменше на місяць. До того ж, якщо ви не займаєтеся парсингом пошукових систем щодня, цієї суми вистачить і на рік.

Проксі

За замовчуванням програма використовує для парсингу вашу основну IP-адресу. Якщо ви користуєтеся Кей Колектором часто вам не потрібно, налаштування проксі можна забити. Але якщо ви часто працюєте з програмою, пошукові системи можуть часто підсовувати вам капчу і навіть тимчасово банити ваш IP. До того ж страждатимуть усі користувачі, які виходять до мережі під загальним IP. Така проблема трапляється, наприклад, в офісах.

Також труднощі при парсингу Яндекса з основного IP можуть зазнавати користувачі з України.

Знайти безкоштовні проксі, які все ще не в лазні пошукових систем, буває досить складно. Якщо у вас є список таких адрес, введіть їх у налаштуваннях у вкладці « Мережа«. Потім натисніть кнопку « Додати рядок«.

Інший варіант – створіть файл із адресами у форматі IP:порт, скопіюйте їх у буфер обміну та додайте в колектор за допомогою кнопки « Додати з буфера«.

Але я рекомендую підключити платний VPN від hidemy.name. У цьому випадку на комп'ютер встановлюється програма, яка включає/вимикає VPN на вимогу. У цьому додатку також можна змінювати проксі та його країну. Додатково не доведеться нічого налаштовувати. Просто вмикаєте VPN і комфортно працюєте з Колектором.

Я перерахував основні настройки, які потрібні для початку роботи. Раджу самостійно пройтись по всіх вкладках та вивчити налаштування програми. Можливо, ви знайдете пункти в налаштуваннях, які будуть потрібні саме вам.

Підбір ключових слів із Key Collector

Нарешті ми дійшли до власне вибору семантичного ядра. У головному вікні програми натисніть велику кнопку « Новий проект«. Раджу назвати файл проекту ім'ям сайту, наприклад site.ru, і зберегти в спеціально створену папку для проектів Key Collector, щоб потім не витрачати час на пошуки.

У Колекторі зручно сортувати ключові слова за групами. Мені зручно, коли ієрархія груп у проекті відповідає майбутній , тому перша група (за замовчуванням) у мене відповідає головній сторінцісайту.

Наприклад попрацюємо з тематикою «створення сайтів Москва». Почнемо з Яндекса.

Спочатку потрібно задати регіон:

Тепер потрібно відкрити Пакетний збір слів із лівої колонки Yandex.Wordstat» і у вікні ввести штук 5 найбільш очевидних в даній тематиці ключових фраз (на їх основі буде проводитися парсинг).

Тепер потрібно натиснути кнопку « Почати збір«.

Все, можна піти заварити каву або перейти на інші завдання. Кей Колектору знадобиться деякий час, щоб спарсити ключові фрази.

В результаті з'явиться приблизно таке:

Стоп-слова

Тепер потрібно відфільтрувати невідповідні в Наразіслова та фрази. Наприклад, поєднання слів «створення сайтів москва безкоштовно» не підійде, оскільки безкоштовних послуг ми не надаємо. Шукати такі фрази вручну в семантичному ядрі на сотні і тисячі запитів заняття вкрай захоплююче, але краще все ж таки скористатися спеціальним інструментом.

Потім потрібно натиснути на плюсик:

Ймовірно, ви помітили, що у програмі є велика кількість різних опцій під час роботи з ключовими словами. Я поясню основні, найпростіші операції в Key Collector.

Робота із частотністю запитів

Після фільтрації за мінус-слів можна запустити парсинг за частотністю.

Зараз ми бачимо лише колонку із загальною частотністю. Щоб отримати точну частотність за кожним ключовим словом, потрібно в Вордстаті ввести його в операторі лапки - ключове слово.

У Колекторі це робиться так:

За потреби можна зібрати частотність із оператором «!слово».

Потім потрібно відсортувати список за частотністю » » та видалити слова із частотністю менше 10 (іноді 20-30).

Другий спосіб зібрати частотність (повільніший):

Якщо ви точно знаєте, що частотність нижче певного значення вас не цікавить, можна встановити поріг у налаштуваннях програми. У цьому випадку фрази з частотністю нижче за поріг взагалі не потраплятимуть до списку. Але так можна упустити перспективні фрази, тому я це налаштування не використовую і вам не раджу. Втім, дійте на власний розсуд.

У результаті виходить більш-менш придатне для подальшої роботи семантичне ядро:

Зверніть увагу, що це семантичне ядро є лише прикладом, створеним лише для демонстрації роботи програми. Воно не годиться під реальний проект, оскільки слабко опрацьовано.

Права колонка Yandex.Wordstat

Іноді є сенс парсити праву колонку Вордстат (запити, схожі на «ваш запит»). Для цього потрібно натиснути на відповідну кнопку:

Google та Key Collector

Запити зі статистики Google псуються за аналогією з Яндексом. Якщо ви створили обліковий запис Google і обліковий запис AdWords (як ми пам'ятаємо, одного лише облікового запису Googleнедостатньо), натисніть на відповідну кнопку:

У вікні, введіть запити, що цікавлять, і запустіть підбір. Все за аналогією з парсингом Вордстат. Якщо необхідно, у цьому вікні вкажіть додаткові налаштуванняСаме для Google (при натисканні на піктограму питання з'явиться довідка).

У результаті ви отримаєте такі дані щодо AdWords:

І зможете продовжити роботу із семантикою.

Висновки

Ми розібрали базові налаштування Key Collector (те, без чого не можна почати працювати). Також ми розглянули найпростіші (та основні) приклади використання програми. І підібрали просте семантичне ядро, використовуючи статистику Яндекс.Вордстат і Google AdWords.

Як ви розумієте, у статті показано приблизно 20% усіх можливостей програми. Щоб освоїти Key Collector, потрібно витратити кілька годин та вивчити офіційний мануал. Але воно того варте.

Якщо після цієї статті ви вирішили, що простіше замовити семантичне ядро у фахівців, ніж розбиратися самому, напишіть мені через сторінку і ми обговоримо деталі.

І бонусне відео: чувак на ім'я Derek Brown віртуозно грає на саксофоні. Я навіть відвідав його концерт під час джаз-фестивалю, це реально круто.

Дорогі друзі, сьогодні я хочу розповісти про те, як ефективно чистити пошукові запити у програмі Key Collector http://www.key-collector.ru/.

Щоб почистити семантичне ядро, я використовую такі способи:

Чищення семантичного ядра за допомогою регулярних виразів.
Видалення за допомогою списку стоп-слів.
Видалення за допомогою груп слів.
Чищення по фільтру.

Їх використання дозволить вам швидко та ефективно почистити список зібраних ключових слів та видалити усі фрази, які не підходять для вашого сайту.

Щоб наочно показати, я вирішив записати відеоурок:

Огляд краще дивитися в повноекранному режиміяк 720 HD. Також не забувайте підписуватись на мій канална YouTube, щоб не пропустити нові відео.

Я покажу кілька способів зробити це. Якщо ви знаєте ще способи – кресліть у коментарях. Всі описані методи я використовую. Вони економлять мені багато часу.

Тож поїхали.

Регулярні висловлювання значно розширюють можливості вибірки запитів і економлять час.

Допустимо, нам потрібно вибрати всі пошукові запити, які містять цифри.

Для цього натискаємо на вказаній іконці в колонці "Фраза":

Вибираємо опцію "задовольняє рег. Виразу" і вставляємо в поле такий регулярний вираз:

Залишається натиснути кнопку "Застосувати" і ви отримаєте список усіх запитів, які містять цифри.

Я люблю застосовувати регулярні висловлювання для пошуку пошукових запитів, які є питаннями.

Наприклад, якщо вказати такий регулярний вираз:

То отримаємо список усіх запитів, які починаються зі слова "як" (а також зі слів "який", "які", "яка"):

Такі запити відмінно підходять для інформаційних статей, навіть якщо комерційний сайт.

Якщо задіяти такий вираз:

безкоштовно$

То отримаємо всі запити, які закінчуються словом "безкоштовно":

Таким чином, можна відразу позбавитися любителів халяви 🙂 . Ні, як можна набирати запит "кондиціонер безкоштовно"? Жага халяви не має меж. Це як у тому анекдоті "Приму Бентлі в дар" 😉 . Гаразд, треба серйозніше.

Якщо нам потрібно знайти всі фрази, які містять літери латинського алфавіту, то знадобиться такий вираз:

Наведу приклади інших регулярних виразів, які використовую:

^(\S+?\s\S+?)$- всі запити, що складаються з 2 слів

^(\S+?\s\S+?\s\S+?)$- що складаються з 3 слів

^(\S+?\s\S+?\s\S+?\s\S+?)$- що складаються з 4 слів

^(\S+?\s\S+?\s\S+?\s\S+?\s\S+?)$- із 5 слів

^(\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?)$- із 6 слів

^(\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?)$- із 7 слів

^(\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?)$- із 8 слів

Пошук за запитами, що складаються з 6 і більше слів, корисний, так як часто вони містять багато сміттєвих фраз.

У програмі є й інша можливість знайти такі запити – просто виберіть у меню, що випадає, потрібний пункт нижче:

2. Список стоп-слів

Для чищення пошукових запитів можна створити список небажаних слів, які ви хочете видалити в зібраних запитах.

Наприклад, якщо у вас комерційний сайт, можна використовувати такі стоп-слова:

безплат

качати

реферат

Я спеціально пишу деякі слова лише частково, щоб охопити усі можливі варіанти. Наприклад, використання стоп-слова "безкоштовно" дозволить не збирати запити, що містять:

безкоштовно

безкоштовний

Стоп-слово "качать" дасть можливість не збирати запити, які включають:

завантажити

качати

У програмі Кей Колектор у вкладці "Збір даних" переходимо до пункту "Стоп-слова":

І додаємо небажані слова через опції "Додати списком" або "Завантажити з файлу":

Перейшовши до основного вікна програми, ми побачимо, скільки запитів зазначено за вказаними стоп-словами:

Залишиться тільки знайти зазначені запити, клацнути по них правою мишкою і вибрати "Видалити зазначені рядки":

Товариші, які хочуть кондиціонери безкоштовно, нас не цікавлять 🙂 .

Можна навіть не шукати приклад зазначеного запиту, а відразу клацнути правою мишкою на будь-якому запиті, навіть який не позначений, і вибрати "Видалити зазначені рядки".

Я також активно використовую як стоп-слова назви міст. Наприклад, мені потрібно зібрати запити лише для Москви. Тому використання стоп-слів із назвами міст дозволить не збирати запити, які містять у собі назви інших міст.

Наведу приклади таких стоп-слів:

санкт

петер

пітер

Усі ці слова дозволять не збирати запити, що містять різні варіантиназви Санкт-Петербурга. Як і в попередньому прикладі, я використовую скорочені варіанти назв міст.

Також раджу використовувати як стоп-слова цифри попередніх років, тому що запити з ними практично ніхто набирати не буде:

Поділюсь з вами своїм списком стоп-слів, який містить:

міста Росії
міста України
міста Білорусії
міста Казахстану

А також мій список загальних стоп-слів (безкоштовний, качат, реферат, pdf і т.д.).

Повний список стоп-слів може отримати будь-хто охочий абсолютно безкоштовно.

Цей метод використовую дуже активно. У будь-якій тематиці будуть запити, які не вдасться видалити за допомогою тих самих стоп-слів або груп слів.

Наприклад, стоп-слова не враховують всієї різноманітності словоформ, які можуть бути.

Допустимо, ваша компанія займається продажем кондиціонерів. При цьому такі послуги, як заправка та ремонт не надає.

При перегляді запитів можна надсилати невідповідні слова до списку стоп-слів за допомогою вказаної іконки:

Але при цьому не буде охоплено запитів, які містять слова "заправити", "заправки" тощо.

Для того, щоб задіяти весь спектр подібних запитів, які ви хочете видалити, і позбавити себе непотрібної роботи, робимо таке.

Під час перегляду списку запитів частина слів не буде охоплена, як у прикладі вище.

Я відкриваю текстовий файлі вписую в нього лише частину від слова "заправка", щоб охопити всі можливі словоформи на його основі:

В результаті отримаю список пошукових запитів з усіма можливими варіантамислова "заправка":

Щоб скинути швидкий фільтр, натисніть на вказану галочку:

Даний метод дозволяє прямо в процесі роботи видаляти всі словоформи запитів, які вам не підходять. Головне використовувати скорочені варіанти слів для максимального охоплення.

У багатьох тематиках деякі методи збирання ключових слів із таких джерел, як, наприклад, пошукові підказки, у результаті дають багато сміттєвих запитів. Підказки теж потрібно використовувати, в них трапляються відмінні ключові слова, але чистити їх теж необхідно.

Для швидкого очищеннятаких запитів має сенс скористатися цим способом.

Клацаємо по вказаній іконці у верхній частині колонки "Джерело":

Після цього вибираєте необхідне джерело. Я зазвичай працюю з підказками різних пошукових систем:

Можна працювати з підказками кожного пошуковика окремо, а можна додати умову:

Застосувати "АБО" замість "І" і вибрати відразу кілька джерел підказок:

У результаті отримайте список запитів із пошукових підказок одразу з кількох джерел – Яндекса, Гугла тощо.

За своїм досвідом можу сказати, що чистити запити за таким списком на основі джерел набагато швидше та ефективніше.

Цей спосіб знають усі. Він полягає у звичайному виділенні одного або декількох запитів галочкою, кліку правою мишкою та виборі пункту "Видалити зазначені рядки":

Цей метод я використовую на завершальній стадії. Після всіх чисток потрібно ще раз переглянути всі запити і видалити вручну ті, які не підходять, але пройшли всі попередні фільтри.

Так сказати, це фінальне "полірування" семантичного ядра 🙂.

І використовує для цього Key Collector, пропоную скористатися базою стоп-слів для очищення сміття. Для всіх інших рекомендую звернутися до мене і тоді вам не доведеться мучитися, розгрібати і групувати тисячі фраз, все це зроблю за вас я 🙂

Бази стоп-слів для Key Collector

Цю базу я зібрав з уривків та уламків стоп-слів для Кей Колектора, які можна знайти на просторах Інтернету. На мій погляд, це найбільш повний списоквсіх мінус-слів, який є на сьогоднішній день, тому рекомендую скористатися ним для чищення семантичного ядра.

Список стоп-слів для KeyCollector по всіх містах Росії, України та Білорусії.
Списки мінус-слів для фільтрації: XXX-тематики, "Зроби сам", ремонт, гумор і т.д.
Список чоловічих та жіночих імен.
Стоп-слова для Кей Колектора розбиті на тематики (!) – тематик правда небагато, проте.

Цих баз дійсно вистачить для очищення 95% сміття, яке зустрічається при зборі семантики, але руками все ж таки доведеться попрацювати все одно. Проте завдяки використанню цих стоп-слів я почав економити годинник часу на очищення ядер, раніше це була відверта побіль!

Почав писати цю статтю досить давно, але перед публікацією виявилося, що мене випередили соратники за професією і виклали практично ідентичний матеріал.

Спочатку я вирішив, що публікувати свою статтю не буду, оскільки тему і без того чудово висвітлили досвідченіші колеги. Михайло Шакін розповів про 9 способів чищення запитів у KC, а Ігор Бакалов зняв відео про аналіз неявних дублів. Однак, через якийсь час, зваживши всі за і проти, дійшов висновку, що, можливо, моя стаття має право на життя і комусь може стати в нагоді – не судіть суворо.

Якщо вам необхідно відфільтрувати велику базу ключових слів, що складається з 200к або 2 мільйонів запитів, ця стаття може вам допомогти. Якщо ж ви працюєте з малими семантичними ядрами, то, швидше за все, стаття не буде для вас особливо корисною.

Розглядатимемо фільтрацію великого семантичного ядра будемо на прикладі вибірки, що складається з 1 мільйона запитів з юридичної теми.

Що нам знадобиться?

Key Collector (Далі KC)
Мінімум 8гб оперативної пам'яті(інакше на нас чекають пекельні гальма, зіпсований настрій, ненависть, злість і річки крові в очних капілярах)
Стоп-слова
Базове знання мови регулярних виразів

Якщо ви зовсім новачок у цій справі і з KC не в найкращих друзях, то рекомендую ознайомитися з внутрішнім функціоналом, описаним на офіційних сторінках сайту. Багато питань відпадуть самі собою, також ви трішки розберетеся в регулярках.

Отже, ми маємо велику базу ключів, які необхідно відфільтрувати. Отримати базу можна за допомогою самостійного парсингу, а також різних джерел, але сьогодні не про це.

Все, що буде описано надалі актуально на прикладі однієї конкретної ніші і не є аксіомою! В інших нішах частина дій та етапів можуть суттєво відрізнятися.! Я не претендую на звання Гуру семантика, а лише поділяюся своїми думками, напрацюваннями та міркуваннями щодо цього.

Крок 1. Видаляємо латинські символи

Видаляємо всі фрази, у яких трапляються латинські символи. Як правило, у таких фраз нікчемна частотка (якщо вона взагалі є) і вони або хибні, або не належать до справи.

Всі маніпуляції з вибірками за фразами робляться через цю заповітну кнопку

Якщо ви взяли мільйонне ядро і дійшли до цього кроку – тут очні капіляри можуть почати лопатися, т.к. на слабких комп'ютерах/ноутбуках будь-які маніпуляції з великим СЯ можуть, повинні і безбожно гальмувати.

Виділяємо/відзначаємо всі фрази та видаляємо.

Крок 2. Видаляємо спец. Символи

Операція аналогічна видаленню латинських символів (можна проводити обидві за раз), проте рекомендую робити все поетапно і переглядати результати очима, а не «рубати з плеча», т.к. Іноді навіть у ніші, про яку ви знаєте, здавалося б, всі зустрічаються смачні запити, які можуть потрапити під фільтр і про які ви могли просто не знати.

Невелика порада, якщо у вас у вибірці зустрічається безліч хороших фраз, але з комою або іншим символом, просто додайте цей символ у виняток і все.

Ще один варіант (самурайський шлях)

Вивантажте всі потрібні фрази зі спецсимволами
Видаліть їх у KC
В будь-якому текстовому редакторізамініть цей символ на пробіл
Завантажте назад.

Тепер фрази чисті, репутація їх відбілена і вибірка за спец. символів їх не торкнеться.

Крок 3. Видаляємо повтори слів

І знову скористаємося вбудованим у KC функціоналом, застосувавши правило

Тут і доповнити нема чим – все просто. Вбиваємо сміття без частки сумніву.

Якщо перед вами стоїть завдання зробити жорстку фільтрацію та видалити максимум сміття, при цьому пожертвувавши якоюсь часткою добрих запитів, то можете всі 3 перші кроки об'єднати в один.

Виглядатиме це так:

ВАЖЛИВО:Не забудьте переключити "І" на "АБО"!

Крок 4. Видаляємо фрази, що складаються з 1 та 7+ слів

Хтось може заперечити і розповісти про крутість однослівників, не питання - залишайте, але в більшості випадків ручна фільтрація однослівників займає дуже багато часу, як правило співвідношення хороший/поганий однослівник - 1/20, не на нашу користь. Та й вбити їх у ТОП через ті методи, для яких я збираю такі ядра з розряду фантастики. Тому, поскрипуючи серцем відправляємо слівця до предків.

Передбачаю питання багатьох, «навіщо довгі фрази видаляти»? Відповідаю, фрази, що складаються з 7 і більше слів здебільшого, мають спамну конструкцію, не мають частотку і загалом утворюють дуже багато дублів, дублів саме тематичних. Наведу приклад, щоб було зрозуміліше.

До того ж частотка у подібних питань настільки мала, що найчастіше місце на сервері коштує дорожче, ніж вихлоп від таких запитів. До того ж, якщо ви переглянете ТОП-и за довгими фразами, то прямих входжень ні в тексті ні в тегах не знайдете, тому використання таких довгих фраз у нашому СЯ – не має сенсу.

Крок 5. Очищення неявних дублів

Попередньо налаштовуємо очищення, доповнюючи своїми фразами, вказую посилання на свій список, якщо є чим доповнити – пишіть, будемо прагнути до досконалості разом.

Якщо цього не зробити, і використовувати список, люб'язно наданий і вбитий у програму творцями KC за умовчанням, то такі результати у нас залишаться в списку, а це, по суті, дуже дублі.

Можемо виконати розумне угруповання, але для того, щоб воно відпрацювало коректно – необхідно зняти частотку. А це, у нашому випадку, не варіант. Т.к. Знімати частоту з 1млн. кеїв, і нехай хоч зі 100к - знадобиться пачка приватних проксей, антикапча і дуже багато часу. Т.к. навіть 20 проксей не вистачить – вже за годину почне вилазити капча, як не крути. І займе ця справа дуже багато часу, до речі, бюджет антикапчі теж пожере неабияк. Та й навіщо взагалі знімати частоту зі сміттєвих фраз, які можна відфільтрувати без особливих зусиль?

Якщо ж ви все-таки хочете відфільтрувати фрази з розумним угрупуванням, знімаючи частотність і поетапно видаляючи сміття, то розписувати процес докладно не буду - дивіться відео, на яке я послався на початку статті.

Ось мої налаштування з очищення та послідовність кроків

Крок 6. Фільтруємо за стоп-словами

На мій погляд - це найбільш нудний пункт, випийте чаю, покуріть цигарку (це не заклик, краще кинути курити і зжерти печінку) і зі свіжими силами сядьте за фільтрацію семантичного ядра за стоп-словами.

Не варто винаходити велосипед і з нуля починати складати списки стоп-слів. Є готові рішення. Зокрема, ось вам, як основа більш, ніж піде.

Раджу скопіювати табличку в загодовуванні власного ПК, а то раптом брати Шестакови вирішать залишити «вашу красу» собі і доступ до файлика прикриють? Як то кажуть «Якщо у вас параноя, це ще не означає, що за вами не стежать…»

Особисто я розгрупував стоп-слова по окремим файламдля тих чи інших завдань приклад на скріншоті.

Файл "Спільний список" містить усі стоп-слова відразу. У Кей Колекторі відкриваємо інтерфейс стоп-слів та підвантажуємо список із файлу.

Я ставлю саме часткове входження та галочку у пункті «Шукати збіги лише на початку слів». Дані налаштування особливо актуальні при величезному обсязі стоп-слів через те, що безліч слів складаються з 3-4 символів. І якщо поставите інші налаштування, то можете відфільтрувати масу корисних і потрібних слів.

Якщо ми не поставимо вищезгадану галочку, то вульгарне стоп-слово «трах» знайдеться у таких фразах як «консультація державного страхування», «як застрахувати вклади» тощо. і т.п. Ось ще приклад, за стоп словом «рб» (республіка Білорусь) буде відзначено величезну кількість фраз, на кшталт «відшкодування шкоди консультація», «подання позову в арбітражному процесі» і т.д. і т.п.

Іншими словами - нам потрібно, щоб програма виділяла лише фрази, де стоп-слова зустрічаються на початку слів.Формулювання вухо ріже, але з пісні слів не викинеш.

Окремо зауважу, що дане налаштуванняпризводить до суттєвого збільшення часу перевірки стоп слів. При великому списку процес може зайняти і 10 і 40 хвилин, а все через цю галочку, яка збільшує час пошуку стоп-слів у фразах у десять, а то й більше разів. Однак це найбільш адекватний варіант фільтрації під час роботи з великим семантичним ядром.

Після того, як ми пройшлися за базовим списком, рекомендую очима переглянути чи не потрапили під роздачу якісь потрібні фрази, а я впевнений, так воно і буде, тому що. загальні списки базових стоп-слів не універсальні і під кожну нішу доводиться опрацьовувати окремо. Ось тут і починаються танці з бубном.

Залишаємо у робочому вікні тільки виділені стоп слів, робиться це так.

Потім натискаємо на «аналіз груп», вибираємо режим «за окремими словами» і дивимося, що зайвого потрапило до нашого списку через невідповідні стоп-слова.

Видаляємо невідповідні стоп-слова та повторюємо цикл. Таким чином, через деякий час ми «заточимо» універсальний загальнодоступний список під наші потреби. Але це ще не все.

Тепер нам необхідно підібрати стоп-слова, які зустрічаються саме в нашій базі. Коли йдеться про величезні бази ключових слів, там завжди є якесь «фірмове сміття», як я його називаю. Причому це може бути зовсім несподіваний набір абсурду і його доводиться позбавлятися в індивідуальному порядку.

Для того, щоб вирішити це завдання ми знову вдамося до функціоналу Аналізу груп, але цього разу пройдемося по всіх фразах, що залишилися в основі, після попередніх маніпуляцій. Відсортуємо за кількістю фраз і очима, так-так, саме ручками та очима, переглянемо всі фрази, до 30-50 у групі. Я маю на увазі другу колонку «у фразах у групі».

Слабонервних поспішу попередити, на перший погляд нескінченний повзунок прокрутки», не змусить вас витратити тиждень на фільтрацію, прокрутіть його на 10% і ви вже дійдете до груп, в яких міститься не більше 30 запитів, а такі фільтрувати варто тільки тим, хто розуміється. у збоченнях.

Прямо з цього вікна ми можемо додавати все сміття в стоп слова (значок щита зліва від селектбоксу).

Замість того, щоб додавати всі ці стоп слова (а їх набагато більше, просто я не хотів додавати довжелезний по вертикалі скріншот), ми витончено додаємо корінь «фільтрації» і відразу відсікаємо всі варіації. В результаті наші списки стоп-слів не розростатимуться до величезних розмірів і що найголовніше, ми не витрачатимемо зайвий час на їх пошук. А на великих обсягах це дуже важливо.

Крок 7. Видаляємо 1 та 2 символьні «слова»

Не можу підібрати точне визначення до даного типупоєднання символів, тому обізвав «словами». Можливо, хтось із тих, хто прочитав статтю, підкаже, який термін підійде краще, І я заміню. Ось такий ось я непрямий.

Багато хто спитає, «навіщо взагалі це робити»? Відповідь проста, дуже часто в таких масивах ключових слів зустрічається сміття за типом:

Загальна ознака таких фраз — 1 або 2 символи, які не мають жодного сенсу (на скріншоті приклад з 1 символом). Ось це ми і фільтруватимемо. Тут є своє підводне каміння, але про все по порядку.

Як прибрати всі слова, що складаються з двох символів?

Для цього використовуємо регулювання

Додаткова порада: Завжди зберігайте шаблони регулярок! Вони зберігаються над рамках проекту, а рамках KC загалом. Тож будуть завжди під рукою.

(^|\s+)(..)(\s+|$) або ж (^|\s)(1,2)(\s|$)

(ст | фз | ук | на | рф | чи | за | ст | не | іп | до | від | за | за | з | про)

Ось мій варіант кастомізуйте під свої потреби.

Другий рядок – це винятки, якщо їх не вписати, всі фрази, де зустрічаються поєднання символів з другого рядка формули, потраплять до списку кандидатів на видалення.

Третій рядок виключає фрази, наприкінці яких трапляється «рф», т.к. Найчастіше це нормальні корисні фрази.

Окремо хочу уточнити, що варіант (^|\s+)(..)(\s+|$) виділятиме все – у тому числі і числові значення. Тоді як регулярка (^|\s)(1,2)(\s|$) – торкнеться лише буквені, за неї окреме спасибі Ігорю Бакалову.

Застосовуємо нашу конструкцію та видаляємо сміттєві фрази.

Як прибрати всі слова, що складаються з одного символу?

Тут все дещо цікавіше і не так однозначно.

Спочатку я спробував застосувати та модернізувати попередній варіант, але в результаті викосити все сміття не вийшло, проте – багатьом підійде саме така схема, спробуйте.

(^|\s+)(.)(\s+|$)

(з | в | і | я | до | у | о)

Традиційно – перший рядок саме регулярне, друге – винятки, третє – виключає ті фрази, у яких перелічені символи зустрічаються на початку фрази. Ну, воно те й логічно, адже перед ними не стоїть прогалини, отже, другий рядок не виключить їхню присутність у вибірці.

А ось другий варіант за допомогою якого я і видаляю всі фрази з односимвольним сміттям, простим і нещадним, яке в моєму випадку допомогло позбутися дуже великого обсягу лівих фраз.

(й | ц | е | н | г | ш | щ | з | х | ъ | ф | ы | а | п | р | л | д | ж | е | ч | м | т | ь | б | ю | )

Я виключив із вибірки всі фрази, де зустрічається «Москв», тому що було дуже багато фраз на кшталт:

а мені воно потрібно самі здогадуєтеся для чого.