यूआरएल के आधार पर सिमेंटिक कोर का स्वचालित संकलन। कुंजी संग्राहक के लिए सुरक्षित शब्द - सबसे संपूर्ण डेटाबेस! कार्यक्रम में उपयोग के लिए अपना खाता तैयार किया जा रहा है

कुंजी संग्राहक का उपयोग करके, आप न केवल सिमेंटिक कोर एकत्र करने की प्रक्रिया को महत्वपूर्ण रूप से सरल बना सकते हैं प्रचार अभियान, बल्कि सबसे पूर्ण और उच्च-गुणवत्ता वाले परिणाम और विश्लेषण प्राप्त करने के लिए भी।

यह ध्यान देने लायक है यह कार्यक्रमयह तैयार डेटाबेस के साथ काम नहीं करता है और मुख्य वाक्यांश उत्पन्न नहीं करता है, बल्कि इसके बजाय आपको सीधे स्रोत सेवाओं से प्रासंगिक जानकारी एकत्र करने की अनुमति देता है।

एप्लिकेशन आपको सबसे लोकप्रिय रूसी-भाषा और विदेशी स्रोतों से जानकारी प्राप्त करने की अनुमति देता है, जिसकी मदद से आप उच्च-आवृत्ति, मध्य-आवृत्ति और निश्चित रूप से, कम-आवृत्ति वाक्यांशों का सबसे पूर्ण चयन प्राप्त कर सकते हैं।

आप प्राप्त परिणामों के साथ या तो प्रोग्राम छोड़े बिना या उन्हें प्रारूप में निर्यात करके काम कर सकते हैं Microsoft Excelया सीएसवी.

फ़िल्टरिंग क्षमताओं और अतिरिक्त पॉप-अप संपादकों के साथ डेटा की एक सुविधाजनक क्लासिक सारणीबद्ध प्रस्तुति आपको अतिरिक्त जानकारी का विश्लेषण करने की अनुमति देती है।

कुंजी संग्राहक का उपयोग न केवल प्रासंगिक विज्ञापन में, बल्कि एसईओ में भी सक्रिय रूप से किया जाता है।

आप कुंजी संग्राहक के साथ क्या कर सकते हैं?

वर्डस्टेट डेटा पार्सिंग यांडेक्स के लिए कुंजी संग्राहक की स्थापना

सबसे पहले आपको निम्नलिखित वेबसाइट पर प्रोग्राम डाउनलोड करना होगा - http://www.key-collector.ru/।

1 प्रोग्राम सेटिंग्स पर जाएं, लेकिन ऐसा करने के लिए आपको बाईं ओर मुख्य प्रोग्राम टूल्स के ब्लॉक में स्थित गियर पर क्लिक करना होगा शीर्ष कोना, चित्र 1 के अनुसार।

चावल। 1 - कार्यक्रम की स्थापना

2 "पार्सिंग" टैब चुनें, जिसमें कई और टैब होंगे, जिसमें से हम Yandex.Direct का चयन करते हैं।

चावल। 2 - Yandex.Direct पार्सिंग की स्थापना

3
हम एक खाता स्थापित कर रहे हैं; ऐसा करने के लिए, आपको यांडेक्स पर एक ईमेल बनाना होगा, जो केवल इस कार्यक्रम के लिए होगा, ताकि यह चित्र 3 के अनुसार अचानक अवरुद्ध न हो जाए।

यह ध्यान देने योग्य है कि Yandex Direct सेवा में बनाए गए खातों के माध्यम से अनिवार्य प्राधिकरण की आवश्यकता होती है।

चावल। 3 - एक Yandex.Direct खाता स्थापित करना

4 सब कुछ सेट हो जाने के बाद, आपको एक नया प्रोजेक्ट शुरू करना होगा, ऐसा करने के लिए आपको "नया प्रोजेक्ट" पर क्लिक करना होगा और इसे चित्र 4 और 5 के अनुसार एक नाम देना होगा।

चावल। 4 - शुरुआत करना

चावल। 5 - परियोजना का नाम

5 हम पार्सिंग क्षेत्र को इंगित करते हैं, इस मामले में क्षेत्र "एकाटेरिनबर्ग" है। ऐसा करने के लिए, आपको प्रोग्राम के निचले भाग में लाल हिस्टोग्राम के विपरीत संबंधित इनपुट फ़ील्ड पर क्लिक करना होगा और चित्र 6 और 7 के अनुसार आवश्यक शहर का चयन करना होगा।

चावल। 6 - क्षेत्र चयन

चावल। 7 - एक क्षेत्र चुनें, उदाहरण के लिए येकातेरिनबर्ग

6 यैंडेक्स वर्डस्टेट से डेटा पार्स करने के लिए प्रोग्राम लॉन्च करें, ऐसा करने के लिए, चित्र 8 के अनुसार, टूलबार में लाल हिस्टोग्राम के रूप में आइकन पर क्लिक करें।

चावल। 8 - पार्सिंग के लिए लॉन्च करें

7वी खुली खिड़की, मुख्य उच्च-आवृत्ति या मध्य-आवृत्ति कुंजी वाक्यांशों की एक सूची दर्ज करें जिन्हें प्रश्नों के सिमेंटिक कोर को संकलित करने के लिए मैन्युअल रूप से चुना गया था और चित्र 9 के अनुसार, "संग्रह प्रारंभ करें" बटन पर क्लिक करें।

चावल। 9 - मुख्य वाक्यांश दर्ज करने के लिए डायलॉग बॉक्स

8
प्रोग्राम को डेटा एकत्र करने में कुछ समय लगेगा।

परिणाम चित्र 10 के अनुसार, बड़ी संख्या में शब्दों की एक सूची है।

संग्रह का समय चयनित क्षेत्र पर भी निर्भर करता है कीवर्ड, यह पता चला है कि समय कई मिनटों से लेकर कई घंटों तक लग सकता है।

चावल। 10 - एकत्रित सभी प्रमुख वाक्यांशों की सूची

9
हम अप्रासंगिक और अप्रभावी शब्दों को साफ़ करते हैं जो भविष्य के विज्ञापन अभियान के लिए परिणाम नहीं देंगे।

बेशक, आप वाक्यांशों को मैन्युअल रूप से फ़िल्टर कर सकते हैं, प्रत्येक पर क्लिक कर सकते हैं और छांट सकते हैं, लेकिन इसमें बहुत समय लगेगा, खासकर जब कई लाख वाक्यांश हों। इसलिए, हम इसके लिए एक विशेष स्टॉप वर्ड फ़िल्टर का उपयोग करेंगे, जिससे समय कम हो जाएगा। आपको चित्र 11 के अनुसार, प्रोग्राम इंटरफ़ेस में स्टॉप वर्ड आइकन पर क्लिक करना होगा।

चावल। 11 - स्टॉपवर्ड फ़िल्टर आइकन

सूची 1 और 2 के साथ 2 टैब हैं। पहली सूची में अनावश्यक स्टॉप शब्द हैं जो किसी भी तरह से परियोजना से संबंधित नहीं हैं, दूसरे टैब में, इसके विपरीत, वे शब्द शामिल हैं जो चित्र के अनुसार परियोजना के लिए फायदेमंद हैं। 12.

चावल। 12 - दो सूची टैब 1 और 2 "शब्द रोकें"

10 हम स्क्रीनशॉट में दिखाए अनुसार सेटिंग्स सेट करते हैं, ऐसी सेटिंग्स आपको सभी वाक्यांशों में मिलान खोजने की अनुमति देती हैं, वाक्यांशों के सभी शब्दों को खोजती हैं, यदि वाक्यांश आंशिक रूप से स्टॉप शब्द से मेल खाता है, तो ऐसे प्रमुख वाक्यांशों को सामान्य रूप से हाइलाइट किया जाएगा तालिका, स्वाभाविक रूप से, यदि आप बटन पर क्लिक करते हैं: "तालिका में चिह्नित करें", चित्र 13 के अनुसार। इसके बाद, तालिका में "वाक्यांशों को चिह्नित करें" पर क्लिक करें।

चावल। 13 - एक "सुरक्षित शब्द" स्थापित करना

11
एक बार "स्टॉप शब्द" की पहचान हो जाने के बाद, चित्र 14 के अनुसार, "डेटा" टैब का चयन करके और "चिह्नित वाक्यांश हटाएं" पर क्लिक करके तालिका में हाइलाइट किए गए वाक्यांशों को सुरक्षित रूप से हटाया जा सकता है।

परिणामस्वरूप, तालिका में वे शब्द शामिल होंगे जो परियोजना के लिए काफी अधिक प्रभावी होंगे।

चावल। 14- अनावश्यक वाक्यांशों को हटाना

12 नकली शब्दों को हटाने के लिए हम मुख्य वाक्यांशों की सटीक आवृत्तियों को लेते हैं। ऐसा करने के लिए, हम Yandex.Direct आँकड़ों का उपयोग करते हैं, जो आपको चित्र 15 के अनुसार बैचों में डेटा एकत्र करने की अनुमति देता है।

चावल। 15 - प्रमुख वाक्यांशों की आवृत्ति एकत्रित करना

निम्नलिखित स्क्रीनशॉट चित्र 16 के अनुसार अनुरोधों के दूसरे कॉलम "आवृत्ति" द्वारा क्रमबद्ध डेटा दिखाता है।

चावल। 16 - आवृत्ति ""

13 इसके बाद, हम चित्र 17 के अनुसार, वाक्यांशों पर आगे काम करने के लिए सभी प्रमुख वाक्यांशों को एक्सेल प्रारूप में अपलोड करते हैं।

चावल। 17 - प्रमुख वाक्यांशों को माइक्रोसॉफ्ट एक्सेल या सीएसवी प्रारूप में निर्यात करें

मौसमी का संग्रह

कार्यक्रम आपको पिछली अवधि में किसी क्वेरी की लोकप्रियता के बारे में जानकारी एकत्र करने, इस डेटा के आधार पर एक ग्राफ़ बनाने और प्राप्त डेटा के आधार पर किसी दिए गए क्वेरी की मौसमीता के बारे में एक धारणा बनाने की अनुमति देता है।

अनुरोध की मौसमीता के बारे में जानकारी एकत्र करने के लिए, चित्र 18 के अनुसार, "कीवर्ड और आंकड़े एकत्रित करना" बटनों के समूह में ग्राफ़ आइकन वाले बटन पर क्लिक करें।

चावल। 18 - मौसमी चिह्न

किसी अनुरोध की मौसमीता के बारे में जानकारी एकत्र करते समय, अंकगणित माध्य आवृत्ति और उसके माध्यिका के मूल्यों की भी गणना की जाती है। आप उस अवधि को बदल सकते हैं जिसके दौरान Yandex.Wordstat संग्रह सेटिंग्स में इन मानों की गणना के लिए आँकड़ों पर विचार किया जाता है।

यदि आवश्यक हो, तो आप आँकड़ों को महीनों के बजाय सप्ताहों के आधार पर समूहित करवा सकते हैं। इस मामले में, लॉन्च चित्र 19 के अनुसार, Yandex.Wordstat मौसमी डेटा संग्रह बटन के ड्रॉप-डाउन मेनू में संबंधित आइटम के माध्यम से किया जाना चाहिए।

चावल। 19 - तालिका में मौसमी का प्रकार

आप चित्र 20 के अनुसार, इस वाक्यांश के अनुरूप सेल पर क्लिक करके मौसमी के बारे में विस्तृत जानकारी देख सकते हैं।

चावल। 20 - मौसमी चार्ट

यदि आवश्यक हो, तो आप सभी वाक्यांशों के लिए विस्तारित आवृत्ति डेटा डाउनलोड कर सकते हैं सीएसवी फ़ाइल. ऐसा करने के लिए, आपको मौसमी संग्रह प्रारंभ बटन के ड्रॉप-डाउन मेनू में संबंधित बटन का उपयोग करना होगा।

Yandex.Metrica सांख्यिकी प्रणाली के काउंटरों से आंकड़ों का संग्रह

कार्यक्रम Yandex.Metrica सांख्यिकी प्रणाली के काउंटरों से आंकड़े एकत्र करने का समर्थन करता है। कुंजी संग्राहक का उपयोग करके, आप एक निर्दिष्ट काउंटर से शब्द और ट्रैफ़िक एकत्र कर सकते हैं।

Yandex.Metrica काउंटर से आँकड़े एकत्र करने की प्रक्रिया

1 "कीवर्ड और आंकड़ों का संग्रह" बटन समूह में सेवा लोगो वाले बटन पर क्लिक करें और आंकड़े 21 और 22 के अनुसार सांख्यिकी प्रणाली में प्राधिकरण डेटा दर्ज करें।

चित्र 21 - Yandex.Metrica सांख्यिकी प्रणाली के काउंटर से आंकड़े एकत्र करने के लिए बटन

* Yandex.Metrica आँकड़े एकत्र करने के लिए, आपको उस खाते में लॉग इन करना होगा जिसके पास उन काउंटरों तक पहुँच हो जहाँ से आँकड़े एकत्र करने की आवश्यकता है। कार्यक्रम Yandex.Metrica आँकड़ों के नियमित और बैच संग्रह दोनों का समर्थन करता है। नियमित संग्रह का उपयोग करते समय, आप या तो ड्रॉप-डाउन सूची से आवश्यक साइट का चयन कर सकते हैं या उसकी आईडी मैन्युअल रूप से दर्ज कर सकते हैं।

2 वह अवधि चुनें जिसके लिए आप आँकड़े प्राप्त करना चाहते हैं। आप चित्र 22 के अनुसार स्वयं अवधि दर्ज कर सकते हैं या एक टेम्पलेट (तिमाही, वर्ष, आदि) का उपयोग कर सकते हैं।

विकल्प "तालिका में मौजूद वाक्यांशों के आंकड़े अपडेट करें" आपको उन वाक्यांशों के रूपांतरण आंकड़े अपडेट करने की अनुमति देता है जो पहले तालिका में मौजूद थे। उदाहरण के लिए, पहले तालिका में "पेन" वाक्यांश जोड़ा गया था। यदि विकल्प अक्षम है, और यद्यपि यह वाक्यांश रिपोर्ट में दिखाई देता है, प्रोग्राम इसके लिए संक्रमण मान रिकॉर्ड नहीं करेगा। यदि विकल्प सक्षम किया गया था, तो प्रोग्राम इस मान को अपडेट कर देगा।
विकल्प "तालिका में नए वाक्यांश न जोड़ें" पिछले विकल्प के अतिरिक्त है। इसे चालू करने से, प्रोग्राम को उन वाक्यांशों को तालिका में जोड़ने से प्रतिबंधित कर दिया जाता है जो पहले वहां नहीं थे। यह उपयोगी हो सकता है यदि आपको तालिका में वाक्यांशों की सूची को नए वाक्यांशों से कम किए बिना, पहले से एकत्रित आँकड़ों के लिए क्लिक-थ्रू डेटा को अपडेट या एकत्र करने की आवश्यकता है, जिसके लिए अतिरिक्त प्रसंस्करण की आवश्यकता हो सकती है।

3 आँकड़े प्राप्त करने की विधि का चयन करें: चित्र 22 के अनुसार सीधे एपीआई का उपयोग करना या प्रोग्राम का दैनिक उपयोग करना।

पहले मामले में, प्रोग्राम केवल Yandex.Metrica API के लिए एक अनुरोध उत्पन्न करता है, जो मापदंडों में संग्रह अवधि की सीमाओं को पार करता है। जवाब में, उसे रूपांतरण आंकड़ों के साथ वाक्यांशों की एक सूची प्राप्त होती है, जिसे तुरंत डेटा तालिका में दर्ज किया जा सकता है। यह मोड तेज़ है, लेकिन परिणामस्वरूप, एपीआई की विशिष्टताओं के कारण कुछ कम-आवृत्ति वाक्यांश प्राप्त नहीं हो सकते हैं।
दूसरे मामले में, प्रोग्राम निर्दिष्ट अवधि के आंकड़ों को दैनिक आधार पर मैन्युअल रूप से देखता है, और फिर, जब संग्रह पूरी तरह से पूरा हो जाता है, तो संक्रमण के मूल्यों की गणना करता है। भागों में दैनिक देखने से कभी-कभी आपको एपीआई की तुलना में अधिक वाक्यांश प्राप्त करने की अनुमति मिलती है सामान्य मोड(कम-आवृत्ति वाक्यांश) उत्पन्न नहीं करता है, लेकिन इसमें काफी अधिक समय लगता है। यह भी ध्यान में रखा जाना चाहिए कि यदि संग्रह प्रक्रिया बाधित हुई, तो संक्रमण और विफलता के आँकड़ों की गणना नहीं की जाएगी। इसलिए, इस मोड के साथ काम करते समय, आपको संग्रह प्रक्रिया पूरी होने तक प्रतीक्षा करनी चाहिए।
विकल्प "कोई वाक्यांश न जोड़ें यदि वह पहले से ही किसी अन्य टैब पर मौजूद है" तब उपयोगी हो सकता है यदि आप नहीं चाहते कि तालिका में वे वाक्यांश शामिल न हों जो पहले से ही अन्य टैब पर संसाधित हो चुके हैं।

Google.Analytics सांख्यिकी प्रणाली के काउंटरों से आंकड़ों का संग्रह

कुंजी संग्राहक कार्यक्रम Google.Analytics सांख्यिकी प्रणाली के काउंटरों से आंकड़े एकत्र करने का समर्थन करता है।

इसका उपयोग करके, आप एक निर्दिष्ट काउंटर से शब्द, विज़िट की संख्या, बाउंस प्रतिशत और लैंडिंग पृष्ठ एकत्र कर सकते हैं।

Google.Analytics काउंटर से आँकड़े एकत्र करने की प्रक्रिया।

1 "कीवर्ड और आंकड़े एकत्रित करना" बटनों के समूह में सेवा लोगो वाले बटन पर क्लिक करें और उसके बाद सांख्यिकी संग्रह विंडो खुल जाएगी गूगल विश्लेषिकी, चित्र 23 के अनुसार।

चित्र.23 - Google.Analytics सांख्यिकी प्रणाली के काउंटर से आंकड़े एकत्र करने के लिए बटन

*Google Analytics आँकड़े एकत्र करने के लिए, आपको उस खाते के लिए एक लॉगिन और पासवर्ड प्रदान करना होगा जिसकी उन काउंटरों तक पहुँच हो जहाँ से आँकड़े एकत्र किए जाएंगे। यदि वांछित है, तो आप "प्रोग्राम सेटिंग्स में प्राधिकरण डेटा सहेजें" विकल्प को सक्षम कर सकते हैं।

अपना लॉगिन और पासवर्ड दर्ज करने के बाद, साइटों के साथ ड्रॉप-डाउन सूची पर क्लिक करें और उस काउंटर का चयन करें जिसके आँकड़े रुचिकर हों।

फिर हम उस अवधि का चयन करते हैं जिसके लिए हम आँकड़े एकत्र करते हैं।

आप चित्र 24 के अनुसार स्वयं अवधि दर्ज कर सकते हैं या एक टेम्पलेट (तिमाही, वर्ष, आदि) का उपयोग कर सकते हैं।

विकल्प "तालिका में मौजूद वाक्यांशों के आंकड़े अपडेट करें" आपको उन वाक्यांशों के रूपांतरण आंकड़े अपडेट करने की अनुमति देता है जो पहले तालिका में मौजूद थे।
विकल्प "तालिका में नए वाक्यांश न जोड़ें" पिछले विकल्प के अतिरिक्त है। इसे चालू करके, आप प्रोग्राम को उन वाक्यांशों को तालिका में जोड़ने से रोक सकते हैं जो पहले वहां नहीं थे। यह उपयोगी हो सकता है यदि आपको तालिका में वाक्यांशों की सूची को नए वाक्यांशों से कम किए बिना, पहले से एकत्रित आँकड़ों के लिए क्लिक-थ्रू डेटा को अपडेट या एकत्र करने की आवश्यकता है, जिसके लिए अतिरिक्त प्रसंस्करण की आवश्यकता हो सकती है।

2 आप आंकड़े प्राप्त करने की विधि भी चुन सकते हैं: चित्र 24 के अनुसार सीधे एपीआई का उपयोग करना या प्रोग्राम का दैनिक उपयोग करना।

पहले मामले में, प्रोग्राम केवल Google.Analytics API के लिए एक अनुरोध उत्पन्न करता है, जो मापदंडों में संग्रह अवधि की सीमाओं को पार करता है। जवाब में, उसे तुरंत रूपांतरणों, बाउंस के% और लैंडिंग पृष्ठों के आंकड़ों के साथ वाक्यांशों की एक सूची प्राप्त होती है, जिसे तुरंत डेटा तालिका में दर्ज किया जा सकता है। यह मोड तेज़ है, लेकिन परिणामस्वरूप, एपीआई की विशिष्टताओं के कारण कुछ कम-आवृत्ति वाक्यांश प्राप्त नहीं हो सकते हैं।
दूसरे मामले में, प्रोग्राम निर्दिष्ट अवधि के आंकड़ों को दैनिक आधार पर मैन्युअल रूप से देखता है, और फिर, जब संग्रह पूरा हो जाता है, तो रूपांतरण मूल्यों और विफलताओं के% की गणना करता है। भागों में दैनिक देखने से कभी-कभी आपको अधिक वाक्यांश प्राप्त करने की अनुमति मिलती है जो एपीआई सामान्य रूप से उत्पन्न नहीं करता है (कम आवृत्ति वाक्यांश), लेकिन इसमें काफी अधिक समय लगता है। यह ध्यान में रखा जाना चाहिए कि यदि संग्रह प्रक्रिया बाधित हुई, तो संक्रमण और विफलता के आँकड़ों की गणना नहीं की जाएगी। इसलिए, इस मोड के साथ काम करते समय, आपको संग्रह प्रक्रिया पूरी होने तक प्रतीक्षा करनी चाहिए।
विकल्प "कोई वाक्यांश न जोड़ें यदि वह पहले से ही किसी अन्य टैब पर मौजूद है" उपयोगी हो सकता है यदि आप चाहते हैं कि तालिका में वे वाक्यांश शामिल न हों जो पहले से ही अन्य टैब पर संसाधित हो चुके हैं।

युक्तियां खोजें

कार्यक्रम छह लोकप्रिय खोज इंजनों से खोज युक्तियों के संग्रह का समर्थन करता है: यांडेक्स, गूगल, मेल, रैम्बलर, निगमा, याहू, यांडेक्स.डायरेक्ट।

रुचि के खोज इंजनों से खोज युक्तियाँ एकत्र करने के लिए, चित्र 25 के अनुसार, "कीवर्ड और आंकड़ों का संग्रह" बटन समूह में तीन बहुरंगी छत्ते के आइकन वाले बटन पर क्लिक करें।

चावल। 25 - "खोज संकेत" बटन

खुलने वाली बैच शब्द प्रविष्टि विंडो में, आप रुचि के वाक्यांशों को मैन्युअल रूप से दर्ज कर सकते हैं या उन्हें फ़ाइल से लोड कर सकते हैं। इस मामले में, आप चुन सकते हैं कि आप प्रत्येक इनपुट वाक्यांश के लिए पार्सिंग परिणाम कहां रखना चाहते हैं: वर्तमान टैब पर या कई टैब पर वितरित। इसके बाद बक्सों को चेक करें खोज इंजन, जिसमें आपको खोजना चाहिए, और जानकारी एकत्र करना शुरू करने के लिए बटन पर क्लिक करना चाहिए ("Yandex.Direct" चेकबॉक्स उपलब्ध होने के लिए, आपको पहले "सेटिंग्स - पार्सिंग - Yandex.Direct" में एक या अधिक खाते पंजीकृत करना होगा) , चित्र 26 के अनुसार।

चित्र 26 - खोज युक्तियाँ एकत्र करने के लिए शब्दों के बैच इनपुट के लिए विंडो

यह ध्यान देने योग्य है कि Yandex.Direct से युक्तियाँ एकत्र करने के लिए अनुरोधों की संख्या की सीमा बहुत कम है। यदि आवश्यक हो तो केवल सीमित संख्या में वाक्यांशों के लिए Yandex.Direct से खोज सुझावों के संग्रह का उपयोग करने की अनुशंसा की जाती है।

"अंत के चयन के साथ" विकल्प आपको इस तथ्य के कारण और भी अधिक संकेत एकत्र करने की अनुमति देता है कि प्रोग्राम स्वचालित रूप से शब्दों के अंत का चयन करेगा।

चित्र 27 के अनुसार, यदि पूर्ण शब्दों को प्रारंभिक शब्दों के रूप में निर्दिष्ट किया गया है, तो अंत पर पुनरावृत्ति करना बेकार है।

चित्र 27 - "खोज युक्तियाँ" स्थापित करना

यह ध्यान देने योग्य है कि आपको अंत का चयन करने के विकल्प को सक्षम करने की आवश्यकता नहीं है जब तक कि स्पष्ट रूप से आवश्यक न हो, क्योंकि इसका उपयोग किए गए अनुरोधों की संख्या और किसी कार्य को पूरा करने में लगने वाले कुल समय को बहुत प्रभावित करता है।

कुंजी संग्राहक समान संग्रह का समर्थन करता है खोज क्वेरीसे खोज के परिणामपीएस यांडेक्स, गूगल, मेल।

रुचि के खोज इंजनों से खोज युक्तियाँ एकत्र करने के लिए, चित्र 28 के अनुसार, "कीवर्ड और आँकड़े एकत्रित करें" बटन समूह में बटन पर क्लिक करें।

चित्र.28 - बटन "कीवर्ड और आँकड़े एकत्र करें"

खुलने वाली बैच शब्द प्रविष्टि विंडो में, आप रुचि के वाक्यांशों को मैन्युअल रूप से दर्ज कर सकते हैं या उन्हें फ़ाइल से लोड कर सकते हैं। इस मामले में, आप चुन सकते हैं कि आप प्रत्येक इनपुट वाक्यांश के लिए पार्सिंग परिणाम कहां रखना चाहते हैं: वर्तमान टैब पर या कई टैब पर वितरित। इसके बाद आपको जिस सर्च इंजन में सर्च करना है उसके बॉक्स को चेक करना होगा और चित्र 29 के अनुसार जानकारी एकत्र करना शुरू करने के लिए बटन पर क्लिक करना होगा।

चित्र.29 - बैच शब्द इनपुट विंडो

सर्वोत्तम शब्द रूप की गणना

मौजूदा कुंजी वाक्यांशों के लिए सर्वोत्तम शब्द प्रपत्र एकत्र करने के लिए, "कीवर्ड और आंकड़ों का संग्रह" बटन समूह में सेवा लोगो वाले बटन पर क्लिक करें और चित्र 30 के अनुसार बटन के ड्रॉप-डाउन मेनू में उपयुक्त आइटम का चयन करें। .

चित्र.30 - बटन "कीवर्ड और आँकड़े एकत्र करें"

प्रमुख वाक्यांशों के लिए एक्सटेंशन का संग्रह

वाक्यांशों की मौजूदा सूची से एक्सटेंशन (नए कुंजी वाक्यांश) एकत्र करना शुरू करने के लिए, "कीवर्ड और आंकड़ों का संग्रह" बटन समूह में सेवा लोगो वाले बटन पर क्लिक करें और बटन के ड्रॉप-डाउन मेनू में उपयुक्त आइटम का चयन करें। चित्र 31 के अनुसार.

चित्र.31 - बटन "कीवर्ड एक्सटेंशन एकत्रित करें"

खुलने वाली बैच प्रविष्टि विंडो में, आप रुचि के शब्दों को मैन्युअल रूप से दर्ज कर सकते हैं या उन्हें फ़ाइल से लोड कर सकते हैं। इस मामले में, आपको यह विकल्प दिया जाता है कि प्रत्येक इनपुट वाक्यांश के लिए पार्सिंग परिणामों को कहां रखा जाए: वर्तमान टैब पर या कई टैब पर वितरित किया जाए। प्रारंभ प्रक्रिया बटन पर क्लिक करने के बाद, प्रोग्राम चित्र 32 के अनुसार, निर्दिष्ट कुंजी वाक्यांशों के लिए डेटा एकत्र करना शुरू कर देगा।

चित्र 32 - बैच वर्ड इनपुट विंडो

यदि आप बड़ी परियोजनाओं (दसियों या सैकड़ों हजारों वाक्यांशों) के साथ काम करते हैं और बैच मोड में वाक्यांश एकत्र करते हैं, तो "सेटिंग्स - इंटरफ़ेस - अन्य" में विकल्प "समूह सम्मिलित करने के बाद तालिका सामग्री को अपडेट न करें और पार्सिंग के दौरान संचालन को अपडेट न करें" हो सकता है। उपयोगी।

इसलिए, यह लेख प्रासंगिक विज्ञापन के लिए कुंजी संग्राहक की क्षमताओं का वर्णन करता है, साथ ही एक कार्य पद्धति का वर्णन करता है कि आप यांडेक्स वर्डस्टेट से पार्स किए गए प्रमुख वाक्यांशों का उपयोग करके एक विज्ञापन अभियान के लिए एक सिमेंटिक कोर (एसईओ में सिमेंटिक कोर बनाना भी आवश्यक है) कैसे बना सकते हैं। .

साथ ही, हम ऐसे नकली शब्दों की पहचान कर सकते हैं जो कजाकिस्तान गणराज्य के लिए अप्रभावी होंगे।

की कलेक्टर मुख्य एसईओ टूल में से एक है। सिमेंटिक कोर का चयन करने के लिए बनाया गया यह प्रोग्राम प्रमोशन के लिए आवश्यक टूल की श्रेणी में शामिल है। यह उतना ही महत्वपूर्ण है जितना एक सर्जन के लिए स्केलपेल या एक पायलट के लिए स्टीयरिंग व्हील। आख़िरकार, कीवर्ड के बिना यह अकल्पनीय है।

इस लेख में हम देखेंगे कि कुंजी संग्राहक क्या है और इसके साथ कैसे काम करें।

कुंजी संग्राहक किसके लिए है?

फिर सेटिंग्स पर जाएं (प्रोग्राम विंडो के ऊपरी बाएं कोने में पैनल में गियर बटन) और " ढूंढें यांडेक्स.डायरेक्ट«.

बटन पर क्लिक करें सूची के अनुसार जोड़ें" और बनाए गए खातों को प्रारूप में दर्ज करें लॉगिन पासवर्ड.

ध्यान!लॉगिन के बाद @yandex.ru जोड़ें कोई ज़रुरत नहीं है!

सभी ऑपरेशनों के बाद आपको कुछ इस तरह मिलेगा:

लेकिन वह सब नहीं है। अब आपको एक अकाउंट बनाना होगा Google Adwords, जिससे बंधा होगा इस खातेगूगल। AdWords खाते के बिना, कीवर्ड पर डेटा प्राप्त करना असंभव होगा, क्योंकि वे वहीं से आते हैं। खाता बनाते समय, अपनी भाषा, समय क्षेत्र और मुद्रा चुनें। कृपया ध्यान दें कि यह डेटा उपलब्ध नहीं होगापरिवर्तन.

अपना AdWords खाता बनाने के बाद, कुंजी संग्राहक सेटिंग फिर से खोलें और “ Google Adwords". यहां सेटिंग्स में केवल एक Google खाते का उपयोग करने की अनुशंसा की जाती है।

एंटीकैप्चा

यह बिंदु अनिवार्य नहीं है, लेकिन फिर भी मैं एंटी-कैप्चा का उपयोग करने की अनुशंसा करता हूं। बेशक, यदि आप हर बार मैन्युअल रूप से कैप्चा दर्ज करना पसंद करते हैं, तो यह आप पर निर्भर है। लेकिन अगर आप इस पर अपना समय बर्बाद नहीं करना चाहते हैं, तो सेटिंग्स में "एंटी-कैप्चा" टैब ढूंढें, "एंटीगेट" रेडियो बटन चालू करें (या कोई अन्य प्रस्तावित विकल्प) और अपनी एंटी-कैप्चा कुंजी दर्ज करें दिखाई देने वाले फ़ील्ड में. यदि आपके पास अभी तक कोई कुंजी नहीं है, तो एक बनाएं।

कैप्चा पहचान है देय सेवा, लेकिन 10 डॉलर कम से कम एक महीने के लिए काफी हैं। इसके अलावा, यदि आप प्रतिदिन खोज इंजनों का विश्लेषण नहीं करते हैं, तो यह राशि एक वर्ष के लिए पर्याप्त होगी।

प्रतिनिधि

डिफ़ॉल्ट रूप से, प्रोग्राम स्क्रैपिंग के लिए आपके मुख्य आईपी पते का उपयोग करता है। यदि आपको बार-बार कुंजी संग्राहक का उपयोग करने की आवश्यकता नहीं है, तो आप प्रॉक्सी सेटिंग्स के बारे में भूल सकते हैं। लेकिन यदि आप अक्सर प्रोग्राम के साथ काम करते हैं, तो खोज इंजन अक्सर आपको कैप्चा दे सकते हैं और यहां तक कि आपके आईपी पर अस्थायी रूप से प्रतिबंध भी लगा सकते हैं। इसके अलावा, एक सामान्य आईपी के तहत इंटरनेट का उपयोग करने वाले सभी उपयोगकर्ताओं को नुकसान होगा। यह समस्या, उदाहरण के लिए, कार्यालयों में होती है।

यूक्रेन के उपयोगकर्ताओं को मुख्य आईपी से यांडेक्स को पार्स करने में भी कठिनाइयों का अनुभव हो सकता है।

मुफ़्त प्रॉक्सी ढूंढना जो अभी भी खोज इंजन द्वारा प्रतिबंधित नहीं हैं, काफी मुश्किल हो सकता है। यदि आपके पास ऐसे पतों की सूची है, तो उन्हें "टैब" की सेटिंग में दर्ज करें जाल". फिर बटन पर क्लिक करें पंक्ति जोड़ें«.

दूसरा विकल्प प्रारूप में पतों के साथ एक फ़ाइल बनाना है आईपी:पोर्ट, उन्हें क्लिपबोर्ड पर कॉपी करें और " का उपयोग करके कलेक्टर में जोड़ें क्लिपबोर्ड से जोड़ें«.

लेकिन मैं Hidemy.name से सशुल्क वीपीएन से जुड़ने की सलाह देता हूं। इस स्थिति में, कंप्यूटर पर एक एप्लिकेशन इंस्टॉल होता है जो मांग पर वीपीएन को चालू/बंद कर देता है। इस एप्लिकेशन में आप प्रॉक्सी और उसके देश को भी बदल सकते हैं। इसके अतिरिक्त, आपको कुछ भी कॉन्फ़िगर करने की आवश्यकता नहीं है. बस वीपीएन चालू करें और कलेक्टर के साथ आराम से काम करें।

मैंने आरंभ करने के लिए आवश्यक बुनियादी सेटिंग्स सूचीबद्ध की हैं। मैं आपको सलाह देता हूं कि आप स्वयं सभी टैब देखें और प्रोग्राम सेटिंग्स का अध्ययन करें। हो सकता है कि आपको सेटिंग्स में वे आइटम मिलें जो आपके लिए सही होंगे।

कुंजी संग्राहक के साथ कीवर्ड का चयन

अंत में, हम सिमेंटिक कोर के वास्तविक चयन पर पहुँच गए हैं। मुख्य प्रोग्राम विंडो में, बड़े बटन पर क्लिक करें " नया काम". मैं आपको सलाह देता हूं कि प्रोजेक्ट फ़ाइल को साइट के नाम के साथ नाम दें, उदाहरण के लिए, site.ru, और इसे कुंजी कलेक्टर परियोजनाओं के लिए विशेष रूप से बनाए गए फ़ोल्डर में सहेजें, ताकि बाद में खोज में समय बर्बाद न हो।

कलेक्टर कीवर्ड को समूहों में क्रमबद्ध करना सुविधाजनक बनाता है। यह मेरे लिए सुविधाजनक है जब किसी प्रोजेक्ट में समूहों का पदानुक्रम भविष्य के समूह से मेल खाता है, इसलिए पहला समूह (डिफ़ॉल्ट समूह) मुझसे मेल खाता है होम पेजसाइट।

उदाहरण के लिए, आइए "वेबसाइट निर्माण मॉस्को" विषय पर काम करें। आइए यांडेक्स से शुरू करें।

सबसे पहले आपको क्षेत्र निर्धारित करना होगा:

अब आपको खोलने की जरूरत है " Yandex.Wordstat के बाएँ कॉलम से शब्दों का बैच संग्रह” और दिखाई देने वाली विंडो में, इस विषय में 5 सबसे स्पष्ट कुंजी वाक्यांश दर्ज करें (विश्लेषण उनके आधार पर किया जाएगा)।

अब आपको " बटन पर क्लिक करना होगा संग्रह करना प्रारंभ करें«.

बस, आप कॉफी बनाने जा सकते हैं या दूसरे काम शुरू कर सकते हैं। के कलेक्टर को प्रमुख वाक्यांशों को पार्स करने में कुछ समय लगेगा।

परिणाम कुछ इस प्रकार होगा:

सुरक्षित शब्द

अब आपको अनुपयुक्त को फ़िल्टर करने की आवश्यकता है इस पलशब्दों और वाक्यांशों। उदाहरण के लिए, "वेबसाइट निर्माण मॉस्को" शब्दों का संयोजन मुक्त करने के लिए» काम नहीं करेगा, क्योंकि हम मुफ़्त सेवाएँ प्रदान नहीं करते हैं। सैकड़ों और हजारों प्रश्नों के लिए सिमेंटिक कोर में ऐसे वाक्यांशों को मैन्युअल रूप से खोजना बेहद रोमांचक है, लेकिन एक विशेष टूल का उपयोग करना बेहतर है।

फिर आपको प्लस चिह्न पर क्लिक करना होगा:

आपने शायद देखा होगा कि कीवर्ड के साथ काम करते समय प्रोग्राम में बड़ी संख्या में विभिन्न विकल्प होते हैं। मैं कुंजी संग्राहक में बुनियादी, सरल संचालन समझाता हूं।

अनुरोध आवृत्ति के साथ कार्य करना

नकारात्मक कीवर्ड द्वारा फ़िल्टर करने के बाद, आप आवृत्ति द्वारा पार्सिंग शुरू कर सकते हैं।

अब हम केवल सामान्य आवृत्ति वाला कॉलम देखते हैं। प्रत्येक कीवर्ड के लिए सटीक आवृत्ति प्राप्त करने के लिए, आपको इसे वर्डस्टेट में उद्धरण ऑपरेटर - "कीवर्ड" में दर्ज करना होगा।

कलेक्टर में यह इस प्रकार किया जाता है:

यदि आवश्यक हो, तो आप "!शब्द" ऑपरेटर के साथ आवृत्ति एकत्र कर सकते हैं।

फिर आपको सूची को आवृत्ति "" के आधार पर क्रमबद्ध करना होगा और 10 (कभी-कभी 20-30) से कम आवृत्ति वाले शब्दों को हटाना होगा।

आवृत्ति एकत्रित करने का दूसरा तरीका (धीमा):

यदि आप निश्चित रूप से जानते हैं कि एक निश्चित मूल्य से नीचे की आवृत्ति में आपकी रुचि नहीं है, तो आप प्रोग्राम सेटिंग्स में एक सीमा निर्धारित कर सकते हैं। इस मामले में, सीमा से नीचे की आवृत्ति वाले वाक्यांशों को सूची में बिल्कुल भी शामिल नहीं किया जाएगा। लेकिन इस तरह आप आशाजनक वाक्यांशों से चूक सकते हैं, इसलिए मैं इस सेटिंग का उपयोग नहीं करता और मैं इसकी अनुशंसा नहीं करता। हालाँकि, अपने विवेक का प्रयोग करें।

परिणाम एक सिमेंटिक कोर है जो कमोबेश बाद के काम के लिए उपयुक्त है:

कृपया ध्यान दें कि यह सिमेंटिक कोर केवल एक उदाहरण है जो केवल यह प्रदर्शित करने के लिए बनाया गया है कि प्रोग्राम कैसे काम करता है। यह वास्तविक परियोजना के लिए उपयुक्त नहीं है, क्योंकि यह खराब रूप से विकसित है।

Yandex.Wordstat का दायां स्तंभ

कभी-कभी वर्डस्टेट के सही कॉलम ("आपके अनुरोध" के समान प्रश्न) को पार्स करना समझ में आता है। ऐसा करने के लिए, उपयुक्त बटन पर क्लिक करें:

गूगल और कुंजी संग्राहक

Google आँकड़ों की क्वेरीज़ को Yandex की तरह ही पार्स किया जाता है। यदि आपने एक Google खाता और एक AdWords खाता (जैसा कि हमें याद है, केवल एक) बनाया है गूगल खातापर्याप्त नहीं है), उपयुक्त बटन पर क्लिक करें:

खुलने वाली विंडो में, अपनी रुचि के प्रश्न दर्ज करें और चयन शुरू करें। सब कुछ वर्डस्टेट पार्सिंग के समान है। यदि आवश्यक हो तो उसी विंडो में इंगित करें अतिरिक्त सेटिंग्सविशेष रूप से Google के लिए (प्रश्न आइकन पर क्लिक करने पर सहायता प्रदर्शित होगी)।

परिणामस्वरूप, आपको AdWords के लिए निम्नलिखित डेटा प्राप्त होगा:

और आप शब्दार्थ के साथ काम करना जारी रख सकते हैं।

निष्कर्ष

हमने इसे सुलझा लिया मूल सेटिंग्सकुंजी संग्राहक (कुछ ऐसा जिसके बिना काम शुरू करना असंभव है)। हमने प्रोग्राम का उपयोग करने के सबसे सरल (और सबसे बुनियादी) उदाहरणों को भी देखा। और हमने Yandex.Wordstat और Google AdWords के आँकड़ों का उपयोग करके एक सरल सिमेंटिक कोर का चयन किया।

जैसा कि आप समझते हैं, आलेख सभी प्रोग्राम क्षमताओं का लगभग 20% दिखाता है। कुंजी संग्राहक में महारत हासिल करने के लिए, आपको कई घंटे बिताने और आधिकारिक मैनुअल का अध्ययन करने की आवश्यकता है। लेकिन ये इसके लायक है।

यदि इस लेख के बाद आप निर्णय लेते हैं कि विशेषज्ञों से सिमेंटिक कोर मंगवाना स्वयं से समझने की तुलना में आसान है, तो पेज के माध्यम से मुझे लिखें और हम विवरण पर चर्चा करेंगे।

और एक बोनस वीडियो: डेरेक ब्राउन नाम का एक व्यक्ति सैक्सोफोन को उत्कृष्टता से बजाता है। मैं जैज़ उत्सव के दौरान उनके संगीत कार्यक्रम में भी गया था, यह वास्तव में अच्छा था।

प्रिय दोस्तों, आज मैं कुंजी कलेक्टर कार्यक्रम http://www.key-collector.ru/ में खोज क्वेरी को प्रभावी ढंग से साफ़ करने के तरीके के बारे में बात करना चाहता हूं।

सिमेंटिक कोर को साफ करने के लिए, मैं निम्नलिखित विधियों का उपयोग करता हूं:

सिमेंटिक कोर का उपयोग करके सफाई करना नियमित अभिव्यक्ति.
स्टॉप शब्दों की सूची का उपयोग करके हटाना।
शब्द समूहों का उपयोग करके हटाना.
फ़िल्टर सफाई.

उनका उपयोग करने से आप एकत्रित कीवर्ड की सूची को जल्दी और कुशलता से साफ़ कर सकेंगे और उन सभी वाक्यांशों को हटा सकेंगे जो आपकी साइट के लिए उपयुक्त नहीं हैं।

सब कुछ स्पष्ट रूप से दिखाने के लिए, मैंने एक वीडियो ट्यूटोरियल रिकॉर्ड करने का निर्णय लिया:

इसमें समीक्षा देखना बेहतर है पूर्ण स्क्रीन मोड 720 एचडी क्वालिटी में। यह भी मत भूलिए मेरे चैनल को सब्सक्राइब करेंयूट्यूब पर ताकि आप नए वीडियो न चूकें।

मैं आपको ऐसा करने के कई तरीके दिखाऊंगा। यदि आप अन्य तरीके जानते हैं, तो कृपया एक टिप्पणी छोड़ें। मैं स्वयं वर्णित सभी विधियों का उपयोग करता हूं। वे मेरा बहुत समय बचाते हैं।

तो चलते हैं।

नियमित अभिव्यक्तियाँ प्रश्नों का चयन करने और समय बचाने की क्षमता में महत्वपूर्ण रूप से विस्तार करती हैं।

मान लीजिए कि हमें उन सभी खोज क्वेरी का चयन करना है जिनमें संख्याएँ हैं।

ऐसा करने के लिए, "वाक्यांश" कॉलम में संकेतित आइकन पर क्लिक करें:

विकल्प "रेगेक्स को संतुष्ट करता है" का चयन करें और फ़ील्ड में निम्नलिखित नियमित अभिव्यक्ति डालें:

आपको बस "लागू करें" बटन पर क्लिक करना है, और आपको उन सभी प्रश्नों की एक सूची प्राप्त होगी जिनमें संख्याएँ शामिल हैं।

मैं ऐसे खोज शब्द ढूंढने के लिए नियमित अभिव्यक्तियों का उपयोग करना पसंद करता हूं जो प्रश्न हैं।

उदाहरण के लिए, यदि आप इस तरह एक रेगुलर एक्सप्रेशन निर्दिष्ट करते हैं:

फिर हमें उन सभी प्रश्नों की एक सूची मिलती है जो "कैसे" शब्द से शुरू होती हैं (साथ ही "कौन सा", "कौन सा", "कौन सा" शब्दों के साथ):

ऐसी क्वेरीज़ सूचनात्मक लेखों के लिए बहुत अच्छी होती हैं, भले ही साइट व्यावसायिक हो।

यदि आप इस अभिव्यक्ति का उपयोग करते हैं:

मुफ़्त$

फिर हमें वे सभी अनुरोध प्राप्त होते हैं जो "मुफ़्त" शब्द के साथ समाप्त होते हैं:

इस प्रकार, आप मुफ्तखोरी प्रेमियों से तुरंत छुटकारा पा सकते हैं :) नहीं, आप "मुफ़्त एयर कंडीशनिंग" अनुरोध कैसे टाइप कर सकते हैं? मुफ़्त चीज़ों की प्यास की कोई सीमा नहीं होती। यह उस मजाक की तरह है "मैं उपहार के रूप में बेंटले स्वीकार करूंगा" 😉। ठीक है, हमें और अधिक गंभीर होने की जरूरत है।

यदि हमें उन सभी वाक्यांशों को ढूंढना है जिनमें लैटिन वर्णमाला के अक्षर शामिल हैं, तो निम्नलिखित अभिव्यक्ति उपयोगी होगी:

यहां मेरे द्वारा उपयोग किए जाने वाले अन्य नियमित अभिव्यक्तियों के उदाहरण दिए गए हैं:

^(\S+?\s\S+?)$- सभी प्रश्न 2 शब्दों से युक्त हैं

^(\S+?\s\S+?\s\S+?)$- 3 शब्दों से मिलकर बना है

^(\S+?\s\S+?\s\S+?\s\S+?)$- 4 शब्दों से मिलकर बना है

^(\S+?\s\S+?\s\S+?\s\S+?\s\S+?)$- 5 शब्दों का

^(\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?)$- 6 शब्दों का

^(\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?)$- 7 शब्दों का

^(\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?)$- 8 शब्दों का

6 या अधिक शब्दों वाली क्वेरीज़ को खोजना उपयोगी है, क्योंकि उनमें अक्सर बहुत सारे बेकार वाक्यांश होते हैं।

प्रोग्राम के पास ऐसे प्रश्नों को खोजने का एक और विकल्प है - बस नीचे दिए गए ड्रॉप-डाउन मेनू से वांछित आइटम का चयन करें:

2. विराम शब्दों की सूची

खोज क्वेरीज़ को साफ़ करने के लिए, उन अवांछित शब्दों की एक सूची बनाना उचित है जिन्हें आप एकत्रित क्वेरीज़ से हटाना चाहते हैं।

उदाहरण के लिए, यदि आपके पास एक व्यावसायिक वेबसाइट है, तो आप निम्नलिखित स्टॉप शब्दों का उपयोग कर सकते हैं:

मुक्त

चट्टान

अमूर्त

मैं सभी संभावित विकल्पों को कवर करने के लिए जानबूझकर कुछ शब्द केवल आंशिक रूप से लिखता हूं। उदाहरण के लिए, स्टॉप शब्द "फ्री" का उपयोग आपको निम्नलिखित वाले अनुरोध एकत्र करने से रोकेगा:

मुक्त करने के लिए

मुक्त

स्टॉप शब्द "डाउनलोड" से उन अनुरोधों को एकत्र न करना संभव हो जाएगा जिनमें शामिल हैं:

डाउनलोड करना

बोलबाला

कुंजी संग्राहक कार्यक्रम में, "डेटा संग्रह" टैब में, "शब्द रोकें" आइटम पर जाएं:

और "सूची के रूप में जोड़ें" या "फ़ाइल से लोड करें" विकल्पों के माध्यम से अवांछित शब्द जोड़ें:

मुख्य प्रोग्राम विंडो पर जाकर, हम देखेंगे कि निर्दिष्ट स्टॉप शब्दों के लिए कितने अनुरोध चिह्नित हैं:

जो कुछ बचा है वह चिह्नित प्रश्नों को ढूंढना है, उन पर राइट-क्लिक करें और "चिह्नित रेखाएं हटाएं" चुनें:

हमें उन कॉमरेडों में कोई दिलचस्पी नहीं है जो मुफ़्त में एयर कंडीशनर चाहते हैं :)

आपको किसी चिह्नित क्वेरी का उदाहरण देखने की भी ज़रूरत नहीं है, बल्कि किसी भी क्वेरी पर तुरंत राइट-क्लिक करें, यहां तक कि वह भी जो चिह्नित नहीं है, और "चिह्नित पंक्तियां हटाएं" चुनें।

मैं स्टॉप वर्ड्स के रूप में भी सक्रिय रूप से शहर के नामों का उपयोग करता हूं। उदाहरण के लिए, मुझे केवल मास्को के लिए अनुरोध एकत्र करने की आवश्यकता है। इसलिए, शहर के नाम के साथ स्टॉप शब्द का उपयोग करने से आप उन क्वेरीज़ को एकत्रित करने से बच जाएंगे जिनमें अन्य शहरों के नाम शामिल हैं।

यहां ऐसे स्टॉप शब्दों के कुछ उदाहरण दिए गए हैं:

सेंट

पीटर

ये सभी शब्द आपको प्रश्नों को एकत्रित करने से बचने की अनुमति देंगे विभिन्न विकल्पसेंट पीटर्सबर्ग के नाम. पिछले उदाहरण की तरह, मैं शहर के नामों के संक्षिप्त संस्करण का उपयोग करता हूँ।

मैं पिछले वर्षों के नंबरों को स्टॉप वर्ड के रूप में उपयोग करने की भी अनुशंसा करता हूं, क्योंकि लगभग कोई भी उनके साथ प्रश्न टाइप नहीं करेगा:

मैं आपके साथ स्टॉप शब्दों की अपनी सूची साझा करूंगा, जिसमें शामिल हैं:

रूस के शहर
यूक्रेन के शहर
बेलारूस के शहर
कजाकिस्तान के शहर

और सामान्य स्टॉप शब्दों की मेरी सूची भी (मुफ़्त, डाउनलोड, सार, पीडीएफ, आदि)।

कोई भी व्यक्ति स्टॉप शब्दों की पूरी सूची बिल्कुल निःशुल्क प्राप्त कर सकता है।

मैं इस पद्धति का बहुत सक्रिय रूप से उपयोग करता हूं। किसी भी विषय में ऐसे प्रश्न होंगे जिन्हें समान स्टॉप शब्दों या शब्दों के समूहों का उपयोग करके हटाया नहीं जा सकता है।

उदाहरण के लिए, स्टॉप शब्द मौजूद विभिन्न प्रकार के शब्द रूपों को ध्यान में नहीं रखते हैं।

मान लीजिए कि आपकी कंपनी एयर कंडीशनर बेचती है। हालाँकि, यह ईंधन भरने और मरम्मत जैसी सेवाएँ प्रदान नहीं करता है।

क्वेरी देखते समय, आप संकेतित आइकन का उपयोग करके अनुचित शब्दों को स्टॉप शब्दों की सूची में भेज सकते हैं:

लेकिन इसमें वे प्रश्न शामिल नहीं होंगे जिनमें "रीफिल", "ईंधन भरना" आदि शब्द शामिल हैं।

समान अनुरोधों की पूरी श्रृंखला का उपयोग करने के लिए जिन्हें आप हटाना चाहते हैं, और स्वयं को अनावश्यक कार्य से बचाने के लिए, निम्न कार्य करें।

प्रश्नों की सूची देखते समय, कुछ शब्द कवर नहीं किए जाएंगे, जैसा कि ऊपर दिए गए उदाहरण में है।

मैं खुला हुँ पाठ फ़ाइलऔर मैं इसमें "ईंधन भरने" शब्द का केवल एक भाग दर्ज करता हूं ताकि इस पर आधारित सभी संभावित शब्द रूपों को शामिल किया जा सके:

परिणामस्वरूप, मुझे सभी खोज प्रश्नों की एक सूची मिल जाएगी संभावित विकल्पशब्द "ईंधन भरना":

त्वरित फ़िल्टर को रीसेट करने के लिए, संकेतित चेकबॉक्स पर क्लिक करें:

यह विधि आपको प्रश्नों के उन सभी शब्द रूपों को सीधे हटाने की अनुमति देती है जो काम करते समय आपके लिए उपयुक्त नहीं हैं। अधिकतम कवरेज के लिए शब्दों के संक्षिप्त संस्करण का उपयोग करना महत्वपूर्ण है।

कई विषयों में, खोज सुझाव जैसे स्रोतों से कीवर्ड एकत्र करने की कुछ विधियाँ बहुत सारी बेकार क्वेरीज़ उत्पन्न करती हैं। आपको टूलटिप्स का उपयोग करने की भी आवश्यकता है, उनमें बेहतरीन कीवर्ड हैं, लेकिन आपको उन्हें साफ़ करने की भी आवश्यकता है।

के लिए त्वरित सफाईऐसे अनुरोधों के लिए, इस पद्धति का उपयोग करना समझ में आता है।

"स्रोत" कॉलम के शीर्ष पर संकेतित आइकन पर क्लिक करें:

उसके बाद, वांछित स्रोत का चयन करें। मैं आमतौर पर विभिन्न खोज इंजनों के सुझावों के साथ काम करता हूं:

आप प्रत्येक खोज इंजन के संकेतों के साथ अलग से काम कर सकते हैं, या आप एक शर्त जोड़ सकते हैं:

"AND" के बजाय "OR" का प्रयोग करें और एक साथ संकेत के कई स्रोतों का चयन करें:

परिणामस्वरूप, आपको एक साथ कई स्रोतों - यांडेक्स, गूगल, आदि से खोज सुझावों से प्रश्नों की एक सूची प्राप्त होगी।

अपने स्वयं के अनुभव से, मैं कह सकता हूं कि स्रोतों के आधार पर ऐसी सूची का उपयोग करके प्रश्नों को साफ़ करना बहुत तेज़ और अधिक कुशल है।

ये तरीका तो हर कोई जानता है. इसमें चेकमार्क के साथ एक या अधिक प्रश्नों का चयन करना, राइट-क्लिक करना और "चयनित पंक्तियां हटाएं" का चयन करना शामिल है:

यह वह विधि है जिसका उपयोग मैं अंतिम चरण में करता हूं। सारी सफ़ाई के बाद, आपको सभी अनुरोधों की फिर से समीक्षा करनी होगी और उन अनुरोधों को मैन्युअल रूप से हटाना होगा जो उपयुक्त नहीं हैं, लेकिन पिछले सभी फ़िल्टर पास कर चुके हैं।

तो बोलने के लिए, यह सिमेंटिक कोर की अंतिम "पॉलिशिंग" है :)

और मैं इसके लिए कुंजी संग्राहक का उपयोग करता हूं, मैं कचरे को साफ करने के लिए स्टॉप शब्दों के डेटाबेस का उपयोग करने का सुझाव देता हूं। बाकी सभी के लिए, मैं मुझसे संपर्क करने की सलाह देता हूं और फिर आपको कष्ट नहीं उठाना पड़ेगा, हजारों वाक्यांशों को सुलझाना और समूह बनाना होगा, मैं आपके लिए यह सब करूंगा :)

कुंजी संग्राहक के लिए शब्द डेटाबेस रोकें

मैंने इस डेटाबेस को कुंजी संग्राहक के लिए सुरक्षित शब्दों के स्क्रैप और टुकड़ों से एकत्र किया, जो इंटरनेट पर पाया जा सकता है। मेरी राय में यह सबसे ज्यादा है पूरी सूचीसभी नकारात्मक कीवर्ड जो आज मौजूद हैं, इसलिए मैं सिमेंटिक कोर को साफ करने के लिए इसका उपयोग करने की दृढ़ता से अनुशंसा करता हूं।

रूस, यूक्रेन और बेलारूस के सभी शहरों के लिए कीकलेक्टर के लिए स्टॉप शब्दों की सूची।
फ़िल्टर करने के लिए नकारात्मक कीवर्ड की सूची: XXX विषय, "इसे स्वयं करें", मरम्मत, हास्य, आदि।
पुरुष और महिला नामों की सूची.
के कलेक्टर के लिए सुरक्षित शब्द विषय के आधार पर विभाजित हैं (!) - वास्तव में बहुत सारे विषय नहीं हैं, लेकिन फिर भी।

ये डेटाबेस वास्तव में शब्दार्थ एकत्र करते समय सामने आने वाले 95% कचरे को साफ करने के लिए पर्याप्त हैं, लेकिन आपको अभी भी अपने हाथों से काम करना होगा। हालाँकि, इन सुरक्षित शब्दों का उपयोग करके, मैंने गुठली साफ करने में लगने वाले घंटों का समय बचाना शुरू कर दिया, जो कि एक बहुत ही कठिन काम था!

मैंने यह लेख काफी समय पहले लिखना शुरू किया था, लेकिन प्रकाशन से ठीक पहले यह पता चला कि पेशे में मेरे सहकर्मी मुझसे आगे थे और उन्होंने लगभग समान सामग्री पोस्ट की थी।

सबसे पहले, मैंने फैसला किया कि मैं अपना लेख प्रकाशित नहीं करूंगा, क्योंकि विषय पहले से ही अधिक अनुभवी सहयोगियों द्वारा अच्छी तरह से कवर किया गया था। मिखाइल शेकिन ने केसी में अनुरोधों को साफ़ करने के 9 तरीकों के बारे में बात की, और इगोर बकालोव ने एक वीडियो फिल्माया अंतर्निहित डुप्लिकेट के विश्लेषण के बारे में. हालाँकि, कुछ समय बाद, सभी पेशेवरों और विपक्षों पर विचार करने के बाद, मैं इस निष्कर्ष पर पहुंचा कि शायद मेरे लेख में जीवन का अधिकार है और यह किसी के लिए उपयोगी हो सकता है - सख्ती से निर्णय न लें।

यदि आपको 200k या 2 मिलियन क्वेरी वाले कीवर्ड के बड़े डेटाबेस को फ़िल्टर करने की आवश्यकता है, तो यह लेख आपकी मदद कर सकता है। यदि आप छोटे सिमेंटिक कोर के साथ काम करते हैं, तो सबसे अधिक संभावना है कि लेख आपके लिए विशेष रूप से उपयोगी नहीं होगा।

हम एक कानूनी विषय पर 1 मिलियन प्रश्नों वाले नमूने के उदाहरण का उपयोग करके एक बड़े सिमेंटिक कोर को फ़िल्टर करने पर विचार करेंगे।

हमें क्या जरूरत है?

मुख्य संग्राहक (इसके बाद केसी के रूप में संदर्भित)
न्यूनतम 8GB रैंडम एक्सेस मेमोरी(अन्यथा हमें नारकीय ब्रेक, खराब मूड, घृणा, क्रोध और आंखों की केशिकाओं में खून की नदियों का सामना करना पड़ेगा)
सामान्य रोक शब्द
नियमित अभिव्यक्ति भाषा का बुनियादी ज्ञान

यदि आप इस व्यवसाय में पूरी तरह से नए हैं और केसी के सबसे अच्छे दोस्त नहीं हैं, तो मैं दृढ़ता से अनुशंसा करता हूं कि आप साइट के आधिकारिक पृष्ठों पर वर्णित आंतरिक कार्यक्षमता से खुद को परिचित कर लें। कई सवाल अपने आप गायब हो जाएंगे और आपको नियमित शेड्यूल के बारे में भी कुछ समझ आ जाएगा.

इसलिए, हमारे पास कुंजियों का एक बड़ा डेटाबेस है जिसे फ़िल्टर करने की आवश्यकता है। आप डेटाबेस को स्वतंत्र पार्सिंग के साथ-साथ विभिन्न स्रोतों से प्राप्त कर सकते हैं, लेकिन आज हम इसके बारे में बात नहीं कर रहे हैं।

जो कुछ भी नीचे वर्णित किया जाएगा वह एक विशिष्ट विषय के उदाहरण के आधार पर प्रासंगिक है और एक स्वयंसिद्ध नहीं है! अन्य क्षेत्रों में, कुछ क्रियाएं और चरण काफी भिन्न हो सकते हैं! मैं सिमेंटिक्स गुरु होने का दिखावा नहीं करता, बल्कि इस मामले पर केवल अपने विचार, निष्कर्ष और विचार साझा करता हूं।

चरण 1. लैटिन अक्षर हटाएँ

हम उन सभी वाक्यांशों को हटा देते हैं जिनमें लैटिन अक्षर हैं। आमतौर पर, ऐसे वाक्यांशों की आवृत्ति नगण्य होती है (यदि कोई हो) और या तो गलत या अप्रासंगिक होते हैं।

वाक्यांशों द्वारा चयन के साथ सभी हेरफेर इस क़ीमती बटन के माध्यम से किए जाते हैं

यदि आपने दस लाखवाँ केन्द्रक लिया और इस चरण तक पहुँचे, तो यहाँ आँख की केशिकाएँ फटने लग सकती हैं, क्योंकि। कमजोर कंप्यूटर/लैपटॉप पर, बड़े प्रतीकों के साथ कोई भी हेरफेर अविश्वसनीय रूप से धीमा हो सकता है, होना भी चाहिए और होगा।

सभी वाक्यांशों को चुनें/चिह्नित करें और हटाएँ।

चरण 2. विशेष निकालें. प्रतीक

यह ऑपरेशन लैटिन वर्णों को हटाने के समान है (आप दोनों एक साथ कर सकते हैं), हालांकि, मैं सब कुछ चरण दर चरण करने और परिणामों को अपनी आंखों से देखने की सलाह देता हूं, न कि "कंधे से काटना", क्योंकि कभी-कभी ऐसे क्षेत्र में भी जिसके बारे में आपको सब कुछ पता होता है, वहां कुछ स्वादिष्ट प्रश्न होते हैं जो फ़िल्टर के अंतर्गत आ सकते हैं और जिनके बारे में आप बिल्कुल नहीं जानते होंगे।

एक छोटी सी सलाह, यदि आपके नमूने में बहुत सारे अच्छे वाक्यांश हैं, लेकिन अल्पविराम या किसी अन्य वर्ण के साथ, तो बस इस वर्ण को अपवादों में जोड़ें और बस इतना ही।

दूसरा विकल्प (समुराई तरीका)

विशेष वर्णों वाले सभी आवश्यक वाक्यांश डाउनलोड करें
उन्हें केसी में हटा दें
मेँ कोई पाठ संपादकइस वर्ण को रिक्त स्थान से बदलें
इसे वापस डाउनलोड करें.

अब छोटे-छोटे वाक्यांश साफ-सुथरे हैं, उनकी प्रतिष्ठा को सफेद कर दिया गया है और एक विशेष चयन किया गया है। उन पर प्रतीकों का कोई प्रभाव नहीं पड़ेगा.

चरण 3. शब्दों की पुनरावृत्ति हटाएँ

और फिर से हम नियम लागू करके केसी में निर्मित कार्यक्षमता का उपयोग करेंगे

यहां जोड़ने के लिए कुछ भी नहीं है - सब कुछ सरल है। हम बिना किसी संदेह के कचरा मार देते हैं।

यदि आपको अच्छे प्रश्नों के कुछ हिस्से का त्याग करते हुए, सख्त फ़िल्टरिंग करने और जितना संभव हो उतना कचरा हटाने के कार्य का सामना करना पड़ता है, तो आप सभी 3 प्रथम चरणों को एक में जोड़ सकते हैं.

यह इस तरह दिखेगा:

महत्वपूर्ण:"AND" को "OR" पर स्विच करना न भूलें!

चरण 4. 1 और 7+ शब्दों वाले वाक्यांश हटाएँ

कोई आपत्ति कर सकता है और एक-शब्द के शब्दों की शीतलता के बारे में बात कर सकता है, कोई समस्या नहीं - इसे छोड़ दें, लेकिन ज्यादातर मामलों में, एक-शब्द के शब्दों को मैन्युअल रूप से फ़िल्टर करने में बहुत समय लगता है, एक नियम के रूप में, अच्छे/बुरे का अनुपात- शब्द शब्द 1/20 है, हमारे पक्ष में नहीं। हां, और उन तरीकों का उपयोग करके उन्हें शीर्ष पर लाने के लिए जिनके लिए मैं विज्ञान कथा की श्रेणी से ऐसी गुठली एकत्र करता हूं। इसलिए हम धड़कते दिल से अपने पूर्वजों को संदेश भेजते हैं।

मैं कई लोगों के इस प्रश्न का पूर्वानुमान लगाता हूँ, "लंबे वाक्यांश क्यों हटाएँ"? मैं उत्तर देता हूं, अधिकांश भाग में 7 या अधिक शब्दों से युक्त वाक्यांशों की संरचना अनचाही होती है, उनकी आवृत्ति नहीं होती है और सामान्य रूप से बहुत सारे डुप्लिकेट बनते हैं, विशेष रूप से विषयगत डुप्लिकेट। मैं इसे स्पष्ट करने के लिए एक उदाहरण दूँगा।

इसके अलावा, ऐसे प्रश्नों की आवृत्ति इतनी कम है कि अक्सर सर्वर स्थान ऐसे अनुरोधों से निकलने वाली लागत से अधिक महंगा होता है। इसके अलावा, यदि आप लंबे वाक्यांशों के लिए शीर्षों को देखते हैं, तो आपको पाठ या टैग में प्रत्यक्ष घटनाएं नहीं मिलेंगी, इसलिए हमारे एसएल में ऐसे लंबे वाक्यांशों का उपयोग करने का कोई मतलब नहीं है।

चरण 5: अंतर्निहित डुप्लिकेट साफ़ करना

हम पहले से सफाई की व्यवस्था करते हैं, अपने स्वयं के वाक्यांश जोड़ते हैं, मेरी सूची के लिए एक लिंक का संकेत देते हैं, यदि आपके पास जोड़ने के लिए कुछ है - लिखें, हम एक साथ पूर्णता के लिए प्रयास करेंगे।

यदि हम ऐसा नहीं करते हैं और केसी के रचनाकारों द्वारा डिफ़ॉल्ट रूप से प्रदान की गई और प्रोग्राम में दर्ज की गई सूची का उपयोग करते हैं, तो ये परिणाम हमारे पास सूची में होंगे, और ये वास्तव में, बहुत डुप्लिकेट हैं।

हम स्मार्ट ग्रुपिंग कर सकते हैं, लेकिन इसके सही ढंग से काम करने के लिए, हमें फ़्रीक्वेंसी को हटाना होगा। और यह, हमारे मामले में, कोई विकल्प नहीं है। क्योंकि 1 मिलियन से आवृत्ति हटाएँ. चाबियाँ, 100k के साथ भी - आपको निजी प्रॉक्सी, एंटी-कैप्चा और बहुत सारे समय की आवश्यकता होगी। क्योंकि यहां तक कि 20 प्रॉक्सी भी पर्याप्त नहीं हैं - एक घंटे के भीतर एक कैप्चा दिखाई देना शुरू हो जाएगा, चाहे आप इसे कैसे भी देखें। और इस मामले में बहुत समय लगेगा; वैसे, एंटी-कैप्चा बजट भी काफी हद तक खा जाएगा। और उन कचरा वाक्यांशों से आवृत्ति क्यों हटाएं जिन्हें बिना अधिक प्रयास के फ़िल्टर किया जा सकता है?

यदि आप अभी भी स्मार्ट ग्रुपिंग के साथ वाक्यांशों को फ़िल्टर करना चाहते हैं, आवृत्तियों को हटा रहे हैं और धीरे-धीरे कचरा हटा रहे हैं, तो मैं इस प्रक्रिया का विस्तार से वर्णन नहीं करूंगा - वह वीडियो देखें जिसे मैंने लेख की शुरुआत में लिंक किया था।

यहां मेरी सफ़ाई सेटिंग और चरण हैं:

चरण 6. स्टॉप शब्दों द्वारा फ़िल्टर करें

मेरी राय में, यह सबसे नीरस बिंदु है, चाय पिएं, सिगरेट पीएं (यह कोई कॉल नहीं है, धूम्रपान छोड़ना और कुकी खाना बेहतर है) और ताजा ऊर्जा के साथ स्टॉप शब्दों का उपयोग करके सिमेंटिक कोर को फ़िल्टर करने के लिए बैठें।

पहिये को फिर से आविष्कार करने और शुरू से ही सुरक्षित शब्दों की सूची संकलित करने की कोई आवश्यकता नहीं है। खाओ तैयार समाधान. विशेष रूप से, यहां आधार के रूप में आपके लिए पर्याप्त से अधिक है।

मैं आपको सलाह देता हूं कि आप साइन को अपने पीसी पर कॉपी कर लें, अन्यथा क्या होगा यदि शेस्ताकोव भाई "आपका आकर्षण" अपने पास रखने और फ़ाइल तक पहुंच बंद करने का निर्णय लेते हैं? जैसा कि कहा जाता है, "सिर्फ इसलिए कि आप पागल हैं इसका मतलब यह नहीं है कि आप पर नज़र नहीं रखी जा रही है..."

व्यक्तिगत रूप से, मैंने स्टॉप शब्दों को असमूहीकृत कर दिया है अलग फ़ाइलेंकुछ कार्यों के लिए, स्क्रीनशॉट में उदाहरण देखें।

"सामान्य सूची" फ़ाइल में एक साथ सभी स्टॉप शब्द शामिल हैं। कुंजी संग्राहक में, स्टॉप वर्ड्स इंटरफ़ेस खोलें और फ़ाइल से सूची लोड करें।

मैं आंशिक प्रविष्टि की जांच करता हूं और "केवल शब्दों की शुरुआत में मिलान खोजें" बॉक्स को चेक करता हूं। ये सेटिंग्स विशेष रूप से तब प्रासंगिक होती हैं जब स्टॉप शब्दों की भारी मात्रा होती है क्योंकि कई शब्दों में 3-4 अक्षर होते हैं। और यदि आप अन्य सेटिंग्स सेट करते हैं, तो आप बहुत सारे उपयोगी और आवश्यक शब्दों को आसानी से फ़िल्टर कर सकते हैं।

यदि हम उपरोक्त बॉक्स को चेक नहीं करते हैं, तो अश्लील स्टॉप शब्द "बकवास" "राज्य बीमा परामर्श", "जमा का बीमा कैसे करें" आदि जैसे वाक्यांशों में पाया जाएगा। और इसी तरह। यहां एक और उदाहरण है, शब्द "आरबी" (बेलारूस गणराज्य) बड़ी संख्या में वाक्यांशों को इंगित करेगा, जैसे "नुकसान के लिए मुआवजा, परामर्श", "मध्यस्थता कार्यवाही में दावा लाना", आदि। और इसी तरह।

दूसरे शब्दों में - हम चाहते हैं कि प्रोग्राम केवल उन वाक्यांशों को हाइलाइट करे जहां शब्दों की शुरुआत में स्टॉप शब्द आते हैं।शब्द कान को दुखाते हैं, लेकिन आप गाने से शब्दों को नहीं हटा सकते।

मैं इसे अलग से नोट करना चाहूंगा यह सेटिंगइससे स्टॉप वर्ड्स की जांच करने में लगने वाले समय में उल्लेखनीय वृद्धि होती है। एक बड़ी सूची के साथ, प्रक्रिया में 10 या 40 मिनट लग सकते हैं, और यह सब इस चेकबॉक्स के कारण है, जो वाक्यांशों में 100-शब्दों के लिए खोज समय को दस या उससे भी अधिक गुना बढ़ा देता है। हालाँकि, बड़े सिमेंटिक कोर के साथ काम करते समय यह सबसे पर्याप्त फ़िल्टरिंग विकल्प है।

मूल सूची का अध्ययन करने के बाद, मेरा सुझाव है कि आप अपनी आंखों से जांच कर लें कि क्या वितरण में कोई आवश्यक वाक्यांश शामिल किया गया था, और मुझे यकीन है कि ऐसा ही होगा, क्योंकि बुनियादी स्टॉप शब्दों की सामान्य सूचियाँ सार्वभौमिक नहीं हैं और प्रत्येक विषय के लिए अलग से काम करना पड़ता है। यहीं से "डफ के साथ नृत्य" शुरू होता है।

हम वर्किंग विंडो में केवल चयनित स्टॉप शब्द ही छोड़ते हैं, यह इस प्रकार किया जाता है।

फिर "समूह विश्लेषण" पर क्लिक करें, "व्यक्तिगत शब्दों द्वारा" मोड का चयन करें और देखें कि अनुचित स्टॉप शब्दों के कारण हमारी सूची में क्या अनावश्यक है।

हम अनुचित स्टॉप शब्द हटाते हैं और चक्र दोहराते हैं। इस प्रकार, कुछ समय बाद हम सार्वभौमिक सार्वजनिक सूची को अपनी आवश्यकताओं के अनुरूप "तैयार" करेंगे। लेकिन यह बिलकुल भी नहीं है।

अब हमें उन स्टॉप शब्दों का चयन करना होगा जो विशेष रूप से हमारे डेटाबेस में पाए जाते हैं। जब कीवर्ड के विशाल डेटाबेस की बात आती है, तो हमेशा कुछ प्रकार का "ब्रांडेड कचरा" होता है, जैसा कि मैं इसे कहता हूं। इसके अलावा, यह बकवास का एक पूरी तरह से अप्रत्याशित सेट हो सकता है और आपको इससे व्यक्तिगत रूप से छुटकारा पाना होगा।

इस समस्या को हल करने के लिए, हम फिर से समूह विश्लेषण कार्यक्षमता का सहारा लेंगे, लेकिन इस बार हम पिछले हेरफेर के बाद डेटाबेस में शेष सभी वाक्यांशों से गुजरेंगे। हम वाक्यांशों की संख्या के आधार पर क्रमबद्ध करेंगे और अपनी आँखों से, हाँ, हाँ, हाँ, अपने हाथों और आँखों से, हम एक समूह में 30-50 तक सभी वाक्यांशों को देखेंगे। मेरा तात्पर्य दूसरे कॉलम "समूह में वाक्यांशों की संख्या" से है।

मैं कमजोर दिल वालों को चेतावनी देने में जल्दबाजी करता हूं, प्रतीत होता है कि अंतहीन स्क्रॉल स्लाइडर आपको फ़िल्टरिंग पर एक सप्ताह बिताने के लिए मजबूर नहीं करेगा, इसे 10% तक स्क्रॉल करें और आप पहले से ही उन समूहों तक पहुंच जाएंगे जिनमें 30 से अधिक प्रश्न नहीं हैं, और ऐसी फ़िल्टरिंग केवल होनी चाहिए ऐसा उन लोगों द्वारा किया जाना चाहिए जो विकृतियों के बारे में बहुत कुछ जानते हैं।

सीधे उसी विंडो से हम सभी कचरे को स्टॉप वर्ड (सेलेक्टबॉक्स के बाईं ओर शील्ड आइकन) में जोड़ सकते हैं।

इन सभी स्टॉप शब्दों को जोड़ने के बजाय (और कई और भी हैं, मैं सिर्फ लंबवत लंबा स्क्रीनशॉट नहीं जोड़ना चाहता था), हम खूबसूरती से रूट "फ़िल्टर" जोड़ते हैं और तुरंत सभी विविधताओं को काट देते हैं। परिणामस्वरूप, हमारी स्टॉप वर्ड सूचियाँ विशाल आकार तक नहीं बढ़ेंगी और, सबसे महत्वपूर्ण बात, हम आइए उन्हें खोजने में अतिरिक्त समय बर्बाद न करें. और बड़ी मात्रा के लिए, यह बहुत महत्वपूर्ण है।

चरण 7. 1 और 2 अक्षर "शब्द" हटाएँ

मुझे इसकी सटीक परिभाषा नहीं मिल रही है इस प्रकारप्रतीकों का संयोजन, इसलिए मैंने उन्हें "शब्द" कहा। शायद लेख पढ़ने वाला कोई व्यक्ति आपको बताएगा कि कौन सा शब्द है बेहतर फिट बैठता है, और मैं इसे बदल दूँगा। मैं इसी तरह जुबान से बंधा हुआ हूं।

कई लोग पूछेंगे, "आख़िर ऐसा क्यों करें"? उत्तर सरल है, अक्सर कीवर्ड की ऐसी सारणी में इस प्रकार का कचरा होता है:

ऐसे वाक्यांशों की एक सामान्य विशेषता 1 या 2 अक्षर हैं जिनका कोई अर्थ नहीं है (स्क्रीनशॉट 1 अक्षर के साथ एक उदाहरण दिखाता है)। यही हम फ़िल्टर करेंगे. यहां ख़तरे हैं, लेकिन सबसे पहले चीज़ें।

2 अक्षरों वाले सभी शब्दों को कैसे हटाएं?

ऐसा करने के लिए हम नियमित अनुक्रम का उपयोग करते हैं

अतिरिक्त युक्ति: अपने नियमित शेड्यूल टेम्प्लेट को हमेशा सहेजें! वे प्रोजेक्ट के भीतर नहीं, बल्कि ढांचे के भीतर सहेजे जाते हैं सामान्य तौर पर के.सी. तो वे हमेशा हाथ में रहेंगे.

(^|\s+)(..)(\s+|$) या (^|\s)(1,2)(\s|$)

(सेंट | एफजेड | यूके | ऑन | आरएफ | क्या | द्वारा | एसटी | नहीं | अन | से | से | के लिए | द्वारा | से | के बारे में)

यहां मेरा संस्करण है, इसे अपनी आवश्यकताओं के अनुरूप अनुकूलित करें।

दूसरी पंक्ति अपवाद है; यदि आप उन्हें दर्ज नहीं करते हैं, तो सूत्र की दूसरी पंक्ति से वर्णों के संयोजन वाले सभी वाक्यांश हटाने के लिए उम्मीदवारों की सूची में शामिल किए जाएंगे।

तीसरी पंक्ति उन वाक्यांशों को बाहर करती है जिनके अंत में "рф" दिखाई देता है, क्योंकि अक्सर ये सामान्य, उपयोगी वाक्यांश होते हैं।

अलग से, मैं स्पष्ट करना चाहूंगा कि विकल्प (^|\s+)(..)(\s+|$) सब कुछ हाइलाइट करेगा - संख्यात्मक मान सहित. जबकि नियमित अभिव्यक्ति (^|\s)(1,2)(\s|$) केवल वर्णमाला वाले को प्रभावित करेगी, इसके लिए इगोर बकालोव को विशेष धन्यवाद।

हम अपना डिज़ाइन लागू करते हैं और कचरा वाक्यांश हटाते हैं।

1 अक्षर वाले सभी शब्द कैसे हटाएं?

यहां सब कुछ कुछ अधिक दिलचस्प है और इतना स्पष्ट नहीं है।

सबसे पहले मैंने पिछले विकल्प को लागू करने और आधुनिकीकरण करने की कोशिश की, लेकिन परिणामस्वरूप सभी कचरे को बाहर निकालना संभव नहीं था, फिर भी, यह विशेष योजना कई लोगों के लिए उपयुक्त होगी, इसे आज़माएँ।

(^|\s+)(.)(\s+|$)

(के साथ | में | और | मैं | से | y | ओ)

परंपरागत रूप से, पहली पंक्ति नियमित होती है, दूसरी पंक्ति अपवाद होती है, तीसरी पंक्ति उन वाक्यांशों को बाहर करती है जिनमें सूचीबद्ध वर्ण वाक्यांश की शुरुआत में होते हैं। खैर, यह तर्कसंगत है, क्योंकि उनके पहले कोई स्थान नहीं है, इसलिए, दूसरी पंक्ति नमूने में उनकी उपस्थिति को बाहर नहीं करेगी।

लेकिन यहां दूसरा विकल्प है, जिसके साथ मैं एक-अक्षर वाले कचरा, सरल और निर्दयी सभी वाक्यांशों को हटा देता हूं, जिसने मेरे मामले में मुझे बहुत बड़ी मात्रा में बाएं हाथ के वाक्यांशों से छुटकारा पाने में मदद की।

(वाई | सी | ई | एन | जी | डब्ल्यू | )

मैंने नमूने से उन सभी वाक्यांशों को बाहर कर दिया जहां "मॉस्को" दिखाई देता है, क्योंकि वहां बहुत सारे वाक्यांश थे जैसे:

लेकिन मुझे इसकी आवश्यकता है, आप अनुमान लगा सकते हैं कि क्यों।