रोबोट txt अनुक्रमणिका प्रतिबंधित आहे. अनुक्रमणिका करण्यापासून पृष्ठ कसे अवरोधित करावे? AJAX वापरून सामग्री लपवत आहे

iOS वर - iPhone, iPod touch 09.05.2019
iOS वर - iPhone, iPod touch

Robots.txt ही एक सेवा फाइल आहे जी शोध इंजिनांसाठी वेब दस्तऐवजांच्या सामग्रीवर प्रवेश प्रतिबंधित करण्यासाठी शिफारस म्हणून काम करते. या लेखात आम्ही Robots.txt सेट करणे, निर्देशांचे वर्णन करणे आणि लोकप्रिय CMS साठी ते तयार करणे पाहू.

ही रोबोट फाइल तुमच्या साइटच्या रूट निर्देशिकेत आहे आणि ती साध्या नोटपॅडने उघडली/संपादित केली जाऊ शकते, मी Notepad++ शिफारस करतो. ज्यांना वाचायला आवडत नाही त्यांच्यासाठी एक VIDEO आहे, लेखाचा शेवट पहा 😉

आम्हाला robots.txt ची गरज का आहे?

मी वर म्हटल्याप्रमाणे, robots.txt फाईल वापरून आम्ही शोध बॉट्सचा प्रवेश दस्तऐवजांपर्यंत मर्यादित करू शकतो, उदा. आम्ही साइटच्या अनुक्रमणिकेवर थेट प्रभाव टाकतो. बर्याचदा ते अनुक्रमित करण्यापासून अवरोधित केले जातात:

  • सेवा फायली आणि CMS फोल्डर
  • डुप्लिकेट
  • वापरकर्त्यासाठी उपयुक्त नसलेले दस्तऐवज
  • अद्वितीय पृष्ठे नाहीत

चला एक विशिष्ट उदाहरण पाहू:

शूज विकणारे ऑनलाइन स्टोअर लोकप्रिय सीएमएसपैकी एकावर लागू केले जाते, आणि सर्वोत्तम मार्गाने नाही. मी ताबडतोब सांगू शकतो की शोध परिणामांमध्ये शोध पृष्ठे, पृष्ठांकन, एक शॉपिंग कार्ट, काही इंजिन फायली इत्यादींचा समावेश असेल. या सर्व डुप्लिकेट आणि सेवा फायली असतील ज्या वापरकर्त्यासाठी निरुपयोगी आहेत. म्हणून, ते अनुक्रमित करण्यापासून बंद केले पाहिजेत आणि जर एखादा “बातम्या” विभाग देखील असेल ज्यामध्ये स्पर्धकांच्या साइटवरील विविध मनोरंजक लेख कॉपी आणि पेस्ट केले असतील तर त्याबद्दल विचार करण्याची गरज नाही, आम्ही ते लगेच बंद करतो.

म्हणून, आम्ही robots.txt फाईल तयार करण्याचे सुनिश्चित करतो जेणेकरून निकालांमध्ये कोणताही कचरा येणार नाही. फाइल http://site.ru/robots.txt वर उघडली पाहिजे हे विसरू नका.

Robots.txt निर्देश आणि कॉन्फिगरेशन नियम

वापरकर्ता-एजंट.हे विशिष्ट शोध इंजिन रोबोट किंवा सर्व रोबोट्ससाठी आवाहन आहे. जर विशिष्ट रोबोट नाव निर्दिष्ट केले असेल, उदाहरणार्थ “YandexMedia”, तर त्यासाठी सामान्य वापरकर्ता-एजंट निर्देश वापरले जात नाहीत. लेखन उदाहरण:

वापरकर्ता-एजंट: YandexBot Disallow: /cart # फक्त मुख्य Yandex अनुक्रमणिका रोबोट वापरेल

परवानगी नाकारणे/अनुमती देणे.विशिष्ट दस्तऐवज किंवा विभाग अनुक्रमित करण्यासाठी ही एक प्रतिबंध/परवानगी आहे. लिहिण्याच्या क्रमाने काही फरक पडत नाही, परंतु 2 निर्देश आणि समान उपसर्ग असल्यास, “अनुमती द्या” ला प्राधान्य दिले जाते. शोध रोबोट त्यांना उपसर्गाच्या लांबीनुसार, सर्वात लहान ते मोठ्यापर्यंत वाचतो. जर तुम्हाला पृष्ठाचे अनुक्रमण अक्षम करायचे असेल, तर फक्त त्याचा सापेक्ष मार्ग प्रविष्ट करा (नाकार द्या: /blog/post-1).

वापरकर्ता-एजंट: Yandex Disallow: / Allow: /articles # आम्ही साइट इंडेक्सिंग प्रतिबंधित करतो, 1 विभागातील लेख वगळता

* आणि $ सह नियमित अभिव्यक्ती.तारका म्हणजे वर्णांचा कोणताही क्रम (रिक्त असलेल्यांसह). डॉलर चिन्हाचा अर्थ व्यत्यय. वापरण्याची उदाहरणे:

नामंजूर करा: /page* # सर्व पृष्ठे, बांधकामांना प्रतिबंधित करते http://site.ru/page नाकारते: /arcticles$ # केवळ पृष्ठ http://site.ru/articles प्रतिबंधित करते, पृष्ठांना परवानगी देते http://site.ru/ लेख/नवीन

साइटमॅप निर्देश.तुम्ही ते वापरत असल्यास, robots.txt मध्ये ते याप्रमाणे सूचित केले जावे:

साइटमॅप: http://site.ru/sitemap.xml

होस्ट निर्देश.आपल्याला माहिती आहे की, साइट्समध्ये आरसे आहेत (आम्ही वाचतो,). हा नियम शोध बॉटला तुमच्या संसाधनाच्या मुख्य मिररकडे निर्देशित करतो. यांडेक्सचा संदर्भ देते. जर तुमच्याकडे डब्ल्यूडब्ल्यूडब्ल्यूशिवाय आरसा असेल तर लिहा:

होस्ट: site.ru

क्रॉल-विलंब.तुमचे दस्तऐवज डाउनलोड करणाऱ्या बॉटमधील विलंब (सेकंदांमध्ये) सेट करते. हे नाकारणे/अनुमती देण्याच्या निर्देशांनंतर लिहिलेले आहे.

क्रॉल-विलंब: 5 सेकंदात 5 # कालबाह्य

स्वच्छ-परम.शोध बॉटला सूचित करते की अतिरिक्त डुप्लिकेट माहिती डाउनलोड करण्याची आवश्यकता नाही (सत्र अभिज्ञापक, संदर्भकर्ते, वापरकर्ते). क्लीन-परम डायनॅमिक पृष्ठांसाठी निर्दिष्ट केले पाहिजे:

Clean-param: ref /category/books # आम्ही सूचित करतो की आमचे पृष्ठ मुख्य आहे, आणि http://site.ru/category/books?ref=yandex.ru&id=1 समान पृष्ठ आहे, परंतु पॅरामीटर्ससह

मुख्य नियम: robots.txt हे लोअरकेसमध्ये लिहिलेले आणि साइटच्या रूटमध्ये असले पाहिजे. उदाहरण फाइल संरचना:

वापरकर्ता-एजंट: Yandex Disallow: /cart परवानगी द्या: /cart/images साइटमॅप: http://site.ru/sitemap.xml होस्ट: site.ru क्रॉल-विलंब: 2

मेटा रोबोट टॅग आणि ते कसे लिहिले जाते

पृष्ठांवर बंदी घालण्याचा हा पर्याय Google शोध इंजिनद्वारे अधिक चांगल्या प्रकारे विचारात घेतला जातो. यांडेक्स दोन्ही पर्यायांना तितकेच चांगले विचारात घेते.

यात 2 निर्देश आहेत: फॉलो/नोफॉलोआणि निर्देशांक/नोइंडेक्स. ही खालील लिंक्सची परवानगी/प्रतिबंध आणि दस्तऐवज अनुक्रमणिकेची परवानगी/प्रतिबंध आहे. निर्देश एकत्र लिहिले जाऊ शकतात, खालील उदाहरण पहा.

कोणत्याही वैयक्तिक पृष्ठासाठी तुम्ही टॅगमध्ये लिहू शकता खालील:

लोकप्रिय CMS साठी robots.txt फायली दुरुस्त करा

वर्डप्रेससाठी Robots.txt चे उदाहरण

खाली तुम्ही या SEO ब्लॉगवरून माझी आवृत्ती पाहू शकता.

वापरकर्ता-एजंट: Yandex Disallow: /wp-content/uploads/ परवानगी द्या: /wp-content/uploads/*/*/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow : /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback नाकारणे: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?. xml

मी ट्रॅकबॅक प्रतिबंधित करतो कारण ते टिप्पण्यांमधील लेखाचा एक भाग डुप्लिकेट करते. आणि जर बरेच ट्रॅकबॅक असतील, तर तुम्हाला एकसारख्या टिप्पण्यांचा समूह मिळेल.

मी कोणत्याही CMS चे सर्व्हिस फोल्डर आणि फाइल्स बंद करण्याचा प्रयत्न करतो, कारण... मला त्यांचा निर्देशांकात समावेश करावा असे वाटत नाही (जरी शोध इंजिने ते घेत नाहीत, परंतु ते आणखी वाईट होणार नाही).

फीड बंद केले पाहिजे कारण... ही आंशिक किंवा पूर्ण डुप्लिकेट पृष्ठे आहेत.

आम्ही टॅग वापरत नसल्यास किंवा ते ऑप्टिमाइझ करण्यात आळशी असल्यास आम्ही बंद करतो.

इतर CMS साठी उदाहरणे

इच्छित CMS साठी योग्य रोबोट डाउनलोड करण्यासाठी, फक्त योग्य दुव्यावर क्लिक करा.

जेव्हा जेव्हा एखादी साइट ऍक्सेस केली जाते तेव्हा रोबोट्स प्रथम robots.txt फाइल शोधतात आणि वाचतात. यात रोबोटच्या वर्तनावर नियंत्रण ठेवणारे विशेष निर्देश आहेत. या फाईलची अनुपस्थिती आणि तिचे चुकीचे कॉन्फिगरेशन या दोन्हीमुळे कोणत्याही साइटसाठी छुपा धोका येऊ शकतो. मी सर्वसाधारणपणे robots.txt सेट करण्याच्या समस्येचा आणि विशेषतः वर्डप्रेस CMS साठी अधिक तपशीलवार अभ्यास करण्याचा प्रस्ताव देतो आणि सामान्य त्रुटींकडे देखील लक्ष देतो.

Robots.txt फाइल आणि रोबोट अपवाद मानक

सर्व शोध इंजिनांना रोबोट अपवर्जन मानकानुसार विशेष फाइलमध्ये लिहिलेल्या सूचना समजतात. या हेतूंसाठी, साइटच्या रूट निर्देशिकेत स्थित robots.txt नावाची नियमित मजकूर फाइल वापरली जाते. योग्यरित्या ठेवल्यास, डोमेन पत्त्यानंतर /robots.txt जोडून या फाईलची सामग्री कोणत्याही वेबसाइटवर पाहिली जाऊ शकते. उदाहरणार्थ, .

रोबोट्ससाठीच्या सूचना तुम्हाला फाइल्स/डिरेक्टरी/पेजेस स्कॅन करण्यास मनाई करतात, साइटवर प्रवेशाची वारंवारता मर्यादित करतात, मिरर आणि XML नकाशा निर्दिष्ट करतात. प्रत्येक सूचना पुढील स्वरूपात नवीन ओळीवर लिहिली आहे:

[निर्देश]: [मूल्य]

निर्देशांची संपूर्ण यादी विभागांमध्ये (प्रविष्टी) विभागली गेली आहे, एक किंवा अधिक रिक्त ओळींनी विभक्त केली आहे. एक नवीन विभाग एक किंवा अधिक वापरकर्ता-एजंट सूचनांसह सुरू होतो. एंट्रीमध्ये कमीत कमी एक वापरकर्ता-एजंट आणि एक नाकारण्याचे निर्देश असणे आवश्यक आहे.

# (हॅश) चिन्हानंतरचा मजकूर एक टिप्पणी मानला जातो आणि शोध रोबोट्सद्वारे त्याकडे दुर्लक्ष केले जाते.

वापरकर्ता-एजंट निर्देश

वापरकर्ता-एजंट— विभागातील पहिला निर्देश, ज्या रोबोट्ससाठी खालील नियम अभिप्रेत आहेत त्यांच्या नावांचा अहवाल देतो. मूल्यातील तारका कोणतेही नाव दर्शवते, सर्व रोबोट्ससाठी निर्देशांसह फक्त एक विभाग अनुमत आहे. उदाहरण:

# सर्व रोबोट्ससाठी सूचना वापरकर्ता-एजंट: * ... # Yandex रोबोट्ससाठी सूचना वापरकर्ता-एजंट: Yandex ... # Google रोबोट्ससाठी सूचना वापरकर्ता-एजंट: Googlebot ...

निर्देश नाकारणे

नकार द्या— एक मूलभूत निर्देश जे URL/फाईल्स/डिरेक्टरी स्कॅन करण्यास प्रतिबंधित करते ज्यांची नावे कोलन नंतर निर्दिष्ट केलेल्या नावांशी पूर्णपणे किंवा अंशतः जुळतात.

Yandex आणि Google सारखे प्रगत शोध रोबोट विशेष वर्ण * (तारका) समजतात, जे वर्णांचा कोणताही क्रम दर्शवितात. सर्व रोबोट्ससाठी एका विभागात प्रतिस्थापन वापरणे उचित नाही.

परवानगी नाकारण्याच्या निर्देशाची उदाहरणे:

# रिक्त मूल्य "wp-" वर्णांपासून सुरू होणाऱ्या सर्व फायली आणि/किंवा निर्देशिकांना क्रॉल करण्यास अनुमती देते वापरकर्ता-एजंट: * अनुमती द्या: /wp- # फायली स्कॅन करणे प्रतिबंधित करते page-1.php, page-vasya.php, page- news-345.php # * User-agent: * Disallow: /page-*.php ऐवजी वर्णांचा कोणताही क्रम वापरला जाऊ शकतो

निर्देशांना अनुमती द्या (अनधिकृत)

परवानगी द्यानिर्दिष्ट संसाधनांचे स्कॅनिंग करण्यास अनुमती देते. अधिकृतपणे, हा निर्देश रोबोट अपवाद मानकांमध्ये समाविष्ट केलेला नाही, म्हणून तो सर्व रोबोट्ससाठी (वापरकर्ता-एजंट: *) विभागात वापरणे उचित नाही. वापराचे एक उत्कृष्ट उदाहरण म्हणजे डिरेक्ट्रीमधील संसाधनांना अनुमती देणे ज्याला आधी रेंगाळण्यास नकार निर्देशाद्वारे अनुक्रमित करण्यापासून प्रतिबंधित केले होते:

# /catalog # ने सुरू होणारी संसाधने स्कॅन करण्यास प्रतिबंधित करते परंतु /catalog/page.html पृष्ठ स्कॅन करण्यास अनुमती देते वापरकर्ता-एजंट: Yandex Disallow: /catalog Allow: /catalog/page.html

साइटमॅप (अनधिकृत)

साइट मॅप— XML फॉरमॅटमध्ये साइटमॅप पत्ता दर्शविणारा निर्देश. या निर्देशाचे अपवाद मानकांमध्ये वर्णन देखील केलेले नाही आणि सर्व रोबोट्सद्वारे समर्थित नाही (Yandex, Google, Ask, Bing आणि Yahoo साठी कार्य करते). आपण एक किंवा अधिक कार्ड निर्दिष्ट करू शकता - सर्व खात्यात घेतले जातील. रिकाम्या ओळीनंतर वापरकर्ता-एजंटशिवाय वापरले जाऊ शकते. उदाहरण:

# XML स्वरूपात एक किंवा अधिक नकाशे, पूर्ण URL दर्शविला आहे साइटमॅप: http://sitename.com/sitemap.xml साइटमॅप: http://sitename.com/sitemap-1.xml

होस्ट निर्देश (केवळ यांडेक्स)

यजमान— यांडेक्स रोबोटसाठी निर्देश, साइटचा मुख्य आरसा दर्शवितो. यांडेक्सच्या मदतीमध्ये मिररच्या समस्येचा अधिक तपशीलवार अभ्यास केला जाऊ शकतो. ही सूचना Yandex रोबोट्सच्या विभागात किंवा वापरकर्ता-एजंटशिवाय स्वतंत्र एंट्री म्हणून सूचित केली जाऊ शकते (सूचना क्रॉस-सेक्शनल आहे आणि कोणत्याही परिस्थितीत Yandex द्वारे विचारात घेतले जाईल आणि इतर रोबोट त्याकडे दुर्लक्ष करतील). एका फाईलमध्ये होस्ट अनेक वेळा निर्दिष्ट केले असल्यास, फक्त प्रथमच विचारात घेतले जाईल. उदाहरणे:

# Yandex वापरकर्ता-एजंटसाठी विभागात मुख्य मिरर निर्दिष्ट करा: Yandex Disallow: होस्ट: sitename.com # SSL प्रमाणपत्र असलेल्या साइटसाठी मुख्य मिरर वापरकर्ता-एजंट: Yandex Disallow: होस्ट: https://sitename.com # किंवा रिकाम्या ओळीनंतर वापरकर्ता-एजंटशिवाय स्वतंत्रपणे होस्ट: sitename.com

इतर निर्देश

यांडेक्स रोबोट्स क्रॉल-विलंब आणि क्लीन-परम निर्देश देखील समजतात. मदत दस्तऐवजात त्यांच्या वापराबद्दल अधिक वाचा.

रोबोट, robots.txt निर्देश आणि शोध इंजिन निर्देशांक

पूर्वी, शोध रोबोट्सने robots.txt निर्देशांचे पालन केले आणि निर्देशांकात "निषिद्ध" संसाधने जोडली नाहीत.

आज गोष्टी वेगळ्या आहेत. जर Yandex आज्ञाधारकपणे निर्देशांकातून रोबोट फाईलमध्ये प्रतिबंधित पत्ते वगळले तर Google पूर्णपणे वेगळ्या पद्धतीने कार्य करेल. तो निश्चितपणे त्यांची अनुक्रमणिका जोडेल, परंतु शोध परिणामांमध्ये शिलालेख असेल " robots.txt फाइलमधील निर्बंधांमुळे वेब पृष्ठाचे वर्णन उपलब्ध नाही".

Google इंडेक्समध्ये robots.txt मध्ये प्रतिबंधित असलेली पृष्ठे का जोडते?

याचं उत्तर गुगलच्या छोट्या ट्रिकमध्ये आहे. तुम्ही वेबमास्टर मदत काळजीपूर्वक वाचल्यास, सर्वकाही स्पष्ट होईल:

Google निर्लज्जपणे अहवाल देतो की robots.txt मधील निर्देश शिफारशी आहेत, कृती करण्यासाठी थेट आदेश नाहीत.

याचा अर्थ असा की रोबोट निर्देश विचारात घेतो, परंतु तरीही त्याच्या स्वत: च्या मार्गाने कार्य करतो. आणि जर त्याला त्याची लिंक दिसली तर तो robots.txt मध्ये निषिद्ध असलेल्या अनुक्रमणिकेत एक पृष्ठ जोडू शकतो.

robots.txt वर पत्ता जोडल्याने तो Google च्या शोध इंजिन इंडेक्समधून वगळला जाईल याची हमी देत ​​नाही.

Google अनुक्रमणिका + चुकीचे robots.txt = डुप्लिकेट

इंटरनेटवरील जवळजवळ प्रत्येक मार्गदर्शक म्हणतो की robots.txt मधील पृष्ठे बंद केल्याने त्यांना अनुक्रमित होण्यापासून प्रतिबंधित करते.

यापूर्वीही असेच होते. परंतु आम्हाला आधीच माहित आहे की अशी योजना आज Google साठी कार्य करत नाही. आणि सर्वात वाईट म्हणजे अशा शिफारसींचे पालन करणारे प्रत्येकजण एक मोठी चूक करतो - बंद URL अनुक्रमणिकेमध्ये संपतात आणि डुप्लिकेट म्हणून चिन्हांकित केले जातात, डुप्लिकेट सामग्रीची टक्केवारी सतत वाढत आहे आणि लवकरच किंवा नंतर साइटला पांडा फिल्टरद्वारे शिक्षा केली जाते.

Google त्याच्या संसाधन निर्देशांकातून वेबसाइट वगळण्यासाठी दोन खरोखर कार्यक्षम पर्याय ऑफर करते:

  1. पासवर्डसह बंद करणे(.doc, .pdf, .xls आणि इतर सारख्या फाइल्सना लागू होते)
  2. noindex विशेषतासह रोबोट मेटा टॅग जोडणेव्ही (वेब पृष्ठांवर लागू होते):

मुख्य गोष्ट विचारात घ्या:

तुम्ही वरील मेटा टॅग एका वेब पेजवर जोडल्यास जे अनुक्रमणिका प्रतिबंधित करते आणि त्याव्यतिरिक्त robots.txt मध्ये समान पृष्ठ क्रॉल करण्यास प्रतिबंधित करते, मग Google रोबोट निषिद्ध मेटा टॅग वाचण्यास सक्षम होणार नाही आणि अनुक्रमणिकेत पृष्ठ जोडेल!
(म्हणूनच तो शोध परिणामांमध्ये लिहितो की वर्णन robots.txt मध्ये मर्यादित आहे)

तुम्ही Google मदत मध्ये या समस्येबद्दल अधिक वाचू शकता. आणि येथे एकच उपाय आहे - robots.txt वर प्रवेश उघडा आणि मेटा टॅग (किंवा पासवर्ड, जर आपण फायलींबद्दल बोलत असाल तर) वापरून अनुक्रमित पृष्ठांवर प्रतिबंध कॉन्फिगर करा.

WordPress साठी Robots.txt उदाहरणे

मागील भाग काळजीपूर्वक वाचल्यास ते स्पष्ट होते आज तुम्ही robots.txt मधील पत्त्यांवर जास्त बंदी घालण्याचा सराव करू नये, किमान Google साठी. रोबोट मेटा टॅगद्वारे पृष्ठ अनुक्रमणिका व्यवस्थापित करणे चांगले आहे.

वर्डप्रेससाठी येथे सर्वात सामान्य आणि तरीही पूर्णपणे योग्य robots.txt आहे:

वापरकर्ता-एजंट: * अनुमती द्या: होस्ट: sitename.com

आश्चर्य वाटले? तरीही होईल! कल्पक सर्व काही सोपे आहे 🙂 पाश्चात्य संसाधनांवर, जेथे Yandex नाही, WordPress साठी robots.txt संकलित करण्याच्या शिफारसी पहिल्या दोन ओळींवर येतात, जसे की Yoast द्वारे WordPress SEO च्या लेखकांनी दाखवले आहे.

योग्यरित्या कॉन्फिगर केलेले एसइओ प्लगइन कॅनोनिकल लिंक्स आणि व्हॅल्यू noindex सह रोबोट मेटा टॅगची काळजी घेईल, आणि प्रशासक पृष्ठे पासवर्ड-संरक्षित आहेत आणि अनुक्रमित करण्यापासून अवरोधित करण्याची आवश्यकता नाही (मात्र अपवाद फक्त लॉगिन आणि नोंदणी पृष्ठे असू शकतात. साइट - त्यांच्याकडे noindex मूल्यासह रोबोट मेटा टॅग असल्याची खात्री करा). शोध इंजिन वेबमास्टरमध्ये साइटमॅप व्यक्तिचलितपणे जोडणे चांगले आहे आणि त्याच वेळी ते योग्यरित्या वाचले आहे याची खात्री करा. RuNet साठी फक्त एकच गोष्ट बाकी आहे आणि महत्वाची आहे ती म्हणजे Yandex साठी मुख्य मिरर सूचित करणे.

दुसरा पर्याय, कमी धाडसासाठी योग्य:

वापरकर्ता-एजंट: * परवानगी न द्या: /wp-admin होस्ट: sitename.com साइटमॅप: http://sitename.com/sitemam.xml

पहिला विभाग wp-admin निर्देशिकेच्या सर्व रोबोट्स आणि त्यातील सामग्रीसाठी अनुक्रमणिका प्रतिबंधित करतो. शेवटच्या दोन ओळी यांडेक्स रोबोटसाठी साइट मिरर आणि साइट नकाशा दर्शवितात.

तुमची robots.txt बदलण्यापूर्वी...

तुम्ही robots.txt मधील निर्देश बदलण्याचे ठरविल्यास, प्रथम तीन गोष्टींची काळजी घ्या:

  1. तुमच्या साइटच्या रूटमध्ये कोणत्याही अतिरिक्त फाइल्स किंवा डिरेक्टरी नाहीत याची खात्री करा ज्याची सामग्री स्कॅन करण्यापासून लपवली जावी (या वैयक्तिक फाइल्स किंवा मीडिया संसाधने असू शकतात);
  2. चालू करणे प्रामाणिक दुवेतुमच्या SEO प्लगइनमध्ये (हे क्वेरी पॅरामीटर्ससह URL वगळेल http://sitename.com/index.php?s=word)
  3. सेट करा रोबोट मेटा टॅग आउटपुटअर्थासह noindexआपण अनुक्रमणिकेपासून लपवू इच्छित असलेल्या पृष्ठांवर (वर्डप्रेससाठी ही तारीख, टॅग, लेखक आणि पृष्ठांकन पृष्ठांनुसार संग्रहण आहेत). हे SEO प्लगइन सेटिंग्जमधील काही पृष्ठांसाठी केले जाऊ शकते (सर्व एक एसइओमध्ये अपूर्ण सेटिंग्ज आहेत). किंवा विशेष कोड वापरून ते स्वतः प्रदर्शित करा: /* ======================================== ================================================= = * तुमचा जोडा * ================================================= ======================================== */ फंक्शन my_meta_noindex () ( जर ( //is_archive() किंवा // कोणतीही संग्रहण पृष्ठे - एका महिन्यासाठी, वर्षासाठी, श्रेणीनुसार, लेखकाद्वारे //is_category() किंवा // वर्गांचे संग्रह is_author() किंवा // लेखकाच्या लेखांचे संग्रहण is_time() किंवा // वेळेनुसार लेखांचे संग्रहण is_date() किंवा // लेखांचे संग्रहण कोणत्याही तारखेनुसार is_day() किंवा // लेखांचे संग्रहण दिवसानुसार is_month() किंवा // लेखांचे संग्रहण महिन्यानुसार is_year() किंवा // लेखांचे संग्रहण वर्षानुसार is_tag() किंवा // लेखांचे संग्रहण टॅगनुसार is_tax() किंवा // सानुकूल वर्गीकरणासाठी लेखांचे संग्रहण is_post_type_archive () किंवा // सानुकूल पोस्ट प्रकारासाठी संग्रहण //is_front_page() किंवा // स्थिर मुख्यपृष्ठ / /is_home() किंवा // नवीनतम पोस्टसह मुख्य ब्लॉग पृष्ठ //is_singular() किंवा // कोणत्याही पोस्ट प्रकार - एकल पोस्ट, पृष्ठे, संलग्नक, इ. //is_single() किंवा // कोणत्याही प्रकारची कोणतीही एक पोस्ट पोस्ट (संलग्नक आणि पृष्ठे वगळता) //is_page() किंवा // कोणतेही एकल पृष्ठ (प्रशासक पॅनेलमधील “पृष्ठे”) is_attachment() किंवा // कोणतेही संलग्नक पृष्ठ is_paged() किंवा // कोणतीही आणि सर्व पृष्ठांकन पृष्ठे is_search() // साइट शोध परिणाम पृष्ठे) ( इको ""." "."\n"; ) ) add_action("wp_head", "my_meta_noindex", 3); /* ======================== ================================================== ================ */

    // ने सुरू होणाऱ्या ओळींमध्ये मेटा टॅग प्रदर्शित केला जाणार नाही (प्रत्येक ओळ नियम कोणत्या पृष्ठासाठी आहे याचे वर्णन करते). ओळीच्या सुरुवातीला दोन स्लॅश जोडून किंवा काढून टाकून, तुम्ही रोबोट मेटा टॅग पृष्ठांच्या विशिष्ट गटावर प्रदर्शित केला जाईल की नाही हे नियंत्रित करू शकता.

थोडक्यात robots.txt मध्ये काय बंद करायचे

रोबोट फाईल सेट करताना आणि पृष्ठे अनुक्रमित करताना, आपल्याला दोन महत्त्वाचे मुद्दे लक्षात ठेवणे आवश्यक आहे जे सर्वकाही त्याच्या जागी ठेवतात:

सर्व्हर फायली आणि निर्देशिकांचा प्रवेश नियंत्रित करण्यासाठी robots.txt फाइल वापरा. robots.txt फाइल "नो एंट्री: खाजगी प्रदेश" या इलेक्ट्रॉनिक चिन्हाची भूमिका बजावते.

शोध परिणामांमध्ये सामग्री दिसण्यापासून रोखण्यासाठी रोबोट मेटा टॅग वापरा. पृष्ठावर noindex विशेषता असलेला रोबोट मेटा टॅग असल्यास, इतर पृष्ठांशी लिंक असली तरीही, बहुतेक रोबोट संपूर्ण पृष्ठ शोध परिणामांमधून वगळतील.

मागील लेखात आम्ही वेबसाइट इंडेक्सिंगला गती देण्याकडे पाहिले. सर्व प्रमोशनच्या कामात हा महत्त्वाचा भाग असल्याचे ते म्हणाले.

तथापि, अशी परिस्थिती असते जेव्हा ते आवश्यक असते अनुक्रमणिका पासून बंदएकतर संपूर्ण साइट किंवा काही भाग: विभाग, पृष्ठे, दुवे इ.

आज आपण प्रश्न पाहू सर्च इंजिनमध्ये साइट इंडेक्सिंग कसे रोखायचे. कोणत्या प्रकरणांमध्ये हे आवश्यक आहे? सामान्यतः, साइटच्या विविध सेवा मॉड्यूल्सवर अनुक्रमणिका प्रतिबंधित आहे. जे वापरकर्त्यांसाठी आणि PS दोन्हीसाठी अर्थपूर्ण भार उचलत नाहीत.

हा प्रशासक विभाग, नोंदणी आणि माहिती प्रविष्टी फॉर्म, वापरकर्ता प्रोफाइल इ. हा फोरमवरील एक गुप्त विभाग देखील असू शकतो, ज्याची सामग्री आम्ही प्रत्येकाला दर्शवू इच्छित नाही. याव्यतिरिक्त, डुप्लिकेट पृष्ठे अनुक्रमित होण्यापासून रोखणे आवश्यक आहे, जे विविध वेबसाइट इंजिनद्वारे तयार केले जाऊ शकतात.

तुम्ही संपूर्ण पृष्ठ किंवा त्याचा वेगळा भाग अनुक्रमित करण्यास प्रतिबंध करू शकता, उदाहरणार्थ मजकूराचा तुकडा किंवा लिंक. म्हणून, आम्ही जागतिक अनुक्रमणिका बंदी आणि स्थानिक दोन्हीबद्दल बोलू शकतो. आता हे कसे अंमलात आणायचे याबद्दल तपशीलवार बोलूया.

robots.txt मध्ये साइट अनुक्रमणिका प्रतिबंधित करणे

robots.txt फाइल वापरून, आम्ही एका पृष्ठाचे किंवा साइटच्या संपूर्ण विभागाचे अनुक्रमणिका रोखू शकतो.

मी आधीच robots.txt बद्दल अनेक उदाहरणांसह तपशीलवार लेख लिहिला आहे. ही फाईल काय आहे, ती कशी तयार करायची आणि कॉन्फिगर कशी करायची हे तुम्ही तिथे वाचू शकता. या लेखाच्या संदर्भात, मी तुम्हाला robots.txt मध्ये अनुक्रमणिका अक्षम कशी करायची याची आठवण करून देईन

वापरकर्ता-एजंट: *
अनुमती द्या: /kolobok.html
परवानगी देऊ नका: /foto/

कुठे, * — सूचना सर्व सबस्टेशनसाठी आहेत हे निर्धारित करते;
परवानगी न द्या: /kolobok.html kolobok.html फाइल अनुक्रमित करण्यास प्रतिबंधित करते;
परवानगी देऊ नका: /foto/- फोटो फोल्डरमधील संपूर्ण सामग्री अनुक्रमित करण्यावर बंदी घालते.

तुम्हाला अनेक फोल्डर आणि/किंवा पृष्ठे प्रतिबंधित करण्याची आवश्यकता असल्यास, आम्ही ते सर्व रोबोट्समध्ये सूचित करतो.

रोबोट मेटा टॅगमध्ये पृष्ठ अनुक्रमणिका प्रतिबंधित करणे

विशिष्ट पृष्ठाचे अनुक्रमणिका टाळण्यासाठी, आपण रोबोट मेटा टॅग वापरू शकता. robots.txt च्या विपरीत, त्याच्या वापराचे वैशिष्ठ्य म्हणजे ते एकाच वेळी सर्व उपप्रणालींना सूचना देते. आणि robots.txt वेगळ्या शोध इंजिनसाठी कॉन्फिगर केले जाऊ शकते. हा मेटा टॅग एचटीएमएल फॉरमॅटच्या सामान्य नियमांच्या अधीन आहे आणि टॅगमधील पृष्ठ शीर्षकामध्ये स्थित असावा

.
प्रतिबंधित प्रवेशाचे उदाहरण:

सामग्री विशेषतामध्ये खालील अटी असू शकतात:

  • निर्देशांक— या पृष्ठाच्या अनुक्रमणिकेला अनुमती देते;
  • noindex- पृष्ठ अनुक्रमणिका प्रतिबंधित करते;
  • अनुसरण करा- या पृष्ठावरील दुवे अनुक्रमित करण्यास अनुमती देते;
  • nofollow- पृष्ठावरील दुवे अनुक्रमित करण्यास प्रतिबंधित करते;
  • सर्व- एकाच वेळी अनुक्रमणिका आणि अनुसरण समाविष्ट करते (पृष्ठ आणि दुवे दोन्ही अनुक्रमित करण्यास अनुमती देते);
  • काहीही नाही- noindex आणि nofollow समाविष्ट आहे, म्हणजे अनुक्रमणिका प्रतिबंधित करते

प्रत्येक गोष्टीला अनुमती देणाऱ्या एंट्रीचे उदाहरण:

किंवा सर्वकाही आणि मजकूर आणि दुवे अनुक्रमित करण्यास प्रतिबंधित करते:

रोबोट मेटा टॅगमध्ये कोणत्या PS साठी निर्बंध आहेत ते देखील तुम्ही निर्दिष्ट करू शकता. यांडेक्सला ही नोंद स्पष्टपणे समजते:

लिंक इंडेक्सिंगला प्रतिबंध: टॅगची विशेषता

विशेषता आम्हाला आवश्यक असलेल्या सर्व शोध इंजिनांद्वारे विचारात घेतली जाते: Yandex आणि Google. "रोबोट्स" मेटा टॅगच्या विपरीत, जे सर्व लिंक्स एकाच वेळी अनुक्रमित होण्यास प्रतिबंधित करते, "rel" फक्त एक लिंक बंद करते.

जेव्हा आपण लिंक्सद्वारे पृष्ठाचा दुवा रस गमावू इच्छित नसतो तेव्हा ही विशेषता बर्याचदा वापरली जाते.

टॅगद्वारे अनुक्रमणिका प्रतिबंधित करा

टॅग वापरून, तुम्ही पृष्ठाचा काही भाग अनुक्रमित करण्यापासून अवरोधित करू शकता. तो मजकूर किंवा कोडचा तुकडा असू शकतो, काहीही असो. वेबमास्टर अनेकदा हा टॅग वेबसाइट्सवरील आकडेवारी काउंटर आणि स्क्रिप्ट कव्हर करण्यासाठी वापरतात. उदाहरण एंट्री:

पृष्ठाचा भाग जो अनुक्रमणिकेपासून बंद करणे आवश्यक आहे

"noindex" टॅग पृष्ठावर कुठेही स्थित असू शकतो आणि नेस्टिंग संवेदनशील नाही. ते वैध करण्यासाठी, खालील नोटेशन वापरा:

मजकूर अनुक्रमित होण्यापासून प्रतिबंधित करणे

htaccess मध्ये अनुक्रमणिका अक्षम करणे

htaccess फाइल साइटच्या विशिष्ट भागावर प्रवेश अवरोधित करू शकते, जसे की विशिष्ट पृष्ठ. जर तुम्हाला Yandex वरून एखादे पृष्ठ बंद करायचे असेल तर तुम्हाला अशी एंट्री आवश्यक आहे.

पुन्हा लिहा इंजिन चालू
RewriteCond %(HTTP_USER_AGENT) यांडेक्स
पुनर्लेखन नियम ^page_url$ येथे$ - [F]

म्हणून आम्ही साइटचे संपूर्ण विभाग किंवा पृष्ठे आणि काही विशिष्ट भागांचे अनुक्रमणिका प्रतिबंधित करण्याच्या सर्व संभाव्य मार्गांचे आणि पद्धतींचे विश्लेषण केले आहे. तसे, Yandex आणि Google मध्ये, वेबमास्टर पॅनेलमध्ये आपल्या साइटची कोणती पृष्ठे अनुक्रमित करण्यापासून बंद आहेत हे आपण पाहू शकता. हे करण्यासाठी, आपल्याला आपली साइट आपल्या खात्यात जोडण्याची आवश्यकता आहे आणि पृष्ठांचे विश्लेषण करताना आपण त्यापैकी कोणती बंद आहे हे पहाल.

तयार केलेल्या साइटच्या तांत्रिक बाबी शोध इंजिनमध्ये वेबसाइटच्या जाहिरातीसाठी तिच्या सामग्रीपेक्षा कमी महत्त्वाची भूमिका बजावत नाहीत. सर्वात महत्त्वाच्या तांत्रिक बाबींपैकी एक म्हणजे साइट अनुक्रमणिका, म्हणजे साइटचे क्षेत्र (फाइल आणि निर्देशिका) निश्चित करणे जे शोध इंजिन रोबोटद्वारे अनुक्रमित केले जाऊ शकतात किंवा करू शकत नाहीत. या हेतूंसाठी, robots.txt वापरला जातो - ही एक विशेष फाइल आहे ज्यामध्ये शोध इंजिन रोबोट्ससाठी आदेश आहेत. Yandex आणि Google साठी योग्य robots.txt फाइल तुम्हाला साइट इंडेक्सिंगशी संबंधित अनेक अप्रिय परिणाम टाळण्यास मदत करेल.

2. robots.txt फाइलची संकल्पना आणि त्यासाठीची आवश्यकता

/robots.txt फाइलचा उद्देश सर्व शोध रोबोट्स (स्पायडर्स) या फाईलमध्ये परिभाषित केल्यानुसार माहिती सर्व्हरला निर्देशीत करण्यासाठी आहे, उदा. फक्त त्या डिरेक्टरीज आणि सर्व्हर फाइल्स ज्यांचे /robots.txt मध्ये वर्णन नाही. या फाइलमध्ये 0 किंवा त्याहून अधिक नोंदी असाव्यात ज्या विशिष्ट रोबोटशी संबंधित आहेत (एजंट_आयडी फील्डच्या मूल्यानुसार निर्धारित केल्यानुसार) आणि प्रत्येक रोबोटसाठी किंवा त्या सर्वांसाठी एकाच वेळी त्यांना नेमके काय अनुक्रमित करण्याची आवश्यकता नाही हे सूचित केले पाहिजे.

फाइल सिंटॅक्स तुम्हाला सर्वांसाठी आणि विशिष्ट रोबोट्ससाठी प्रतिबंधित अनुक्रमणिका क्षेत्रे सेट करण्याची परवानगी देते.

robots.txt फाईलमध्ये विशेष आवश्यकता आहेत, ज्याचे पालन करण्यात अयशस्वी झाल्यामुळे शोध इंजिन रोबोट योग्यरित्या वाचत नाही किंवा सर्वसाधारणपणे फाइल अक्षम होऊ शकते.

प्राथमिक आवश्यकता:

  • फाईलच्या नावातील सर्व अक्षरे कॅपिटल केलेली असणे आवश्यक आहे, म्हणजेच ते लोअर केस असणे आवश्यक आहे:
  • robots.txt बरोबर आहे,
  • Robots.txt किंवा ROBOTS.TXT – चुकीचे;
  • robots.txt फाइल युनिक्स मजकूर स्वरूपात तयार केली जाणे आवश्यक आहे. ही फाइल वेबसाइटवर कॉपी करताना, ftp क्लायंटला मजकूर फाइल एक्सचेंज मोडसाठी कॉन्फिगर केले पाहिजे;
  • robots.txt फाइल साइटच्या रूट निर्देशिकेत ठेवली पाहिजे.

3. robots.txt फाइलची सामग्री

robots.txt फाइलमध्ये दोन नोंदी समाविष्ट आहेत: "वापरकर्ता-एजंट" आणि "नकार द्या". या नोंदींची नावे केस संवेदनशील नाहीत.

काही शोध इंजिन अतिरिक्त नोंदींना देखील समर्थन देतात. म्हणून, उदाहरणार्थ, यांडेक्स शोध इंजिन साइटचा मुख्य मिरर निर्धारित करण्यासाठी "होस्ट" रेकॉर्ड वापरते (साइटचा मुख्य आरसा ही साइट आहे जी शोध इंजिन निर्देशांकात असते).

प्रत्येक एंट्रीचा स्वतःचा उद्देश असतो आणि इंडेक्सिंगपासून ब्लॉक केलेल्या पेजेस आणि/किंवा डिरेक्टरीजची संख्या आणि तुम्ही संपर्क करत असलेल्या रोबोट्सच्या संख्येवर अवलंबून ते अनेक वेळा दिसू शकतात.

robots.txt फाइलसाठी अपेक्षित ओळ स्वरूप खालीलप्रमाणे आहे:

पोस्ट_नाव[पर्यायी

मोकळी जागा] : [पर्यायी

मोकळी जागा] अर्थ[पर्यायी जागा]

robots.txt फाइल वैध मानली जाण्यासाठी, प्रत्येक "वापरकर्ता-एजंट" एंट्रीनंतर किमान एक "नकार द्या" निर्देश असणे आवश्यक आहे.

पूर्णपणे रिकामी robots.txt फाइल कोणत्याही robots.txt फाइलच्या समतुल्य आहे, जी संपूर्ण साइटला अनुक्रमित करण्याची परवानगी सूचित करते.

वापरकर्ता-एजंट एंट्री

"वापरकर्ता-एजंट" एंट्रीमध्ये शोध रोबोटचे नाव असणे आवश्यक आहे. या नोंदीमध्ये, तुम्ही प्रत्येक विशिष्ट रोबोटला साइटची कोणती पृष्ठे अनुक्रमित करायची आणि कोणती नाही हे सांगू शकता.

"वापरकर्ता-एजंट" रेकॉर्डचे उदाहरण, जेथे अपवादाशिवाय सर्व शोध इंजिन्समध्ये प्रवेश केला जातो आणि "*" चिन्ह वापरले जाते:

"वापरकर्ता-एजंट" रेकॉर्डचे उदाहरण, जिथे फक्त रॅम्बलर शोध इंजिन रोबोटशी संपर्क साधला जातो:

वापरकर्ता-एजंट: StackRambler

प्रत्येक शोध इंजिन रोबोटचे स्वतःचे नाव असते. त्याचे (नाव) शोधण्याचे दोन मुख्य मार्ग आहेत:

बऱ्याच शोध इंजिनच्या वेबसाइटवर एक विशेष “वेबमास्टर मदत” विभाग आहे, ज्यामध्ये शोध रोबोटचे नाव सहसा सूचित केले जाते;

वेब सर्व्हर लॉग पाहताना, म्हणजे robots.txt फाइलवर कॉल पाहताना, तुम्ही अनेक नावे पाहू शकता ज्यात शोध इंजिनची नावे आहेत किंवा त्यांचा काही भाग आहे. म्हणून, तुम्हाला फक्त इच्छित नाव निवडायचे आहे आणि ते robots.txt फाइलमध्ये टाकायचे आहे.

"नाकार" एंट्री

"नकार द्या" रेकॉर्डमध्ये "वापरकर्ता-एजंट" रेकॉर्डवरून शोध रोबोटला सूचित करणारे निर्देश असले पाहिजेत की कोणत्या फाइल्स आणि/किंवा निर्देशिका अनुक्रमित करण्यास प्रतिबंधित आहेत.

चला “नकार द्या” रेकॉर्डिंगची विविध उदाहरणे पाहू.

robots.txt मधील एंट्रीचे उदाहरण (इंडेक्सिंगसाठी सर्वकाही अनुमती द्या):

परवानगी देऊ नका:

उदाहरण (साइट वरून पूर्णपणे निषिद्ध आहे. यासाठी “/” चिन्ह वापरले जाते): परवानगी नाकारणे: /

उदाहरण (मूळ निर्देशिकेत असलेली फाइल “page.htm” आणि “dir” निर्देशिकेत असलेली “page2.htm” फाइल अनुक्रमित करण्यासाठी प्रतिबंधित आहे):

अनुमती द्या: /page.htm

परवानगी देऊ नका: /dir/page2.htm

उदाहरण (“cgi-bin” आणि “forum” या निर्देशिका आणि म्हणून, या निर्देशिकेतील सर्व सामग्री अनुक्रमणिकेसाठी प्रतिबंधित आहे):

परवानगी न द्या: /cgi-bin/

परवानगी न द्या: /forum/

फक्त एकच “Disallow” एंट्री वापरून अनुक्रमणिका करण्यापासून समान वर्णांपासून सुरू होणारे अनेक दस्तऐवज आणि (किंवा) निर्देशिका अवरोधित करणे शक्य आहे. हे करण्यासाठी, तुम्हाला क्लोजिंग स्लॅशशिवाय प्रारंभिक समान वर्ण लिहिण्याची आवश्यकता आहे.

उदाहरण (“dir” ही निर्देशिका अनुक्रमित करण्यासाठी प्रतिबंधित आहे, तसेच “dir” अक्षरांनी सुरू होणाऱ्या सर्व फाईल्स आणि डिरेक्टरी, म्हणजे फाईल्स: “dir.htm”, “direct.htm”, डिरेक्टरी: “dir”, “directory1 "", "directory2", इ.):

"अनुमती द्या" एंट्री

"अनुमती द्या" पर्यायाचा वापर नॉन-इंडेक्सेबल डिरेक्टरी आणि "नाकार" एंट्रीद्वारे निर्दिष्ट केलेल्या पृष्ठांमधील अपवाद दर्शविण्यासाठी केला जातो.

उदाहरणार्थ, यासारखे रेकॉर्ड आहे:

परवानगी न द्या: /forum/

परंतु या प्रकरणात, पृष्ठ पृष्ठ1 /forum/ निर्देशिकेत अनुक्रमित करणे आवश्यक आहे. त्यानंतर robots.txt फाइलमध्ये खालील ओळी आवश्यक असतील:

परवानगी न द्या: /forum/

परवानगी द्या: /forum/page1

साइटमॅप एंट्री

ही एंट्री xml फॉरमॅटमध्ये साइटमॅपचे स्थान दर्शवते, जी शोध रोबोटद्वारे वापरली जाते. ही नोंद या फाईलचा मार्ग निर्दिष्ट करते.

साइटमॅप: http://site.ru/sitemap.xml

"होस्ट" एंट्री

"होस्ट" रेकॉर्ड Yandex शोध इंजिनद्वारे वापरले जाते. साइटचा मुख्य आरसा निश्चित करणे आवश्यक आहे, म्हणजे साइटवर मिरर असल्यास (आरसा ही साइटची आंशिक किंवा पूर्ण प्रत आहे. विश्वासार्हता वाढविण्यासाठी आणि अधिक भेट दिलेल्या साइटच्या मालकांसाठी संसाधन डुप्लिकेटची उपस्थिती कधीकधी आवश्यक असते. त्यांच्या सेवेची उपलब्धता), नंतर “होस्ट” निर्देश वापरून तुम्ही ज्या नावाखाली तुम्हाला अनुक्रमित करायचे आहे ते नाव निवडू शकता. अन्यथा, यांडेक्स स्वतःच मुख्य मिरर निवडेल आणि इतर नावे अनुक्रमित करण्यास मनाई केली जाईल.

शोध रोबोट्ससह सुसंगततेसाठी, जे robots.txt फाइलवर प्रक्रिया करताना होस्ट निर्देश स्वीकारत नाहीत, प्रवेश नाकारल्यानंतर लगेच "होस्ट" एंट्री जोडणे आवश्यक आहे.

उदाहरण: www.site.ru – मुख्य मिरर:

होस्ट: www.site.ru

"क्रॉल-विलंब" रेकॉर्डिंग

ही नोंद Yandex द्वारे समजली जाते. इंडेक्सिंग पेजेसमध्ये निर्दिष्ट वेळ (सेकंदात) घेणे हा रोबोटसाठी एक आदेश आहे. कधीकधी साइटला ओव्हरलोड्सपासून संरक्षित करण्यासाठी हे आवश्यक असते.

तर, खालील एंट्रीचा अर्थ असा आहे की यांडेक्स रोबोटला 3 सेकंदांनंतर एका पृष्ठावरून दुसऱ्या पृष्ठावर जाणे आवश्यक आहे:

टिप्पण्या

robots.txt मधील "#" अक्षराने सुरू होणारी कोणतीही ओळ टिप्पणी मानली जाते. निर्देशात्मक ओळींच्या शेवटी टिप्पण्यांना अनुमती आहे, परंतु काही रोबोट्स रेषा योग्यरित्या ओळखू शकत नाहीत.

उदाहरण (टिप्पणी निर्देशाप्रमाणेच आहे):

अनुमती द्या: /cgi-bin/ #comment

टिप्पणी वेगळ्या ओळीवर ठेवण्याचा सल्ला दिला जातो. ओळीच्या सुरूवातीस एक जागा अनुमत आहे, परंतु शिफारस केलेली नाही.

4. robots.txt फाइल्सची उदाहरणे

उदाहरण (टिप्पणी वेगळ्या ओळीवर आहे):
अनुमती द्या: /cgi-bin/#comment

robots.txt फाइलचे उदाहरण जे सर्व रोबोट्सना संपूर्ण साइट अनुक्रमित करण्यास अनुमती देते:

होस्ट: www.site.ru

robots.txt फाइलचे उदाहरण जे सर्व रोबोट्सला साइट अनुक्रमित करण्यास प्रतिबंधित करते:

होस्ट: www.site.ru

robots.txt फाईलचे उदाहरण जे सर्व रोबोट्सना "abc" निर्देशिका, तसेच "abc" अक्षरांपासून सुरू होणाऱ्या सर्व निर्देशिका आणि फाइल्स अनुक्रमित करण्यास प्रतिबंधित करते.

होस्ट: www.site.ru

robots.txt फाइलचे उदाहरण जे साइटच्या रूट निर्देशिकेत असलेल्या “page.htm” पृष्ठाला Googlebot शोध रोबोटद्वारे अनुक्रमित होण्यापासून प्रतिबंधित करते:

वापरकर्ता-एजंट: googlebot

परवानगी न द्या: /page.htm

होस्ट: www.site.ru

अनुक्रमणिका प्रतिबंधित करणाऱ्या robots.txt फाइलचे उदाहरण:

– “googlebot” रोबोटला – “page1.htm” हे पृष्ठ “निर्देशिका” निर्देशिकेत आहे;

– “Yandex” रोबोटकडे – “dir” (/dir/, /direct/, dir.htm, direction.htm, इ.) या चिन्हांनी सुरू होणाऱ्या आणि साइटच्या मूळ निर्देशिकेत असलेल्या सर्व निर्देशिका आणि पृष्ठे.

वापरकर्ता-एजंट: googlebot

परवानगी न द्या: /directory/page1.htm

वापरकर्ता-एजंट: यांडेक्स

5. robots.txt फाइलशी संबंधित त्रुटी

सर्वात सामान्य चुकांपैकी एक म्हणजे उलटे वाक्यरचना.

चुकीचे:

परवानगी देऊ नका: यांडेक्स

उजवीकडे:

वापरकर्ता-एजंट: यांडेक्स

चुकीचे:

परवानगी न द्या: /dir/ /cgi-bin/ /forum/

उजवीकडे:

परवानगी न द्या: /cgi-bin/

परवानगी न द्या: /forum/

जर, त्रुटी 404 (दस्तऐवज सापडले नाही) वर प्रक्रिया करताना, वेब सर्व्हर एक विशेष पृष्ठ प्रदर्शित करतो आणि robots.txt फाइल गहाळ असल्यास, शोध रोबोट, robots.txt फाइलची विनंती करताना, तेच दिले जाण्याची शक्यता आहे. विशेष पृष्ठ, जे मुळीच अनुक्रमणिका व्यवस्थापन फाइल नाही.

robots.txt फाइलमधील केसच्या चुकीच्या वापराशी संबंधित त्रुटी. उदाहरणार्थ, जर तुम्हाला "cgi-bin" निर्देशिका बंद करायची असेल, तर "Disallow" एंट्रीमध्ये तुम्ही अप्पर केस "cgi-bin" मध्ये डिरेक्टरीचे नाव लिहू शकत नाही.

चुकीचे:

परवानगी न द्या: /CGI-BIN/

उजवीकडे:

परवानगी न द्या: /cgi-bin/

इंडेक्सिंगमधून निर्देशिका बंद करताना गहाळ ओपनिंग स्लॅशशी संबंधित त्रुटी.

चुकीचे:

परवानगी न द्या: page.HTML

उजवीकडे:

नाकारणे: /page.HTML

सर्वात सामान्य त्रुटी टाळण्यासाठी, robots.txt फाइल Yandex.Webmaster किंवा Google Webmaster Tools वापरून तपासली जाऊ शकते. फाइल डाउनलोड केल्यानंतर तपासणी केली जाते.

6. निष्कर्ष

अशाप्रकारे, robots.txt फाइलची उपस्थिती, तसेच त्याचे संकलन, शोध इंजिनमधील वेबसाइटच्या जाहिरातीवर परिणाम करू शकते. robots.txt फाइलची वाक्यरचना जाणून घेतल्याशिवाय, तुम्ही संभाव्य प्रचारित पृष्ठे तसेच संपूर्ण साइटला अनुक्रमित होण्यापासून रोखू शकता. आणि, याउलट, या फाईलचे सक्षम संकलन संसाधनाचा प्रचार करण्यास मोठ्या प्रमाणात मदत करू शकते, उदाहरणार्थ, आपण आवश्यक पृष्ठांच्या अनुक्रमणिकेत हस्तक्षेप करणारी दस्तऐवज अवरोधित करू शकता;

या मार्गदर्शकाचा उद्देश वेबमास्टर आणि प्रशासकांना robots.txt वापरण्यात मदत करणे हा आहे.

परिचय

रोबोट सूट मानक त्याच्या मुळाशी अगदी सोपे आहे. थोडक्यात, हे असे कार्य करते:

जेव्हा मानकांचे अनुसरण करणारा रोबोट एखाद्या साइटला भेट देतो तेव्हा तो प्रथम “/robots.txt” नावाच्या फाइलची विनंती करतो. अशी फाइल आढळल्यास, रोबोट साइटच्या काही भागांना अनुक्रमित करण्यास मनाई करणाऱ्या सूचनांसाठी ती शोधतो.

robots.txt फाइल कुठे ठेवायची

रोबोट तुमच्या साइटवर फक्त URL "/robots.txt" ची विनंती करतो;

साइट URL Robots.txt फाइल URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

साइटवर फक्त एक फाइल “/robots.txt” असू शकते. उदाहरणार्थ, तुम्ही robots.txt फाइल वापरकर्त्याच्या उपडिरेक्टरीमध्ये ठेवू नये - तरीही रोबोट त्यांना तिथे शोधणार नाहीत. जर तुम्हाला उपडिरेक्टरीमध्ये robots.txt फाइल्स बनवता येत असतील, तर तुम्हाला त्या साइटच्या रूटवर असलेल्या एका robots.txt फाइलमध्ये प्रोग्रामॅटिकरित्या एकत्रित करण्याचा मार्ग आवश्यक आहे. तुम्ही वापरू शकता.

लक्षात ठेवा की URL केस संवेदनशील असतात आणि फाइल नाव “/robots.txt” पूर्णपणे लोअरकेसमध्ये लिहिलेले असणे आवश्यक आहे.

robots.txt चे चुकीचे स्थान
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt फाइल साइटच्या रूटवर स्थित नाही
ftp://ftp.w3.com/robots.txt रोबोट्स एफटीपी इंडेक्स करत नाहीत
http://www.w3.org/Robots.txt फाइलचे नाव लोअरकेसमध्ये नाही

तुम्ही बघू शकता, robots.txt फाइल साइटच्या मुळाशीच ठेवली पाहिजे.

robots.txt फाइलमध्ये काय लिहायचे

robots.txt फाईल सहसा असे लिहिलेली असते:

वापरकर्ता-एजंट: *
परवानगी न द्या: /cgi-bin/
अनुमती द्या: /tmp/
अनुमती द्या: /~joe/

या उदाहरणात, तीन निर्देशिकांचे अनुक्रमणिका निषिद्ध आहे.

लक्षात ठेवा की प्रत्येक निर्देशिका वेगळ्या ओळीवर सूचीबद्ध आहे - तुम्ही "Disallow: /cgi-bin/ /tmp/" लिहू शकत नाही. तुम्ही एक Disallow किंवा User-agent स्टेटमेंटला अनेक ओळींमध्ये विभाजित करू शकत नाही, कारण एकमेकांपासून सूचना विभक्त करण्यासाठी लाइन ब्रेकचा वापर केला जातो.

रेग्युलर एक्सप्रेशन्स आणि वाइल्डकार्ड्स देखील वापरता येत नाहीत. वापरकर्ता-एजंट निर्देशातील "तारका" (*) चा अर्थ "कोणताही रोबोट" असा होतो. "Disallow: *.gif" किंवा "वापरकर्ता-एजंट: Ya*" सारख्या सूचना समर्थित नाहीत.

robots.txt मधील विशिष्ट सूचना तुमच्या साइटवर आणि तुम्हाला अनुक्रमित होण्यापासून काय रोखायचे आहे यावर अवलंबून असते. येथे काही उदाहरणे आहेत:

संपूर्ण साइटला सर्व रोबोट्सद्वारे अनुक्रमित करण्यापासून अवरोधित करा

वापरकर्ता-एजंट: *
अनुमती द्या: /

सर्व रोबोटला संपूर्ण साइट अनुक्रमित करण्यास अनुमती द्या

वापरकर्ता-एजंट: *
परवानगी देऊ नका:

किंवा तुम्ही फक्त रिकामी फाइल “/robots.txt” तयार करू शकता.

अनुक्रमित करण्यापासून फक्त काही निर्देशिका अवरोधित करा

वापरकर्ता-एजंट: *
परवानगी न द्या: /cgi-bin/
अनुमती द्या: /tmp/
अनुमती द्या: /खाजगी/

केवळ एका रोबोटसाठी साइट अनुक्रमणिका प्रतिबंधित करा

वापरकर्ता-एजंट: बॅडबॉट
अनुमती द्या: /

एका रोबोटला साइट अनुक्रमित करण्यास अनुमती द्या आणि इतर सर्व नाकारू द्या

वापरकर्ता-एजंट: यांडेक्स
परवानगी देऊ नका:

वापरकर्ता-एजंट: *
अनुमती द्या: /

अनुक्रमणिकेतून एक वगळता सर्व फायली नाकारा

हे खूप अवघड आहे, कारण... कोणतेही "अनुमती द्या" विधान नाही. त्याऐवजी, सबडिरेक्टरीमध्ये अनुक्रमित करण्याची परवानगी देऊ इच्छित असलेल्या फाइल वगळता तुम्ही सर्व फायली हलवू शकता आणि त्यास अनुक्रमित होण्यापासून प्रतिबंधित करू शकता:

वापरकर्ता-एजंट: *
परवानगी न द्या: /docs/

किंवा तुम्ही सर्व फायलींना इंडेक्स करण्यापासून प्रतिबंधित करू शकता:

वापरकर्ता-एजंट: *
परवानगी न द्या: /private.html
अनुमती द्या: /foo.html
परवानगी नाकारू द्या: /bar.html



आम्ही वाचण्याची शिफारस करतो

वर