मालवेअर हे अनाहूत किंवा धोकादायक प्रोग्राम आहेत जे...
![व्हायरस आणि मालवेअर काढून टाकण्यासाठी सर्वोत्तम उपयुक्तता](https://i2.wp.com/webhelper.info/images/danger.jpg)
Robots.txt ही एक सेवा फाइल आहे जी शोध इंजिनांसाठी वेब दस्तऐवजांच्या सामग्रीवर प्रवेश प्रतिबंधित करण्यासाठी शिफारस म्हणून काम करते. या लेखात आम्ही Robots.txt सेट करणे, निर्देशांचे वर्णन करणे आणि लोकप्रिय CMS साठी ते तयार करणे पाहू.
ही रोबोट फाइल तुमच्या साइटच्या रूट निर्देशिकेत आहे आणि ती साध्या नोटपॅडने उघडली/संपादित केली जाऊ शकते, मी Notepad++ शिफारस करतो. ज्यांना वाचायला आवडत नाही त्यांच्यासाठी एक VIDEO आहे, लेखाचा शेवट पहा 😉
मी वर म्हटल्याप्रमाणे, robots.txt फाईल वापरून आम्ही शोध बॉट्सचा प्रवेश दस्तऐवजांपर्यंत मर्यादित करू शकतो, उदा. आम्ही साइटच्या अनुक्रमणिकेवर थेट प्रभाव टाकतो. बर्याचदा ते अनुक्रमित करण्यापासून अवरोधित केले जातात:
चला एक विशिष्ट उदाहरण पाहू:
शूज विकणारे ऑनलाइन स्टोअर लोकप्रिय सीएमएसपैकी एकावर लागू केले जाते, आणि सर्वोत्तम मार्गाने नाही. मी ताबडतोब सांगू शकतो की शोध परिणामांमध्ये शोध पृष्ठे, पृष्ठांकन, एक शॉपिंग कार्ट, काही इंजिन फायली इत्यादींचा समावेश असेल. या सर्व डुप्लिकेट आणि सेवा फायली असतील ज्या वापरकर्त्यासाठी निरुपयोगी आहेत. म्हणून, ते अनुक्रमित करण्यापासून बंद केले पाहिजेत आणि जर एखादा “बातम्या” विभाग देखील असेल ज्यामध्ये स्पर्धकांच्या साइटवरील विविध मनोरंजक लेख कॉपी आणि पेस्ट केले असतील तर त्याबद्दल विचार करण्याची गरज नाही, आम्ही ते लगेच बंद करतो.
म्हणून, आम्ही robots.txt फाईल तयार करण्याचे सुनिश्चित करतो जेणेकरून निकालांमध्ये कोणताही कचरा येणार नाही. फाइल http://site.ru/robots.txt वर उघडली पाहिजे हे विसरू नका.
वापरकर्ता-एजंट.हे विशिष्ट शोध इंजिन रोबोट किंवा सर्व रोबोट्ससाठी आवाहन आहे. जर विशिष्ट रोबोट नाव निर्दिष्ट केले असेल, उदाहरणार्थ “YandexMedia”, तर त्यासाठी सामान्य वापरकर्ता-एजंट निर्देश वापरले जात नाहीत. लेखन उदाहरण:
वापरकर्ता-एजंट: YandexBot Disallow: /cart # फक्त मुख्य Yandex अनुक्रमणिका रोबोट वापरेल
परवानगी नाकारणे/अनुमती देणे.विशिष्ट दस्तऐवज किंवा विभाग अनुक्रमित करण्यासाठी ही एक प्रतिबंध/परवानगी आहे. लिहिण्याच्या क्रमाने काही फरक पडत नाही, परंतु 2 निर्देश आणि समान उपसर्ग असल्यास, “अनुमती द्या” ला प्राधान्य दिले जाते. शोध रोबोट त्यांना उपसर्गाच्या लांबीनुसार, सर्वात लहान ते मोठ्यापर्यंत वाचतो. जर तुम्हाला पृष्ठाचे अनुक्रमण अक्षम करायचे असेल, तर फक्त त्याचा सापेक्ष मार्ग प्रविष्ट करा (नाकार द्या: /blog/post-1).
वापरकर्ता-एजंट: Yandex Disallow: / Allow: /articles # आम्ही साइट इंडेक्सिंग प्रतिबंधित करतो, 1 विभागातील लेख वगळता
* आणि $ सह नियमित अभिव्यक्ती.तारका म्हणजे वर्णांचा कोणताही क्रम (रिक्त असलेल्यांसह). डॉलर चिन्हाचा अर्थ व्यत्यय. वापरण्याची उदाहरणे:
नामंजूर करा: /page* # सर्व पृष्ठे, बांधकामांना प्रतिबंधित करते http://site.ru/page नाकारते: /arcticles$ # केवळ पृष्ठ http://site.ru/articles प्रतिबंधित करते, पृष्ठांना परवानगी देते http://site.ru/ लेख/नवीन
साइटमॅप निर्देश.तुम्ही ते वापरत असल्यास, robots.txt मध्ये ते याप्रमाणे सूचित केले जावे:
साइटमॅप: http://site.ru/sitemap.xml
होस्ट निर्देश.आपल्याला माहिती आहे की, साइट्समध्ये आरसे आहेत (आम्ही वाचतो,). हा नियम शोध बॉटला तुमच्या संसाधनाच्या मुख्य मिररकडे निर्देशित करतो. यांडेक्सचा संदर्भ देते. जर तुमच्याकडे डब्ल्यूडब्ल्यूडब्ल्यूशिवाय आरसा असेल तर लिहा:
होस्ट: site.ru
क्रॉल-विलंब.तुमचे दस्तऐवज डाउनलोड करणाऱ्या बॉटमधील विलंब (सेकंदांमध्ये) सेट करते. हे नाकारणे/अनुमती देण्याच्या निर्देशांनंतर लिहिलेले आहे.
क्रॉल-विलंब: 5 सेकंदात 5 # कालबाह्य
स्वच्छ-परम.शोध बॉटला सूचित करते की अतिरिक्त डुप्लिकेट माहिती डाउनलोड करण्याची आवश्यकता नाही (सत्र अभिज्ञापक, संदर्भकर्ते, वापरकर्ते). क्लीन-परम डायनॅमिक पृष्ठांसाठी निर्दिष्ट केले पाहिजे:
Clean-param: ref /category/books # आम्ही सूचित करतो की आमचे पृष्ठ मुख्य आहे, आणि http://site.ru/category/books?ref=yandex.ru&id=1 समान पृष्ठ आहे, परंतु पॅरामीटर्ससह
मुख्य नियम: robots.txt हे लोअरकेसमध्ये लिहिलेले आणि साइटच्या रूटमध्ये असले पाहिजे. उदाहरण फाइल संरचना:
वापरकर्ता-एजंट: Yandex Disallow: /cart परवानगी द्या: /cart/images साइटमॅप: http://site.ru/sitemap.xml होस्ट: site.ru क्रॉल-विलंब: 2
पृष्ठांवर बंदी घालण्याचा हा पर्याय Google शोध इंजिनद्वारे अधिक चांगल्या प्रकारे विचारात घेतला जातो. यांडेक्स दोन्ही पर्यायांना तितकेच चांगले विचारात घेते.
यात 2 निर्देश आहेत: फॉलो/नोफॉलोआणि निर्देशांक/नोइंडेक्स. ही खालील लिंक्सची परवानगी/प्रतिबंध आणि दस्तऐवज अनुक्रमणिकेची परवानगी/प्रतिबंध आहे. निर्देश एकत्र लिहिले जाऊ शकतात, खालील उदाहरण पहा.
कोणत्याही वैयक्तिक पृष्ठासाठी तुम्ही टॅगमध्ये लिहू शकता
खालील:खाली तुम्ही या SEO ब्लॉगवरून माझी आवृत्ती पाहू शकता.
वापरकर्ता-एजंट: Yandex Disallow: /wp-content/uploads/ परवानगी द्या: /wp-content/uploads/*/*/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow : /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback नाकारणे: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?. xml
मी ट्रॅकबॅक प्रतिबंधित करतो कारण ते टिप्पण्यांमधील लेखाचा एक भाग डुप्लिकेट करते. आणि जर बरेच ट्रॅकबॅक असतील, तर तुम्हाला एकसारख्या टिप्पण्यांचा समूह मिळेल.
मी कोणत्याही CMS चे सर्व्हिस फोल्डर आणि फाइल्स बंद करण्याचा प्रयत्न करतो, कारण... मला त्यांचा निर्देशांकात समावेश करावा असे वाटत नाही (जरी शोध इंजिने ते घेत नाहीत, परंतु ते आणखी वाईट होणार नाही).
फीड बंद केले पाहिजे कारण... ही आंशिक किंवा पूर्ण डुप्लिकेट पृष्ठे आहेत.
आम्ही टॅग वापरत नसल्यास किंवा ते ऑप्टिमाइझ करण्यात आळशी असल्यास आम्ही बंद करतो.
इच्छित CMS साठी योग्य रोबोट डाउनलोड करण्यासाठी, फक्त योग्य दुव्यावर क्लिक करा.
जेव्हा जेव्हा एखादी साइट ऍक्सेस केली जाते तेव्हा रोबोट्स प्रथम robots.txt फाइल शोधतात आणि वाचतात. यात रोबोटच्या वर्तनावर नियंत्रण ठेवणारे विशेष निर्देश आहेत. या फाईलची अनुपस्थिती आणि तिचे चुकीचे कॉन्फिगरेशन या दोन्हीमुळे कोणत्याही साइटसाठी छुपा धोका येऊ शकतो. मी सर्वसाधारणपणे robots.txt सेट करण्याच्या समस्येचा आणि विशेषतः वर्डप्रेस CMS साठी अधिक तपशीलवार अभ्यास करण्याचा प्रस्ताव देतो आणि सामान्य त्रुटींकडे देखील लक्ष देतो.
सर्व शोध इंजिनांना रोबोट अपवर्जन मानकानुसार विशेष फाइलमध्ये लिहिलेल्या सूचना समजतात. या हेतूंसाठी, साइटच्या रूट निर्देशिकेत स्थित robots.txt नावाची नियमित मजकूर फाइल वापरली जाते. योग्यरित्या ठेवल्यास, डोमेन पत्त्यानंतर /robots.txt जोडून या फाईलची सामग्री कोणत्याही वेबसाइटवर पाहिली जाऊ शकते. उदाहरणार्थ, .
रोबोट्ससाठीच्या सूचना तुम्हाला फाइल्स/डिरेक्टरी/पेजेस स्कॅन करण्यास मनाई करतात, साइटवर प्रवेशाची वारंवारता मर्यादित करतात, मिरर आणि XML नकाशा निर्दिष्ट करतात. प्रत्येक सूचना पुढील स्वरूपात नवीन ओळीवर लिहिली आहे:
[निर्देश]: [मूल्य]
निर्देशांची संपूर्ण यादी विभागांमध्ये (प्रविष्टी) विभागली गेली आहे, एक किंवा अधिक रिक्त ओळींनी विभक्त केली आहे. एक नवीन विभाग एक किंवा अधिक वापरकर्ता-एजंट सूचनांसह सुरू होतो. एंट्रीमध्ये कमीत कमी एक वापरकर्ता-एजंट आणि एक नाकारण्याचे निर्देश असणे आवश्यक आहे.
# (हॅश) चिन्हानंतरचा मजकूर एक टिप्पणी मानला जातो आणि शोध रोबोट्सद्वारे त्याकडे दुर्लक्ष केले जाते.
वापरकर्ता-एजंट— विभागातील पहिला निर्देश, ज्या रोबोट्ससाठी खालील नियम अभिप्रेत आहेत त्यांच्या नावांचा अहवाल देतो. मूल्यातील तारका कोणतेही नाव दर्शवते, सर्व रोबोट्ससाठी निर्देशांसह फक्त एक विभाग अनुमत आहे. उदाहरण:
# सर्व रोबोट्ससाठी सूचना वापरकर्ता-एजंट: * ... # Yandex रोबोट्ससाठी सूचना वापरकर्ता-एजंट: Yandex ... # Google रोबोट्ससाठी सूचना वापरकर्ता-एजंट: Googlebot ...
नकार द्या— एक मूलभूत निर्देश जे URL/फाईल्स/डिरेक्टरी स्कॅन करण्यास प्रतिबंधित करते ज्यांची नावे कोलन नंतर निर्दिष्ट केलेल्या नावांशी पूर्णपणे किंवा अंशतः जुळतात.
Yandex आणि Google सारखे प्रगत शोध रोबोट विशेष वर्ण * (तारका) समजतात, जे वर्णांचा कोणताही क्रम दर्शवितात. सर्व रोबोट्ससाठी एका विभागात प्रतिस्थापन वापरणे उचित नाही.
परवानगी नाकारण्याच्या निर्देशाची उदाहरणे:
# रिक्त मूल्य "wp-" वर्णांपासून सुरू होणाऱ्या सर्व फायली आणि/किंवा निर्देशिकांना क्रॉल करण्यास अनुमती देते वापरकर्ता-एजंट: * अनुमती द्या: /wp- # फायली स्कॅन करणे प्रतिबंधित करते page-1.php, page-vasya.php, page- news-345.php # * User-agent: * Disallow: /page-*.php ऐवजी वर्णांचा कोणताही क्रम वापरला जाऊ शकतो
परवानगी द्यानिर्दिष्ट संसाधनांचे स्कॅनिंग करण्यास अनुमती देते. अधिकृतपणे, हा निर्देश रोबोट अपवाद मानकांमध्ये समाविष्ट केलेला नाही, म्हणून तो सर्व रोबोट्ससाठी (वापरकर्ता-एजंट: *) विभागात वापरणे उचित नाही. वापराचे एक उत्कृष्ट उदाहरण म्हणजे डिरेक्ट्रीमधील संसाधनांना अनुमती देणे ज्याला आधी रेंगाळण्यास नकार निर्देशाद्वारे अनुक्रमित करण्यापासून प्रतिबंधित केले होते:
# /catalog # ने सुरू होणारी संसाधने स्कॅन करण्यास प्रतिबंधित करते परंतु /catalog/page.html पृष्ठ स्कॅन करण्यास अनुमती देते वापरकर्ता-एजंट: Yandex Disallow: /catalog Allow: /catalog/page.html
साइट मॅप— XML फॉरमॅटमध्ये साइटमॅप पत्ता दर्शविणारा निर्देश. या निर्देशाचे अपवाद मानकांमध्ये वर्णन देखील केलेले नाही आणि सर्व रोबोट्सद्वारे समर्थित नाही (Yandex, Google, Ask, Bing आणि Yahoo साठी कार्य करते). आपण एक किंवा अधिक कार्ड निर्दिष्ट करू शकता - सर्व खात्यात घेतले जातील. रिकाम्या ओळीनंतर वापरकर्ता-एजंटशिवाय वापरले जाऊ शकते. उदाहरण:
# XML स्वरूपात एक किंवा अधिक नकाशे, पूर्ण URL दर्शविला आहे साइटमॅप: http://sitename.com/sitemap.xml साइटमॅप: http://sitename.com/sitemap-1.xml
यजमान— यांडेक्स रोबोटसाठी निर्देश, साइटचा मुख्य आरसा दर्शवितो. यांडेक्सच्या मदतीमध्ये मिररच्या समस्येचा अधिक तपशीलवार अभ्यास केला जाऊ शकतो. ही सूचना Yandex रोबोट्सच्या विभागात किंवा वापरकर्ता-एजंटशिवाय स्वतंत्र एंट्री म्हणून सूचित केली जाऊ शकते (सूचना क्रॉस-सेक्शनल आहे आणि कोणत्याही परिस्थितीत Yandex द्वारे विचारात घेतले जाईल आणि इतर रोबोट त्याकडे दुर्लक्ष करतील). एका फाईलमध्ये होस्ट अनेक वेळा निर्दिष्ट केले असल्यास, फक्त प्रथमच विचारात घेतले जाईल. उदाहरणे:
# Yandex वापरकर्ता-एजंटसाठी विभागात मुख्य मिरर निर्दिष्ट करा: Yandex Disallow: होस्ट: sitename.com # SSL प्रमाणपत्र असलेल्या साइटसाठी मुख्य मिरर वापरकर्ता-एजंट: Yandex Disallow: होस्ट: https://sitename.com # किंवा रिकाम्या ओळीनंतर वापरकर्ता-एजंटशिवाय स्वतंत्रपणे होस्ट: sitename.com
यांडेक्स रोबोट्स क्रॉल-विलंब आणि क्लीन-परम निर्देश देखील समजतात. मदत दस्तऐवजात त्यांच्या वापराबद्दल अधिक वाचा.
पूर्वी, शोध रोबोट्सने robots.txt निर्देशांचे पालन केले आणि निर्देशांकात "निषिद्ध" संसाधने जोडली नाहीत.
आज गोष्टी वेगळ्या आहेत. जर Yandex आज्ञाधारकपणे निर्देशांकातून रोबोट फाईलमध्ये प्रतिबंधित पत्ते वगळले तर Google पूर्णपणे वेगळ्या पद्धतीने कार्य करेल. तो निश्चितपणे त्यांची अनुक्रमणिका जोडेल, परंतु शोध परिणामांमध्ये शिलालेख असेल " robots.txt फाइलमधील निर्बंधांमुळे वेब पृष्ठाचे वर्णन उपलब्ध नाही".
याचं उत्तर गुगलच्या छोट्या ट्रिकमध्ये आहे. तुम्ही वेबमास्टर मदत काळजीपूर्वक वाचल्यास, सर्वकाही स्पष्ट होईल:
Google निर्लज्जपणे अहवाल देतो की robots.txt मधील निर्देश शिफारशी आहेत, कृती करण्यासाठी थेट आदेश नाहीत.
याचा अर्थ असा की रोबोट निर्देश विचारात घेतो, परंतु तरीही त्याच्या स्वत: च्या मार्गाने कार्य करतो. आणि जर त्याला त्याची लिंक दिसली तर तो robots.txt मध्ये निषिद्ध असलेल्या अनुक्रमणिकेत एक पृष्ठ जोडू शकतो.
robots.txt वर पत्ता जोडल्याने तो Google च्या शोध इंजिन इंडेक्समधून वगळला जाईल याची हमी देत नाही.
इंटरनेटवरील जवळजवळ प्रत्येक मार्गदर्शक म्हणतो की robots.txt मधील पृष्ठे बंद केल्याने त्यांना अनुक्रमित होण्यापासून प्रतिबंधित करते.
यापूर्वीही असेच होते. परंतु आम्हाला आधीच माहित आहे की अशी योजना आज Google साठी कार्य करत नाही. आणि सर्वात वाईट म्हणजे अशा शिफारसींचे पालन करणारे प्रत्येकजण एक मोठी चूक करतो - बंद URL अनुक्रमणिकेमध्ये संपतात आणि डुप्लिकेट म्हणून चिन्हांकित केले जातात, डुप्लिकेट सामग्रीची टक्केवारी सतत वाढत आहे आणि लवकरच किंवा नंतर साइटला पांडा फिल्टरद्वारे शिक्षा केली जाते.
Google त्याच्या संसाधन निर्देशांकातून वेबसाइट वगळण्यासाठी दोन खरोखर कार्यक्षम पर्याय ऑफर करते:
मुख्य गोष्ट विचारात घ्या:
तुम्ही वरील मेटा टॅग एका वेब पेजवर जोडल्यास जे अनुक्रमणिका प्रतिबंधित करते आणि त्याव्यतिरिक्त robots.txt मध्ये समान पृष्ठ क्रॉल करण्यास प्रतिबंधित करते, मग Google रोबोट निषिद्ध मेटा टॅग वाचण्यास सक्षम होणार नाही आणि अनुक्रमणिकेत पृष्ठ जोडेल!
(म्हणूनच तो शोध परिणामांमध्ये लिहितो की वर्णन robots.txt मध्ये मर्यादित आहे)
तुम्ही Google मदत मध्ये या समस्येबद्दल अधिक वाचू शकता. आणि येथे एकच उपाय आहे - robots.txt वर प्रवेश उघडा आणि मेटा टॅग (किंवा पासवर्ड, जर आपण फायलींबद्दल बोलत असाल तर) वापरून अनुक्रमित पृष्ठांवर प्रतिबंध कॉन्फिगर करा.
मागील भाग काळजीपूर्वक वाचल्यास ते स्पष्ट होते आज तुम्ही robots.txt मधील पत्त्यांवर जास्त बंदी घालण्याचा सराव करू नये, किमान Google साठी. रोबोट मेटा टॅगद्वारे पृष्ठ अनुक्रमणिका व्यवस्थापित करणे चांगले आहे.
वर्डप्रेससाठी येथे सर्वात सामान्य आणि तरीही पूर्णपणे योग्य robots.txt आहे:
वापरकर्ता-एजंट: * अनुमती द्या: होस्ट: sitename.com
आश्चर्य वाटले? तरीही होईल! कल्पक सर्व काही सोपे आहे 🙂 पाश्चात्य संसाधनांवर, जेथे Yandex नाही, WordPress साठी robots.txt संकलित करण्याच्या शिफारसी पहिल्या दोन ओळींवर येतात, जसे की Yoast द्वारे WordPress SEO च्या लेखकांनी दाखवले आहे.
योग्यरित्या कॉन्फिगर केलेले एसइओ प्लगइन कॅनोनिकल लिंक्स आणि व्हॅल्यू noindex सह रोबोट मेटा टॅगची काळजी घेईल, आणि प्रशासक पृष्ठे पासवर्ड-संरक्षित आहेत आणि अनुक्रमित करण्यापासून अवरोधित करण्याची आवश्यकता नाही (मात्र अपवाद फक्त लॉगिन आणि नोंदणी पृष्ठे असू शकतात. साइट - त्यांच्याकडे noindex मूल्यासह रोबोट मेटा टॅग असल्याची खात्री करा). शोध इंजिन वेबमास्टरमध्ये साइटमॅप व्यक्तिचलितपणे जोडणे चांगले आहे आणि त्याच वेळी ते योग्यरित्या वाचले आहे याची खात्री करा. RuNet साठी फक्त एकच गोष्ट बाकी आहे आणि महत्वाची आहे ती म्हणजे Yandex साठी मुख्य मिरर सूचित करणे.
दुसरा पर्याय, कमी धाडसासाठी योग्य:
वापरकर्ता-एजंट: * परवानगी न द्या: /wp-admin होस्ट: sitename.com साइटमॅप: http://sitename.com/sitemam.xml
पहिला विभाग wp-admin निर्देशिकेच्या सर्व रोबोट्स आणि त्यातील सामग्रीसाठी अनुक्रमणिका प्रतिबंधित करतो. शेवटच्या दोन ओळी यांडेक्स रोबोटसाठी साइट मिरर आणि साइट नकाशा दर्शवितात.
तुम्ही robots.txt मधील निर्देश बदलण्याचे ठरविल्यास, प्रथम तीन गोष्टींची काळजी घ्या:
// ने सुरू होणाऱ्या ओळींमध्ये मेटा टॅग प्रदर्शित केला जाणार नाही (प्रत्येक ओळ नियम कोणत्या पृष्ठासाठी आहे याचे वर्णन करते). ओळीच्या सुरुवातीला दोन स्लॅश जोडून किंवा काढून टाकून, तुम्ही रोबोट मेटा टॅग पृष्ठांच्या विशिष्ट गटावर प्रदर्शित केला जाईल की नाही हे नियंत्रित करू शकता.
रोबोट फाईल सेट करताना आणि पृष्ठे अनुक्रमित करताना, आपल्याला दोन महत्त्वाचे मुद्दे लक्षात ठेवणे आवश्यक आहे जे सर्वकाही त्याच्या जागी ठेवतात:
सर्व्हर फायली आणि निर्देशिकांचा प्रवेश नियंत्रित करण्यासाठी robots.txt फाइल वापरा. robots.txt फाइल "नो एंट्री: खाजगी प्रदेश" या इलेक्ट्रॉनिक चिन्हाची भूमिका बजावते.
शोध परिणामांमध्ये सामग्री दिसण्यापासून रोखण्यासाठी रोबोट मेटा टॅग वापरा. पृष्ठावर noindex विशेषता असलेला रोबोट मेटा टॅग असल्यास, इतर पृष्ठांशी लिंक असली तरीही, बहुतेक रोबोट संपूर्ण पृष्ठ शोध परिणामांमधून वगळतील.
मागील लेखात आम्ही वेबसाइट इंडेक्सिंगला गती देण्याकडे पाहिले. सर्व प्रमोशनच्या कामात हा महत्त्वाचा भाग असल्याचे ते म्हणाले.
तथापि, अशी परिस्थिती असते जेव्हा ते आवश्यक असते अनुक्रमणिका पासून बंदएकतर संपूर्ण साइट किंवा काही भाग: विभाग, पृष्ठे, दुवे इ.
आज आपण प्रश्न पाहू सर्च इंजिनमध्ये साइट इंडेक्सिंग कसे रोखायचे. कोणत्या प्रकरणांमध्ये हे आवश्यक आहे? सामान्यतः, साइटच्या विविध सेवा मॉड्यूल्सवर अनुक्रमणिका प्रतिबंधित आहे. जे वापरकर्त्यांसाठी आणि PS दोन्हीसाठी अर्थपूर्ण भार उचलत नाहीत.
हा प्रशासक विभाग, नोंदणी आणि माहिती प्रविष्टी फॉर्म, वापरकर्ता प्रोफाइल इ. हा फोरमवरील एक गुप्त विभाग देखील असू शकतो, ज्याची सामग्री आम्ही प्रत्येकाला दर्शवू इच्छित नाही. याव्यतिरिक्त, डुप्लिकेट पृष्ठे अनुक्रमित होण्यापासून रोखणे आवश्यक आहे, जे विविध वेबसाइट इंजिनद्वारे तयार केले जाऊ शकतात.
तुम्ही संपूर्ण पृष्ठ किंवा त्याचा वेगळा भाग अनुक्रमित करण्यास प्रतिबंध करू शकता, उदाहरणार्थ मजकूराचा तुकडा किंवा लिंक. म्हणून, आम्ही जागतिक अनुक्रमणिका बंदी आणि स्थानिक दोन्हीबद्दल बोलू शकतो. आता हे कसे अंमलात आणायचे याबद्दल तपशीलवार बोलूया.
robots.txt फाइल वापरून, आम्ही एका पृष्ठाचे किंवा साइटच्या संपूर्ण विभागाचे अनुक्रमणिका रोखू शकतो.
मी आधीच robots.txt बद्दल अनेक उदाहरणांसह तपशीलवार लेख लिहिला आहे. ही फाईल काय आहे, ती कशी तयार करायची आणि कॉन्फिगर कशी करायची हे तुम्ही तिथे वाचू शकता. या लेखाच्या संदर्भात, मी तुम्हाला robots.txt मध्ये अनुक्रमणिका अक्षम कशी करायची याची आठवण करून देईन
वापरकर्ता-एजंट: *
अनुमती द्या: /kolobok.html
परवानगी देऊ नका: /foto/
कुठे, *
— सूचना सर्व सबस्टेशनसाठी आहेत हे निर्धारित करते;
परवानगी न द्या: /kolobok.html kolobok.html फाइल अनुक्रमित करण्यास प्रतिबंधित करते;
परवानगी देऊ नका: /foto/- फोटो फोल्डरमधील संपूर्ण सामग्री अनुक्रमित करण्यावर बंदी घालते.
तुम्हाला अनेक फोल्डर आणि/किंवा पृष्ठे प्रतिबंधित करण्याची आवश्यकता असल्यास, आम्ही ते सर्व रोबोट्समध्ये सूचित करतो.
विशिष्ट पृष्ठाचे अनुक्रमणिका टाळण्यासाठी, आपण रोबोट मेटा टॅग वापरू शकता. robots.txt च्या विपरीत, त्याच्या वापराचे वैशिष्ठ्य म्हणजे ते एकाच वेळी सर्व उपप्रणालींना सूचना देते. आणि robots.txt वेगळ्या शोध इंजिनसाठी कॉन्फिगर केले जाऊ शकते. हा मेटा टॅग एचटीएमएल फॉरमॅटच्या सामान्य नियमांच्या अधीन आहे आणि टॅगमधील पृष्ठ शीर्षकामध्ये स्थित असावा
.सामग्री विशेषतामध्ये खालील अटी असू शकतात:
प्रत्येक गोष्टीला अनुमती देणाऱ्या एंट्रीचे उदाहरण:
किंवा सर्वकाही आणि मजकूर आणि दुवे अनुक्रमित करण्यास प्रतिबंधित करते:
रोबोट मेटा टॅगमध्ये कोणत्या PS साठी निर्बंध आहेत ते देखील तुम्ही निर्दिष्ट करू शकता. यांडेक्सला ही नोंद स्पष्टपणे समजते:
विशेषता आम्हाला आवश्यक असलेल्या सर्व शोध इंजिनांद्वारे विचारात घेतली जाते: Yandex आणि Google. "रोबोट्स" मेटा टॅगच्या विपरीत, जे सर्व लिंक्स एकाच वेळी अनुक्रमित होण्यास प्रतिबंधित करते, "rel" फक्त एक लिंक बंद करते.
जेव्हा आपण लिंक्सद्वारे पृष्ठाचा दुवा रस गमावू इच्छित नसतो तेव्हा ही विशेषता बर्याचदा वापरली जाते.
टॅग वापरून, तुम्ही पृष्ठाचा काही भाग अनुक्रमित करण्यापासून अवरोधित करू शकता. तो मजकूर किंवा कोडचा तुकडा असू शकतो, काहीही असो. वेबमास्टर अनेकदा हा टॅग वेबसाइट्सवरील आकडेवारी काउंटर आणि स्क्रिप्ट कव्हर करण्यासाठी वापरतात. उदाहरण एंट्री:
पृष्ठाचा भाग जो अनुक्रमणिकेपासून बंद करणे आवश्यक आहे
"noindex" टॅग पृष्ठावर कुठेही स्थित असू शकतो आणि नेस्टिंग संवेदनशील नाही. ते वैध करण्यासाठी, खालील नोटेशन वापरा:
मजकूर अनुक्रमित होण्यापासून प्रतिबंधित करणे
htaccess फाइल साइटच्या विशिष्ट भागावर प्रवेश अवरोधित करू शकते, जसे की विशिष्ट पृष्ठ. जर तुम्हाला Yandex वरून एखादे पृष्ठ बंद करायचे असेल तर तुम्हाला अशी एंट्री आवश्यक आहे.
पुन्हा लिहा इंजिन चालू
RewriteCond %(HTTP_USER_AGENT) यांडेक्स
पुनर्लेखन नियम ^page_url$ येथे$ - [F]
म्हणून आम्ही साइटचे संपूर्ण विभाग किंवा पृष्ठे आणि काही विशिष्ट भागांचे अनुक्रमणिका प्रतिबंधित करण्याच्या सर्व संभाव्य मार्गांचे आणि पद्धतींचे विश्लेषण केले आहे. तसे, Yandex आणि Google मध्ये, वेबमास्टर पॅनेलमध्ये आपल्या साइटची कोणती पृष्ठे अनुक्रमित करण्यापासून बंद आहेत हे आपण पाहू शकता. हे करण्यासाठी, आपल्याला आपली साइट आपल्या खात्यात जोडण्याची आवश्यकता आहे आणि पृष्ठांचे विश्लेषण करताना आपण त्यापैकी कोणती बंद आहे हे पहाल.
तयार केलेल्या साइटच्या तांत्रिक बाबी शोध इंजिनमध्ये वेबसाइटच्या जाहिरातीसाठी तिच्या सामग्रीपेक्षा कमी महत्त्वाची भूमिका बजावत नाहीत. सर्वात महत्त्वाच्या तांत्रिक बाबींपैकी एक म्हणजे साइट अनुक्रमणिका, म्हणजे साइटचे क्षेत्र (फाइल आणि निर्देशिका) निश्चित करणे जे शोध इंजिन रोबोटद्वारे अनुक्रमित केले जाऊ शकतात किंवा करू शकत नाहीत. या हेतूंसाठी, robots.txt वापरला जातो - ही एक विशेष फाइल आहे ज्यामध्ये शोध इंजिन रोबोट्ससाठी आदेश आहेत. Yandex आणि Google साठी योग्य robots.txt फाइल तुम्हाला साइट इंडेक्सिंगशी संबंधित अनेक अप्रिय परिणाम टाळण्यास मदत करेल.
/robots.txt फाइलचा उद्देश सर्व शोध रोबोट्स (स्पायडर्स) या फाईलमध्ये परिभाषित केल्यानुसार माहिती सर्व्हरला निर्देशीत करण्यासाठी आहे, उदा. फक्त त्या डिरेक्टरीज आणि सर्व्हर फाइल्स ज्यांचे /robots.txt मध्ये वर्णन नाही. या फाइलमध्ये 0 किंवा त्याहून अधिक नोंदी असाव्यात ज्या विशिष्ट रोबोटशी संबंधित आहेत (एजंट_आयडी फील्डच्या मूल्यानुसार निर्धारित केल्यानुसार) आणि प्रत्येक रोबोटसाठी किंवा त्या सर्वांसाठी एकाच वेळी त्यांना नेमके काय अनुक्रमित करण्याची आवश्यकता नाही हे सूचित केले पाहिजे.
फाइल सिंटॅक्स तुम्हाला सर्वांसाठी आणि विशिष्ट रोबोट्ससाठी प्रतिबंधित अनुक्रमणिका क्षेत्रे सेट करण्याची परवानगी देते.
robots.txt फाईलमध्ये विशेष आवश्यकता आहेत, ज्याचे पालन करण्यात अयशस्वी झाल्यामुळे शोध इंजिन रोबोट योग्यरित्या वाचत नाही किंवा सर्वसाधारणपणे फाइल अक्षम होऊ शकते.
प्राथमिक आवश्यकता:
robots.txt फाइलमध्ये दोन नोंदी समाविष्ट आहेत: "वापरकर्ता-एजंट" आणि "नकार द्या". या नोंदींची नावे केस संवेदनशील नाहीत.
काही शोध इंजिन अतिरिक्त नोंदींना देखील समर्थन देतात. म्हणून, उदाहरणार्थ, यांडेक्स शोध इंजिन साइटचा मुख्य मिरर निर्धारित करण्यासाठी "होस्ट" रेकॉर्ड वापरते (साइटचा मुख्य आरसा ही साइट आहे जी शोध इंजिन निर्देशांकात असते).
प्रत्येक एंट्रीचा स्वतःचा उद्देश असतो आणि इंडेक्सिंगपासून ब्लॉक केलेल्या पेजेस आणि/किंवा डिरेक्टरीजची संख्या आणि तुम्ही संपर्क करत असलेल्या रोबोट्सच्या संख्येवर अवलंबून ते अनेक वेळा दिसू शकतात.
robots.txt फाइलसाठी अपेक्षित ओळ स्वरूप खालीलप्रमाणे आहे:
पोस्ट_नाव[पर्यायी
मोकळी जागा] : [पर्यायी
मोकळी जागा] अर्थ[पर्यायी जागा]
robots.txt फाइल वैध मानली जाण्यासाठी, प्रत्येक "वापरकर्ता-एजंट" एंट्रीनंतर किमान एक "नकार द्या" निर्देश असणे आवश्यक आहे.
पूर्णपणे रिकामी robots.txt फाइल कोणत्याही robots.txt फाइलच्या समतुल्य आहे, जी संपूर्ण साइटला अनुक्रमित करण्याची परवानगी सूचित करते.
"वापरकर्ता-एजंट" एंट्रीमध्ये शोध रोबोटचे नाव असणे आवश्यक आहे. या नोंदीमध्ये, तुम्ही प्रत्येक विशिष्ट रोबोटला साइटची कोणती पृष्ठे अनुक्रमित करायची आणि कोणती नाही हे सांगू शकता.
"वापरकर्ता-एजंट" रेकॉर्डचे उदाहरण, जेथे अपवादाशिवाय सर्व शोध इंजिन्समध्ये प्रवेश केला जातो आणि "*" चिन्ह वापरले जाते:
"वापरकर्ता-एजंट" रेकॉर्डचे उदाहरण, जिथे फक्त रॅम्बलर शोध इंजिन रोबोटशी संपर्क साधला जातो:
वापरकर्ता-एजंट: StackRambler
प्रत्येक शोध इंजिन रोबोटचे स्वतःचे नाव असते. त्याचे (नाव) शोधण्याचे दोन मुख्य मार्ग आहेत:
बऱ्याच शोध इंजिनच्या वेबसाइटवर एक विशेष “वेबमास्टर मदत” विभाग आहे, ज्यामध्ये शोध रोबोटचे नाव सहसा सूचित केले जाते;
वेब सर्व्हर लॉग पाहताना, म्हणजे robots.txt फाइलवर कॉल पाहताना, तुम्ही अनेक नावे पाहू शकता ज्यात शोध इंजिनची नावे आहेत किंवा त्यांचा काही भाग आहे. म्हणून, तुम्हाला फक्त इच्छित नाव निवडायचे आहे आणि ते robots.txt फाइलमध्ये टाकायचे आहे.
"नकार द्या" रेकॉर्डमध्ये "वापरकर्ता-एजंट" रेकॉर्डवरून शोध रोबोटला सूचित करणारे निर्देश असले पाहिजेत की कोणत्या फाइल्स आणि/किंवा निर्देशिका अनुक्रमित करण्यास प्रतिबंधित आहेत.
चला “नकार द्या” रेकॉर्डिंगची विविध उदाहरणे पाहू.
robots.txt मधील एंट्रीचे उदाहरण (इंडेक्सिंगसाठी सर्वकाही अनुमती द्या):
परवानगी देऊ नका:
उदाहरण (साइट वरून पूर्णपणे निषिद्ध आहे. यासाठी “/” चिन्ह वापरले जाते): परवानगी नाकारणे: /
उदाहरण (मूळ निर्देशिकेत असलेली फाइल “page.htm” आणि “dir” निर्देशिकेत असलेली “page2.htm” फाइल अनुक्रमित करण्यासाठी प्रतिबंधित आहे):
अनुमती द्या: /page.htm
परवानगी देऊ नका: /dir/page2.htm
उदाहरण (“cgi-bin” आणि “forum” या निर्देशिका आणि म्हणून, या निर्देशिकेतील सर्व सामग्री अनुक्रमणिकेसाठी प्रतिबंधित आहे):
परवानगी न द्या: /cgi-bin/
परवानगी न द्या: /forum/
फक्त एकच “Disallow” एंट्री वापरून अनुक्रमणिका करण्यापासून समान वर्णांपासून सुरू होणारे अनेक दस्तऐवज आणि (किंवा) निर्देशिका अवरोधित करणे शक्य आहे. हे करण्यासाठी, तुम्हाला क्लोजिंग स्लॅशशिवाय प्रारंभिक समान वर्ण लिहिण्याची आवश्यकता आहे.
उदाहरण (“dir” ही निर्देशिका अनुक्रमित करण्यासाठी प्रतिबंधित आहे, तसेच “dir” अक्षरांनी सुरू होणाऱ्या सर्व फाईल्स आणि डिरेक्टरी, म्हणजे फाईल्स: “dir.htm”, “direct.htm”, डिरेक्टरी: “dir”, “directory1 "", "directory2", इ.):
"अनुमती द्या" पर्यायाचा वापर नॉन-इंडेक्सेबल डिरेक्टरी आणि "नाकार" एंट्रीद्वारे निर्दिष्ट केलेल्या पृष्ठांमधील अपवाद दर्शविण्यासाठी केला जातो.
उदाहरणार्थ, यासारखे रेकॉर्ड आहे:
परवानगी न द्या: /forum/
परंतु या प्रकरणात, पृष्ठ पृष्ठ1 /forum/ निर्देशिकेत अनुक्रमित करणे आवश्यक आहे. त्यानंतर robots.txt फाइलमध्ये खालील ओळी आवश्यक असतील:
परवानगी न द्या: /forum/
परवानगी द्या: /forum/page1
ही एंट्री xml फॉरमॅटमध्ये साइटमॅपचे स्थान दर्शवते, जी शोध रोबोटद्वारे वापरली जाते. ही नोंद या फाईलचा मार्ग निर्दिष्ट करते.
साइटमॅप: http://site.ru/sitemap.xml
"होस्ट" रेकॉर्ड Yandex शोध इंजिनद्वारे वापरले जाते. साइटचा मुख्य आरसा निश्चित करणे आवश्यक आहे, म्हणजे साइटवर मिरर असल्यास (आरसा ही साइटची आंशिक किंवा पूर्ण प्रत आहे. विश्वासार्हता वाढविण्यासाठी आणि अधिक भेट दिलेल्या साइटच्या मालकांसाठी संसाधन डुप्लिकेटची उपस्थिती कधीकधी आवश्यक असते. त्यांच्या सेवेची उपलब्धता), नंतर “होस्ट” निर्देश वापरून तुम्ही ज्या नावाखाली तुम्हाला अनुक्रमित करायचे आहे ते नाव निवडू शकता. अन्यथा, यांडेक्स स्वतःच मुख्य मिरर निवडेल आणि इतर नावे अनुक्रमित करण्यास मनाई केली जाईल.
शोध रोबोट्ससह सुसंगततेसाठी, जे robots.txt फाइलवर प्रक्रिया करताना होस्ट निर्देश स्वीकारत नाहीत, प्रवेश नाकारल्यानंतर लगेच "होस्ट" एंट्री जोडणे आवश्यक आहे.
उदाहरण: www.site.ru – मुख्य मिरर:
होस्ट: www.site.ru
ही नोंद Yandex द्वारे समजली जाते. इंडेक्सिंग पेजेसमध्ये निर्दिष्ट वेळ (सेकंदात) घेणे हा रोबोटसाठी एक आदेश आहे. कधीकधी साइटला ओव्हरलोड्सपासून संरक्षित करण्यासाठी हे आवश्यक असते.
तर, खालील एंट्रीचा अर्थ असा आहे की यांडेक्स रोबोटला 3 सेकंदांनंतर एका पृष्ठावरून दुसऱ्या पृष्ठावर जाणे आवश्यक आहे:
robots.txt मधील "#" अक्षराने सुरू होणारी कोणतीही ओळ टिप्पणी मानली जाते. निर्देशात्मक ओळींच्या शेवटी टिप्पण्यांना अनुमती आहे, परंतु काही रोबोट्स रेषा योग्यरित्या ओळखू शकत नाहीत.
उदाहरण (टिप्पणी निर्देशाप्रमाणेच आहे):
अनुमती द्या: /cgi-bin/ #comment
टिप्पणी वेगळ्या ओळीवर ठेवण्याचा सल्ला दिला जातो. ओळीच्या सुरूवातीस एक जागा अनुमत आहे, परंतु शिफारस केलेली नाही.
उदाहरण (टिप्पणी वेगळ्या ओळीवर आहे):
अनुमती द्या: /cgi-bin/#comment
robots.txt फाइलचे उदाहरण जे सर्व रोबोट्सना संपूर्ण साइट अनुक्रमित करण्यास अनुमती देते:
होस्ट: www.site.ru
robots.txt फाइलचे उदाहरण जे सर्व रोबोट्सला साइट अनुक्रमित करण्यास प्रतिबंधित करते:
होस्ट: www.site.ru
robots.txt फाईलचे उदाहरण जे सर्व रोबोट्सना "abc" निर्देशिका, तसेच "abc" अक्षरांपासून सुरू होणाऱ्या सर्व निर्देशिका आणि फाइल्स अनुक्रमित करण्यास प्रतिबंधित करते.
होस्ट: www.site.ru
robots.txt फाइलचे उदाहरण जे साइटच्या रूट निर्देशिकेत असलेल्या “page.htm” पृष्ठाला Googlebot शोध रोबोटद्वारे अनुक्रमित होण्यापासून प्रतिबंधित करते:
वापरकर्ता-एजंट: googlebot
परवानगी न द्या: /page.htm
होस्ट: www.site.ru
अनुक्रमणिका प्रतिबंधित करणाऱ्या robots.txt फाइलचे उदाहरण:
– “googlebot” रोबोटला – “page1.htm” हे पृष्ठ “निर्देशिका” निर्देशिकेत आहे;
– “Yandex” रोबोटकडे – “dir” (/dir/, /direct/, dir.htm, direction.htm, इ.) या चिन्हांनी सुरू होणाऱ्या आणि साइटच्या मूळ निर्देशिकेत असलेल्या सर्व निर्देशिका आणि पृष्ठे.
वापरकर्ता-एजंट: googlebot
परवानगी न द्या: /directory/page1.htm
वापरकर्ता-एजंट: यांडेक्स
सर्वात सामान्य चुकांपैकी एक म्हणजे उलटे वाक्यरचना.
चुकीचे:
परवानगी देऊ नका: यांडेक्स
उजवीकडे:
वापरकर्ता-एजंट: यांडेक्स
चुकीचे:
परवानगी न द्या: /dir/ /cgi-bin/ /forum/
उजवीकडे:
परवानगी न द्या: /cgi-bin/
परवानगी न द्या: /forum/
जर, त्रुटी 404 (दस्तऐवज सापडले नाही) वर प्रक्रिया करताना, वेब सर्व्हर एक विशेष पृष्ठ प्रदर्शित करतो आणि robots.txt फाइल गहाळ असल्यास, शोध रोबोट, robots.txt फाइलची विनंती करताना, तेच दिले जाण्याची शक्यता आहे. विशेष पृष्ठ, जे मुळीच अनुक्रमणिका व्यवस्थापन फाइल नाही.
robots.txt फाइलमधील केसच्या चुकीच्या वापराशी संबंधित त्रुटी. उदाहरणार्थ, जर तुम्हाला "cgi-bin" निर्देशिका बंद करायची असेल, तर "Disallow" एंट्रीमध्ये तुम्ही अप्पर केस "cgi-bin" मध्ये डिरेक्टरीचे नाव लिहू शकत नाही.
चुकीचे:
परवानगी न द्या: /CGI-BIN/
उजवीकडे:
परवानगी न द्या: /cgi-bin/
इंडेक्सिंगमधून निर्देशिका बंद करताना गहाळ ओपनिंग स्लॅशशी संबंधित त्रुटी.
चुकीचे:
परवानगी न द्या: page.HTML
उजवीकडे:
नाकारणे: /page.HTML
सर्वात सामान्य त्रुटी टाळण्यासाठी, robots.txt फाइल Yandex.Webmaster किंवा Google Webmaster Tools वापरून तपासली जाऊ शकते. फाइल डाउनलोड केल्यानंतर तपासणी केली जाते.
अशाप्रकारे, robots.txt फाइलची उपस्थिती, तसेच त्याचे संकलन, शोध इंजिनमधील वेबसाइटच्या जाहिरातीवर परिणाम करू शकते. robots.txt फाइलची वाक्यरचना जाणून घेतल्याशिवाय, तुम्ही संभाव्य प्रचारित पृष्ठे तसेच संपूर्ण साइटला अनुक्रमित होण्यापासून रोखू शकता. आणि, याउलट, या फाईलचे सक्षम संकलन संसाधनाचा प्रचार करण्यास मोठ्या प्रमाणात मदत करू शकते, उदाहरणार्थ, आपण आवश्यक पृष्ठांच्या अनुक्रमणिकेत हस्तक्षेप करणारी दस्तऐवज अवरोधित करू शकता;
या मार्गदर्शकाचा उद्देश वेबमास्टर आणि प्रशासकांना robots.txt वापरण्यात मदत करणे हा आहे.
रोबोट सूट मानक त्याच्या मुळाशी अगदी सोपे आहे. थोडक्यात, हे असे कार्य करते:
जेव्हा मानकांचे अनुसरण करणारा रोबोट एखाद्या साइटला भेट देतो तेव्हा तो प्रथम “/robots.txt” नावाच्या फाइलची विनंती करतो. अशी फाइल आढळल्यास, रोबोट साइटच्या काही भागांना अनुक्रमित करण्यास मनाई करणाऱ्या सूचनांसाठी ती शोधतो.
रोबोट तुमच्या साइटवर फक्त URL "/robots.txt" ची विनंती करतो;
साइट URL | Robots.txt फाइल URL |
http://www.w3.org/ | http://www.w3.org/robots.txt |
http://www.w3.org:80/ | http://www.w3.org:80/robots.txt |
http://www.w3.org:1234/ | http://www.w3.org:1234/robots.txt |
http://w3.org/ | http://w3.org/robots.txt |
साइटवर फक्त एक फाइल “/robots.txt” असू शकते. उदाहरणार्थ, तुम्ही robots.txt फाइल वापरकर्त्याच्या उपडिरेक्टरीमध्ये ठेवू नये - तरीही रोबोट त्यांना तिथे शोधणार नाहीत. जर तुम्हाला उपडिरेक्टरीमध्ये robots.txt फाइल्स बनवता येत असतील, तर तुम्हाला त्या साइटच्या रूटवर असलेल्या एका robots.txt फाइलमध्ये प्रोग्रामॅटिकरित्या एकत्रित करण्याचा मार्ग आवश्यक आहे. तुम्ही वापरू शकता.
लक्षात ठेवा की URL केस संवेदनशील असतात आणि फाइल नाव “/robots.txt” पूर्णपणे लोअरकेसमध्ये लिहिलेले असणे आवश्यक आहे.
robots.txt चे चुकीचे स्थान | |
http://www.w3.org/admin/robots.txt | |
http://www.w3.org/~timbl/robots.txt | फाइल साइटच्या रूटवर स्थित नाही |
ftp://ftp.w3.com/robots.txt | रोबोट्स एफटीपी इंडेक्स करत नाहीत |
http://www.w3.org/Robots.txt | फाइलचे नाव लोअरकेसमध्ये नाही |
तुम्ही बघू शकता, robots.txt फाइल साइटच्या मुळाशीच ठेवली पाहिजे.
robots.txt फाईल सहसा असे लिहिलेली असते:
वापरकर्ता-एजंट: *
परवानगी न द्या: /cgi-bin/
अनुमती द्या: /tmp/
अनुमती द्या: /~joe/
या उदाहरणात, तीन निर्देशिकांचे अनुक्रमणिका निषिद्ध आहे.
लक्षात ठेवा की प्रत्येक निर्देशिका वेगळ्या ओळीवर सूचीबद्ध आहे - तुम्ही "Disallow: /cgi-bin/ /tmp/" लिहू शकत नाही. तुम्ही एक Disallow किंवा User-agent स्टेटमेंटला अनेक ओळींमध्ये विभाजित करू शकत नाही, कारण एकमेकांपासून सूचना विभक्त करण्यासाठी लाइन ब्रेकचा वापर केला जातो.
रेग्युलर एक्सप्रेशन्स आणि वाइल्डकार्ड्स देखील वापरता येत नाहीत. वापरकर्ता-एजंट निर्देशातील "तारका" (*) चा अर्थ "कोणताही रोबोट" असा होतो. "Disallow: *.gif" किंवा "वापरकर्ता-एजंट: Ya*" सारख्या सूचना समर्थित नाहीत.
robots.txt मधील विशिष्ट सूचना तुमच्या साइटवर आणि तुम्हाला अनुक्रमित होण्यापासून काय रोखायचे आहे यावर अवलंबून असते. येथे काही उदाहरणे आहेत:
वापरकर्ता-एजंट: *
अनुमती द्या: /
वापरकर्ता-एजंट: *
परवानगी देऊ नका:
किंवा तुम्ही फक्त रिकामी फाइल “/robots.txt” तयार करू शकता.
वापरकर्ता-एजंट: *
परवानगी न द्या: /cgi-bin/
अनुमती द्या: /tmp/
अनुमती द्या: /खाजगी/
वापरकर्ता-एजंट: बॅडबॉट
अनुमती द्या: /
वापरकर्ता-एजंट: यांडेक्स
परवानगी देऊ नका:
वापरकर्ता-एजंट: *
अनुमती द्या: /
हे खूप अवघड आहे, कारण... कोणतेही "अनुमती द्या" विधान नाही. त्याऐवजी, सबडिरेक्टरीमध्ये अनुक्रमित करण्याची परवानगी देऊ इच्छित असलेल्या फाइल वगळता तुम्ही सर्व फायली हलवू शकता आणि त्यास अनुक्रमित होण्यापासून प्रतिबंधित करू शकता:
वापरकर्ता-एजंट: *
परवानगी न द्या: /docs/
किंवा तुम्ही सर्व फायलींना इंडेक्स करण्यापासून प्रतिबंधित करू शकता:
वापरकर्ता-एजंट: *
परवानगी न द्या: /private.html
अनुमती द्या: /foo.html
परवानगी नाकारू द्या: /bar.html