वेई परत संग्रहण. वेब संग्रहणातून अद्वितीय सामग्री कशी काढायची

Android साठी 21.04.2019
Android साठी

आम्ही सोशल मीडिया कंटेंट मार्केटिंग: तुमच्या फॉलोअर्सच्या डोक्यात कसे जायचे आणि त्यांना तुमच्या ब्रँडच्या प्रेमात पडायचे हे नवीन पुस्तक प्रकाशित केले आहे.

सदस्यता घ्या

वेब आर्काइव्ह हे एक विनामूल्य प्लॅटफॉर्म आहे ज्यामध्ये सर्व साइट्स आहेत ज्या कधीही तयार केल्या गेल्या आहेत आणि ज्या संरक्षित केल्या जात नाहीत.


आमच्या चॅनेलवर अधिक व्हिडिओ - SEMANTICA सह इंटरनेट मार्केटिंग शिका

ही एक वास्तविक लायब्ररी आहे ज्यामध्ये कोणीही त्यांना स्वारस्य असलेले वेब संसाधन उघडू शकते आणि वेब आर्काइव्हने ज्या तारखेला साइटला भेट दिली आणि एक प्रत जतन केली त्या तारखेला त्यातील सामग्री पाहू शकते.

आर्काइव्ह ऑर्गचा परिचय किंवा व्हॅलेरीला वेब आर्काइव्हमधून जुने मजकूर कसे सापडले
2010 मध्ये, व्हॅलेरीने एक वेबसाइट तयार केली ज्यामध्ये त्याने इंटरनेट मार्केटिंगबद्दल लेख लिहिले. त्यांनी त्यांच्यापैकी एक Google (AdWords) वर जाहिरातीबद्दल थोडक्यात सारांश स्वरूपात लिहिले. काही वर्षांनी त्याला ही माहिती हवी होती. परंतु मजकुर असलेले पान त्यांनी काही काळापूर्वी चुकून हटवले होते. हे प्रत्येकाला घडते.

तथापि, व्हॅलेरीला परिस्थितीतून कसे बाहेर पडायचे हे माहित होते. त्याने आत्मविश्वासाने वेब संग्रहण सेवा उघडली आणि शोध बारमध्ये त्याला आवश्यक असलेला पत्ता प्रविष्ट केला. काही क्षणांनंतर, तो आधीपासूनच त्याला आवश्यक असलेली सामग्री वाचत होता आणि थोड्या वेळाने त्याने त्याच्या वेबसाइटवर मजकूर पुनर्संचयित केला.

इंटरनेट आर्काइव्हच्या निर्मितीचा इतिहास

1996 मध्ये, ब्रेवस्टर काइल या अमेरिकन प्रोग्रामरने इंटरनेट आर्काइव्ह तयार केले, जिथे त्यांनी वेबसाइट्समध्ये असलेल्या सर्व माहितीसह त्यांच्या प्रती गोळा करण्यास सुरुवात केली. ही पृष्ठे वास्तविक स्वरूपात पूर्णपणे जतन केलेली होती, जसे की आपण आवश्यक साइट ब्राउझरमध्ये उघडली आहे.

कोणीही वेब संग्रहण डेटा पूर्णपणे विनामूल्य वापरू शकतो. ते तयार करताना, ब्रूस्टर काइलचे मुख्य ध्येय होते - इंटरनेट स्पेसची सांस्कृतिक आणि ऐतिहासिक मूल्ये जतन करणे आणि एक विस्तृत इलेक्ट्रॉनिक लायब्ररी तयार करणे.

2001 मध्ये, मुख्य इंटरनेट आर्काइव्ह वेबॅक मशीन सेवा तयार केली गेली, जी आजही https://archive.org वर आढळू शकते. या ठिकाणी सर्वांच्या प्रती विनामूल्य पाहण्यासाठी उपलब्ध आहेत.

साइट्सच्या संग्रहापुरते मर्यादित न राहण्यासाठी, 1999 मध्ये त्यांनी मजकूर, प्रतिमा, ध्वनी रेकॉर्डिंग, व्हिडिओ आणि सॉफ्टवेअर संग्रहित करण्यास सुरुवात केली.

मार्च 2010 मध्ये, वार्षिक फ्री सॉफ्टवेअर अवॉर्ड्समध्ये, इंटरनेट आर्काइव्हला प्रोजेक्ट ऑफ सोशल बेनिफिट श्रेणीमध्ये विजेते म्हणून सन्मानित करण्यात आले.

लायब्ररी दरवर्षी वाढत आहे, आणि आधीच ऑगस्ट 2016 मध्ये, वेबआर्काइव्ह व्हॉल्यूममध्ये वेब पृष्ठांच्या 502 अब्ज प्रती होत्या. ते सर्व सॅन फ्रान्सिस्को, न्यू अलेक्झांड्रिया आणि ॲमस्टरडॅममधील खूप मोठ्या सर्व्हरवर संग्रहित आहेत.

archive.org बद्दल सर्व काही: सेवा कशी वापरायची आणि वेब संग्रहणातून साइट कशी मिळवायची

ब्रूस्टर काइलने इंटरनेट आर्काइव्ह वेबॅक मशीन तयार केले, ज्याशिवाय आधुनिक इंटरनेट मार्केटिंगच्या कार्याची कल्पना करणे अशक्य आहे. कोणत्याही पोर्टलचा इतिहास पहा, विशिष्ट पृष्ठे आधी कशी दिसत होती ते पहा, तुमचे जुने वेब संसाधन पुनर्संचयित करा किंवा आवश्यक आणि मनोरंजक सामग्री शोधा - हे सर्व Webarchive वापरून केले जाऊ शकते.

archive.org वर साइट इतिहास कसा पाहायचा

धन्यवाद, वेब संग्रहण लायब्ररी बहुतेक इंटरनेट साइट्स त्यांच्या सर्व पृष्ठांसह संग्रहित करते. तसेच, ते त्याचे सर्व बदल जतन करते. अशा प्रकारे, आपण कोणत्याही वेब संसाधनाचा इतिहास पाहू शकता, जरी ते बर्याच काळापासून अस्तित्वात नसले तरीही.

हे करण्यासाठी, तुम्हाला https://web.archive.org/ वर जाणे आणि शोध बारमध्ये वेब संसाधनाचा पत्ता प्रविष्ट करणे आवश्यक आहे.

काही काळानंतर, वेब संग्रहण या पृष्ठावरील बदलांच्या तारखांसह आणि त्याच्या निर्मितीबद्दलची माहिती आणि संपूर्ण कालावधीसाठी बदलांची संख्या असलेले कॅलेंडर प्रदर्शित करेल.

मिळालेल्या माहितीनुसार, आपण शोधू शकता की आमच्या साइटचे मुख्य पृष्ठ 24 मे 2014 रोजी सेवेद्वारे प्रथम सापडले होते. आणि, तेव्हापासून आजपर्यंत, त्याची एक प्रत 38 वेळा जतन केली गेली आहे. पृष्ठावरील बदलांच्या तारखा कॅलेंडरवर निळ्या रंगात चिन्हांकित केल्या आहेत. बदलांचा इतिहास पाहण्यासाठी आणि ज्या दिवशी तुम्हाला स्वारस्य आहे त्या दिवशी वेब संसाधनाचा विशिष्ट विभाग कसा दिसत होता हे पाहण्यासाठी, तुम्ही मागील वर्षांसह फीडमध्ये इच्छित कालावधी आणि ऑफर केलेल्या कॅलेंडरमधील तारीख निवडावी. सेवेद्वारे.

काही क्षणात, वेब संग्रहण विनंती केलेली आवृत्ती त्याच्या प्लॅटफॉर्मवर उघडेल, जिथे तुम्ही आमची साइट तिच्या मूळ स्वरूपात कशी दिसते ते पाहू शकता.

पुढे, स्क्रीनच्या अगदी शीर्षस्थानी असलेल्या बाणांसह कॅलेंडरचा वापर करून, आपण पृष्ठे त्यांच्या बदलांच्या कालक्रमानुसार फ्लिप करू शकता जेणेकरून देखावा आणि त्यांची सामग्री कशी बदलली आहे याचा मागोवा घेण्यासाठी.

अशा प्रकारे, आपण भूतकाळात डुबकी मारू शकता आणि त्याच्या अस्तित्वात झालेले सर्व बदल पाहू शकता.

साइट पूर्वी कशी दिसत होती हे वेबआर्काइव्हवर तुम्हाला का सापडत नाही
असे घडते की इंटरनेट आर्काइव्ह वेबॅक मशीन सेवा वापरून वेब साइट शोधली जाऊ शकत नाही. आणि हे अनेक कारणांमुळे घडते:

  • कॉपीराइट धारकाने सर्व प्रती हटविण्याचा निर्णय घेतला आहे;
  • बौद्धिक मालमत्तेच्या संरक्षणावरील कायद्यानुसार वेब संसाधन बंद केले गेले;
  • इंटरनेट साइटच्या रूट निर्देशिकेत, robots.txt फाइलद्वारे बंदी आणली गेली आहे

साइट कधीही वेब आर्काइव्हमध्ये राहण्यासाठी, सावधगिरी बाळगण्याची आणि वेबआर्काइव्ह लायब्ररीमध्ये ती स्वतः जतन करण्याची शिफारस केली जाते. हे करण्यासाठी, आता पृष्ठ जतन करा विभागात, आपण संग्रहित करू इच्छित असलेल्या वेब संसाधनाचा पत्ता प्रविष्ट करा आणि पृष्ठ जतन करा बटणावर क्लिक करा.

अशा प्रकारे, सर्व माहितीच्या सुरक्षिततेसाठी आणि सुरक्षिततेसाठी, प्रत्येक बदलासह ही प्रक्रिया पुन्हा करणे आवश्यक आहे. हे 100% हमी देईल की तुमची पृष्ठे बर्याच काळासाठी जतन केली जातील.

वेब संग्रहणातून निष्क्रिय वेबसाइट कशी पुनर्संचयित करावी

जेव्हा ब्राउझर अहवाल देतो की अशी आणि अशी वेब सेवा यापुढे अस्तित्वात नाही तेव्हा भिन्न परिस्थिती आहेत. परंतु डेटा पुनर्प्राप्त करणे आवश्यक आहे. Webarchive मदत करेल.

आणि यासाठी दोन पर्याय आहेत. प्रथम जुन्या साइटसाठी योग्य आहे जे आकाराने लहान आहेत आणि चांगले अनुक्रमित आहेत. फक्त आवश्यक आवृत्तीचा डेटा काढा. पुढे, पृष्ठ कोडचे पुनरावलोकन केले जाते आणि दुवे व्यक्तिचलितपणे पॉलिश केले जातात. ही प्रक्रिया वेळ आणि चरणांच्या दृष्टीने काहीशी श्रम-केंद्रित आहे. म्हणून, दुसरा, अधिक इष्टतम मार्ग आहे.

दुसरा पर्याय त्यांच्यासाठी आदर्श आहे ज्यांना वेळ वाचवायचा आहे आणि डाउनलोड समस्या शक्य तितक्या लवकर आणि सहजतेने सोडवायची आहे. हे करण्यासाठी, आपल्याला Webarchive - RoboTools वरून साइट पुनर्प्राप्ती सेवा उघडण्याची आवश्यकता आहे. आपल्याला स्वारस्य असलेल्या पोर्टलचे डोमेन नाव प्रविष्ट करा आणि त्याच्या जतन केलेल्या आवृत्तीची तारीख दर्शवा. काही काळानंतर, सर्व पृष्ठे भरून कार्य पूर्णतः पूर्ण केले जाईल.

वेब आर्काइव्हमधून सामग्री कशी शोधावी

Webarchive हे संपूर्ण मजकुरांसह वेब संसाधने भरण्यासाठी एक अद्भुत स्रोत आहे. अशा अनेक साइट्स आहेत ज्या, अनेक कारणांमुळे, अस्तित्वात नाही आहेत, परंतु उपयुक्त आणि आवश्यक माहिती आहेत. जे शोध इंजिन इंडेक्समध्ये येत नाही आणि मूलत: पुनरावृत्ती होत नाही.

तर, अशी विनामूल्य डोमेन आहेत जी बरीच मनोरंजक सामग्री संग्रहित करतात. आपल्याला फक्त योग्य सामग्री शोधण्याची आणि त्याची विशिष्टता तपासण्याची आवश्यकता आहे. हे आर्थिकदृष्ट्या खूप फायदेशीर आहे - कारण आपल्याला लेखकांच्या कामासाठी पैसे देण्याची आवश्यकता नाही आणि वेळेत - कारण सर्व सामग्री आधीच लिहिली गेली आहे.

वेब आर्काइव्ह लायब्ररीमध्ये साइट समाविष्ट करण्यापासून कसे प्रतिबंधित करावे

अशी परिस्थिती असते जेव्हा इंटरनेट साइटचा मालक त्याच्या पोर्टलवर पोस्ट केलेल्या माहितीला महत्त्व देतो आणि ती विस्तृत वर्तुळात उपलब्ध होऊ नये अशी त्याची इच्छा असते. अशा परिस्थितीत, एक सोपा मार्ग आहे - robots.txt फाइलमध्ये, Webarchive साठी प्रतिबंधित निर्देश लिहा. सेटिंग्जमधील या बदलानंतर, वेब मशीन यापुढे अशा वेब संसाधनाच्या प्रती तयार करणार नाही.

मला एक तुटलेली लिंक आली. साइटसाठी बॅकअप सेट करण्यासाठी मॅन्युअलची लिंक होती. विषय इतका मनोरंजक होता की ते कोणत्या प्रकारचे मॅन्युअल आहे हे पाहण्यासाठी मी archive.org वर गेलो. तिथे मला एका माणसाचा ब्लॉग सापडला जो एकेकाळी वेबसाइट बनवण्यात आणि इंटरनेटवरील काही विषयांमध्ये गुंतलेला होता. पण वरवर पाहता त्याने ते सर्व सोडून दिले. ब्लॉग डिसेंबर २०१३ पर्यंत अस्तित्वात होता, त्यानंतर आणखी एका वर्षासाठी स्टब होता. मी पुढे जाऊन साइटचे डोमेन तपासेन. तो मोकळा निघाला. वस्तुस्थिती अशी आहे की मला अशा साइट्समध्ये बर्याच काळापासून स्वारस्य आहे, मी वेळोवेळी टेलडेरीवर जातो आणि खरेदी करण्यासाठी स्वस्त आयटी-संबंधित साइट शोधतो. आतापर्यंत मला किंमत/गुणवत्तेच्या दृष्टीने योग्य असे काहीही आढळले नाही.

मला अशा साइटची आवश्यकता का आहे? मी काही प्रकारचे विलीनीकरण किंवा संपादन करण्याची योजना आखत आहे. अशा साइटला यासह कनेक्ट करा. त्यावरील वाहतूक आणि इतर वस्तू वाढवण्यासाठी. कोणी म्हणेल - विविधीकरणाचे काय? अर्थात, विविधीकरण ही चांगली गोष्ट आहे. परंतु विविधता आणण्यासाठी अद्याप काहीही नाही; आपल्याला प्रथम काहीतरी विकसित करण्याची आवश्यकता आहे. आणि म्हणून, मला साइट्स विलीन करण्याची कल्पना खूप आशादायक दिसते.

तर, ही सगळी पार्श्वभूमी आहे. मी सापडलेली साइट पुनर्संचयित करण्याचा निर्णय घेतला. सुमारे 300 पाने निघाली. मी डोमेन नोंदणीकृत केले आणि साइट डाउनलोड करण्यासाठी एक साधन शोधू लागलो.

वेब आर्काइव्हमधून वेबसाइट कशी पुनर्संचयित करावी?

प्रक्रिया सोपी आहे. ते घ्या आणि डाउनलोड करा. परंतु प्रकरण गुंतागुंतीचे आहे कारण तेथे बरीच पृष्ठे आहेत आणि ती सर्व स्थिर एचटीएमएल फाइल्सच्या स्वरूपात असतील. ते स्वहस्ते डाउनलोड करण्यासाठी तुम्हाला छळले जाईल. मी या प्रकारच्या कामात सहभागी असलेल्या लोकांना विचारू लागलो. लोकांनी r-tools.org ची शिफारस केली. पैसे दिले असल्याचे निघाले. मी ते गुगल करायला सुरुवात केली, कारण मला माहित आहे की ही एक सोपी प्रक्रिया आहे आणि मला त्यासाठी पैसे द्यायचे नव्हते, जरी ते इतके कमी शुल्क असले तरीही. रुबी ऍप्लिकेशनच्या रूपात समाधान खूप लवकर सापडले. मी अपेक्षेप्रमाणे, सर्वकाही अगदी सोपे आहे, सूचना समाविष्ट आहेत.

archive.org वरून साइट पुनर्संचयित करण्यासाठी उपयुक्तता स्थापित करा

दोनदा विचार न करता, मी सर्व काही सर्व्हरवर स्थापित करतो आणि पुनर्प्राप्ती सुरू करतो.

# रुबी स्थापित करा:

apt-get install ruby

# साधन स्वतः स्थापित करा:

gem install wayback_machine_downloader

आम्ही वेब आर्काइव्हमधून साइट डाउनलोड करणे सुरू करतो

wayback_machine_downloader http://www.site.ru --timestamp 20131209110704

येथे तुम्ही टाइमस्टॅम्प पर्यायामध्ये स्नॅपशॉट चिन्ह निर्दिष्ट करू शकता. कारण साइटच्या वेब संग्रहणात डझनभर किंवा शेकडो प्रतिमा असू शकतात. मी शेवटचे सूचित करतो, जेव्हा साइट अद्याप जिवंत होती, तार्किकदृष्ट्या. युटिलिटी पृष्ठांची संख्या त्वरित निर्धारित करते आणि डाउनलोड केलेली पृष्ठे कन्सोलवर प्रदर्शित करते.

सर्व काही डाउनलोड आणि जतन केले आहे, आम्हाला फोल्डरमध्ये स्थिर फायलींचे विखुरणे मिळते. आम्ही योग्य ठिकाणी एक फोल्डर तयार करतो आणि डाउनलोड केलेल्या फाइल्स तिथे ठेवतो. मला rsync वापरायला आवडते:

rsync -avh ./websites/www.site.com/ /var/www/site.com/

आपण अद्याप तिच्याशी परिचित नसल्यास, मी शिफारस करतो. हे मिराफॉक्सचे एक्सचेंज आहे, जे तुम्हाला वेबमास्टर्ससाठी (Telderi, Miralinks, Gogetlinks) इतर प्रकल्पांमधून आधीच माहित असेल. Kwork वर, संभाव्य ग्राहकांनी पोस्ट केलेल्या प्रस्तावांवर आधारित फ्रीलांसरची निवड केली जात नाही, तर ते स्वतःच ग्राहक निवडू शकतील असे प्रस्ताव सादर करतात. सेवेची "युक्ती" अशी आहे की कोणत्याही कामाची मूळ किंमत (जसे फ्रीलांसरच्या ऑफर म्हणतात) नेहमी 500 रूबल असते.

बरं, ज्यांना न समजण्याजोग्या आज्ञा आणि स्क्रिप्ट्ससह बरीच अक्षरे काढायची आहेत आणि ते स्वतः करू इच्छितात - आम्ही सुरू ठेवतो.

पुनर्संचयित साइटसाठी nginx कॉन्फिगरेशन तयार करणे

मी भविष्याकडे लक्ष देऊन एक सार्वत्रिक कॉन्फिगरेशन बनवत आहे - PHP प्रक्रिया. जर तुम्हाला साइटचे पुनरुज्जीवन करायचे असेल आणि कार्यक्षमता सुधारायची असेल, उदाहरणार्थ, संदेश पाठवण्यासाठी फॉर्म, सदस्यता.

सर्वसाधारणपणे, स्थिर साइटसाठी किमान कॉन्फिगरेशन असे काहीतरी दिसेल:

सर्व्हर (
server_name site.ru www.site.ru *.site.ru;
रूट /var/www/site.ru;
index index.html;

gzip चालू;
gzip_disable "msie6";
gzip_types मजकूर/साधा मजकूर/सीएसएस अनुप्रयोग/json अनुप्रयोग/x-javascript मजकूर/xml अनुप्रयोग/xml अनुप्रयोग/xml+rss मजकूर/javascript अनुप्रयोग/javascript;

स्थान = /robots.txt (
सर्व परवानगी द्या;
log_not_found off;
access_log off;
}

स्थान ~* \.(js|css|png|jpg|jpeg|gif|ico|woff)$ (
कमाल कालबाह्य;
log_not_found off;
}
}

या कॉन्फिगरेशनमध्ये ब्राउझरमध्ये कॉम्प्रेशन आणि कॅशिंग देखील समाविष्ट आहे.

वेबसर्व्हर रीस्टार्ट करा:

सेवा nginx रीस्टार्ट करा

DNS न बदलता वेबसाइट कशी तपासायची?

तत्त्वानुसार, डोमेन नोंदणी केल्यानंतर तुम्ही DNS अपडेटची प्रतीक्षा करू शकता. पण मला लवकरात लवकर निकाल पहायचा आहे. आणि तुम्ही लगेच काम सुरू करू शकता. हे करण्याचा एक सोपा मार्ग आहे - यजमान फाइलमध्ये इच्छित डोमेनसाठी सर्व्हर आयपी लिहा, यासारखी एंट्री:

10.10.1.1 site.ru

यानंतर, इच्छित साइट केवळ आपल्या संगणकावर उघडेल.

याप्रमाणे. मला नेक्रोमॅन्सरसारखे वाटते :)

साइट तिच्या वापरकर्त्यांनी ती पाहिली तशीच दर्शविली जाईल. जोपर्यंत तुमच्याकडे सर्व आवश्यक फाइल्स असतील तोपर्यंत सर्व लिंक्स काम करतील. कदाचित त्यापैकी काही तुटलेले असतील, कुठेतरी गहाळ प्रतिमा, शैली किंवा काहीतरी असेल. परंतु हा मुद्दा नाही - शेवटी, कोणत्याही साइटसाठी सर्वात महत्वाची गोष्ट म्हणजे सामग्री. आणि ते बहुधा कायम राहील.

पुनर्संचयित साइटचा कोड साफ करणे

पण एवढेच नाही. जरी तुम्ही ते जसेच्या तसे सोडू शकता. परंतु अधिक चांगला प्रभाव प्राप्त करण्यासाठी, पुनर्संचयित साइटला थोडेसे ब्रश करणे अर्थपूर्ण आहे. हा खरं तर या संपूर्ण गोष्टीचा सर्वात कठीण भाग आहे. वस्तुस्थिती अशी आहे की साइट तिच्या वापरकर्त्यांनी ज्या प्रकारे पाहिली त्याप्रमाणे ती प्रदर्शित केली जाईल, पृष्ठ कोडमध्ये सर्व प्रकारच्या कचऱ्याचा एक समूह असेल. हे प्रामुख्याने जाहिराती, बॅनर आणि काउंटर आहे. तसेच काही घटक जे स्थिर साइटवर निरुपयोगी आहेत. उदाहरणार्थ, साइट प्रशासक क्षेत्रात लॉग इन करण्यासाठी एक दुवा. साइटने आधी काम केलेल्या डायनॅमिक CMS कडून मिळालेल्या टिप्पण्या, सदस्यता, काही बटणे आणि इतर घटक पाठवण्यासाठी फॉर्म. माझ्या बाबतीत ते वर्डप्रेस होते.

अनेक स्थिर पृष्ठांवर एचटीएमएल कोडचे तुकडे कसे काढायचे?

हे सर्व कसे काढता येईल? अगदी साधे. कोड पहा आणि जे अनावश्यक आहे ते काढून टाका. सांगणे सोपे आहे. पण आमच्याकडे शेकडो पाने आहेत. म्हणूनच येथे जादूची आवश्यकता आहे.

शोधा ./site.ru/ -प्रकार f -name "*.html" -exec sed -i "s|

प्रवेशद्वार

||g"
{} \;

या बांधकामाद्वारे तुम्ही फाइलमधील सर्व html टॅग काढू शकता. सर्वांत सोपे. त्यानंतर तुमच्याकडे टेक्स्ट फाइल्स असतील

sed -e "s/]*>//g" test.html

सामान्य दृष्टीकोन म्हणजे जर तुम्ही फक्त सामग्री डाउनलोड केली आणि नंतर फक्त उपयुक्त सामग्री वापरत असाल - नवीन लेख लिहिण्यासाठी, दारासाठी किंवा इतर कशासाठी.

परंतु हे माझ्यासाठी अनुकूल नाही, मला प्रथम साइट पूर्णपणे पुन्हा तयार करायची आहे आणि ती कशी जिवंत होईल आणि ती अस्तित्त्वात आहे की नाही ते पाहू इच्छित आहे. म्हणून, कोड साफ करण्याच्या कामासाठी मला दोन तास मेहनत घ्यावी लागते. मी साइटची पृष्ठे उघडतो, पृष्ठांचा स्त्रोत कोड पाहण्यासाठी डीबगर वापरतो आणि मला आवश्यक नसलेले जावास्क्रिप्ट, बॅनर, काउंटर आणि फॉर्म शोधतो.

मी माझ्या स्थिर साइटच्या सर्व पृष्ठांवरून Liveinternet काउंटर अशा प्रकारे काढतो:

find site.ru/ -type f -name "*.html" -exec sed -i "//,//d" () \;

शोधा site.ru/ -प्रकार f -name "*.html" -exec sed -i "s|||g" (
} \;

अज्ञानी व्यक्तीला भितीदायक वाटणारी बांधकामे असूनही, या अगदी सोप्या गोष्टी आहेत, कारण या काउंटरवर अद्वितीय टिप्पणी टॅग आहेत, ज्याद्वारे आम्ही कोडचा कोणता भाग हटवायचा आहे ते नमुने म्हणून सूचित करतो.

काही प्रकरणांमध्ये, अनावश्यक काय आहे ते कापण्यासाठी आणि आपल्याला आवश्यक असलेल्या गोष्टींना स्पर्श न करण्यासाठी आपल्याला आपल्या मेंदूला रॅक करावे लागेल, कारण पृष्ठांवर काही घटकांची पुनरावृत्ती होऊ शकते. उदाहरणार्थ, Google Analytics काउंटर हटवण्यासाठी, मला असे काहीतरी लिहावे लागले:

प्रथम, मी काउंटर सुरू होणारी ओळ हटवतो. ही आज्ञा var gaJsHost पॅटर्नच्या वरची ओळ काढून टाकते, कारण मला ती फक्त या ठिकाणी काढायची आहे आणि इतर कोठेही स्पर्श करू नये:

site.ru/ शोधा f -name "*.html" -exec sed -i -n "/var gaJsHost/(x;d;);1h;1!(x;p;);$(x;p;) ;)" () \;

आता आम्ही उर्वरित भाग कापतो, जो पहिल्या आणि शेवटच्या ओळींमधील अद्वितीय नमुन्यांद्वारे ओळखणे सोपे होते:

शोधा site.ru/ -प्रकार f -name "*.html" -exec sed -i "/var gaJsHost/,/catch(err)/d" () \;

त्याचप्रमाणे, मी टिप्पण्या जोडण्यासाठी फॉर्म काढतो:

मी अनन्य पॅटर्नच्या ओळीनंतर नॉन-युनिक क्लोजिंग टॅगसह 4 ओळी साफ करतो:

theredhaired.ru/ शोधा -प्रकार f -iname "*.html" -exec sed -i "/block_links/(N;N;N;N;s/\n.*//;)" () \;

आणि आता मी 30 ओळींचा बऱ्यापैकी मोठा ब्लॉक कापत आहे, त्याच्या पहिल्या आणि शेवटच्या ओळीचे अनोखे नमुने दर्शविते:

theredhaired.ru/ शोधा -प्रकार f -iname "*.html" -exec sed -i "/ Subscription/,/block_links/d" () \;

तुम्ही अर्थातच, या शेवटच्या दोन केसेस मल्टीलाइन पॅटर्न वापरून सोडवण्याचा प्रयत्न करू शकता, परंतु मी कितीही गुगल केले तरीही मी त्यात कधीच प्रभुत्व मिळवले नाही. मला मल्टी-लाइनसह बरीच उदाहरणे सापडली, परंतु ती सर्व साधी आहेत, ज्यामध्ये कोणतेही विशेष वर्ण किंवा एस्केप वर्ण नाहीत (टॅब, लाइन ब्रेक).

कदाचित ही सर्व साफसफाई PHP किंवा अगदी perl मध्ये करणे सोपे होईल, ज्यासाठी मजकूर प्रक्रिया हा उद्देश आहे. परंतु, दुर्दैवाने, मी त्यांना ओळखत नाही, म्हणून मी बॅश आणि सेड वापरतो.

मी हे सर्व पुनरावृत्ती आणि चाचण्यांच्या समूहासह साइटच्या एका वेगळ्या प्रतीवर केले, जेणेकरून मी प्रत्येक महत्त्वपूर्ण बदलानंतर, पुन्हा rsync वापरून बदल परत करू शकेन;

स्थिर साइटवर शीर्षके आणि इतर घटक मोठ्या प्रमाणात कसे संपादित करावे?

माझे ध्येय केवळ साइटचे पुनरुत्थान करणे हे नसून ती अनुक्रमित करणे, शोधात स्थान मिळवणे आणि शोधातून रहदारी मिळवणे हे आहे, मला काही प्रकारच्या SEO बद्दल विचार करणे आवश्यक आहे. मूळ शीर्षके मला नक्कीच शोभत नाहीत, म्हणून मला ती बदलायची आहेत. WordPress ला %sitename% » %postname% योजना वारशाने मिळाली. शिवाय, आमचे साइटनाव अस्पष्ट आहे - साइट डोमेन स्वतःच. शीर्षकाचा पहिला भाग कापून टाकणे हा सर्वात सोपा पर्याय आहे. पण तेही माझ्यासाठी काम करत नाही. म्हणून मी शीर्षकाचा हा भाग एका अवघड विनंतीमध्ये बदलेन. मी हे कसे करतो:

जसे आपण पाहू शकता, तेथे बरेच चेक आणि पुनरावृत्ती आहेत. पण सरतेशेवटी, शीर्षके त्यांना आवश्यक आहेत. तुम्ही अंदाज लावू शकता की मी वेब संग्रहणातून साइट पुनर्संचयित करण्याच्या विनंत्यांच्या आधारे या साइटवर रहदारी गोळा करण्याचा प्रयत्न सुरू केला आहे. मला याची आवश्यकता का आहे मी अशा साइट्स पुनर्संचयित करण्यासाठी सशुल्क सेवा प्रदान करणार आहे. जसे आपण पाहू शकता, या प्रकरणात बदल करणे अगदी सोपे आहे. अनेक पर्यायांचा त्रास न करणे शक्य होते, परंतु सर्व काही एका खाली बेरीज करणे शक्य होते. पण मला अनावश्यक चिन्हे काढायची किंवा बदलायची होती, आणि अनेक पर्याय असल्याने, मी ते माझ्या स्वतःच्या अनेक चिन्हांमध्ये बदलले. हे SEO आहे.

आता मी माझ्या साइटच्या सर्व html फाईल्समध्ये Yandex Metrica जोडणार आहे. आणि त्याच वेळी जुन्या www स्कीममधून ते www शिवाय स्थानांतरित करा.

स्टॅटिक वेबसाइट www वरून नॉन-www मध्ये कशी बदलायची?

हे फक्त बदलून केले जाते:

शोधा./ -प्रकार f -iname ‘*.html’ -exec sed -i ‘s/http:\/\/www.site.ru/http:\/\/site.ru/g’ () \;

मग, फक्त बाबतीत, nginx कॉन्फिगरेशनमध्ये आम्ही रीडायरेक्टमध्ये www सह पर्याय जोडू:

सर्व्हर (
सर्व्हर_नाव www.site.ru;
301 $scheme://site.ru$request_uri परत करा;
}

स्थिर साइटसाठी sitemap.xml कसे तयार करावे?

जेव्हा आम्ही साइट शोध इंजिनमध्ये जोडतो तेव्हा याची आवश्यकता असेल. हे अतिशय महत्त्वाचे आहे, कारण आमची साइट पुनर्संचयित केली गेली आहे, त्यात काही नेव्हिगेशनची कमतरता असू शकते आणि काही पृष्ठांचे कोणतेही दुवे नसतील. साइट मॅप हा मुद्दा गुळगुळीत करतो - जरी तुम्ही साइटवर जाऊन पृष्ठावर पोहोचू शकत नसाल तरीही - साइटमॅप.xml मध्ये निर्दिष्ट करून, आम्ही त्यास अनुक्रमित करण्यास अनुमती देऊ, जे संभाव्यपणे थेट शोधातून रहदारी आणू शकते. पृष्ठावर.

याव्यतिरिक्त, काही काळानंतर मी या साइटद्वारे प्राप्त केलेल्या परिणामांचे विश्लेषण करेन. रहदारी, लीड्स किंवा आणखी काही. तर, साइटवर रहा, 2-6 महिन्यांत तुम्हाला कथेची सातत्य दिसेल. मी तुम्हाला स्टेटस दाखवतो, जर एखादे असेल तर, इ. जर तुम्ही हा लेख सहा महिन्यांनंतर वाचत असाल, आणि पुढे सुरू ठेवण्याची कोणतीही लिंक नसेल, तर कृपया टिप्पण्यांमध्ये याची आठवण करून द्या :)

हे समजले, बरोबर?

जर तुम्ही प्रेरित असाल, तर ते शोधून काढले आहे आणि ते स्वतःच करणार आहात - तुम्हाला नमन आणि आदर. मला असे लोक आवडतात ज्यांना सर्व काही समजून घ्यायचे आहे.

इंटरनेट आर्काइव्ह ही एक ऑनलाइन सेवा आहे, इंटरनेट साइट्सचे संग्रहण, ज्यामध्ये जगभरातील साइट्सवरून जतन केलेली मोठ्या संख्येने वेब पृष्ठे आहेत. इंटरनेट आर्काइव्ह नावाची संस्था 1996 मध्ये सॅन फ्रान्सिस्कोमध्ये तयार केली गेली.

ही एक सार्वत्रिक इलेक्ट्रॉनिक लायब्ररी आहे जी इंटरनेटवर वेबसाइट पृष्ठांच्या प्रती संग्रहित करते; इंटरनेट वेब संग्रहणातील सामग्रीचा विनामूल्य प्रवेश सर्व वापरकर्त्यांसाठी खुला आहे.

1996 पासून आत्तापर्यंत, archive.org ने 466 अब्जाहून अधिक वेब पृष्ठे गोळा केली आहेत (ही संख्या सतत वाढत आहे). वर्ल्ड वाइड वेबवर इतक्या वर्षांमध्ये जमा झालेल्या उपलब्ध माहितीचे जतन, परिचित आणि अभ्यास करण्यासाठी इंटरनेट पृष्ठांचे संग्रहण तयार केले गेले.

वेळोवेळी, सेवेशी संबंधित विशेष रोबोट इंटरनेटवरील जवळजवळ सर्व साइट्सची सामग्री अनुक्रमित करतात. हे लक्षात घेतले पाहिजे की इंडेक्स साइटवर रोबोट क्रॉल करताना, काही साइट्सना अंतर्गत समस्या आल्या असतील: साइट किंवा साइटची काही पृष्ठे अनुपलब्ध होती, साइट देखरेखीखाली होती, प्लग-इन बाह्य घटक कार्य करत नाहीत इ. म्हणून, काही साइट संग्रहण पूर्ण होतील आणि काही प्रतिमा (संग्रह) मध्ये फक्त आंशिक माहिती असू शकते. लक्षात ठेवा की काही साइट्स वारंवार अनुक्रमित केल्या जातात, तर इतर साइट्स अगदी क्वचितच अनुक्रमित केल्या जातात.

वेब पृष्ठे पाहण्यासाठी, The Wayback Machine ही ऑनलाइन सेवा वापरली जाते. इंटरनेट आर्काइव्हमध्ये, केवळ सध्या सक्रिय साइटच पाहण्यासाठी उपलब्ध नाहीत, तर यापुढे अस्तित्वात नसलेल्या साइट देखील उपलब्ध आहेत. इंटरनेट संग्रहण वापरुन, आपण अस्तित्वात नसलेल्या साइट्सना भेट देऊ शकता आणि हटविलेल्या साइट्सच्या वेब पृष्ठांच्या सामग्रीसह परिचित होऊ शकता.

इंटरनेट साइट्सच्या अद्भुत संग्रहाबद्दल धन्यवाद, आपण बदलांचा इतिहास शोधू शकता, साइटचे स्वरूप आणि त्यातील सामग्री कालांतराने कशी बदलली आहे, साइट पुनर्संचयित करण्यासाठी संग्रहणांचा वापर करू शकता आणि आवश्यक माहिती शोधू शकता.

archive.org मुख्यपृष्ठावर, आपण संग्रहित डेटामध्ये प्रवेश करू शकता, जे थीमॅटिक विभागांमध्ये गटबद्ध केले आहे किंवा थेट वेबॅक मशीन सेवा पृष्ठावर जाऊ शकता.

वेबॅक मशीनमध्ये वेबसाइट्स शोधणे

आवश्यक साइट्सचे संग्रहण शोधण्यासाठी, वेबॅक मशीन ऑनलाइन सेवा पृष्ठावरील दुव्याचे अनुसरण करा.

इंटरनेट आर्काइव्ह वेबॅक मशीन पृष्ठावर, शोध क्षेत्रात साइटची URL प्रविष्ट करा, आणि नंतर इतिहास ब्राउझ करा बटणावर क्लिक करा.

शोध फील्डच्या खाली दिलेल्या साइटसाठी विशिष्ट कालावधीत तयार केलेल्या संग्रहणांच्या एकूण संख्येबद्दल माहिती आहे. वार्षिक टाइमलाइन साइट संग्रहणांची संख्या प्रदर्शित करते (तेथे अनेक साइट प्रतिमा असू शकतात, किंवा, उलट, काही).

वर्ष निवडा; पृष्ठाच्या मध्यभागी एक कॅलेंडर आहे ज्यामध्ये साइट संग्रहण तयार केल्याच्या तारखा निळ्या रंगात हायलाइट केल्या आहेत. पुढे, इच्छित तारखेवर क्लिक करा. कृपया लक्षात घ्या की जेव्हा तुम्ही तुमचा माउस कर्सर हलवता तेव्हा फोटो काढलेला वेळ प्रदर्शित होईल. अनेक चित्रे असल्यास, तुम्ही कोणतेही संग्रहण उघडू शकता. संग्रहण तयार करताना ती ज्या राज्यात होती त्याच राज्यात ही साइट उघडली जाईल.

माझ्या साइटच्या अस्तित्वादरम्यान, त्यात फक्त दोन टेम्पलेट्स (डिझाइन थीम) होत्या. या प्रतिमेमध्ये तुम्ही पाहू शकता की माझी साइट पहिल्या थीममध्ये कशी दिसत होती.

या प्रतिमेमध्ये तुम्ही कझाकस्तानमधील माझ्या मित्र अलेमची वेबसाइट पाहता. ही साइट बर्याच काळापासून इंटरनेटवर नाही, शोध इंजिने ही साइट शोधत नाहीत, परंतु इंटरनेट संग्रहणाबद्दल धन्यवाद, प्रत्येकजण रिमोट साइटच्या सामग्रीमध्ये प्रवेश करू शकतो.

लेखाचे निष्कर्ष

इंटरनेट आर्काइव्ह वेबॅक मशीन ही एक ऑनलाइन सेवा आहे जी इंटरनेटवर वेब पृष्ठे जतन करते. इंटरनॅशनल इंटरनेट आर्काइव्हच्या मदतीने, तुम्ही वेगवेगळ्या वेळी तयार केलेल्या साइट्सच्या आर्काइव्हमध्ये प्रवेश करू शकता. संग्रहण तयार केल्याच्या तारखेला साइट उघडेल. विद्यमान आणि हटविलेल्या साइट्स पाहण्यासाठी उपलब्ध असतील.

16 फेब्रुवारी 2015 16 टिप्पण्या

प्रथम, WebArchive बद्दल काही शब्द. हे इंटरनेट साइट्सचे जागतिक संग्रह आहे. Webarchive बॉट्स वेळोवेळी जागतिक वेब क्रॉल करतात आणि त्यांना त्यांच्या सर्व्हरवर जे काही सापडेल ते जतन करतात. मग ते सर्व वंशजांसाठी साठवले जाते 😉

zone.ru मधील उपलब्ध डोमेनची सूची डाउनलोड करा तुम्ही इतर झोन घेऊ शकता, परंतु तेथे जास्त डोमेन नाहीत...

एक्सेल वापरून परिणामी फाइल उघडा आणि "ctrl+F" दाबा, शोधात कीवर्ड प्रविष्ट करा, माझ्या उदाहरणात ते "फॉरेक्स" आहे.

आम्ही "सर्व शोधा" वर क्लिक केले आणि आवश्यक सेलची यादी आमच्या समोर आली

आता तुम्हाला या सूचीमधून संग्रहित साइट्स मिळवण्याची आवश्यकता आहे.

इतकेच, आम्ही वेब आर्काइव्हमध्ये सापडलेल्या पृष्ठांचे, सेवा किंवा प्रोग्रामद्वारे, आमच्या डोळ्यांनी निरीक्षण करतो आणि फायलींच्या ढिगाऱ्यात लेख असलेले पृष्ठ किंवा मुख्य पृष्ठ शोधतो. कार्यक्षमतेसाठी डोमेन तपासण्याची खात्री करा, कारण मालकांनी आधीच त्याचे नूतनीकरण केले असेल.

सेवा वेब संग्रहणातील दस्तऐवजांची संख्या दर्शवते 10 पेक्षा कमी संख्या आम्हाला स्वारस्य नाही. शक्य तितक्या मोठ्या संख्येची तपासणी करण्याचा प्रयत्न करा. उदाहरणार्थ, मला नुकतीच वेब आर्काइव्हमध्ये 22,000 दस्तऐवजांसह, मला आवश्यक असलेल्या विषयावर एक वेबसाइट सापडली, आणि मी तिथून काही चांगले लेख शोधले!

वेब आर्काइव्हमध्ये फाईल्स यासारख्या दिसतात.

आम्ही साइटवरील मुख्य पृष्ठावर जाण्याचा किंवा साइट नकाशा शोधण्याचा प्रयत्न करतो. पुढे, आम्ही लेख पद्धतशीरपणे उघडतो आणि विशिष्टतेसाठी ते तपासतो. मी हे eTXT कडील अँटी-प्लेगियरिझम टूलसह करतो.

दुसरी पद्धत मी शोधत आहे. सार समान राहते, मी फक्त घेतो.

या सेवेचा सर्वात मोठा फायदा हा आहे की आम्ही वेगवेगळ्या तारखांमधून जाऊ शकतो, आणि केवळ एका दिवशी रिलीज होणारे डोमेन डाउनलोड करू शकत नाही. आम्ही तारखांच्या बाबतीत जितके पुढे जाऊ तितकी डोमेन्सचे नूतनीकरण न होण्याची शक्यता जास्त.

या सेवेमध्ये, सर्वकाही सोपे आहे - एक तारीख निवडा, Ctrl+A दाबा - पृष्ठावरील प्रत्येक गोष्ट कॉपी करा आणि NotePad++ मध्ये पेस्ट करा, तसेच Ctrl+F दाबा आणि आम्हाला आवश्यक असलेली की प्रविष्ट करा आणि क्लिक करा - वर्तमान दस्तऐवजात सर्वकाही शोधा. .

शोध घेतल्यानंतर हे असे दिसते:

एवढेच =) मी तुम्हाला एक्सेलचा त्रास न घेण्याचा सल्ला देतो आणि नोटपॅडमध्ये काम करू नका, तसेच तारखानुसार डोमेन सेवा वापरा. या पद्धतीचा वापर करून, मला आवश्यक असलेल्या विषयावरील शंभराहून अधिक उत्कृष्ट आणि अद्वितीय लेख सापडले. हे लेख, जर मी त्यांना ऑर्डर केले असते, तर मला एक हजार रूबलपेक्षा जास्त खर्च आला असता... सर्वोत्कृष्ट आणि उत्तम नफा!



आम्ही वाचण्याची शिफारस करतो

वर