मालवेअर हे अनाहूत किंवा धोकादायक प्रोग्राम आहेत जे...
![व्हायरस आणि मालवेअर काढून टाकण्यासाठी सर्वोत्तम उपयुक्तता](https://i2.wp.com/webhelper.info/images/danger.jpg)
शोध इंजिन किंवा फक्त "शोध इंजिन" हे असे आहे जे वापरकर्त्याच्या विनंतीनुसार इंटरनेट पृष्ठे शोधते. जगातील सर्वात प्रसिद्ध शोध इंजिन Google आहे, रशियामध्ये सर्वात लोकप्रिय Yandex आहे आणि सर्वात जुन्या शोध इंजिनांपैकी एक म्हणजे Yahoo. सर्च इंजिन आर्किटेक्चरमध्ये आपण फरक करू शकतो शोध इंजिन- सिस्टमचा मुख्य भाग, सॉफ्टवेअर मॉड्यूल्सच्या संचाद्वारे दर्शविला जातो; डेटाबेस किंवा निर्देशांक, जे शोध इंजिनला ज्ञात असलेल्या सर्व इंटरनेट संसाधनांची माहिती संग्रहित करते; आणि साइट्सचा संच आहे प्रवेश बिंदूसिस्टममधील वापरकर्ते (www.google.com, www.yandex.ru, ru.yahoo.com, इ.). हे सर्व माहिती प्रणालीच्या क्लासिक तीन-स्तरीय आर्किटेक्चरशी संबंधित आहे: एक वापरकर्ता इंटरफेस, व्यवसाय तर्कशास्त्र आहे, जे या प्रकरणात शोध अल्गोरिदम आणि डेटाबेसच्या अंमलबजावणीद्वारे दर्शविले जाते.
पहिल्या दृष्टीक्षेपात, इंटरनेटवर शोध सामान्य माहिती शोधापेक्षा फारसा वेगळा नाही, उदाहरणार्थ, डेटाबेसवर प्रक्रिया करण्यापासून किंवा वरील फाइल शोधण्याच्या कार्यापासून. पहिल्या इंटरनेट सर्च इंजिनच्या डेव्हलपर्सनाही असेच वाटले, पण कालांतराने त्यांना समजले की ते चुकले होते...
इंटरनेट शोध आणि नियमित शोध यांच्यातील पहिला फरक असा आहे की त्याच डेटाबेससाठी शोध अल्गोरिदम असे गृहीत धरते की त्याची रचना शोध इंजिन आणि क्वेरीच्या लेखकास आगाऊ ज्ञात आहे. इंटरनेटवर, स्पष्ट कारणांमुळे, असे नाही. इंटरनेट पृष्ठे निर्देशिका संरचना बनवत नाहीत, परंतु नेटवर्क, जे शोध अल्गोरिदमवर देखील परिणाम करते आणि इंटरनेट संसाधनांवर पोस्ट केलेल्या डेटाचे स्वरूप कोणाच्याही नियंत्रणात नसते.
दुसरा फरक, पहिल्याच्या परिणामांपैकी एक म्हणून, विनंती पॅरामीटर मूल्यांचा संच (शोध निकष) म्हणून सादर केली जात नाही, परंतु एखाद्या व्यक्तीने त्याच्या नैसर्गिक भाषेत लिहिलेला मजकूर म्हणून सादर केला जातो. अशा प्रकारे, आपण शोध सुरू करण्यापूर्वी, आपल्याला विनंतीच्या लेखकाला नेमके काय हवे आहे हे अद्याप समजून घेणे आवश्यक आहे. मी लक्षात घेतो की हे दुसऱ्या व्यक्तीला समजण्यासाठी नाही, परंतु संगणकासाठी आहे.
तिसरा फरक कमी स्पष्ट आहे, परंतु कमी मूलभूत नाही: कॅटलॉग किंवा डेटाबेसमध्ये, सर्व घटकांना समान अधिकार आहेत. इंटरनेटवर स्पर्धा आहे, आणि परिणामी, अधिक "विश्वसनीय माहिती प्रदाते" आणि "माहिती कचरा" प्रमाणेच स्त्रोतांमध्ये विभागणी आहे. अशा प्रकारे लोक संसाधनांचे वर्गीकरण करतात आणि हे शोध इंजिनांना देखील लागू होते.
आणि शेवटी, हे जोडले पाहिजे की शोध क्षेत्र कोट्यवधी पृष्ठे, अनेक किलोबाइट्स किंवा त्याहून अधिक आहेत. दररोज सुमारे दहा दशलक्ष पृष्ठे जोडली जातात आणि तीच संख्या अद्यतनित केली जाते. हे सर्व विविध डिजिटल स्वरूपात सादर केले जाते. दुर्दैवाने, इंटरनेट शोध सेवा बाजारातील नेत्यांसाठी उपलब्ध असलेली आधुनिक तंत्रज्ञाने आणि संसाधने देखील त्यांना या सर्व विविधतेवर “माशीवर” आणि संपूर्णपणे प्रक्रिया करू देत नाहीत.
सर्व प्रथम, इंटरनेटवरील शोध इंजिनचे कार्य आणि विविध प्रकारच्या कॅटलॉग आणि डेटाबेसमध्ये शोधणाऱ्या इतर कोणत्याही माहिती प्रणालीच्या कार्यामध्ये आणखी एक आणि बहुधा सर्वात महत्त्वपूर्ण फरक समजून घेणे आवश्यक आहे. इंटरनेट शोध इंजिन विनंती प्राप्त झाल्यावर इंटरनेटवर काय आहे यामधील माहिती शोधत नाही, परंतु त्याच्या स्वत: च्या माहितीच्या संचयनावर आधारित प्रतिसाद निर्माण करण्याचा प्रयत्न करते - इंडेक्स नावाचा डेटाबेस, जिथे ते ज्ञात असलेल्या सर्व गोष्टींवर एक डॉसियर संग्रहित करते. त्यावर आणि वेळोवेळी ते अद्यतनित करते. दुसऱ्या शब्दांत, शोध इंजिन मूळसह कार्य करत नाही, परंतु स्वीकार्य शोध मूल्यांच्या श्रेणीच्या प्रक्षेपणासह. इंटरनेटवरील सर्व नवीनतम बदल संबंधित पृष्ठे झाल्यानंतरच शोध परिणामांमध्ये दिसून येतात अनुक्रमित- शोध इंजिन निर्देशांकात जोडले. तर, शोध प्रणाली, पहिल्या अंदाजापर्यंत, एक शोध इंजिन, डेटाबेस किंवा निर्देशांक (इंडेक्स) आणि सिस्टममध्ये प्रवेश बिंदू असतात.
आता शोध इंजिनमध्ये काय समाविष्ट आहे याबद्दल थोडक्यात:
तुम्हाला हे समजून घेणे आवश्यक आहे की इंटरनेट शोध सेवा हा एक अतिशय फायदेशीर व्यवसाय आहे. तुम्हाला Google आणि Yandex सारख्या कंपन्या कशा जगतात याबद्दल तपशीलात जाण्याची गरज नाही, कारण त्यांच्या नफ्याचा मुख्य भाग संदर्भित जाहिरातींमधून मिळणारा उत्पन्न आहे. आणि इंटरनेटवर शोध हा एक अत्यंत फायदेशीर व्यवसाय असल्याने, अशा कंपन्यांमधील स्पर्धा खूप गंभीर आहे. इंटरनेट शोध बाजारात स्पर्धात्मकता काय ठरवते? उत्तर शोध इंजिन परिणाम गुणवत्ता आहे. हे तार्किक आहे की ते जितके उच्च असेल तितके अधिक नवीन वापरकर्ते सिस्टमला मिळतात आणि त्याच शोध परिणामांच्या पृष्ठांवर संदर्भित जाहिराती अधिक मौल्यवान असतात. शोध इंजिन डेव्हलपर त्यांचे शोध परिणाम विविध प्रकारच्या माहितीच्या कचऱ्यापासून "स्वच्छ" करण्याच्या उद्देशाने बरेच प्रयत्न करतात, ज्याला लोकप्रियपणे स्पॅम म्हणतात. हे कसे केले जाते याबद्दल एका स्वतंत्र लेखात अधिक तपशीलवार वर्णन केले जाईल, परंतु येथे मी शोध इंजिन वर्तनाची सामान्य तत्त्वे सादर करेन, जे वरील सर्व निष्कर्षांच्या रूपात तयार केले गेले आहेत.
सर्च इंजिनचे काम सातत्याने सुधारले जात आहे. शोध इंजिनचे (मानवांसाठी) आदर्श ऑपरेशन केवळ तेव्हाच शक्य आहे जेव्हा अनुक्रमणिका आणि रँकिंग संबंधी सर्व निर्णय मानवी क्रियाकलापांच्या सर्व क्षेत्रांतील आणि क्षेत्रातील तज्ञांच्या मोठ्या संख्येने असलेल्या कमिशनद्वारे घेतले जातात. हे अवास्तव असल्याने, अशा कमिशनची जागा तज्ञ प्रणाली, ह्युरिस्टिक शोध अल्गोरिदम आणि कृत्रिम बुद्धिमत्तेच्या इतर घटकांद्वारे घेतली जाते. कदाचित, इंटरनेटवरील सार्वजनिक डोमेनमध्ये उपलब्ध असलेल्या सर्व डेटावर प्रक्रिया करणे शक्य असल्यास या सर्व उपप्रणालींचे कार्य अधिक पुरेसे परिणाम देखील देऊ शकेल, परंतु हे व्यावहारिकदृष्ट्या अशक्य आहे. अपूर्ण कृत्रिम बुद्धिमत्ता आणि मर्यादित संसाधने ही दोन मुख्य कारणे आहेत की शोध परिणाम नेहमी वापरकर्त्यांना संतुष्ट करत नाहीत, परंतु हे सर्व वेळेसह बरे केले जाऊ शकते. आज, माझ्या मते, सर्वात प्रसिद्ध आणि मोठ्या शोध इंजिनचे कार्य त्यांच्या वापरकर्त्यांच्या गरजा आणि अपेक्षा पूर्ण करतात.
इंटरनेटवर, विविध साइट्सवर, वापरकर्त्याला मोठ्या प्रमाणात विविध माहिती ऑफर केली जाते. आवश्यक माहिती मिळवण्यासाठी आणि प्रश्नांची उत्तरे शोधण्यासाठी सर्च इंजिन तयार करण्यात आले आहेत. हा वाक्प्रचार ऐकून, बरेच लोक Google, "Yandex" बद्दल विचार करतात. तथापि, इंटरनेटवर आणखी बरेच शोध इंजिन आहेत.
शोध इंजिन हे सॉफ्टवेअर मानले जाते ज्यामध्ये कागदपत्रांचा डेटाबेस असतो. वापरकर्त्यांना एक विशेष इंटरफेस प्रदान केला जातो जो त्यांना आवश्यक क्वेरी प्रविष्ट करण्यास आणि संबंधित माहितीसह दुवे प्राप्त करण्यास अनुमती देतो. एखादी विशिष्ट व्यक्ती जे शोधत आहे त्याच्याशी उत्तम जुळणारे दस्तऐवज नेहमी शोध परिणामांमध्ये शीर्षस्थानी असतात.
शोध परिणाम, जे प्रविष्ट केलेल्या क्वेरीनुसार व्युत्पन्न केले जातात, त्यात सामान्यतः भिन्न प्रकारचे परिणाम असतात. यात इंटरनेट पृष्ठे, व्हिडिओ आणि ऑडिओ फायली, चित्रे, पीडीएफ फाइल्स, विशिष्ट उत्पादने (ऑनलाइन स्टोअरमध्ये शोध घेतल्यास) असू शकतात.
विद्यमान शोध इंजिने अनेक प्रकारांमध्ये वर्गीकृत आहेत. सर्व प्रथम, पारंपारिक शोध इंजिनचा उल्लेख करणे योग्य आहे. अशा शोध इंजिनांची ऑपरेटिंग तत्त्वे मोठ्या संख्येने विद्यमान साइट्सवरील माहिती शोधण्यावर केंद्रित आहेत. शोध इंजिन अजूनही विशिष्ट इंटरनेट संसाधनांवर आढळतात:
भौगोलिक स्थानावर आधारित शोध इंजिने देखील उपविभाजित आहेत. या वर्गीकरणात शोध इंजिनचे 3 गट आहेत:
कोणत्याही शोध इंजिनमध्ये, 3 घटक असतात जे शोध प्रणालीच्या ऑपरेशनची तत्त्वे निर्धारित करतात:
रोबोट हा एक विशेष प्रोग्राम आहे ज्याचा उद्देश डेटाबेस तयार करणे आहे. डेटाबेस सर्व संकलित माहिती संग्रहित करतो आणि त्याचे वर्गीकरण करतो. विनंती प्रोसेसर, ज्याला क्लायंट देखील म्हणतात, वापरकर्त्याच्या विनंत्या हाताळतो. त्याला डेटाबेसमध्ये प्रवेश आहे. क्लायंट नेहमी एकाच संगणकावर नसतो. रिक्वेस्ट प्रोसेसर अनेक भौतिकरित्या कनेक्ट नसलेल्या इलेक्ट्रॉनिक संगणकांवर वितरीत केला जातो.
सर्व विद्यमान प्रणाली समान तत्त्वावर कार्य करतात. उदाहरणार्थ, इंटरनेटसाठी डिझाइन केलेल्या पारंपारिक शोध इंजिनच्या कार्याचा विचार करा. रोबोटचे कार्य नियमित वापरकर्त्याच्या क्रियांसारखेच असते. हा प्रोग्राम वेळोवेळी डेटाबेसमध्ये नवीन पृष्ठे आणि इंटरनेट संसाधने जोडून सर्व साइट्स क्रॉल करतो. या प्रक्रियेला अनुक्रमणिका म्हणतात.
जेव्हा इंटरनेटवरील वापरकर्ता शोध बारमध्ये विशिष्ट क्वेरी प्रविष्ट करतो तेव्हा क्लायंट कार्य करण्यास सुरवात करतो. प्रोग्राम विद्यमान डेटाबेसमध्ये प्रवेश करतो आणि कीवर्डवर आधारित परिणाम तयार करतो. शोध इंजिन एका विशिष्ट क्रमाने वापरकर्त्याला दुवे प्रदान करते. विनंतीच्या त्यांच्या प्रासंगिकतेनुसार त्यांची क्रमवारी लावली जाते, म्हणजे, प्रासंगिकता विचारात घेतली जाते.
प्रत्येक शोध इंजिनची प्रासंगिकता निर्धारित करण्याचा स्वतःचा मार्ग असतो. जर एखाद्या वापरकर्त्याने भिन्न प्रणालींना विशिष्ट विनंती पाठवली तर त्याला समान परिणाम प्राप्त होणार नाहीत. प्रासंगिकता निर्धारित करण्यासाठी अल्गोरिदम गुप्त ठेवले आहे.
सोप्या भाषेत, प्रासंगिकता म्हणजे शोध परिणामांमधील विशिष्ट लिंक्सच्या शोधात प्रविष्ट केलेल्या शब्दाचा किंवा शब्दांचे संयोजन. सूचीतील दस्तऐवजांच्या स्थानांवर अनेक बारकावे प्रभावित होतात:
प्रासंगिकता निश्चित करण्यासाठी अल्गोरिदम खूप जटिल आहे. काही वर्षांपूर्वी, ज्या लिंक्समध्ये आवश्यक कीवर्ड होते, परंतु सामग्रीमध्ये त्यांच्याशी सुसंगत नव्हते, ते शोध परिणामांमध्ये दिसू शकतात. आजकाल, शोध इंजिनची ऑपरेटिंग तत्त्वे अधिक क्लिष्ट आहेत. आता रोबोट संपूर्ण मजकुराचे विश्लेषण करू शकतात. शोध इंजिनचे कार्य मोठ्या संख्येने भिन्न घटक विचारात घेते. याबद्दल धन्यवाद, परिणाम उच्च दर्जाच्या, संबंधित दुव्यांमधून तयार केले जातात.
शाळेत परत आम्हाला प्रश्न विचारायला शिकवले जायचे. हे आपल्याला कोणत्या प्रकारची उत्तरे मिळतील हे ठरवते. तथापि, शोध इंजिन वापरताना हा नियम पाळण्याची गरज नाही. आधुनिक शोध इंजिनसाठी, एखादी व्यक्ती आपली क्वेरी कोणत्या क्रमांकात किंवा प्रकरणात लिहिते याने काही फरक पडत नाही. कोणत्याही परिस्थितीत, आउटपुटमध्ये समान परिणाम समाविष्ट असतील.
शोध इंजिनांना प्रश्नाचे स्पष्ट सूत्रीकरण आवश्यक नाही. वापरकर्त्याने फक्त योग्य कीवर्ड निवडणे आवश्यक आहे. एक उदाहरण पाहू. प्रसिद्ध महिला पॉप ग्रुप “व्हाया-ग्रा” ने सादर केलेल्या “ए डे विदाऊट यू” या गाण्याचे बोल आम्हाला शोधायचे आहेत. शोध इंजिनशी संपर्क साधताना, गटाचे नाव देणे किंवा ते गाणे असल्याचे सूचित करणे आवश्यक नाही. "तुझ्याशिवाय एक दिवस मजकूर" लिहिणे पुरेसे आहे. केस किंवा विरामचिन्हे आवश्यक नाहीत. या बारकावे शोध इंजिनांद्वारे विचारात घेतले जात नाहीत.
जगातील आघाडीचे सर्च इंजिन म्हणजे गुगल. त्याची स्थापना 1998 मध्ये झाली. प्रणाली खूप लोकप्रिय आहे, जी विश्लेषणात्मक माहितीद्वारे पुष्टी केली जाते. इंटरनेटवर प्राप्त झालेल्या सुमारे 70% विनंत्या Google द्वारे प्रक्रिया केल्या जातात. शोध इंजिन डेटाबेस प्रचंड आहे. 60 ट्रिलियन पेक्षा जास्त विविध दस्तऐवज अनुक्रमित केले गेले आहेत. Google साध्या इंटरफेससह वापरकर्त्यांना आकर्षित करते. मुख्य पृष्ठावर एक लोगो आणि शोध बार आहे. हे वैशिष्ट्य आम्हाला Google ला सर्वात कमी शोध इंजिनांपैकी एक म्हणू देते.
लोकप्रिय सर्च इंजिनच्या क्रमवारीत बिंग दुसऱ्या स्थानावर आहे. ते Google प्रमाणेच त्याच वर्षी दिसले. या सर्च इंजिनचा निर्माता प्रसिद्ध आंतरराष्ट्रीय कॉर्पोरेशन मायक्रोसॉफ्ट आहे. रँकिंगमध्ये खालच्या स्थानावर Baidu, Yahoo!, AOL, Excite, Ask आहेत.
रशियामधील शोध इंजिनांपैकी, यांडेक्स सर्वात लोकप्रिय आहे. ही सेवा 1997 मध्ये दिसून आली. सुरुवातीला, ते कॉम्पटेक इंटरनॅशनल या रशियन कंपनीने हाताळले होते. थोड्या वेळाने, यांडेक्स कंपनी दिसली, ज्याने शोध इंजिन विकसित करणे सुरू ठेवले. गेल्या काही वर्षांत सर्च इंजिनला प्रचंड लोकप्रियता मिळाली आहे. हे अनेक भाषांमध्ये शोधण्याची परवानगी देते - रशियन, बेलारूसी, युक्रेनियन, तातार, कझाक, इंग्रजी, जर्मन, फ्रेंच, तुर्की.
सांख्यिकीय माहितीवरून हे ज्ञात आहे की यांडेक्स रुनेट वापरकर्त्यांपैकी 50% पेक्षा जास्त रूची आहे. 40% पेक्षा जास्त लोक Google ला प्राधान्य देतात. अंदाजे 3% वापरकर्त्यांनी Mail.ru हे रशियन भाषेचे इंटरनेट पोर्टल निवडले.
आम्हाला परिचित असलेली पारंपरिक शोध इंजिने मुलांसाठी पूर्णपणे योग्य नाहीत. तरुण इंटरनेट वापरकर्त्यांना चुकून काही प्रौढ साहित्य किंवा माहिती सापडू शकते जी त्यांच्या मानसिकतेला हानी पोहोचवू शकते. या कारणासाठी, विशेष सुरक्षित शोध इंजिन तयार केले गेले. त्यांचा डेटाबेस फक्त मुलांसाठी सुरक्षित सामग्री संग्रहित करतो.
अशाच एका शोध इंजिनचे उदाहरण म्हणजे Sputnik.Children. ही सेवा अगदी तरुण आहे. हे 2014 मध्ये रोस्टेलीकॉमने तयार केले होते. शोध इंजिनचे मुख्य पृष्ठ चमकदार आणि मनोरंजकपणे डिझाइन केलेले आहे. हे विविध वयोगटातील मुलांसाठी देशी आणि परदेशी व्यंगचित्रांची विस्तृत श्रेणी सादर करते. याव्यतिरिक्त, मुख्य पृष्ठावर अनेक शीर्षकांशी संबंधित शैक्षणिक दुवे आहेत - “खेळ”, “मला सर्वकाही जाणून घ्यायचे आहे”, “ते स्वतः करा”, “खेळ”, “तंत्रज्ञान”, “शाळा”, “निसर्ग”.
सुरक्षित मुलांच्या शोध प्रणालीचे आणखी एक उदाहरण Agakids.ru आहे. हे पूर्णपणे सुरक्षित संसाधन आहे. शोध इंजिन कसे कार्य करते? रोबोट अशा प्रकारे कॉन्फिगर केला आहे की तो फक्त त्या साइट्स क्रॉल करतो ज्या मुलांच्या विषयांशी संबंधित आहेत किंवा पालकांसाठी उपयुक्त आहेत. शोध इंजिन डेटाबेसमध्ये कार्टून, पुस्तके, शैक्षणिक साहित्य, खेळ आणि रंगीत पुस्तकांसह संसाधने समाविष्ट आहेत. पालक, Agakids.ru वापरून, मुलांच्या संगोपन आणि आरोग्यावर स्वतःसाठी साइट शोधू शकतात.
शेवटी, हे लक्षात घेण्यासारखे आहे की शोध इंजिन जटिल प्रणाली आहेत. त्यांना अनेक समस्यांचा सामना करावा लागतो - स्पॅमची समस्या, दस्तऐवजांची प्रासंगिकता निश्चित करणे, कमी दर्जाची सामग्री फिल्टर करणे, मजकूर माहिती नसलेल्या दस्तऐवजांचे विश्लेषण करणे. या कारणास्तव, विकसक नवीन पध्दती आणि अल्गोरिदम सादर करत आहेत जे इंटरनेट शोध इंजिनच्या कामात व्यापाराचे रहस्य आहे.
बऱ्याच लोकांना शीर्षस्थानी राहायचे आहे, परंतु शोध इंजिन कसे कार्य करतात हे सर्वांनाच समजत नाही. आणि 2017 च्या वळणावर, शोध इंजिनवरील वेबसाइटसाठी आवश्यकता अधिक कठोर बनल्या (लेखातील अधिक तपशील). म्हणून, सतत शीर्षस्थानी राहण्यासाठी, आपल्याला प्रथम शोध अल्गोरिदम कसे कार्य करतात हे किमान समजून घेणे आवश्यक आहे.
हा लेख शेवटपर्यंत वाचल्यानंतर, तुम्हाला Yandex आणि Google चे कार्य कोणत्या तत्त्वांवर आधारित आहे ते समजेल आणि तुम्ही मेल, रॅम्बलर आणि बिंगबद्दल थोडे अधिक जाणून घ्याल. त्याच वेळी, आम्ही वेबसाइट रँकिंग घटकांना स्पर्श करणार नाही, कारण... ही एक अतिशय विपुल सामग्री आहे ज्यासाठी स्वतंत्र प्रकाशन आवश्यक आहे.
बरं, किंवा जर तुम्हाला शोध इंजिनचे ध्येय, उद्देश किंवा अगदी मिशन हवे असेल तर वापरकर्त्याच्या विनंतीला विविध संसाधनांच्या लिंक्सच्या सूचीच्या स्वरूपात सर्वात अचूक उत्तर देणे हे आहे.
साइट्सची उच्च-गुणवत्तेची सूची तयार करण्यासाठी, शोध इंजिन डेटाबेस तयार करते. म्हणजेच, जर तुमची साइट किंवा नवीन साइट पृष्ठ Yandex किंवा Google द्वारे अनुक्रमित केलेले नसेल तर ते शोध परिणामांमध्ये नसेल. शोध रोबोट्सद्वारे साइट्सचा डेटाबेस तयार केला जातो, जो त्यांच्या साइटबद्दल माहिती प्रदान करतो "बॉस", आणि तो रेजिस्ट्रीमध्ये डेटा प्रविष्ट करतो. उदाहरणार्थ, जर तुम्ही तुमची साइट नोंदणीकृत केली असेल किंवा, शोध इंजिनद्वारे तुमच्या साइटची किती पृष्ठे अनुक्रमित केली गेली याची माहिती तुम्ही तेथे शोधू शकता.
पुढे, असंख्य साइट्सच्या पृष्ठांवरील डेटाचे संपूर्ण रजिस्टर विशिष्ट पॅरामीटर्सनुसार रँक केले जाते: प्रदेश, विनंतीशी संबंधितता, संसाधन लोकप्रियता, सामग्री गुणवत्ताआणि असेच. मी आधीच म्हटल्याप्रमाणे, आम्ही एका वेगळ्या प्रकाशनात रँकिंग घटकांच्या संपूर्ण सूचीचे विश्लेषण करू. साइटचा प्रचार करताना मुख्य कार्य म्हणजे साइटला शीर्षस्थानी वाढवण्यासाठी या घटकांवर प्रभाव टाकणे.
सर्वात जवळची फार्मसी शोधण्यासाठी शोध इंजिन आजीशी असमान लढाईत कसे उतरते याबद्दल आम्ही सर्वांनी Google जाहिराती पाहिल्या आहेत. याचा अर्थ काय? ते शोध इंजिन शिकत आहेत आणि लवकरच कीवर्डसह कार्य करणे पूर्णपणे थांबवतील आणि केवळ अर्थांसह कार्य करतील. कारण हे त्यांचे मुख्य कार्य आहे, साइट्सची अनियंत्रित यादी देणे नाही तर वापरकर्त्याला जागा, उत्पादन किंवा सेवा शोधण्यात मदत करणे.
आपल्या देशात, व्हॉईस शोधाचा वाटा अजूनही खूपच कमी आहे, परंतु यूएसएमध्ये ते सुमारे 50% मोबाइल रहदारी घेते. याचा अर्थ हा ट्रेंड लवकरच रशियावर परिणाम करेल. त्यानुसार, माहिती विनंत्यांची संख्या वाढेल ( कसे, कुठे, कुठे) आणि विनंत्या ज्यांचा अंदाज लावता येत नाही, कारण व्यक्ती ज्या परिस्थितीत स्वतःला शोधते त्या परिस्थितीनुसार ते रूढीवादी आणि हुकूमशहत होणार नाहीत. उदाहरणार्थ, तो एका चौकात उभा राहतो आणि विचारतो की मी 300 रूबल पर्यंतच्या व्यवसायाच्या संधी असलेल्या कॅफे शोधण्यासाठी कुठे वळावे.हे गुगल आहे.
यांडेक्ससाठी, जे 2016 च्या शेवटी देखील सादर केले गेले. हे एक अल्गोरिदम आहे जे प्रामुख्याने अर्थांसह देखील कार्य करेल.
माझ्या वैयक्तिक अनुभवावरून, मी असे म्हणू शकतो की दोन्ही शोध इंजिन त्यांच्या स्वत: च्या मार्गाने चांगले आहेत. फरक, अर्थातच, Yandex एक रशियन शोध इंजिन आहे, आणि Google जगातील सर्वात मोठे शोध इंजिन आहे. अर्थात, आम्हाला या शोध इंजिनांच्या साइट्स आणि त्यांनी प्रदान केलेल्या सेवांमधील बाह्य फरकांमध्ये स्वारस्य नाही, परंतु ते शोध परिणाम कसे निर्माण करतात, कारण ते खूप भिन्न आहेत.
यांडेक्स प्रादेशिक शोधांवर अधिक लक्ष देते. म्हणजेच, जर तुम्ही व्लादिवोस्तोकमध्ये असाल आणि शहर किंवा प्रदेश न सांगता क्वेरी एंटर करा, उदाहरणार्थ, “विंडोज”, सर्वप्रथम यांडेक्स व्लादिवोस्तोकमध्ये असलेल्या आणि विंडोजशी कनेक्ट असलेल्या कंपन्यांच्या वेबसाइट्स दर्शवेल.
Google साठी, संसाधनाची लोकप्रियता आणि उद्धरण (फक्त तुमच्या साइटचे दुवे नाही) अधिक महत्त्वाचे आहेत, त्यावर आधारित, तुमची साइट उपयुक्त आहे की नाही याचा निष्कर्ष काढतो;
इतर शोध इंजिनसाठी, नंतर mail.ru Google शोध परिणामांचा एक शेल आहे, म्हणजे mail.ru स्वतः कशाचेही विश्लेषण करत नाही, परंतु Google काय दाखवेल ते फक्त दाखवते. Rambler.ruत्याच तत्त्वानुसार, हे यांडेक्स शेल आहे.
सर्च इंजिन म्हणजे इंटरनेटवरील विशिष्ट माहितीचा डेटाबेस. बर्याच वापरकर्त्यांचा असा विश्वास आहे की शोध इंजिनमध्ये क्वेरी प्रविष्ट करताच, संपूर्ण इंटरनेट त्वरित क्रॉल केले जाते, परंतु हे अजिबात खरे नाही. इंटरनेट सतत स्कॅन केले जाते, बर्याच प्रोग्राम्सद्वारे, साइट्सबद्दलचा डेटा डेटाबेसमध्ये प्रविष्ट केला जातो, जेथे विशिष्ट निकषांनुसार, सर्व साइट्स आणि त्यांची सर्व पृष्ठे विविध प्रकारच्या सूची आणि डेटाबेसमध्ये वितरीत केली जातात. म्हणजेच, हा डेटाचा एक प्रकारचा फाइल कॅबिनेट आहे आणि शोध इंटरनेटवर नाही तर या फाइल कॅबिनेटवर होतो.
गुगल हे जगातील सर्वात लोकप्रिय सर्च इंजिन आहे.
सर्च इंजिन व्यतिरिक्त, Google ईमेल सेवा, Google Chrome ब्राउझर, सर्वात मोठी YouTube व्हिडिओ लायब्ररी आणि इतर अनेक प्रकल्पांसह अनेक अतिरिक्त सेवा, प्रोग्राम आणि हार्डवेअर ऑफर करते. Google आत्मविश्वासाने अनेक प्रकल्प विकत घेत आहे ज्यामुळे मोठा नफा मिळतो. बऱ्याच सेवांचा उद्देश थेट वापरकर्त्यासाठी नसून इंटरनेटवर पैसे कमविणे आहे आणि युरोपियन आणि अमेरिकन वापरकर्त्यांच्या हितसंबंधांवर लक्ष केंद्रित करून एकत्रित केले आहे.
मेल हे एक शोध इंजिन आहे जे प्रामुख्याने त्याच्या ईमेल सेवेमुळे लोकप्रिय आहे.
बऱ्याच अतिरिक्त सेवा आहेत, त्यातील मुख्य म्हणजे मेल, याक्षणी मेल कंपनीकडे सोशल नेटवर्क ओड्नोक्लास्निकी, त्याचे स्वतःचे नेटवर्क “माय वर्ल्ड”, मनी-मेल सेवा, अनेक ऑनलाइन गेम, वेगवेगळ्या नावांचे तीन जवळजवळ एकसारखे ब्राउझर आहेत. . सर्व अनुप्रयोग आणि सेवांमध्ये भरपूर जाहिरात सामग्री असते. सामाजिक नेटवर्क VKonatkte मेल सेवांवर थेट संक्रमण अवरोधित करते, त्यांना मोठ्या संख्येने व्हायरससह न्याय्य ठरवते.
विकिपीडिया.
विकिपीडिया ही शोध संदर्भ प्रणाली आहे.
ना-नफा शोध इंजिन, जे खाजगी देणग्यांवर चालते, त्यामुळे त्याची पृष्ठे जाहिरातींनी भरत नाहीत. एक बहुभाषिक प्रकल्प ज्याचे ध्येय जगातील सर्व भाषांमध्ये संपूर्ण संदर्भ ज्ञानकोश तयार करणे आहे. त्याचे कोणतेही विशिष्ट लेखक नाहीत आणि ते जगभरातील स्वयंसेवकांद्वारे पूर्ण आणि व्यवस्थापित केले जाते. प्रत्येक वापरकर्ता लेख लिहू आणि संपादित करू शकतो.
अधिकृत पृष्ठ - www.wikipedia.org.
Youtube हे व्हिडिओ फाइल्सचे सर्वात मोठे लायब्ररी आहे.
सोशल नेटवर्कच्या घटकांसह व्हिडिओ होस्टिंग, जिथे प्रत्येक वापरकर्ता व्हिडिओ जोडू शकतो. Google Ink ने त्यांचे संपादन केल्यामुळे, YouTube साठी स्वतंत्र नोंदणी आवश्यक नाही, फक्त Google ईमेल सेवेमध्ये नोंदणी करा.
अधिकृत पृष्ठ - youtube.com.
याहू! जगातील दुसरे सर्वात महत्वाचे शोध इंजिन आहे.
अतिरिक्त सेवा आहेत, त्यापैकी सर्वात प्रसिद्ध Yahoo मेल आहे. शोध इंजिनची गुणवत्ता सुधारण्याचा एक भाग म्हणून, Yahoo वापरकर्त्यांबद्दलचा डेटा आणि त्यांच्या क्वेरी मायक्रोसॉफ्टला हस्तांतरित करते. या डेटावरून, वापरकर्त्यांच्या हितसंबंधांची कल्पना तयार केली जाते आणि जाहिरात सामग्रीसाठी बाजारपेठ तयार होते. Yahoo शोध इंजिन, जसे की, इतर कंपन्यांच्या अधिग्रहणात गुंतलेले आहे, उदाहरणार्थ, Yahoo कडे Altavista शोध सेवा आणि ई-कॉमर्स साइट अलीबाबाची मालकी आहे.
अधिकृत पृष्ठ - www.yahoo.com.
WDL ही डिजिटल लायब्ररी आहे.
ग्रंथालय डिजिटल स्वरूपात सांस्कृतिक मूल्य प्रदान करणारी पुस्तके संग्रहित करते. इंटरनेटच्या सांस्कृतिक सामग्रीची पातळी वाढवणे हे मुख्य ध्येय आहे. ग्रंथालयात प्रवेश विनामूल्य आहे.
अधिकृत पृष्ठ - www.wdl.org/ru/.
बिंग हे मायक्रोसॉफ्टचे सर्च इंजिन आहे.
अधिकृत पृष्ठ - www.baidu.com.
रशिया मध्ये शोध इंजिन
रॅम्बलर हे "प्रो-अमेरिकन" शोध इंजिन आहे.
सुरुवातीला हे इंटरनेट मीडिया पोर्टल म्हणून तयार करण्यात आले होते. इतर अनेक शोध इंजिनांप्रमाणे, यात प्रतिमा, व्हिडिओ फाइल्स, नकाशे, हवामान अंदाज, बातम्या विभाग आणि बरेच काही यासाठी शोध सेवा आहेत. प्रकाशक रॅम्बलर-निक्रोम हे विनामूल्य ब्राउझर देखील देतात.
अधिकृत पृष्ठ - www.rambler.ru.
निगम हे एक बुद्धिमान शोध इंजिन आहे.
अनेक फिल्टर आणि सेटिंग्जच्या उपस्थितीमुळे अधिक सोयीस्कर शोध इंजिन. इंटरफेस तुम्हाला चांगले परिणाम मिळविण्यासाठी शोधात सुचवलेली समान मूल्ये समाविष्ट करण्यास किंवा वगळण्याची परवानगी देतो. तसेच, शोध परिणाम प्राप्त करताना, ते आपल्याला इतर प्रमुख शोध इंजिनांकडील माहिती वापरण्याची परवानगी देते.
अधिकृत पृष्ठ - www.nigma.ru.
Aport - ऑनलाइन उत्पादन कॅटलॉग.
भूतकाळात, शोध इंजिन, परंतु विकास आणि नाविन्यपूर्ण कार्य थांबविल्यानंतर, ते त्वरीत जमीन गमावले आणि . सध्या, एपोर्ट हे एक ट्रेडिंग प्लॅटफॉर्म आहे जिथे 1,500 पेक्षा जास्त कंपन्यांची उत्पादने सादर केली जातात.
अधिकृत पृष्ठ - www.aport.ru.
स्पुतनिक हे राष्ट्रीय शोध इंजिन आणि इंटरनेट पोर्टल आहे.
Rostelecom द्वारे तयार केले. सध्या चाचणी टप्प्यात आहे.
अधिकृत पृष्ठ - www.sputnik.ru.
मेटाबॉट हे वाढणारे शोध इंजिन आहे.
मेटाबॉटची कार्ये म्हणजे इतर सर्व शोध इंजिनांसाठी शोध इंजिन तयार करणे, शोध इंजिनच्या संपूर्ण सूचीमधील डेटा विचारात घेऊन परिणाम स्थिती तयार करणे. म्हणजेच हे सर्च इंजिनसाठी सर्च इंजिन आहे.
अधिकृत पृष्ठ - www.metabot.ru.
शोध इंजिन निलंबित करण्यात आले आहे.
अधिकृत पृष्ठ - www.turtle.ru.
KM एक मल्टीपोर्टल आहे.
सुरुवातीला, साइट एक मल्टीपोर्टल होती आणि त्यानंतरच्या शोध इंजिनची ओळख झाली. शोध साइटच्या आत आणि सर्व परीक्षण केलेल्या RuNet साइट्सवर दोन्ही चालविला जाऊ शकतो.
अधिकृत पृष्ठ - www.km.ru.
गोगो - कार्य करत नाही, शोध इंजिनवर पुनर्निर्देशित करते.
अधिकृत पृष्ठ - www.gogo.ru.
रशियन मल्टीपोर्टल, फार लोकप्रिय नाही, सुधारणे आवश्यक आहे. शोध इंजिनमध्ये बातम्या, दूरदर्शन, खेळ आणि नकाशा यांचा समावेश होतो.
अधिकृत पृष्ठ - www.zoneru.org.
शोध इंजिन कार्य करत नाही, विकासक शोध इंजिन वापरण्याचा सल्ला देतात.
आम्ही सोशल मीडिया कंटेंट मार्केटिंग: तुमच्या फॉलोअर्सच्या डोक्यात कसे जायचे आणि त्यांना तुमच्या ब्रँडच्या प्रेमात पडायचे हे नवीन पुस्तक प्रकाशित केले आहे.
इंटरनेट ही फक्त एक प्रचंड मोठी गोष्ट आहे. आणि त्यात सर्वकाही आहे. मित्रांसोबत गप्पाटप्पा? हे घ्या - Facebook फोटो अल्बम - Instagram वर. एक dacha खरेदी? माझ्याकडे आधीपासूनच द जॉली फार्मर आहे. तुम्ही ज्ञानकोशाचा बराच काळ वापर केला आहे का? का, कारण असे लोक आहेत ज्यांना सर्वकाही माहित आहे. आणि आज मी या अद्भुत सेवांना श्रद्धांजली अर्पण करू इच्छितो. किंवा त्याऐवजी, तुम्हाला सांगायांडेक्स शोध कसे कार्य करते याबद्दल.
हॅरी पॉटर गाथा मधील हर्मिओन आठवते? ती इतकी जास्त शिकलेली होती असे तुम्हाला का वाटते? ते बरोबर आहे, कारण मी सतत कुठेतरी जात होतो, सर्व प्रकारच्या औषधांबद्दल वाचत होतो, विविध मंत्रांचा अभ्यास करत होतो, शिक्षकांना सर्व न समजण्याजोग्या मुद्द्यांबद्दल विचारत होतो. सर्वसाधारणपणे, मी माझ्या ज्ञानाचा आधार वाढवण्यासाठी सर्वकाही केले. यांडेक्स शोध इंजिन अगदी त्याच प्रकारे कार्य करते. तुम्ही त्याला प्रश्न विचारण्यापूर्वीच, त्याने तुमच्या विषयाबद्दल काहीतरी शिकून घेतले होते आणि ते त्याच्या पिगी बँकेत जतन केले होते.
अनेक ट्रिलियन URL माहीत आहेत. आणि दररोज तो त्यापैकी दोन अब्जांचा अभ्यास करतो. हे स्पेशल स्पायडर रोबोट्स आणि क्रॉलर्सद्वारे केले जाते. ते पृष्ठाला भेट देतात, सामग्रीचे विश्लेषण करतात, एक प्रत तयार करतात आणि सर्व्हरला पाठवतात. आणि मग ते इतरांच्या दुव्यांमधून जातात पृष्ठे अशा प्रकारे शोध इंजिनला साइटची माहिती मिळते. पुढे इंडेक्सिंगचा टप्पा येतो.
जर तुम्ही साधी गणिती आकडेमोड केली तर तुम्हाला आढळेल की यांडेक्स स्पायडर जवळपास 2 वर्षांत सर्व ज्ञात पृष्ठे क्रॉल करतील. परंतु हे खरे होणार नाही, कारण URL ची संख्या सतत वाढत आहे
=> शोध डेटाबेस तयार करण्याचे काम अंतहीन आहे.
साइट परिभाषित करणे ही एक प्रक्रिया आहे सर्व महत्वाचे जोडणेशोध इंजिन डेटाबेसमधील पृष्ठाबद्दल माहिती. म्हणजेच, भाषा निश्चित केली जाते, वैयक्तिक शब्दांबद्दल डेटा व्युत्पन्न केला जातो आणि इतर पृष्ठांवर जाणारे सर्व दुवे बाहेर काढले जातात. याव्यतिरिक्त, Yandex मध्ये Yandex logs नावाचे एक विशेष साधन आहे. शोध परिणामांमध्ये वापरकर्ता कसा वागतो याचा अभ्यास करतो: तो कशावर क्लिक करतो आणि कशावर क्लिक करत नाही. सर्व प्राप्त पॅरामीटर्सवर आधारित, साइटची शोध अनुक्रमणिका सेट केली आहे.
यांडेक्स लॉगचा वापर केवळ अनुक्रमणिकेसाठीच नाही तर रँकिंगसाठी देखील केला जातो.
मागील टप्प्यात मिळालेले शोध निर्देशांक शोध डेटाबेसला पाठवले जातात. यांडेक्स शोध मॅपरेड्यूस सॉफ्टवेअर प्लॅटफॉर्मवर चालतो . येथे डेटा फायलींमध्ये बदलतो आणि "जिवंत राहतो".
YT डेटाची एकूण मात्रा अंदाजे 50 पेटाबाइट्स = 51,200 TB आहे.
शोध डेटाबेसमध्ये साप्ताहिक अद्यतन - अद्यतन आहे. हा तो क्षण आहे जेव्हा यांडेक्स शोध रोबोटने, विशिष्ट संख्येच्या फायली डाउनलोड केल्या आणि त्यांच्यासाठी सर्व आवश्यक वैशिष्ट्यांची गणना केली, ही माहिती शोधात जोडली जाऊ शकते.
इंटरनेट शोध इंजिनमधील तज्ञ इगोर अश्मानोव्ह यांच्या आकडेवारीनुसार, शोध डेटाबेसची पूर्णता आहे यांडेक्स (ग्राफवर लाल)त्यांच्या जवळच्या स्पर्धक Google (काळा) पेक्षा कित्येक पटीने जास्त.
निर्देशांक वेळ घेणारे असताना आणि एकाच वेळी मोठ्या प्रमाणात डेटासाठी जटिल पद्धतीने उद्भवते. म्हणून, यांडेक्समध्ये एक विशेष जलद मार्ग आहे जो वापरकर्त्यास वैयक्तिक, तातडीच्या फायली जोडू आणि वितरित करू शकतो. बरं, उदाहरणार्थ, रिअल-टाइम बातम्या.
यांडेक्स शोध इंजिनमधील कोणतीही विनंती खालील योजनेनुसार जाते.
बॅलन्सर्स ही यंत्रे आहेत जी एकत्रितपणे आउटपुट देतात.
शोध परिणाम तीन सरासरी मेटाशोधांच्या परिणामांमधून तयार केले जातात. याचा अर्थ काय ते मी स्पष्ट करू. शोध परिणामांमध्ये आपण पृष्ठे, प्रतिमा आणि व्हिडिओंद्वारे आपल्या क्वेरीचे परिणाम पहा. हे घडते कारण तुमची क्वेरी तीन वेगवेगळ्या इंडेक्समधून जाते. आणि त्यांच्याबरोबर तो अनेक हजार तुकड्यांमध्ये विभागलेला शोध डेटाबेसच्या अगदी खोलवर उतरतो. या प्रक्रियेला शोध क्लस्टरिंग म्हणतात.
शोध क्लस्टरच्या कार्यामध्ये समाविष्ट आहे कामकाजविविध कार्यक्रमांच्या दशलक्षाहून अधिक प्रती. ते सर्व प्रकारची कार्ये करतात, त्यांना वेगवेगळ्या सिस्टम आवश्यकता असतात आणि त्या सर्वांना कुठेतरी "जगणे" आवश्यक असते. म्हणून, शोध क्लस्टरिंगमध्ये मोठ्या प्रमाणात संगणक हार्डवेअर होस्टिंग देखील लागते.
सर्व प्रोग्राम्स आणि डेटा त्यांच्याकडे संचयित आणि हस्तांतरित करण्यासाठी, Yandex अंतर्गत टोरेंट ट्रॅकर वापरते. जगातील सर्वात मोठ्या पायरेट ट्रॅकर, द पायरेट बेच्या तुलनेत त्यावर हातांची संख्या जास्त आहे.
कडे परत जाऊया परिणाम जारी करणे.
सर्वात संबंधित शोध परिणामांमध्ये समाविष्ट केले आहेत, संबंधितशोध क्वेरी दस्तऐवज. पुढे क्रमवारी येते - शोध परिणाम क्रमाने. हे विशेष सूत्र वापरून केले जाते. निकालांचा क्रम उच्च-गुणवत्तेचा, अद्ययावत आणि प्रत्येक वेळी शक्य तितका संबंधित आहे याची खात्री करण्यासाठी, Yandex विकसक एक अतिशय छान गोष्ट घेऊन आले.
Yandex रँकिंग फॉर्म्युला तयार करण्यासाठी वापरली जाणारी मशीन लर्निंग पद्धत. तो या योजनेचे सतत आधुनिकीकरण करतो: तो संयोजन तयार करतो, घटक जोडतो आणि काढून टाकतो आणि शक्यता सेट करतो. या पद्धतीचे आणखी एक महत्त्वाचे वैशिष्ट्य म्हणजे अत्यंत विशिष्ट क्वेरी श्रेणींसाठी क्रमवारीचे सूत्र सानुकूलित करण्याची क्षमता. म्हणजेच व्यक्तीसाठी विनंत्या, उदाहरणार्थ,सिनेमा किंवा संगणकाबद्दल खेळ, आपण शोध गुणवत्ता सुधारू शकता. त्याच वेळी, इतर वर्गांच्या प्रश्नांची क्रमवारी खराब होणार नाही.
प्रथम यांडेक्स रँकिंग सूत्र अंदाजे 10 बाइट्स होते. याक्षणी - सुमारे 100 मेगाबाइट्स.
शोध इंजिनचे कार्य केवळ हेलॉफ्ट्समध्ये सुया शोधणे नाही तर सर्वात तीक्ष्ण सुया ओळखणे देखील आहे. आणि बहुतेक Yandex शोध कसे कार्य करते हे आश्चर्यकारक आहे. निकाल काही सेकंदात दिला जातो.शीर्ष दहा सर्वात संबंधित क्वेरी सामान्यतः वापरकर्त्याच्या सर्व गरजा असतात. या क्वेरींमध्ये आम्ही जे शोधत होतो ते आम्हाला सापडले नाही, तर आम्ही काहीतरी वेगळे करून पाहतो विनंती करा किंवा शोध इंजिन बदला. पण लवकरच किंवा नंतर: "सर्व काही सापडेल!"
पीटर पोपोव्हच्या व्याख्यानातून घेतलेले स्क्रीनशॉट.
चिन्ह आर्थर श्लेन द्वारे