शोध इंजिनमध्ये शोध कसे केले जातात. शोध इंजिन Yandex ru. शोध इंजिन, ते काय आहे?

फोनवर डाउनलोड करा 03.03.2020
फोनवर डाउनलोड करा

शोध इंजिन किंवा फक्त "शोध इंजिन" हे असे आहे जे वापरकर्त्याच्या विनंतीनुसार इंटरनेट पृष्ठे शोधते. जगातील सर्वात प्रसिद्ध शोध इंजिन Google आहे, रशियामध्ये सर्वात लोकप्रिय Yandex आहे आणि सर्वात जुन्या शोध इंजिनांपैकी एक म्हणजे Yahoo. सर्च इंजिन आर्किटेक्चरमध्ये आपण फरक करू शकतो शोध इंजिन- सिस्टमचा मुख्य भाग, सॉफ्टवेअर मॉड्यूल्सच्या संचाद्वारे दर्शविला जातो; डेटाबेस किंवा निर्देशांक, जे शोध इंजिनला ज्ञात असलेल्या सर्व इंटरनेट संसाधनांची माहिती संग्रहित करते; आणि साइट्सचा संच आहे प्रवेश बिंदूसिस्टममधील वापरकर्ते (www.google.com, www.yandex.ru, ru.yahoo.com, इ.). हे सर्व माहिती प्रणालीच्या क्लासिक तीन-स्तरीय आर्किटेक्चरशी संबंधित आहे: एक वापरकर्ता इंटरफेस, व्यवसाय तर्कशास्त्र आहे, जे या प्रकरणात शोध अल्गोरिदम आणि डेटाबेसच्या अंमलबजावणीद्वारे दर्शविले जाते.

इंटरनेट शोधाची वैशिष्ट्ये

पहिल्या दृष्टीक्षेपात, इंटरनेटवर शोध सामान्य माहिती शोधापेक्षा फारसा वेगळा नाही, उदाहरणार्थ, डेटाबेसवर प्रक्रिया करण्यापासून किंवा वरील फाइल शोधण्याच्या कार्यापासून. पहिल्या इंटरनेट सर्च इंजिनच्या डेव्हलपर्सनाही असेच वाटले, पण कालांतराने त्यांना समजले की ते चुकले होते...

इंटरनेट शोध आणि नियमित शोध यांच्यातील पहिला फरक असा आहे की त्याच डेटाबेससाठी शोध अल्गोरिदम असे गृहीत धरते की त्याची रचना शोध इंजिन आणि क्वेरीच्या लेखकास आगाऊ ज्ञात आहे. इंटरनेटवर, स्पष्ट कारणांमुळे, असे नाही. इंटरनेट पृष्ठे निर्देशिका संरचना बनवत नाहीत, परंतु नेटवर्क, जे शोध अल्गोरिदमवर देखील परिणाम करते आणि इंटरनेट संसाधनांवर पोस्ट केलेल्या डेटाचे स्वरूप कोणाच्याही नियंत्रणात नसते.

दुसरा फरक, पहिल्याच्या परिणामांपैकी एक म्हणून, विनंती पॅरामीटर मूल्यांचा संच (शोध निकष) म्हणून सादर केली जात नाही, परंतु एखाद्या व्यक्तीने त्याच्या नैसर्गिक भाषेत लिहिलेला मजकूर म्हणून सादर केला जातो. अशा प्रकारे, आपण शोध सुरू करण्यापूर्वी, आपल्याला विनंतीच्या लेखकाला नेमके काय हवे आहे हे अद्याप समजून घेणे आवश्यक आहे. मी लक्षात घेतो की हे दुसऱ्या व्यक्तीला समजण्यासाठी नाही, परंतु संगणकासाठी आहे.

तिसरा फरक कमी स्पष्ट आहे, परंतु कमी मूलभूत नाही: कॅटलॉग किंवा डेटाबेसमध्ये, सर्व घटकांना समान अधिकार आहेत. इंटरनेटवर स्पर्धा आहे, आणि परिणामी, अधिक "विश्वसनीय माहिती प्रदाते" आणि "माहिती कचरा" प्रमाणेच स्त्रोतांमध्ये विभागणी आहे. अशा प्रकारे लोक संसाधनांचे वर्गीकरण करतात आणि हे शोध इंजिनांना देखील लागू होते.

आणि शेवटी, हे जोडले पाहिजे की शोध क्षेत्र कोट्यवधी पृष्ठे, अनेक किलोबाइट्स किंवा त्याहून अधिक आहेत. दररोज सुमारे दहा दशलक्ष पृष्ठे जोडली जातात आणि तीच संख्या अद्यतनित केली जाते. हे सर्व विविध डिजिटल स्वरूपात सादर केले जाते. दुर्दैवाने, इंटरनेट शोध सेवा बाजारातील नेत्यांसाठी उपलब्ध असलेली आधुनिक तंत्रज्ञाने आणि संसाधने देखील त्यांना या सर्व विविधतेवर “माशीवर” आणि संपूर्णपणे प्रक्रिया करू देत नाहीत.

शोध इंजिनमध्ये काय असते?

सर्व प्रथम, इंटरनेटवरील शोध इंजिनचे कार्य आणि विविध प्रकारच्या कॅटलॉग आणि डेटाबेसमध्ये शोधणाऱ्या इतर कोणत्याही माहिती प्रणालीच्या कार्यामध्ये आणखी एक आणि बहुधा सर्वात महत्त्वपूर्ण फरक समजून घेणे आवश्यक आहे. इंटरनेट शोध इंजिन विनंती प्राप्त झाल्यावर इंटरनेटवर काय आहे यामधील माहिती शोधत नाही, परंतु त्याच्या स्वत: च्या माहितीच्या संचयनावर आधारित प्रतिसाद निर्माण करण्याचा प्रयत्न करते - इंडेक्स नावाचा डेटाबेस, जिथे ते ज्ञात असलेल्या सर्व गोष्टींवर एक डॉसियर संग्रहित करते. त्यावर आणि वेळोवेळी ते अद्यतनित करते. दुसऱ्या शब्दांत, शोध इंजिन मूळसह कार्य करत नाही, परंतु स्वीकार्य शोध मूल्यांच्या श्रेणीच्या प्रक्षेपणासह. इंटरनेटवरील सर्व नवीनतम बदल संबंधित पृष्ठे झाल्यानंतरच शोध परिणामांमध्ये दिसून येतात अनुक्रमित- शोध इंजिन निर्देशांकात जोडले. तर, शोध प्रणाली, पहिल्या अंदाजापर्यंत, एक शोध इंजिन, डेटाबेस किंवा निर्देशांक (इंडेक्स) आणि सिस्टममध्ये प्रवेश बिंदू असतात.

आता शोध इंजिनमध्ये काय समाविष्ट आहे याबद्दल थोडक्यात:

  • कोळी किंवा कोळी.एक अनुप्रयोग जो इंटरनेट संसाधनांची पृष्ठे डाउनलोड करतो. स्पायडर कुठेही "क्रॉल" करत नाही - तो फक्त नियमित इंटरनेट ब्राउझरप्रमाणेच पृष्ठांच्या सामग्रीची विनंती करतो, HTTP सर्व्हरला विनंती पाठवून आणि त्यावरून प्रतिसाद प्राप्त करतो. एकदा पृष्ठ सामग्री डाउनलोड झाल्यानंतर, ती अनुक्रमणिका आणि क्रॉलरकडे पाठविली जाते, ज्यांची खाली चर्चा केली आहे.

  • इंडेक्सर.इंडेक्सर डाउनलोड केलेल्या पृष्ठाच्या सामग्रीचे प्रारंभिक विश्लेषण करतो, मुख्य भाग (पृष्ठ शीर्षक, वर्णन, दुवे, शीर्षके इ.) निवडतो आणि ते सर्व शोध डेटाबेसच्या विभागांमध्ये व्यवस्थित करतो - ते शोध इंजिन निर्देशांकात ठेवतो. या प्रक्रियेला म्हणतात इंटरनेट संसाधनांचे अनुक्रमणिका, म्हणून उपप्रणालीचेच नाव. सुरुवातीच्या विश्लेषणाच्या परिणामांवर आधारित, इंडेक्सर हे देखील ठरवू शकतो की हे पृष्ठ अनुक्रमणिकेमध्ये असण्यासाठी "पात्र" नाही. या निर्णयाची कारणे भिन्न असू शकतात: पृष्ठाला नाव नाही, अनुक्रमणिकेमध्ये आधीपासूनच असलेल्या दुसऱ्या पृष्ठाची अचूक प्रत आहे किंवा कायद्याद्वारे प्रतिबंधित स्त्रोतांच्या लिंक्स आहेत.

  • क्रॉलर.हा "प्राणी" स्पायडरने डाउनलोड केलेल्या पृष्ठावर उपलब्ध असलेल्या लिंक्ससह "क्रॉल" करण्यासाठी डिझाइन केला आहे. क्रॉलर वर्तमान पृष्ठापासून साइटच्या इतर विभागांवर किंवा बाह्य इंटरनेट संसाधनांच्या पृष्ठांवर जाणाऱ्या मार्गांचे विश्लेषण करतो आणि स्पायडर वर्ल्ड वाइड वेबच्या थ्रेड्सवर कोणत्या क्रमाने मार्गक्रमण करतो हे निर्धारित करतो. हा क्रॉलर आहे जो शोध इंजिनसाठी नवीन असलेली पृष्ठे शोधतो आणि त्यांना स्पायडरमध्ये प्रसारित करतो. क्रॉलरचे कार्य ब्रेडथ-फर्स्ट आणि डेप्थ-फर्स्ट आलेख शोध अल्गोरिदमवर आधारित आहे.

  • परिणाम प्रक्रिया आणि जारी करण्यासाठी उपप्रणाली (शोध इंजिन आणि परिणाम इंजिन).कोणत्याही शोध इंजिनचा सर्वात महत्वाचा भाग. कंपनीचे डेव्हलपर या उपप्रणालीचे ऑपरेटिंग अल्गोरिदम अत्यंत गुप्ततेत ठेवतात, कारण ते व्यापार गुपित आहेत. शोध इंजिनचा हा भाग आहे जो वापरकर्त्याच्या विनंतीला शोध इंजिनच्या प्रतिसादाच्या पर्याप्ततेसाठी जबाबदार आहे. येथे दोन मुख्य घटक आहेत:
    • रँकिंग उपप्रणाली. रेंजिंग- ही इंटरनेट साइट्सची पृष्ठे एका विशिष्ट विनंतीशी संबंधित त्यांच्या अनुषंगाने आहेत. पृष्ठ प्रासंगिकता- या बदल्यात, पृष्ठाची सामग्री विनंतीच्या अर्थाशी संबंधित आहे आणि शोध इंजिन हे मूल्य स्वतंत्रपणे निर्धारित करते, मोठ्या संख्येच्या पॅरामीटर्सवर आधारित. रँकिंग हा शोध इंजिनच्या “कृत्रिम बुद्धिमत्तेचा” सर्वात रहस्यमय आणि वादग्रस्त भाग आहे. पृष्ठाची रँकिंग, त्याची रचना आणि सामग्री (सामग्री) व्यतिरिक्त देखील प्रभावित होते: इतर साइट्सवरून या पृष्ठावर जाणाऱ्या लिंकची संख्या आणि गुणवत्ता; साइटच्या डोमेनचे वय; पृष्ठ पाहणाऱ्या वापरकर्त्यांच्या वर्तनाचे स्वरूप आणि इतर अनेक घटक.

    • परिणाम जारी करण्यासाठी उपप्रणाली.या उपप्रणालीच्या कार्यांमध्ये वापरकर्त्याच्या विनंतीचा अर्थ लावणे, संरचित अनुक्रमणिका प्रश्नांच्या भाषेत भाषांतर करणे आणि शोध परिणाम पृष्ठे तयार करणे समाविष्ट आहे. क्वेरी मजकूर स्वतः पार्स करण्याव्यतिरिक्त, शोध इंजिन देखील विचारात घेऊ शकते:
      • विनंती संदर्भ, तयार वापरकर्त्याने पूर्वी केलेल्या विनंत्यांच्या अर्थावर आधारित. उदाहरणार्थ, जर एखादा वापरकर्ता ऑटोमोटिव्ह विषयांवर अनेकदा साइट्सला भेट देत असेल, तर जेव्हा त्याला “व्होल्गा” किंवा “ओका” हा शब्द विचारला जातो तेव्हा त्याला कदाचित या ब्रँडच्या कारबद्दल माहिती मिळवायची असते, त्याच नावाचे रशियन कुठे सुरू होतात याबद्दल नाही. आणि जिथे ते नद्या वाहतात. असे म्हणतात वैयक्तिकृत शोध, जेव्हा भिन्न वापरकर्त्यांसाठी समान विनंतीचे आउटपुट लक्षणीय भिन्न असते.

      • वापरकर्ता प्राधान्ये, ज्याबद्दल ते (शोध इंजिन) "अंदाज" करू शकते, वापरकर्त्याने निवडलेल्या लिंक्सचे विश्लेषण करणेशोध परिणाम पृष्ठांवर. विनंतीचा संदर्भ समायोजित करण्याचा हा आणखी एक मार्ग आहे: वापरकर्ता, त्याच्या कृतींद्वारे, त्याला नेमके काय शोधायचे आहे हे मशीनला सांगत असल्याचे दिसते. नियमानुसार, शोध इंजिने शोध परिणामांमध्ये पृष्ठे जोडण्याचा प्रयत्न करतात जी क्वेरीशी संबंधित आहेत, परंतु जीवनाच्या भिन्न क्षेत्रांशी संबंधित आहेत. समजा की वापरकर्त्याला चित्रपटांमध्ये स्वारस्य आहे आणि म्हणूनच ती पृष्ठे मूळ विनंतीशी पूर्णपणे संबंधित नसली तरीही चित्रपटाच्या घोषणांसह पृष्ठांचे दुवे अनेकदा निवडतात. त्याच्या पुढील विनंतीला प्रतिसाद तयार करताना, सिस्टीम चित्रपटांचे वर्णन असलेल्या पृष्ठांना प्राधान्य देऊ शकते ज्यांच्या शीर्षकांमध्ये विनंतीच्या मजकुरातील शब्द आहेत.

      • प्रदेश, जे स्थानिक पुरवठादारांकडून वस्तू आणि सेवांच्या खरेदीशी संबंधित व्यावसायिक विनंत्यांची प्रक्रिया करताना खूप महत्वाचे आहे. जर तुम्हाला विक्री आणि सवलतींमध्ये स्वारस्य असेल आणि तुम्ही मॉस्कोमध्ये असाल, तर बहुधा तुम्हाला या विषयावरील कोणत्या जाहिराती सेंट पीटर्सबर्गमध्ये आयोजित केल्या जात आहेत याबद्दल अजिबात स्वारस्य नाही, जोपर्यंत तुम्ही विनंतीच्या मजकुरात हे स्पष्टपणे सूचित करत नाही. सर्व प्रथम, मॉस्कोमधील विक्रीबद्दल माहिती शोध परिणामांमध्ये दिसली पाहिजे. अशा प्रकारे, आधुनिक शोध इंजिने प्रश्नांची विभागणी करतात भू-आश्रितआणि भू-स्वतंत्र. बहुधा, जर शोध इंजिनने ठरवले की तुमची क्वेरी भौगोलिक-अवलंबून आहे, तर ते आपोआप त्यात एक प्रदेश निर्देशक जोडते, जे ते तुमच्या इंटरनेट प्रदात्याबद्दलच्या माहितीवरून निर्धारित करण्याचा प्रयत्न करते.

      • वेळ. पृष्ठावर वर्णन केलेल्या घटना घडल्या तेव्हा शोध इंजिनांना कधीकधी विश्लेषण करावे लागते. तथापि, माहिती सतत कालबाह्य होत आहे आणि वापरकर्त्यास मुख्यतः ताज्या बातम्या, वर्तमान अंदाज आणि इव्हेंटच्या घोषणांच्या लिंक्स आवश्यक आहेत ज्या अद्याप संपलेल्या नाहीत किंवा भविष्यात होणार आहेत. पृष्ठाची प्रासंगिकता वेळेवर अवलंबून असते हे समजून घेणे आणि विनंती कार्यान्वित केल्याच्या क्षणाशी तुलना करणे, शोध इंजिनकडून योग्य प्रमाणात बुद्धिमत्ता आवश्यक आहे.

      पुढे, शोध इंजिन अर्थाने सर्वात जवळचे शोधते मुख्य क्वेरीअनुक्रमणिका मध्ये आणि त्यांच्या प्रासंगिकतेच्या उतरत्या क्रमाने दुव्यांचे वर्गीकरण करून परिणाम व्युत्पन्न करते. निर्देशांकातील प्रत्येक की क्वेरीला त्याच्याशी संबंधित पृष्ठांसाठी वेगळी रँकिंग असते. प्रणाली अक्षरे आणि संख्यांच्या प्रत्येक संयोजनासाठी नवीन की क्वेरी तयार करत नाही, परंतु विशिष्ट वापरकर्त्याच्या क्वेरींच्या वारंवारतेच्या विश्लेषणावर आधारित असे करते. जर वापरकर्ता तेच शोधत असेल असे वाटत असेल तर शोध इंजिन शोध परिणामांमध्ये वेगवेगळ्या प्रमुख क्वेरींमधून क्रमवारीत मिसळू शकते.

शोध इंजिन ऑपरेशनची सामान्य तत्त्वे

तुम्हाला हे समजून घेणे आवश्यक आहे की इंटरनेट शोध सेवा हा एक अतिशय फायदेशीर व्यवसाय आहे. तुम्हाला Google आणि Yandex सारख्या कंपन्या कशा जगतात याबद्दल तपशीलात जाण्याची गरज नाही, कारण त्यांच्या नफ्याचा मुख्य भाग संदर्भित जाहिरातींमधून मिळणारा उत्पन्न आहे. आणि इंटरनेटवर शोध हा एक अत्यंत फायदेशीर व्यवसाय असल्याने, अशा कंपन्यांमधील स्पर्धा खूप गंभीर आहे. इंटरनेट शोध बाजारात स्पर्धात्मकता काय ठरवते? उत्तर शोध इंजिन परिणाम गुणवत्ता आहे. हे तार्किक आहे की ते जितके उच्च असेल तितके अधिक नवीन वापरकर्ते सिस्टमला मिळतात आणि त्याच शोध परिणामांच्या पृष्ठांवर संदर्भित जाहिराती अधिक मौल्यवान असतात. शोध इंजिन डेव्हलपर त्यांचे शोध परिणाम विविध प्रकारच्या माहितीच्या कचऱ्यापासून "स्वच्छ" करण्याच्या उद्देशाने बरेच प्रयत्न करतात, ज्याला लोकप्रियपणे स्पॅम म्हणतात. हे कसे केले जाते याबद्दल एका स्वतंत्र लेखात अधिक तपशीलवार वर्णन केले जाईल, परंतु येथे मी शोध इंजिन वर्तनाची सामान्य तत्त्वे सादर करेन, जे वरील सर्व निष्कर्षांच्या रूपात तयार केले गेले आहेत.

  1. शोध इंजिन, त्याचे स्पायडर आणि क्रॉलर्सद्वारे प्रतिनिधित्व केलेले, नवीन पृष्ठांसाठी आणि विद्यमान पृष्ठांच्या अद्यतनांसाठी सतत इंटरनेट स्कॅन करते, कारण असंबद्ध माहितीचे मूल्य कमी केले जाते.

  2. नवीन पृष्ठे अनुक्रमणिकेमध्ये सतत दिसतात म्हणून शोध इंजिन मुख्य प्रश्नांच्या त्यांच्या प्रासंगिकतेवर आधारित संसाधनांची क्रमवारी अद्ययावत करते. या प्रक्रियेला शोध परिणाम अद्यतनित करणे म्हणतात.

  3. वर्ल्ड वाइड वेबवर पोस्ट केलेल्या माहितीच्या प्रचंड प्रमाणात आणि शोध इंजिनच्या मर्यादित संसाधनांमुळे, शोध इंजिन नेहमी (त्याच्या मते) आवश्यक तेच डाउनलोड करण्याचा प्रयत्न करते. त्याच्या शस्त्रागारात सर्व प्रकारचे फिल्टर समाविष्ट आहेत जे अनुक्रमणिकेच्या टप्प्यावर आधीपासूनच अनावश्यक असलेले बरेच काही कापतात किंवा शोध परिणाम अद्यतनित करण्याच्या परिणामांवर आधारित स्पॅमला निर्देशांकाबाहेर टाकतात.

  4. विनंतीचे विश्लेषण करताना, आधुनिक शोध इंजिन केवळ विनंतीचा मजकूरच नव्हे तर त्याचे वातावरण देखील विचारात घेण्याचा प्रयत्न करतात: वापरकर्त्याचे संदर्भ आणि प्राधान्ये, ज्यांचा आधी उल्लेख केला गेला होता, तसेच विनंतीची वेळ, प्रदेश. , आणि बरेच काही.

  5. विशिष्ट पृष्ठाची प्रासंगिकता केवळ त्याच्या अंतर्गत पॅरामीटर्स (संरचना, सामग्री) द्वारे प्रभावित होत नाही, तर बाह्य पॅरामीटर्सद्वारे देखील प्रभावित होते, जसे की इतर साइटवरील पृष्ठावरील दुवे आणि ते पाहताना वापरकर्ता वर्तन.

सर्च इंजिनचे काम सातत्याने सुधारले जात आहे. शोध इंजिनचे (मानवांसाठी) आदर्श ऑपरेशन केवळ तेव्हाच शक्य आहे जेव्हा अनुक्रमणिका आणि रँकिंग संबंधी सर्व निर्णय मानवी क्रियाकलापांच्या सर्व क्षेत्रांतील आणि क्षेत्रातील तज्ञांच्या मोठ्या संख्येने असलेल्या कमिशनद्वारे घेतले जातात. हे अवास्तव असल्याने, अशा कमिशनची जागा तज्ञ प्रणाली, ह्युरिस्टिक शोध अल्गोरिदम आणि कृत्रिम बुद्धिमत्तेच्या इतर घटकांद्वारे घेतली जाते. कदाचित, इंटरनेटवरील सार्वजनिक डोमेनमध्ये उपलब्ध असलेल्या सर्व डेटावर प्रक्रिया करणे शक्य असल्यास या सर्व उपप्रणालींचे कार्य अधिक पुरेसे परिणाम देखील देऊ शकेल, परंतु हे व्यावहारिकदृष्ट्या अशक्य आहे. अपूर्ण कृत्रिम बुद्धिमत्ता आणि मर्यादित संसाधने ही दोन मुख्य कारणे आहेत की शोध परिणाम नेहमी वापरकर्त्यांना संतुष्ट करत नाहीत, परंतु हे सर्व वेळेसह बरे केले जाऊ शकते. आज, माझ्या मते, सर्वात प्रसिद्ध आणि मोठ्या शोध इंजिनचे कार्य त्यांच्या वापरकर्त्यांच्या गरजा आणि अपेक्षा पूर्ण करतात.

इंटरनेटवर, विविध साइट्सवर, वापरकर्त्याला मोठ्या प्रमाणात विविध माहिती ऑफर केली जाते. आवश्यक माहिती मिळवण्यासाठी आणि प्रश्नांची उत्तरे शोधण्यासाठी सर्च इंजिन तयार करण्यात आले आहेत. हा वाक्प्रचार ऐकून, बरेच लोक Google, "Yandex" बद्दल विचार करतात. तथापि, इंटरनेटवर आणखी बरेच शोध इंजिन आहेत.

शोध इंजिन म्हणजे काय

शोध इंजिन हे सॉफ्टवेअर मानले जाते ज्यामध्ये कागदपत्रांचा डेटाबेस असतो. वापरकर्त्यांना एक विशेष इंटरफेस प्रदान केला जातो जो त्यांना आवश्यक क्वेरी प्रविष्ट करण्यास आणि संबंधित माहितीसह दुवे प्राप्त करण्यास अनुमती देतो. एखादी विशिष्ट व्यक्ती जे शोधत आहे त्याच्याशी उत्तम जुळणारे दस्तऐवज नेहमी शोध परिणामांमध्ये शीर्षस्थानी असतात.

शोध परिणाम, जे प्रविष्ट केलेल्या क्वेरीनुसार व्युत्पन्न केले जातात, त्यात सामान्यतः भिन्न प्रकारचे परिणाम असतात. यात इंटरनेट पृष्ठे, व्हिडिओ आणि ऑडिओ फायली, चित्रे, पीडीएफ फाइल्स, विशिष्ट उत्पादने (ऑनलाइन स्टोअरमध्ये शोध घेतल्यास) असू शकतात.

शोध इंजिनचे वर्गीकरण

विद्यमान शोध इंजिने अनेक प्रकारांमध्ये वर्गीकृत आहेत. सर्व प्रथम, पारंपारिक शोध इंजिनचा उल्लेख करणे योग्य आहे. अशा शोध इंजिनांची ऑपरेटिंग तत्त्वे मोठ्या संख्येने विद्यमान साइट्सवरील माहिती शोधण्यावर केंद्रित आहेत. शोध इंजिन अजूनही विशिष्ट इंटरनेट संसाधनांवर आढळतात:

  • ऑनलाइन स्टोअरमध्ये (आवश्यक उत्पादने शोधण्यासाठी);
  • मंच आणि ब्लॉगवर (संदेश शोधण्यासाठी);
  • माहिती साइटवर (इच्छित विषयावर किंवा बातम्यांवरील लेख शोधण्यासाठी), इ.

भौगोलिक स्थानावर आधारित शोध इंजिने देखील उपविभाजित आहेत. या वर्गीकरणात शोध इंजिनचे 3 गट आहेत:

  1. जागतिक. जगभर शोध सुरू आहे. या गटातील प्रमुख Google शोध इंजिन आहे. पूर्वी, Inktomi, AltaVista, इत्यादीसारखी शोध इंजिने होती.
  2. प्रादेशिक. शोध देश किंवा समान भाषा असलेल्या देशांच्या गटाद्वारे केला जातो. प्रादेशिक शोध इंजिन व्यापक आहेत. रशियामधील त्यांचे उदाहरण म्हणजे यांडेक्स, रॅम्बलर.
  3. स्थानिक. विशिष्ट शहरात शोध घेतला जातो. अशा शोध इंजिनचे उदाहरण म्हणजे Tomsk.ru.

शोध इंजिनचे घटक

कोणत्याही शोध इंजिनमध्ये, 3 घटक असतात जे शोध प्रणालीच्या ऑपरेशनची तत्त्वे निर्धारित करतात:

  • रोबोट (इंडेक्सर, स्पायडर, क्रॉलर);
  • डेटाबेस;
  • विनंती हँडलर.

रोबोट हा एक विशेष प्रोग्राम आहे ज्याचा उद्देश डेटाबेस तयार करणे आहे. डेटाबेस सर्व संकलित माहिती संग्रहित करतो आणि त्याचे वर्गीकरण करतो. विनंती प्रोसेसर, ज्याला क्लायंट देखील म्हणतात, वापरकर्त्याच्या विनंत्या हाताळतो. त्याला डेटाबेसमध्ये प्रवेश आहे. क्लायंट नेहमी एकाच संगणकावर नसतो. रिक्वेस्ट प्रोसेसर अनेक भौतिकरित्या कनेक्ट नसलेल्या इलेक्ट्रॉनिक संगणकांवर वितरीत केला जातो.

सर्व विद्यमान प्रणाली समान तत्त्वावर कार्य करतात. उदाहरणार्थ, इंटरनेटसाठी डिझाइन केलेल्या पारंपारिक शोध इंजिनच्या कार्याचा विचार करा. रोबोटचे कार्य नियमित वापरकर्त्याच्या क्रियांसारखेच असते. हा प्रोग्राम वेळोवेळी डेटाबेसमध्ये नवीन पृष्ठे आणि इंटरनेट संसाधने जोडून सर्व साइट्स क्रॉल करतो. या प्रक्रियेला अनुक्रमणिका म्हणतात.

जेव्हा इंटरनेटवरील वापरकर्ता शोध बारमध्ये विशिष्ट क्वेरी प्रविष्ट करतो तेव्हा क्लायंट कार्य करण्यास सुरवात करतो. प्रोग्राम विद्यमान डेटाबेसमध्ये प्रवेश करतो आणि कीवर्डवर आधारित परिणाम तयार करतो. शोध इंजिन एका विशिष्ट क्रमाने वापरकर्त्याला दुवे प्रदान करते. विनंतीच्या त्यांच्या प्रासंगिकतेनुसार त्यांची क्रमवारी लावली जाते, म्हणजे, प्रासंगिकता विचारात घेतली जाते.

प्रत्येक शोध इंजिनची प्रासंगिकता निर्धारित करण्याचा स्वतःचा मार्ग असतो. जर एखाद्या वापरकर्त्याने भिन्न प्रणालींना विशिष्ट विनंती पाठवली तर त्याला समान परिणाम प्राप्त होणार नाहीत. प्रासंगिकता निर्धारित करण्यासाठी अल्गोरिदम गुप्त ठेवले आहे.

प्रासंगिकतेबद्दल अधिक वाचा

सोप्या भाषेत, प्रासंगिकता म्हणजे शोध परिणामांमधील विशिष्ट लिंक्सच्या शोधात प्रविष्ट केलेल्या शब्दाचा किंवा शब्दांचे संयोजन. सूचीतील दस्तऐवजांच्या स्थानांवर अनेक बारकावे प्रभावित होतात:

  1. दस्तऐवजांमध्ये शोधात प्रविष्ट केलेल्या शब्दांची उपलब्धता. ही सूक्ष्मता उघड आहे. जर दस्तऐवजात वापरकर्त्याने प्रविष्ट केलेल्या क्वेरीमधील शब्द असतील तर याचा अर्थ हा दस्तऐवज शोध परिस्थितीशी जुळतो.
  2. शब्दांची वारंवारिता. दस्तऐवजात जितके जास्त कीवर्ड वापरले जातात तितके ते शोध परिणाम सूचीमध्ये जास्त असतील. तथापि, सर्व इतके सोपे नाही. खूप वेळा शब्द वापरणे हे शोध इंजिनसाठी कमी दर्जाच्या सामग्रीचे लक्षण असू शकते.

प्रासंगिकता निश्चित करण्यासाठी अल्गोरिदम खूप जटिल आहे. काही वर्षांपूर्वी, ज्या लिंक्समध्ये आवश्यक कीवर्ड होते, परंतु सामग्रीमध्ये त्यांच्याशी सुसंगत नव्हते, ते शोध परिणामांमध्ये दिसू शकतात. आजकाल, शोध इंजिनची ऑपरेटिंग तत्त्वे अधिक क्लिष्ट आहेत. आता रोबोट संपूर्ण मजकुराचे विश्लेषण करू शकतात. शोध इंजिनचे कार्य मोठ्या संख्येने भिन्न घटक विचारात घेते. याबद्दल धन्यवाद, परिणाम उच्च दर्जाच्या, संबंधित दुव्यांमधून तयार केले जातात.

प्रश्न योग्यरित्या कसे तयार करावे

शाळेत परत आम्हाला प्रश्न विचारायला शिकवले जायचे. हे आपल्याला कोणत्या प्रकारची उत्तरे मिळतील हे ठरवते. तथापि, शोध इंजिन वापरताना हा नियम पाळण्याची गरज नाही. आधुनिक शोध इंजिनसाठी, एखादी व्यक्ती आपली क्वेरी कोणत्या क्रमांकात किंवा प्रकरणात लिहिते याने काही फरक पडत नाही. कोणत्याही परिस्थितीत, आउटपुटमध्ये समान परिणाम समाविष्ट असतील.

शोध इंजिनांना प्रश्नाचे स्पष्ट सूत्रीकरण आवश्यक नाही. वापरकर्त्याने फक्त योग्य कीवर्ड निवडणे आवश्यक आहे. एक उदाहरण पाहू. प्रसिद्ध महिला पॉप ग्रुप “व्हाया-ग्रा” ने सादर केलेल्या “ए डे विदाऊट यू” या गाण्याचे बोल आम्हाला शोधायचे आहेत. शोध इंजिनशी संपर्क साधताना, गटाचे नाव देणे किंवा ते गाणे असल्याचे सूचित करणे आवश्यक नाही. "तुझ्याशिवाय एक दिवस मजकूर" लिहिणे पुरेसे आहे. केस किंवा विरामचिन्हे आवश्यक नाहीत. या बारकावे शोध इंजिनांद्वारे विचारात घेतले जात नाहीत.

जगातील आघाडीचे सर्च इंजिन म्हणजे गुगल. त्याची स्थापना 1998 मध्ये झाली. प्रणाली खूप लोकप्रिय आहे, जी विश्लेषणात्मक माहितीद्वारे पुष्टी केली जाते. इंटरनेटवर प्राप्त झालेल्या सुमारे 70% विनंत्या Google द्वारे प्रक्रिया केल्या जातात. शोध इंजिन डेटाबेस प्रचंड आहे. 60 ट्रिलियन पेक्षा जास्त विविध दस्तऐवज अनुक्रमित केले गेले आहेत. Google साध्या इंटरफेससह वापरकर्त्यांना आकर्षित करते. मुख्य पृष्ठावर एक लोगो आणि शोध बार आहे. हे वैशिष्ट्य आम्हाला Google ला सर्वात कमी शोध इंजिनांपैकी एक म्हणू देते.

लोकप्रिय सर्च इंजिनच्या क्रमवारीत बिंग दुसऱ्या स्थानावर आहे. ते Google प्रमाणेच त्याच वर्षी दिसले. या सर्च इंजिनचा निर्माता प्रसिद्ध आंतरराष्ट्रीय कॉर्पोरेशन मायक्रोसॉफ्ट आहे. रँकिंगमध्ये खालच्या स्थानावर Baidu, Yahoo!, AOL, Excite, Ask आहेत.

रशियामध्ये काय लोकप्रिय आहे

रशियामधील शोध इंजिनांपैकी, यांडेक्स सर्वात लोकप्रिय आहे. ही सेवा 1997 मध्ये दिसून आली. सुरुवातीला, ते कॉम्पटेक इंटरनॅशनल या रशियन कंपनीने हाताळले होते. थोड्या वेळाने, यांडेक्स कंपनी दिसली, ज्याने शोध इंजिन विकसित करणे सुरू ठेवले. गेल्या काही वर्षांत सर्च इंजिनला प्रचंड लोकप्रियता मिळाली आहे. हे अनेक भाषांमध्ये शोधण्याची परवानगी देते - रशियन, बेलारूसी, युक्रेनियन, तातार, कझाक, इंग्रजी, जर्मन, फ्रेंच, तुर्की.

सांख्यिकीय माहितीवरून हे ज्ञात आहे की यांडेक्स रुनेट वापरकर्त्यांपैकी 50% पेक्षा जास्त रूची आहे. 40% पेक्षा जास्त लोक Google ला प्राधान्य देतात. अंदाजे 3% वापरकर्त्यांनी Mail.ru हे रशियन भाषेचे इंटरनेट पोर्टल निवडले.

संरक्षित शोध इंजिन

आम्हाला परिचित असलेली पारंपरिक शोध इंजिने मुलांसाठी पूर्णपणे योग्य नाहीत. तरुण इंटरनेट वापरकर्त्यांना चुकून काही प्रौढ साहित्य किंवा माहिती सापडू शकते जी त्यांच्या मानसिकतेला हानी पोहोचवू शकते. या कारणासाठी, विशेष सुरक्षित शोध इंजिन तयार केले गेले. त्यांचा डेटाबेस फक्त मुलांसाठी सुरक्षित सामग्री संग्रहित करतो.

अशाच एका शोध इंजिनचे उदाहरण म्हणजे Sputnik.Children. ही सेवा अगदी तरुण आहे. हे 2014 मध्ये रोस्टेलीकॉमने तयार केले होते. शोध इंजिनचे मुख्य पृष्ठ चमकदार आणि मनोरंजकपणे डिझाइन केलेले आहे. हे विविध वयोगटातील मुलांसाठी देशी आणि परदेशी व्यंगचित्रांची विस्तृत श्रेणी सादर करते. याव्यतिरिक्त, मुख्य पृष्ठावर अनेक शीर्षकांशी संबंधित शैक्षणिक दुवे आहेत - “खेळ”, “मला सर्वकाही जाणून घ्यायचे आहे”, “ते स्वतः करा”, “खेळ”, “तंत्रज्ञान”, “शाळा”, “निसर्ग”.

सुरक्षित मुलांच्या शोध प्रणालीचे आणखी एक उदाहरण Agakids.ru आहे. हे पूर्णपणे सुरक्षित संसाधन आहे. शोध इंजिन कसे कार्य करते? रोबोट अशा प्रकारे कॉन्फिगर केला आहे की तो फक्त त्या साइट्स क्रॉल करतो ज्या मुलांच्या विषयांशी संबंधित आहेत किंवा पालकांसाठी उपयुक्त आहेत. शोध इंजिन डेटाबेसमध्ये कार्टून, पुस्तके, शैक्षणिक साहित्य, खेळ आणि रंगीत पुस्तकांसह संसाधने समाविष्ट आहेत. पालक, Agakids.ru वापरून, मुलांच्या संगोपन आणि आरोग्यावर स्वतःसाठी साइट शोधू शकतात.

शेवटी, हे लक्षात घेण्यासारखे आहे की शोध इंजिन जटिल प्रणाली आहेत. त्यांना अनेक समस्यांचा सामना करावा लागतो - स्पॅमची समस्या, दस्तऐवजांची प्रासंगिकता निश्चित करणे, कमी दर्जाची सामग्री फिल्टर करणे, मजकूर माहिती नसलेल्या दस्तऐवजांचे विश्लेषण करणे. या कारणास्तव, विकसक नवीन पध्दती आणि अल्गोरिदम सादर करत आहेत जे इंटरनेट शोध इंजिनच्या कामात व्यापाराचे रहस्य आहे.

बऱ्याच लोकांना शीर्षस्थानी राहायचे आहे, परंतु शोध इंजिन कसे कार्य करतात हे सर्वांनाच समजत नाही. आणि 2017 च्या वळणावर, शोध इंजिनवरील वेबसाइटसाठी आवश्यकता अधिक कठोर बनल्या (लेखातील अधिक तपशील). म्हणून, सतत शीर्षस्थानी राहण्यासाठी, आपल्याला प्रथम शोध अल्गोरिदम कसे कार्य करतात हे किमान समजून घेणे आवश्यक आहे.

हा लेख शेवटपर्यंत वाचल्यानंतर, तुम्हाला Yandex आणि Google चे कार्य कोणत्या तत्त्वांवर आधारित आहे ते समजेल आणि तुम्ही मेल, रॅम्बलर आणि बिंगबद्दल थोडे अधिक जाणून घ्याल. त्याच वेळी, आम्ही वेबसाइट रँकिंग घटकांना स्पर्श करणार नाही, कारण... ही एक अतिशय विपुल सामग्री आहे ज्यासाठी स्वतंत्र प्रकाशन आवश्यक आहे.

बरं, किंवा जर तुम्हाला शोध इंजिनचे ध्येय, उद्देश किंवा अगदी मिशन हवे असेल तर वापरकर्त्याच्या विनंतीला विविध संसाधनांच्या लिंक्सच्या सूचीच्या स्वरूपात सर्वात अचूक उत्तर देणे हे आहे.

साइट्सची उच्च-गुणवत्तेची सूची तयार करण्यासाठी, शोध इंजिन डेटाबेस तयार करते. म्हणजेच, जर तुमची साइट किंवा नवीन साइट पृष्ठ Yandex किंवा Google द्वारे अनुक्रमित केलेले नसेल तर ते शोध परिणामांमध्ये नसेल. शोध रोबोट्सद्वारे साइट्सचा डेटाबेस तयार केला जातो, जो त्यांच्या साइटबद्दल माहिती प्रदान करतो "बॉस", आणि तो रेजिस्ट्रीमध्ये डेटा प्रविष्ट करतो. उदाहरणार्थ, जर तुम्ही तुमची साइट नोंदणीकृत केली असेल किंवा, शोध इंजिनद्वारे तुमच्या साइटची किती पृष्ठे अनुक्रमित केली गेली याची माहिती तुम्ही तेथे शोधू शकता.

पुढे, असंख्य साइट्सच्या पृष्ठांवरील डेटाचे संपूर्ण रजिस्टर विशिष्ट पॅरामीटर्सनुसार रँक केले जाते: प्रदेश, विनंतीशी संबंधितता, संसाधन लोकप्रियता, सामग्री गुणवत्ताआणि असेच. मी आधीच म्हटल्याप्रमाणे, आम्ही एका वेगळ्या प्रकाशनात रँकिंग घटकांच्या संपूर्ण सूचीचे विश्लेषण करू. साइटचा प्रचार करताना मुख्य कार्य म्हणजे साइटला शीर्षस्थानी वाढवण्यासाठी या घटकांवर प्रभाव टाकणे.

2018 मध्ये शोध इंजिनची वैशिष्ट्ये आणि वैशिष्ट्ये

सर्वात जवळची फार्मसी शोधण्यासाठी शोध इंजिन आजीशी असमान लढाईत कसे उतरते याबद्दल आम्ही सर्वांनी Google जाहिराती पाहिल्या आहेत. याचा अर्थ काय? ते शोध इंजिन शिकत आहेत आणि लवकरच कीवर्डसह कार्य करणे पूर्णपणे थांबवतील आणि केवळ अर्थांसह कार्य करतील. कारण हे त्यांचे मुख्य कार्य आहे, साइट्सची अनियंत्रित यादी देणे नाही तर वापरकर्त्याला जागा, उत्पादन किंवा सेवा शोधण्यात मदत करणे.

आपल्या देशात, व्हॉईस शोधाचा वाटा अजूनही खूपच कमी आहे, परंतु यूएसएमध्ये ते सुमारे 50% मोबाइल रहदारी घेते. याचा अर्थ हा ट्रेंड लवकरच रशियावर परिणाम करेल. त्यानुसार, माहिती विनंत्यांची संख्या वाढेल ( कसे, कुठे, कुठे) आणि विनंत्या ज्यांचा अंदाज लावता येत नाही, कारण व्यक्ती ज्या परिस्थितीत स्वतःला शोधते त्या परिस्थितीनुसार ते रूढीवादी आणि हुकूमशहत होणार नाहीत. उदाहरणार्थ, तो एका चौकात उभा राहतो आणि विचारतो की मी 300 रूबल पर्यंतच्या व्यवसायाच्या संधी असलेल्या कॅफे शोधण्यासाठी कुठे वळावे.हे गुगल आहे.

यांडेक्ससाठी, जे 2016 च्या शेवटी देखील सादर केले गेले. हे एक अल्गोरिदम आहे जे प्रामुख्याने अर्थांसह देखील कार्य करेल.

कोणते शोध इंजिन चांगले आहे किंवा यांडेक्स Google पेक्षा वेगळे कसे आहे?

माझ्या वैयक्तिक अनुभवावरून, मी असे म्हणू शकतो की दोन्ही शोध इंजिन त्यांच्या स्वत: च्या मार्गाने चांगले आहेत. फरक, अर्थातच, Yandex एक रशियन शोध इंजिन आहे, आणि Google जगातील सर्वात मोठे शोध इंजिन आहे. अर्थात, आम्हाला या शोध इंजिनांच्या साइट्स आणि त्यांनी प्रदान केलेल्या सेवांमधील बाह्य फरकांमध्ये स्वारस्य नाही, परंतु ते शोध परिणाम कसे निर्माण करतात, कारण ते खूप भिन्न आहेत.

यांडेक्स प्रादेशिक शोधांवर अधिक लक्ष देते. म्हणजेच, जर तुम्ही व्लादिवोस्तोकमध्ये असाल आणि शहर किंवा प्रदेश न सांगता क्वेरी एंटर करा, उदाहरणार्थ, “विंडोज”, सर्वप्रथम यांडेक्स व्लादिवोस्तोकमध्ये असलेल्या आणि विंडोजशी कनेक्ट असलेल्या कंपन्यांच्या वेबसाइट्स दर्शवेल.

Google साठी, संसाधनाची लोकप्रियता आणि उद्धरण (फक्त तुमच्या साइटचे दुवे नाही) अधिक महत्त्वाचे आहेत, त्यावर आधारित, तुमची साइट उपयुक्त आहे की नाही याचा निष्कर्ष काढतो;

इतर शोध इंजिनसाठी, नंतर mail.ru Google शोध परिणामांचा एक शेल आहे, म्हणजे mail.ru स्वतः कशाचेही विश्लेषण करत नाही, परंतु Google काय दाखवेल ते फक्त दाखवते. Rambler.ruत्याच तत्त्वानुसार, हे यांडेक्स शेल आहे.

सर्च इंजिन म्हणजे इंटरनेटवरील विशिष्ट माहितीचा डेटाबेस. बर्याच वापरकर्त्यांचा असा विश्वास आहे की शोध इंजिनमध्ये क्वेरी प्रविष्ट करताच, संपूर्ण इंटरनेट त्वरित क्रॉल केले जाते, परंतु हे अजिबात खरे नाही. इंटरनेट सतत स्कॅन केले जाते, बर्याच प्रोग्राम्सद्वारे, साइट्सबद्दलचा डेटा डेटाबेसमध्ये प्रविष्ट केला जातो, जेथे विशिष्ट निकषांनुसार, सर्व साइट्स आणि त्यांची सर्व पृष्ठे विविध प्रकारच्या सूची आणि डेटाबेसमध्ये वितरीत केली जातात. म्हणजेच, हा डेटाचा एक प्रकारचा फाइल कॅबिनेट आहे आणि शोध इंटरनेटवर नाही तर या फाइल कॅबिनेटवर होतो.

गुगल हे जगातील सर्वात लोकप्रिय सर्च इंजिन आहे.

सर्च इंजिन व्यतिरिक्त, Google ईमेल सेवा, Google Chrome ब्राउझर, सर्वात मोठी YouTube व्हिडिओ लायब्ररी आणि इतर अनेक प्रकल्पांसह अनेक अतिरिक्त सेवा, प्रोग्राम आणि हार्डवेअर ऑफर करते. Google आत्मविश्वासाने अनेक प्रकल्प विकत घेत आहे ज्यामुळे मोठा नफा मिळतो. बऱ्याच सेवांचा उद्देश थेट वापरकर्त्यासाठी नसून इंटरनेटवर पैसे कमविणे आहे आणि युरोपियन आणि अमेरिकन वापरकर्त्यांच्या हितसंबंधांवर लक्ष केंद्रित करून एकत्रित केले आहे.

मेल हे एक शोध इंजिन आहे जे प्रामुख्याने त्याच्या ईमेल सेवेमुळे लोकप्रिय आहे.

बऱ्याच अतिरिक्त सेवा आहेत, त्यातील मुख्य म्हणजे मेल, याक्षणी मेल कंपनीकडे सोशल नेटवर्क ओड्नोक्लास्निकी, त्याचे स्वतःचे नेटवर्क “माय वर्ल्ड”, मनी-मेल सेवा, अनेक ऑनलाइन गेम, वेगवेगळ्या नावांचे तीन जवळजवळ एकसारखे ब्राउझर आहेत. . सर्व अनुप्रयोग आणि सेवांमध्ये भरपूर जाहिरात सामग्री असते. सामाजिक नेटवर्क VKonatkte मेल सेवांवर थेट संक्रमण अवरोधित करते, त्यांना मोठ्या संख्येने व्हायरससह न्याय्य ठरवते.

विकिपीडिया.

विकिपीडिया ही शोध संदर्भ प्रणाली आहे.

ना-नफा शोध इंजिन, जे खाजगी देणग्यांवर चालते, त्यामुळे त्याची पृष्ठे जाहिरातींनी भरत नाहीत. एक बहुभाषिक प्रकल्प ज्याचे ध्येय जगातील सर्व भाषांमध्ये संपूर्ण संदर्भ ज्ञानकोश तयार करणे आहे. त्याचे कोणतेही विशिष्ट लेखक नाहीत आणि ते जगभरातील स्वयंसेवकांद्वारे पूर्ण आणि व्यवस्थापित केले जाते. प्रत्येक वापरकर्ता लेख लिहू आणि संपादित करू शकतो.

अधिकृत पृष्ठ - www.wikipedia.org.

Youtube हे व्हिडिओ फाइल्सचे सर्वात मोठे लायब्ररी आहे.

सोशल नेटवर्कच्या घटकांसह व्हिडिओ होस्टिंग, जिथे प्रत्येक वापरकर्ता व्हिडिओ जोडू शकतो. Google Ink ने त्यांचे संपादन केल्यामुळे, YouTube साठी स्वतंत्र नोंदणी आवश्यक नाही, फक्त Google ईमेल सेवेमध्ये नोंदणी करा.

अधिकृत पृष्ठ - youtube.com.

याहू! जगातील दुसरे सर्वात महत्वाचे शोध इंजिन आहे.

अतिरिक्त सेवा आहेत, त्यापैकी सर्वात प्रसिद्ध Yahoo मेल आहे. शोध इंजिनची गुणवत्ता सुधारण्याचा एक भाग म्हणून, Yahoo वापरकर्त्यांबद्दलचा डेटा आणि त्यांच्या क्वेरी मायक्रोसॉफ्टला हस्तांतरित करते. या डेटावरून, वापरकर्त्यांच्या हितसंबंधांची कल्पना तयार केली जाते आणि जाहिरात सामग्रीसाठी बाजारपेठ तयार होते. Yahoo शोध इंजिन, जसे की, इतर कंपन्यांच्या अधिग्रहणात गुंतलेले आहे, उदाहरणार्थ, Yahoo कडे Altavista शोध सेवा आणि ई-कॉमर्स साइट अलीबाबाची मालकी आहे.

अधिकृत पृष्ठ - www.yahoo.com.

WDL ही डिजिटल लायब्ररी आहे.

ग्रंथालय डिजिटल स्वरूपात सांस्कृतिक मूल्य प्रदान करणारी पुस्तके संग्रहित करते. इंटरनेटच्या सांस्कृतिक सामग्रीची पातळी वाढवणे हे मुख्य ध्येय आहे. ग्रंथालयात प्रवेश विनामूल्य आहे.

अधिकृत पृष्ठ - www.wdl.org/ru/.

बिंग हे मायक्रोसॉफ्टचे सर्च इंजिन आहे.

अधिकृत पृष्ठ - www.baidu.com.

रशिया मध्ये शोध इंजिन

रॅम्बलर हे "प्रो-अमेरिकन" शोध इंजिन आहे.

सुरुवातीला हे इंटरनेट मीडिया पोर्टल म्हणून तयार करण्यात आले होते. इतर अनेक शोध इंजिनांप्रमाणे, यात प्रतिमा, व्हिडिओ फाइल्स, नकाशे, हवामान अंदाज, बातम्या विभाग आणि बरेच काही यासाठी शोध सेवा आहेत. प्रकाशक रॅम्बलर-निक्रोम हे विनामूल्य ब्राउझर देखील देतात.

अधिकृत पृष्ठ - www.rambler.ru.

निगम हे एक बुद्धिमान शोध इंजिन आहे.

अनेक फिल्टर आणि सेटिंग्जच्या उपस्थितीमुळे अधिक सोयीस्कर शोध इंजिन. इंटरफेस तुम्हाला चांगले परिणाम मिळविण्यासाठी शोधात सुचवलेली समान मूल्ये समाविष्ट करण्यास किंवा वगळण्याची परवानगी देतो. तसेच, शोध परिणाम प्राप्त करताना, ते आपल्याला इतर प्रमुख शोध इंजिनांकडील माहिती वापरण्याची परवानगी देते.

अधिकृत पृष्ठ - www.nigma.ru.

Aport - ऑनलाइन उत्पादन कॅटलॉग.

भूतकाळात, शोध इंजिन, परंतु विकास आणि नाविन्यपूर्ण कार्य थांबविल्यानंतर, ते त्वरीत जमीन गमावले आणि . सध्या, एपोर्ट हे एक ट्रेडिंग प्लॅटफॉर्म आहे जिथे 1,500 पेक्षा जास्त कंपन्यांची उत्पादने सादर केली जातात.

अधिकृत पृष्ठ - www.aport.ru.

स्पुतनिक हे राष्ट्रीय शोध इंजिन आणि इंटरनेट पोर्टल आहे.

Rostelecom द्वारे तयार केले. सध्या चाचणी टप्प्यात आहे.

अधिकृत पृष्ठ - www.sputnik.ru.

मेटाबॉट हे वाढणारे शोध इंजिन आहे.

मेटाबॉटची कार्ये म्हणजे इतर सर्व शोध इंजिनांसाठी शोध इंजिन तयार करणे, शोध इंजिनच्या संपूर्ण सूचीमधील डेटा विचारात घेऊन परिणाम स्थिती तयार करणे. म्हणजेच हे सर्च इंजिनसाठी सर्च इंजिन आहे.

अधिकृत पृष्ठ - www.metabot.ru.

शोध इंजिन निलंबित करण्यात आले आहे.

अधिकृत पृष्ठ - www.turtle.ru.

KM एक मल्टीपोर्टल आहे.

सुरुवातीला, साइट एक मल्टीपोर्टल होती आणि त्यानंतरच्या शोध इंजिनची ओळख झाली. शोध साइटच्या आत आणि सर्व परीक्षण केलेल्या RuNet साइट्सवर दोन्ही चालविला जाऊ शकतो.

अधिकृत पृष्ठ - www.km.ru.

गोगो - कार्य करत नाही, शोध इंजिनवर पुनर्निर्देशित करते.

अधिकृत पृष्ठ - www.gogo.ru.

रशियन मल्टीपोर्टल, फार लोकप्रिय नाही, सुधारणे आवश्यक आहे. शोध इंजिनमध्ये बातम्या, दूरदर्शन, खेळ आणि नकाशा यांचा समावेश होतो.

अधिकृत पृष्ठ - www.zoneru.org.

शोध इंजिन कार्य करत नाही, विकासक शोध इंजिन वापरण्याचा सल्ला देतात.

आम्ही सोशल मीडिया कंटेंट मार्केटिंग: तुमच्या फॉलोअर्सच्या डोक्यात कसे जायचे आणि त्यांना तुमच्या ब्रँडच्या प्रेमात पडायचे हे नवीन पुस्तक प्रकाशित केले आहे.

इंटरनेट ही फक्त एक प्रचंड मोठी गोष्ट आहे. आणि त्यात सर्वकाही आहे. मित्रांसोबत गप्पाटप्पा? हे घ्या - Facebook फोटो अल्बम - Instagram वर. एक dacha खरेदी? माझ्याकडे आधीपासूनच द जॉली फार्मर आहे. तुम्ही ज्ञानकोशाचा बराच काळ वापर केला आहे का? का, कारण असे लोक आहेत ज्यांना सर्वकाही माहित आहे. आणि आज मी या अद्भुत सेवांना श्रद्धांजली अर्पण करू इच्छितो. किंवा त्याऐवजी, तुम्हाला सांगायांडेक्स शोध कसे कार्य करते याबद्दल.

हॅरी पॉटर गाथा मधील हर्मिओन आठवते? ती इतकी जास्त शिकलेली होती असे तुम्हाला का वाटते? ते बरोबर आहे, कारण मी सतत कुठेतरी जात होतो, सर्व प्रकारच्या औषधांबद्दल वाचत होतो, विविध मंत्रांचा अभ्यास करत होतो, शिक्षकांना सर्व न समजण्याजोग्या मुद्द्यांबद्दल विचारत होतो. सर्वसाधारणपणे, मी माझ्या ज्ञानाचा आधार वाढवण्यासाठी सर्वकाही केले. यांडेक्स शोध इंजिन अगदी त्याच प्रकारे कार्य करते. तुम्ही त्याला प्रश्न विचारण्यापूर्वीच, त्याने तुमच्या विषयाबद्दल काहीतरी शिकून घेतले होते आणि ते त्याच्या पिगी बँकेत जतन केले होते.

यांडेक्स शोध डेटाबेस कसा तयार होतो

वर्ल्ड वाइड वेबचे कोळी

अनेक ट्रिलियन URL माहीत आहेत. आणि दररोज तो त्यापैकी दोन अब्जांचा अभ्यास करतो. हे स्पेशल स्पायडर रोबोट्स आणि क्रॉलर्सद्वारे केले जाते. ते पृष्ठाला भेट देतात, सामग्रीचे विश्लेषण करतात, एक प्रत तयार करतात आणि सर्व्हरला पाठवतात. आणि मग ते इतरांच्या दुव्यांमधून जातात पृष्ठे अशा प्रकारे शोध इंजिनला साइटची माहिती मिळते. पुढे इंडेक्सिंगचा टप्पा येतो.

जर तुम्ही साधी गणिती आकडेमोड केली तर तुम्हाला आढळेल की यांडेक्स स्पायडर जवळपास 2 वर्षांत सर्व ज्ञात पृष्ठे क्रॉल करतील. परंतु हे खरे होणार नाही, कारण URL ची संख्या सतत वाढत आहे
=> शोध डेटाबेस तयार करण्याचे काम अंतहीन आहे.

अनुक्रमणिका

साइट परिभाषित करणे ही एक प्रक्रिया आहे सर्व महत्वाचे जोडणेशोध इंजिन डेटाबेसमधील पृष्ठाबद्दल माहिती. म्हणजेच, भाषा निश्चित केली जाते, वैयक्तिक शब्दांबद्दल डेटा व्युत्पन्न केला जातो आणि इतर पृष्ठांवर जाणारे सर्व दुवे बाहेर काढले जातात. याव्यतिरिक्त, Yandex मध्ये Yandex logs नावाचे एक विशेष साधन आहे. शोध परिणामांमध्ये वापरकर्ता कसा वागतो याचा अभ्यास करतो: तो कशावर क्लिक करतो आणि कशावर क्लिक करत नाही. सर्व प्राप्त पॅरामीटर्सवर आधारित, साइटची शोध अनुक्रमणिका सेट केली आहे.

यांडेक्स लॉगचा वापर केवळ अनुक्रमणिकेसाठीच नाही तर रँकिंगसाठी देखील केला जातो.

शोध डेटाबेस संकलित करणे

मागील टप्प्यात मिळालेले शोध निर्देशांक शोध डेटाबेसला पाठवले जातात. यांडेक्स शोध मॅपरेड्यूस सॉफ्टवेअर प्लॅटफॉर्मवर चालतो . येथे डेटा फायलींमध्ये बदलतो आणि "जिवंत राहतो".

YT डेटाची एकूण मात्रा अंदाजे 50 पेटाबाइट्स = 51,200 TB आहे.

शोध डेटाबेसमध्ये साप्ताहिक अद्यतन - अद्यतन आहे. हा तो क्षण आहे जेव्हा यांडेक्स शोध रोबोटने, विशिष्ट संख्येच्या फायली डाउनलोड केल्या आणि त्यांच्यासाठी सर्व आवश्यक वैशिष्ट्यांची गणना केली, ही माहिती शोधात जोडली जाऊ शकते.

इंटरनेट शोध इंजिनमधील तज्ञ इगोर अश्मानोव्ह यांच्या आकडेवारीनुसार, शोध डेटाबेसची पूर्णता आहे यांडेक्स (ग्राफवर लाल)त्यांच्या जवळच्या स्पर्धक Google (काळा) पेक्षा कित्येक पटीने जास्त.

निर्देशांक वेळ घेणारे असताना आणि एकाच वेळी मोठ्या प्रमाणात डेटासाठी जटिल पद्धतीने उद्भवते. म्हणून, यांडेक्समध्ये एक विशेष जलद मार्ग आहे जो वापरकर्त्यास वैयक्तिक, तातडीच्या फायली जोडू आणि वितरित करू शकतो. बरं, उदाहरणार्थ, रिअल-टाइम बातम्या.

यांडेक्स शोध स्वतः कसे कार्य करते

यांडेक्स शोध इंजिनमधील कोणतीही विनंती खालील योजनेनुसार जाते.

बॅलन्सर्स ही यंत्रे आहेत जी एकत्रितपणे आउटपुट देतात.
शोध परिणाम तीन सरासरी मेटाशोधांच्या परिणामांमधून तयार केले जातात. याचा अर्थ काय ते मी स्पष्ट करू. शोध परिणामांमध्ये आपण पृष्ठे, प्रतिमा आणि व्हिडिओंद्वारे आपल्या क्वेरीचे परिणाम पहा. हे घडते कारण तुमची क्वेरी तीन वेगवेगळ्या इंडेक्समधून जाते. आणि त्यांच्याबरोबर तो अनेक हजार तुकड्यांमध्ये विभागलेला शोध डेटाबेसच्या अगदी खोलवर उतरतो. या प्रक्रियेला शोध क्लस्टरिंग म्हणतात.

शोध क्लस्टरच्या कार्यामध्ये समाविष्ट आहे कामकाजविविध कार्यक्रमांच्या दशलक्षाहून अधिक प्रती. ते सर्व प्रकारची कार्ये करतात, त्यांना वेगवेगळ्या सिस्टम आवश्यकता असतात आणि त्या सर्वांना कुठेतरी "जगणे" आवश्यक असते. म्हणून, शोध क्लस्टरिंगमध्ये मोठ्या प्रमाणात संगणक हार्डवेअर होस्टिंग देखील लागते.

सर्व प्रोग्राम्स आणि डेटा त्यांच्याकडे संचयित आणि हस्तांतरित करण्यासाठी, Yandex अंतर्गत टोरेंट ट्रॅकर वापरते. जगातील सर्वात मोठ्या पायरेट ट्रॅकर, द पायरेट बेच्या तुलनेत त्यावर हातांची संख्या जास्त आहे.

कडे परत जाऊया परिणाम जारी करणे.
सर्वात संबंधित शोध परिणामांमध्ये समाविष्ट केले आहेत, संबंधितशोध क्वेरी दस्तऐवज. पुढे क्रमवारी येते - शोध परिणाम क्रमाने. हे विशेष सूत्र वापरून केले जाते. निकालांचा क्रम उच्च-गुणवत्तेचा, अद्ययावत आणि प्रत्येक वेळी शक्य तितका संबंधित आहे याची खात्री करण्यासाठी, Yandex विकसक एक अतिशय छान गोष्ट घेऊन आले.

Yandex रँकिंग फॉर्म्युला तयार करण्यासाठी वापरली जाणारी मशीन लर्निंग पद्धत. तो या योजनेचे सतत आधुनिकीकरण करतो: तो संयोजन तयार करतो, घटक जोडतो आणि काढून टाकतो आणि शक्यता सेट करतो. या पद्धतीचे आणखी एक महत्त्वाचे वैशिष्ट्य म्हणजे अत्यंत विशिष्ट क्वेरी श्रेणींसाठी क्रमवारीचे सूत्र सानुकूलित करण्याची क्षमता. म्हणजेच व्यक्तीसाठी विनंत्या, उदाहरणार्थ,सिनेमा किंवा संगणकाबद्दल खेळ, आपण शोध गुणवत्ता सुधारू शकता. त्याच वेळी, इतर वर्गांच्या प्रश्नांची क्रमवारी खराब होणार नाही.

प्रथम यांडेक्स रँकिंग सूत्र अंदाजे 10 बाइट्स होते. याक्षणी - सुमारे 100 मेगाबाइट्स.

शोध इंजिनचे कार्य केवळ हेलॉफ्ट्समध्ये सुया शोधणे नाही तर सर्वात तीक्ष्ण सुया ओळखणे देखील आहे. आणि बहुतेक Yandex शोध कसे कार्य करते हे आश्चर्यकारक आहे. निकाल काही सेकंदात दिला जातो.शीर्ष दहा सर्वात संबंधित क्वेरी सामान्यतः वापरकर्त्याच्या सर्व गरजा असतात. या क्वेरींमध्ये आम्ही जे शोधत होतो ते आम्हाला सापडले नाही, तर आम्ही काहीतरी वेगळे करून पाहतो विनंती करा किंवा शोध इंजिन बदला. पण लवकरच किंवा नंतर: "सर्व काही सापडेल!"

पीटर पोपोव्हच्या व्याख्यानातून घेतलेले स्क्रीनशॉट.

चिन्ह आर्थर श्लेन द्वारे



आम्ही वाचण्याची शिफारस करतो

वर