डेटा मायनिंगच्या अनुप्रयोगाची क्षेत्रे. इंटेलिजंट टेक्नॉलॉजीज टेक्स्ट मायनिंग

नोकिया 02.06.2019
सर्व माहिती तितकीच उपयुक्त नाही असे मी म्हटल्यास मी अमेरिका शोधून काढू असे वाटत नाही. काहीवेळा तुम्हाला संकल्पना समजावून सांगण्यासाठी भरपूर मजकूर लिहावा लागतो आणि काहीवेळा तुम्हाला जटिल समस्या समजावून सांगण्यासाठी फक्त एक साधा आकृती पहावा लागतो. माहितीचा अतिरेक कमी करण्यासाठी, गणितीय सूत्रे, रेखाचित्रे, चिन्हे, प्रोग्राम कोड इत्यादींचा शोध लावला गेला. याव्यतिरिक्त, केवळ माहितीच महत्त्वाची नाही तर त्याचे सादरीकरण देखील आहे. हे स्पष्ट आहे की आलेख वापरून स्टॉक कोट्स अधिक स्पष्टपणे प्रदर्शित केले जाऊ शकतात आणि गणितीय सूत्रे न्यूटनच्या नियमांचे अधिक संक्षिप्त स्वरूपात वर्णन करतील.

माहिती तंत्रज्ञानाच्या विकासाच्या प्रक्रियेत, तसेच डेटा गोळा आणि संग्रहित करण्यासाठी सिस्टम - डेटाबेस, डेटा वेअरहाउसिंग आणि अगदी अलीकडे, क्लाउड रिपॉझिटरीज, जेव्हा विश्लेषक किंवा व्यवस्थापक व्यक्तिचलितपणे सक्षम नसतात तेव्हा मोठ्या प्रमाणात डेटाचे विश्लेषण करण्याची समस्या उद्भवते. मोठ्या प्रमाणात डेटावर प्रक्रिया करा आणि निर्णय घ्या. हे स्पष्ट आहे की विश्लेषकाने मूळ माहिती अधिक संक्षिप्त स्वरूपात सादर करणे आवश्यक आहे जे मानवी मेंदू स्वीकार्य वेळेत हाताळू शकेल.

चला माहितीचे अनेक स्तर हायलाइट करूया:

  • स्त्रोत डेटा (कच्चा डेटा, ऐतिहासिक डेटा किंवा फक्त डेटा) - विशिष्ट डायनॅमिक सिस्टम किंवा ऑब्जेक्टचे निरीक्षण केल्यामुळे आणि वेळेत विशिष्ट बिंदूंवर तिची स्थिती प्रतिबिंबित केल्यामुळे प्राप्त झालेला कच्चा डेटा ॲरे (उदाहरणार्थ, गेल्या वर्षातील स्टॉक कोट्सवरील डेटा) ;
  • माहिती - प्रक्रिया केलेला डेटा जो वापरकर्त्यासाठी काही माहिती मूल्य धारण करतो; कच्चा डेटा अधिक संक्षिप्त स्वरूपात सादर केला जातो (उदाहरणार्थ, शोध परिणाम);
  • ज्ञान - एक विशिष्ट माहिती असते, सार्वजनिकरित्या उपलब्ध नसलेल्या वस्तूंमधील छुपे संबंध प्रदर्शित करते (अन्यथा, ती फक्त माहिती असेल); उच्च एन्ट्रॉपीसह डेटा (किंवा अनिश्चिततेचे मोजमाप).
एक उदाहरण पाहू. समजा आमच्याकडे ठराविक कालावधीसाठी फॉरेक्स मार्केटवरील चलन व्यवहारांवर काही डेटा आहे. हा डेटा मजकूर स्वरूपात, XML स्वरूपात, डेटाबेसमध्ये किंवा बायनरी स्वरूपात संग्रहित केला जाऊ शकतो आणि स्वतःच कोणतेही उपयुक्त अर्थ भार वाहून नेत नाही. पुढे, विश्लेषक हा डेटा लोड करतो, उदाहरणार्थ, एक्सेलमध्ये आणि बदलांचा आलेख तयार करतो, अशा प्रकारे माहिती मिळवते. मग तो डेटा लोड करतो (एक्सेलमध्ये पूर्ण किंवा अंशतः प्रक्रिया केलेला), उदाहरणार्थ, मायक्रोसॉफ्ट एसक्यूएल सर्व्हरमध्ये आणि विश्लेषण सेवा वापरून, उद्या शेअर्स विकणे चांगले आहे हे ज्ञान प्राप्त करतो. त्यानंतर विश्लेषक नवीन अंदाज तयार करण्यासाठी आधीच मिळवलेले ज्ञान वापरू शकतो, ज्यामुळे माहिती प्रक्रियेत अभिप्राय मिळू शकतो.

स्तरांमधील स्पष्ट सीमा नाहीत, परंतु असे वर्गीकरण आपल्याला भविष्यात शब्दावलीसह गोंधळ टाळण्यास अनुमती देईल.

डेटा मायनिंग

ऐतिहासिकदृष्ट्या, डेटा मायनिंग या शब्दाचे अनेक भाषांतर पर्याय आहेत (आणि अर्थ):
  • डेटा काढणे, डेटा संकलन, डेटा मायनिंग (ते माहिती पुनर्प्राप्ती किंवा IR देखील वापरतात);
  • नॉलेज एक्सट्रॅक्शन, डेटा मायनिंग (नॉलेज डेटा डिस्कव्हरी किंवा केडीडी, बिझनेस इंटेलिजन्स).
IR अनुक्रमे पहिल्या दोन स्तरांच्या माहितीसह कार्य करते, KDD तिसऱ्या स्तरावर कार्य करते. जर आपण अंमलबजावणीच्या पद्धतींबद्दल बोललो तर, पहिला पर्याय लागू केलेल्या फील्डशी संबंधित आहे, जिथे मुख्य लक्ष्य डेटा स्वतःच आहे, दुसरा - गणित आणि विश्लेषणाशी, जिथे विद्यमान डेटाच्या मोठ्या प्रमाणावर नवीन ज्ञान प्राप्त करणे महत्वाचे आहे. बऱ्याचदा, डेटा एक्सट्रॅक्शन (संकलन) हे ज्ञान काढण्यासाठी (विश्लेषण) साठी एक प्रारंभिक पाऊल आहे.

पहिल्या मुद्द्यासाठी मी दुसरी संज्ञा सादर करण्याचे धाडस करतो - डेटा काढणे, जे मी भविष्यात वापरेन.

डेटा मायनिंगद्वारे समस्या सोडवल्या जातात:

  1. वर्गीकरण म्हणजे इनपुट व्हेक्टर (ऑब्जेक्ट, इव्हेंट, निरीक्षण) पूर्वी ज्ञात असलेल्या वर्गांपैकी एकास नियुक्त करणे.
  2. क्लस्टरिंग म्हणजे इनपुट व्हेक्टरच्या संचाचे गटांमध्ये (क्लस्टर) एकमेकांशी “समानता” च्या प्रमाणात विभागणी करणे.
  3. वर्णन कमी करणे - डेटाची कल्पना करणे, गणना आणि व्याख्या सुलभ करणे, संकलित आणि संग्रहित माहितीचे प्रमाण संकुचित करणे.
  4. असोसिएशन - पुनरावृत्ती नमुने शोधत आहे. उदाहरणार्थ, "शॉपिंग कार्टमध्ये शाश्वत कनेक्शन" शोधत आहे.
  5. अंदाज - मागील स्थितींवर आधारित वस्तूच्या भविष्यातील स्थिती शोधणे (ऐतिहासिक डेटा)
  6. विसंगती विश्लेषण - उदाहरणार्थ, ॲटिपिकल नेटवर्क क्रियाकलाप ओळखणे तुम्हाला मालवेअर शोधण्याची परवानगी देते.
  7. डेटा व्हिज्युअलायझेशन.

माहिती उत्खनन

माहिती पुनर्प्राप्तीचा वापर संरचित डेटा किंवा लहान आकाराचा प्रतिनिधी नमुना मिळविण्यासाठी केला जातो. आमच्या वर्गीकरणानुसार, माहिती पुनर्प्राप्ती प्रथम-स्तरीय डेटावर कार्य करते आणि परिणामी, द्वितीय-स्तरीय माहिती तयार करते.

माहिती पुनर्प्राप्तीचे सर्वात सोपे उदाहरण म्हणजे शोध इंजिन, जे विशिष्ट अल्गोरिदमच्या आधारे, दस्तऐवजांच्या संपूर्ण संचामधून माहितीचा काही भाग पुनर्प्राप्त करते. याव्यतिरिक्त, चाचणी डेटा, मेटेनफॉर्मेशन किंवा डेटाबेससह कार्य करणारी कोणतीही प्रणाली माहिती पुनर्प्राप्ती साधने वापरते. साधने अनुक्रमणिका, फिल्टरिंग, डेटा वर्गीकरण, पार्सर इत्यादी पद्धती असू शकतात.

मजकूर खाण

इतर नावे: मजकूर डेटा खाण, मजकूर विश्लेषण, एक अतिशय जवळची संकल्पना चिंता खाण आहे.

मजकूर खनन कच्चा डेटा आणि अंशतः प्रक्रिया केलेला डेटा या दोन्हीसह कार्य करू शकते, परंतु माहिती पुनर्प्राप्तीच्या विपरीत, मजकूर खाण गणितीय पद्धती वापरून मजकूर माहितीचे विश्लेषण करते, जे आपल्याला ज्ञानाच्या घटकांसह परिणाम प्राप्त करण्यास अनुमती देते.

मजकूर खाणकाम सोडवणारी कार्ये आहेत: डेटा पॅटर्न शोधणे, संरचित माहिती मिळवणे, ऑब्जेक्ट पदानुक्रम तयार करणे, डेटाचे वर्गीकरण आणि क्लस्टरिंग, विषय किंवा ज्ञानाचे क्षेत्र ओळखणे, स्वयंचलित दस्तऐवज अमूर्त करणे, स्वयंचलित सामग्री फिल्टरिंग कार्ये, अर्थविषयक संबंध ओळखणे आणि इतर.

मजकूर खाण समस्यांचे निराकरण करण्यासाठी, सांख्यिकीय पद्धती, प्रक्षेपण, अंदाजे आणि एक्सट्रापोलेशन पद्धती, अस्पष्ट पद्धती आणि सामग्री विश्लेषण पद्धती वापरल्या जातात.

वेब खनन

आणि शेवटी, आम्ही वेब मायनिंगवर पोहोचलो - वेब संसाधनांमधून डेटा काढण्यासाठी दृष्टिकोन आणि तंत्रांचा एक संच.
वेब स्रोत हे सहसा मजकूर डेटा नसल्यामुळे, या प्रकरणात डेटा काढण्याच्या प्रक्रियेचे दृष्टिकोन वेगळे आहेत. सर्व प्रथम, आपल्याला हे लक्षात ठेवणे आवश्यक आहे की वेबवरील माहिती एका विशेष HTML मार्कअप भाषेच्या स्वरूपात संग्रहित केली जाते (जरी इतर स्वरूपे आहेत - RSS, Atom, SOAP, परंतु आम्ही त्याबद्दल नंतर बोलू), वेब पृष्ठे हे करू शकतात. अतिरिक्त मेटा माहिती, तसेच दस्तऐवजाच्या संरचनेबद्दल (शब्दार्थ) माहिती आहे, प्रत्येक वेब दस्तऐवज एका विशिष्ट डोमेनमध्ये स्थित आहे आणि शोध इंजिन ऑप्टिमायझेशन (SEO) नियम त्यावर लागू केले जाऊ शकतात.

डेटा मायनिंग / एक्सट्रॅक्टिंग / वेब मायनिंगला समर्पित मालिकेतील हा पहिला लेख आहे. सूचना आणि तर्कशुद्ध टीका स्वीकारली जाते.

वेब खनन"वेब डेटा मायनिंग" म्हणून भाषांतरित केले जाऊ शकते. वेब इंटेलिजन्स किंवा वेब इंटेलिजन्स इलेक्ट्रॉनिक व्यवसायाच्या जलद विकासामध्ये "नवीन अध्याय उघडण्यासाठी" तयार आहे. प्रत्येक अभ्यागताच्या वर्तनाचे निरीक्षण करून त्याची आवड आणि प्राधान्ये ठरवण्याची क्षमता हा ई-कॉमर्स मार्केटमधील एक गंभीर आणि गंभीर स्पर्धात्मक फायदा आहे.

वेब मायनिंग सिस्टम अनेक प्रश्नांची उत्तरे देऊ शकतात, उदाहरणार्थ, अभ्यागतांपैकी कोणता वेब स्टोअरचा संभाव्य क्लायंट आहे, वेब स्टोअरच्या ग्राहकांच्या कोणत्या गटाला सर्वाधिक उत्पन्न मिळते, विशिष्ट अभ्यागत किंवा अभ्यागतांच्या गटाची आवड काय आहे.

वेब मायनिंग तंत्रज्ञान साइट डेटावर आधारित नवीन, पूर्वी अज्ञात ज्ञान शोधण्यात सक्षम असलेल्या पद्धतींचा समावेश करते आणि ज्याचा नंतर व्यवहारात वापर केला जाऊ शकतो. दुसऱ्या शब्दांत, वेब मायनिंग तंत्रज्ञान वेब साइट्सवर असलेल्या असंरचित, विषम, वितरित आणि मोठ्या प्रमाणात माहितीचे विश्लेषण करण्यासाठी डेटा मायनिंग तंत्रज्ञान वापरते.

वेब मायनिंग वर्गीकरणानुसार, येथे दोन मुख्य क्षेत्रे ओळखली जाऊ शकतात: वेब सामग्री खनन आणि वेब वापर खाण.

वेब सामग्री खाण"सह ओव्हरलोड केलेल्या विविध इंटरनेट स्रोतांमधून स्वयंचलित शोध आणि उच्च-गुणवत्तेची माहिती काढणे सूचित करते. माहितीचा आवाज". आम्ही दस्तऐवजांचे क्लस्टरिंग आणि भाष्य करण्याच्या विविध माध्यमांबद्दल देखील बोलत आहोत.

या दिशेने, यामधून, दोन दृष्टिकोन आहेत: एजंट-आधारित दृष्टीकोन आणि डेटाबेस-आधारित दृष्टीकोन.

एजंट आधारित दृष्टिकोनामध्ये खालील प्रणालींचा समावेश आहे:

  • बुद्धिमान शोध एजंट;
  • माहिती फिल्टरिंग / वर्गीकरण;
  • वैयक्तिकृत नेटवर्क एजंट.

बुद्धिमान शोध एजंट सिस्टमची उदाहरणे:

  • कापणी (ब्राऊन एट अल., 1994),
  • एफएक्यू-फाइंडर (हॅमंड एट अल., 1995),
  • माहिती मॅनिफोल्ड (कर्क एट अल., 1995)
  • OCCAM (क्वॉक आणि वेल्ड, 1996), आणि पॅरासाइट (स्पर्टस, 1997),
  • ILA (माहिती शिक्षण एजंट) (Perkowitz and Etzioni, 1995),
  • शॉपबॉट (डूरेनबोस एट अल., 1996).

डेटाबेस दृष्टीकोन प्रणाली समाविष्टीत आहे:

  • बहु-स्तरीय डेटाबेस;
  • वेब क्वेरी सिस्टम;

वेब विनंती प्रणालीची उदाहरणे:

  • W3QL (कोनोप्निकी आणि श्मुली, 1995),
  • वेबलॉग (लक्ष्मणन इ., 1996),
  • लॉरेल (क्वास एट अल., 1995),
  • UnQL (Buneman et al., 1995 आणि 1996),
  • TSIMMIS (चवाथे आणि इतर., 1994).

दुसरी दिशा वेब वापर खाणवेब साइट वापरकर्त्याच्या किंवा वापरकर्त्यांच्या गटाच्या क्रियांमधील नमुने शोधणे समाविष्ट आहे.

खालील माहितीचे विश्लेषण केले आहे:

  • वापरकर्त्याने कोणती पृष्ठे पाहिली;
  • पृष्ठे पाहण्याचा क्रम काय आहे.

वेब साइटच्या ब्राउझिंग इतिहासाच्या आधारे एकूण संख्येपैकी कोणते गट वापरकर्त्यांना ओळखले जाऊ शकतात याचेही ते विश्लेषण करते.

वेब वापर खनन मध्ये खालील घटक समाविष्ट आहेत:

  • प्राथमिक प्रक्रिया;
  • ऑपरेशनल ओळख;
  • नमुना शोध साधने;
  • नमुना विश्लेषण साधने.

वेब मायनिंग वापरताना, विकसकांना दोन प्रकारच्या कार्यांचा सामना करावा लागतो. पहिला डेटा संकलनाशी संबंधित आहे, दुसरा व्यक्तिकरण पद्धतींच्या वापराशी संबंधित आहे. एखाद्या विशिष्ट क्लायंटबद्दल विशिष्ट प्रमाणात वैयक्तिकृत पूर्वलक्षी डेटा संकलित करण्याच्या परिणामी, सिस्टम त्याच्याबद्दल विशिष्ट ज्ञान जमा करते आणि त्याला शिफारस करू शकते, उदाहरणार्थ, वस्तू किंवा सेवांचे काही संच. सर्व साइट अभ्यागतांच्या माहितीच्या आधारे, वेब सिस्टीम अभ्यागतांच्या विशिष्ट गटांना ओळखू शकते आणि त्यांना उत्पादनांची शिफारस देखील करू शकते किंवा मेलिंगमध्ये उत्पादने ऑफर करू शकते.

वेब खनन कार्ये खालील श्रेणींमध्ये विभागली जाऊ शकतात:

  • वेब मायनिंगसाठी डेटा प्रीप्रोसेसिंग.
  • असोसिएशन नियम, ऐहिक अनुक्रम, वर्गीकरण आणि क्लस्टरिंग वापरून नमुना शोध आणि ज्ञान शोध;
  • प्राप्त ज्ञानाचे विश्लेषण.

मजकूर खाण

मजकूर खाणअर्थपूर्ण मजकूर विश्लेषण, माहिती पुनर्प्राप्ती आणि व्यवस्थापन करण्यासाठी नवीन तंत्रांचा समावेश आहे. टेक्स्ट मायनिंग या संकल्पनेचा समानार्थी शब्द म्हणजे KDT (मजकूरातील ज्ञानाचा शोध - मजकूरातील ज्ञानाचा शोध किंवा शोध).

डेटा मायनिंग तंत्रज्ञानाच्या विपरीत, ज्यामध्ये विशिष्ट संरचनांमध्ये आयोजित केलेल्या माहितीचे विश्लेषण समाविष्ट असते, मजकूर खनन तंत्रज्ञान असंरचित माहितीच्या मोठ्या आणि अति-मोठ्या ॲरेचे विश्लेषण करते.

हे कार्य अंमलात आणणारे प्रोग्राम कसे तरी नैसर्गिक मानवी भाषेसह कार्य करतात आणि त्याच वेळी विश्लेषित मजकूराचे शब्दार्थ समजून घेतात. काही मजकूर खनन प्रणाली ज्या पद्धतींवर आधारित आहेत त्यापैकी एक म्हणजे स्ट्रिंगमध्ये तथाकथित सबस्ट्रिंग शोधणे.

कॉल मायनिंग

ॲन बेडनार्झच्या मते, कॉल मायनिंग हे एंटरप्राइझ इन्फॉर्मेशन सिस्टममध्ये लोकप्रिय साधन बनू शकते.

तंत्रज्ञान कॉल मायनिंगस्पीच रेकग्निशन, स्पीच ॲनालिसिस आणि डेटा मायनिंग एकत्र करते. ऑपरेटर आणि क्लायंटमधील संभाषणांचे रेकॉर्डिंग असलेले ऑडिओ संग्रहणांमध्ये शोध सुलभ करणे हे त्याचे ध्येय आहे. या तंत्रज्ञानाचा वापर करून, ऑपरेटर ग्राहक सेवेतील अंतर ओळखू शकतात, विक्री वाढवण्याच्या संधी ओळखू शकतात आणि ग्राहक संप्रेषणातील ट्रेंड ओळखू शकतात.

कॉल मायनिंग ("खनन" आणि कॉलचे विश्लेषण) या नवीन तंत्रज्ञानाच्या विकसकांमध्ये कॉलमायनर, नेक्सिडिया, स्कॅनसॉफ्ट, विटनेस सिस्टम्स या कंपन्या आहेत. कॉल मायनिंग तंत्रज्ञानाने दोन पद्धती विकसित केल्या आहेत - स्पीच-टू-टेक्स्ट रूपांतरणावर आधारित आणि ध्वन्यात्मक विश्लेषणावर आधारित.

भाषण रूपांतरणावर आधारित प्रथम दृष्टिकोनाच्या अंमलबजावणीचे उदाहरण म्हणजे कॉलमायनर सिस्टम. कॉल मायनिंग प्रक्रियेत, प्रथम भाषण रूपांतरण प्रणाली वापरली जाते, त्यानंतर त्याचे विश्लेषण केले जाते, ज्या दरम्यान, संभाषणांच्या सामग्रीवर अवलंबून, टेलिफोन कॉलची आकडेवारी व्युत्पन्न केली जाते. प्राप्त माहिती डेटाबेसमध्ये संग्रहित केली जाते, जी शोधली जाऊ शकते, पुनर्प्राप्त केली जाऊ शकते आणि प्रक्रिया केली जाऊ शकते.

दुसऱ्या दृष्टिकोनाच्या अंमलबजावणीचे उदाहरण - ध्वन्यात्मक विश्लेषण - नेक्सिडियाचे उत्पादन आहे. या दृष्टिकोनाने, भाषण ध्वनी किंवा ध्वनीचे संयोजन असलेल्या ध्वनींमध्ये मोडले जाते. असे घटक ओळखण्यायोग्य तुकडे तयार करतात. विशिष्ट शब्द आणि त्यांचे संयोजन शोधताना, सिस्टम त्यांना फोनम्ससह ओळखते.

विश्लेषकांनी लक्षात घ्या की अलिकडच्या वर्षांत, कॉल मायनिंगवर आधारित प्रणालींमध्ये स्वारस्य लक्षणीय वाढले आहे. हे या वस्तुस्थितीद्वारे स्पष्ट केले आहे की विविध क्षेत्रात कार्यरत कंपन्यांचे वरिष्ठ व्यवस्थापक, समावेश. वित्त, मोबाइल कम्युनिकेशन्स आणि एअरलाइन व्यवसायाच्या क्षेत्रात, त्यांना माहितीचा सारांश देण्यासाठी किंवा उल्लंघनाची कोणतीही तथ्ये ओळखण्यासाठी कॉल ऐकण्यात जास्त वेळ घालवायचा नाही.

डेटामॉनिटरचे विश्लेषक डॅनियल हाँग यांच्या मते: "या तंत्रज्ञानाच्या वापरामुळे कार्यक्षमता वाढते आणि माहितीवर प्रक्रिया करण्याची किंमत कमी होते."

नेक्सिडिया डेव्हलपरकडून उत्पादनांची सामान्य स्थापना 100 ते 300 हजार डॉलर्स पर्यंत असते कॉलमायनर स्पीच रूपांतरण प्रणाली आणि विश्लेषणात्मक अनुप्रयोगांचा संच सुमारे 450 हजार डॉलर्स.

स्कोएलरच्या मते, ऑडिओ मायनिंग आणि व्हिडीओ मायनिंग ऍप्लिकेशन्सना अखेरीस अधिक व्यापक उपयोग मिळेल, उदाहरणार्थ, कंपनीच्या मीडिया लायब्ररीमध्ये शैक्षणिक व्हिडिओ आणि सादरीकरणे अनुक्रमित करण्यासाठी. तथापि, ऑडिओ मायनिंग आणि व्हिडीओ मायनिंग तंत्रज्ञान आता नवीन स्तरावर आहे आणि त्यांचा व्यावहारिक वापर अगदी सुरुवातीच्या टप्प्यावर आहे.

दिमित्री लांडे यांचा लेख"नॉलेज मायनिंग" मी मजकूर खनन बद्दल वाचलेल्या पहिल्या लेखांपैकी एक होता - जो ऑक्टोबर 2003 मध्ये CHIP मासिकात प्रकाशित झाला होता.

कच्चा असंरचित डेटा वापरकर्ते वापरत असलेल्या माहितीपैकी किमान 90% आहे. अशा डेटामध्ये काहीतरी मौल्यवान शोधणे केवळ विशेष तंत्रज्ञानाद्वारे शक्य आहे.

आधुनिक समाजातील जीवनाच्या सर्व क्षेत्रात इलेक्ट्रॉनिक माहिती वाढत्या प्रमाणात महत्त्वाची भूमिका बजावते. टेराबाइट्स मजकूर डेटा जगभरात वितरीत केलेल्या माहिती भांडारांमध्ये गोळा केला जातो. इंटरनेट माहिती संसाधनांच्या विकासामुळे माहिती ओव्हरलोडची समस्या वारंवार वाढली आहे.

संशोधन सेवा सायव्हिलन्सने अहवाल दिला की 2001 मध्ये, इंटरनेटवरील एकूण पृष्ठांची संख्या 4 अब्ज ओलांडली होती. वेब पृष्ठाचा सरासरी आकार 10 KB असतो, सरासरी पृष्ठामध्ये 23 अंतर्गत दुवे, 5.6 बाह्य दुवे आणि 14-15 प्रतिमा असतात. कॉर्पोरेट फाइलिंग सिस्टीम आणि डेटाबेसमधील असंरचित दस्तऐवजांच्या ॲरे जोडल्यास, अनेक संस्थांना नैसर्गिक भाषेत सादर केलेल्या माहितीचे स्वयंचलित विश्लेषण आणि वर्गीकरणासाठी तंत्रज्ञानामध्ये रस का आहे हे पाहणे सोपे आहे. खरंच, सध्याच्या अंदाजानुसार, फर्म आणि संस्था ज्या माहितीशी व्यवहार करतात त्यापैकी किमान 90% माहिती - असंरचित डेटा - प्रामुख्याने मजकूर. आणि फक्त 10% रिलेशनल DBMS मध्ये लोड केलेल्या संरचित डेटामधून येतो.

"लोक दस्तऐवजाच्या भांडारात प्रवेश करून त्यांना काय माहित आहे ते शोधतील. तथापि, त्यांना कागदपत्रांच्या संग्रहात प्रवेश असला तरीही ते त्यांना माहित नसलेल्या गोष्टींची चौकशी करू शकत नाहीत किंवा करू शकत नाहीत," असे सेमिओचे उपाध्यक्ष जिम निस्बेट म्हणाले. जे डेटा मायनिंग सिस्टमच्या आघाडीच्या उत्पादकांपैकी एक आहे. "एक प्रकारचा प्रभावी मजकूर विश्लेषण - मजकूर खाण- संगणकीय शक्तीचा वापर करून असे संबंध ओळखले पाहिजेत जे वापरकर्त्याद्वारे नवीन ज्ञानाचे संपादन करू शकतात."

प्रभावी मजकूर विश्लेषणासाठी तंत्रज्ञान मजकूर खाणशिक्षक म्हणून काम करण्यास सक्षम आहे, जो संपूर्ण अभ्यासक्रमाचा अभ्यास करून, केवळ सर्वात महत्त्वाची आणि महत्त्वपूर्ण माहिती शिकवतो. अशा प्रकारे, वापरकर्त्याला मोठ्या प्रमाणात असंरचित माहिती स्वतः "चाळून" घेण्याची आवश्यकता नाही. सांख्यिकीय आणि भाषिक विश्लेषण, तसेच कृत्रिम बुद्धिमत्ता, तंत्रज्ञानाच्या आधारे विकसित मजकूर खाणते शब्दार्थाचे विश्लेषण करण्यासाठी, नेव्हिगेशन प्रदान करण्यासाठी आणि असंरचित मजकूरांमध्ये शोधण्यासाठी अचूकपणे डिझाइन केलेले आहेत. त्यांच्या आधारावर तयार केलेल्या प्रणालींचा वापर करून, वापरकर्ते नवीन मौल्यवान माहिती - ज्ञान प्राप्त करण्यास सक्षम असतील.

गहू भुसापासून वेगळे करणे...

CIA ने अलीकडेच गुप्तचर समुदाय विश्लेषणासाठी आपली धोरणात्मक गुंतवणूक योजना प्रकाशित केली आहे. योजनेमध्ये, गुप्तचर अधिकारी कबूल करतात की त्यांनी मुक्त स्त्रोतांच्या शक्तीचा पूर्णपणे वापर केला नाही आणि त्यांच्यासोबत काम करणे आता "गुंतवणुकीचे सर्वोच्च प्राधान्य" बनले पाहिजे. आता सीआयएचा असा विश्वास आहे की खुल्या स्त्रोतांकडून माहिती घेणे गुप्तचर वापरण्यापेक्षा सुरक्षित आणि स्वस्त आहे. सखोल मजकूर विश्लेषणाचे तंत्रज्ञान - मजकूर खाण- ही एक टूलकिट आहे जी तुम्हाला ट्रेंड, पॅटर्न आणि नातेसंबंधांच्या शोधात मोठ्या प्रमाणात माहितीचे विश्लेषण करण्यास अनुमती देते जे धोरणात्मक निर्णय घेण्यात मदत करू शकतात. याशिवाय, मजकूर खाणहा एक नवीन प्रकारचा शोध आहे जो पारंपारिक पद्धतींच्या विपरीत, केवळ प्रश्नांशी औपचारिकपणे संबंधित असलेल्या कागदपत्रांच्या सूची शोधत नाही तर प्रश्नाचे उत्तर देण्यास देखील मदत करतो: "मला अर्थ समजण्यास मदत करा, या समस्येचा सामना करा." क्लॉड वोगेल, सेमिओचे सह-संस्थापक आणि मुख्य तंत्रज्ञान अधिकारी, स्पष्ट करतात: “लायब्ररी सादृश्य वापरणे, तंत्रज्ञान मजकूर खाणआवश्यक माहिती ओलांडून वाचकासाठी पुस्तक उघडण्यासारखे आहे. याची तुलना वाचकाला कागदपत्रे आणि पुस्तकांच्या स्टॅकसह सादर करण्याशी करा ज्यात कुठेतरी वाचकाला आवश्यक असलेली माहिती असते, परंतु ती सहज सापडणार नाही." अर्थपूर्ण शोधाची प्रक्रिया क्षुल्लक नाही; अनेकदा दस्तऐवजांच्या संग्रहामध्ये असे असते. आवश्यक असलेल्या माहितीचा फक्त एक इशारा आवश्यक आहे ते शोधण्यासाठी तंत्रज्ञानाच्या नावावर, "खनन" हा शब्द सखोल "दफन" माहिती शोधण्यासाठी एक रूपक म्हणून कार्य करतो.

हे लक्षात घेतले पाहिजे की सखोल मजकूर विश्लेषणाचे तंत्रज्ञान ऐतिहासिकदृष्ट्या डेटा मायनिंग (डेटा मायनिंग) तंत्रज्ञानाच्या अगोदर होते, ज्याची पद्धत आणि दृष्टीकोन पद्धतींमध्ये मोठ्या प्रमाणावर वापरले जातात. मजकूर खाण. टेक्स्ट मायनिंगसाठी, जीटीई लॅब्समधील ग्रिगोरी पायटेत्स्की-शापिरो या जगातील आघाडीच्या तज्ञांपैकी एकाने डेटा मायनिंगसाठी दिलेली व्याख्या अगदी योग्य आहे: “पूर्वी अज्ञात, क्षुल्लक, व्यावहारिकदृष्ट्या उपयुक्त आणि व्याख्या करण्यायोग्य ज्ञान असलेल्या कच्च्या डेटामध्ये शोधण्याची प्रक्रिया मानवी क्रियाकलापांच्या विविध क्षेत्रांमध्ये निर्णय घेण्यासाठी आवश्यक आहे. बहुतेक संज्ञानात्मक तंत्रज्ञानाप्रमाणे - मजकूर खाणविद्यमान मजकूर डेटामधील पूर्वी अज्ञात कनेक्शन आणि सहसंबंधांची अल्गोरिदमिक ओळख आहे.

विसाव्या शतकाच्या ९० च्या दशकाच्या मध्यात असंरचित ग्रंथ, तंत्रज्ञानाचे विश्लेषण करण्याची दिशा म्हणून आकार घेतला. मजकूर खाणताबडतोब शास्त्रीय डेटा मायनिंग पद्धतींचा अवलंब केला, जसे की वर्गीकरण किंवा क्लस्टरिंग. IN मजकूर खाणअतिरिक्त वैशिष्ट्ये देखील दिसू लागली आहेत, जसे की मजकूरांचे स्वयंचलित सारांश आणि संकल्पना, घटना आणि तथ्यांची निवड. आधुनिक प्रणालींची क्षमता मजकूर खाणमजकूरातील नमुने ओळखण्यासाठी, स्वयंचलितपणे "पुल आउट" करण्यासाठी किंवा वापरकर्त्यांना स्वारस्य असलेल्या प्रोफाइलवर माहिती ठेवण्यासाठी आणि दस्तऐवज पुनरावलोकने तयार करण्यासाठी ज्ञान व्यवस्थापनात वापरले जाऊ शकते. तंत्रज्ञान मजकूर खाणयाव्यतिरिक्त, वस्तुनिष्ठता अंतर्निहित आहे - मानवी विश्लेषकाचे कोणतेही व्यक्तिवाद वैशिष्ट्य नाही.

तंत्रज्ञानाचा एक महत्त्वाचा घटक मजकूर खाणमजकूरातून त्याचे वैशिष्ट्यपूर्ण घटक किंवा गुणधर्म काढण्याशी संबंधित आहे, ज्याचा वापर दस्तऐवज मेटाडेटा, कीवर्ड आणि भाष्य म्हणून केला जाऊ शकतो. आणखी एक महत्त्वाचे कार्य म्हणजे दिलेल्या सिस्टीमॅटायझेशन योजनेतून विशिष्ट श्रेणींना दस्तऐवज नियुक्त करणे. मजकूर खाणसिमेंटिक दस्तऐवज शोधाची नवीन पातळी देखील प्रदान करते.

मजकूर खाण तंत्रज्ञानाची मूलभूत माहिती

आधीच स्थापित पद्धतीनुसार, मुख्य घटक मजकूर खाणसारांश, वैशिष्ट्य काढणे, क्लस्टरिंग, वर्गीकरण, प्रश्न उत्तरे, थीमॅटिक अनुक्रमणिका आणि कीवर्ड शोध समाविष्ट करा. तसेच, काही प्रकरणांमध्ये, वर्गीकरण (ऑफटॅक्सोनॉमी) आणि थिसौरीला समर्थन देण्यासाठी आणि तयार करण्यासाठी साधनांद्वारे संच पूरक आहे.

गार्टनर रिसर्चचे संचालक अलेक्झांडर लिंडेन यांनी चार मुख्य प्रकारचे तंत्रज्ञान अनुप्रयोग ओळखले मजकूर खाण:

मजकूर वर्गीकरण, जे पूर्वनिर्धारित श्रेणींमध्ये दस्तऐवज ठेवण्यासाठी नियम तयार करण्यासाठी सांख्यिकीय सहसंबंध वापरते. दस्तऐवज वैशिष्ट्यांवर आधारित क्लस्टरिंग, पूर्वनिर्धारित श्रेणी न वापरता भाषिक आणि गणितीय पद्धती वापरणे. परिणाम म्हणजे वर्गीकरण किंवा व्हिज्युअल नकाशा जो मोठ्या प्रमाणात डेटाचे प्रभावी कव्हरेज प्रदान करतो. नेव्हिगेशन प्रदान करण्यासाठी दस्तऐवजात वर्णनकर्त्यांचे स्वरूप (मुख्य वाक्ये) निर्धारित करणारे सिमेंटिक नेटवर्क किंवा लिंक विश्लेषण. वर्गीकरण, पुनर्प्राप्ती आणि क्लस्टरिंग सुधारण्यासाठी मजकूरातून काही तथ्ये मिळविण्यासाठी तथ्य निष्कर्षण डिझाइन केले आहे.

असे घडते की ते बर्याचदा आढळते मजकूर खाणकार्य वर्गीकरण आहे - पूर्वनिर्धारित श्रेणींमध्ये डेटाबेस ऑब्जेक्ट नियुक्त करणे. खरं तर, वर्गीकरण कार्य एक शास्त्रीय ओळख कार्य आहे, जेथे, प्रशिक्षण नमुन्याच्या आधारावर, सिस्टम एका किंवा दुसर्या श्रेणीसाठी नवीन ऑब्जेक्ट नियुक्त करते. प्रणालीचे वैशिष्ट्य मजकूर खाणवस्तूंची संख्या आणि त्यांचे गुणधर्म खूप मोठे असू शकतात; म्हणून, वर्गीकरण प्रक्रिया इष्टतम करण्यासाठी बुद्धिमान यंत्रणा प्रदान करणे आवश्यक आहे. आज अस्तित्वात असलेल्या प्रणालींमध्ये, वर्गीकरण वापरले जाते, उदाहरणार्थ, खालील कार्यांमध्ये: इंट्रानेट आणि वेब साइट्सवर दस्तऐवजांचे गट करणे, विशिष्ट फोल्डर्समध्ये दस्तऐवज ठेवणे, ईमेल संदेशांची क्रमवारी लावणे, निवडकपणे सदस्यांना बातम्या वितरित करणे.

दुसरे कार्य क्लस्टरिंग आहे - समान गुणधर्म असलेल्या वस्तूंचे संक्षिप्त उपसमूह ओळखणे. सिस्टमने स्वतंत्रपणे चिन्हे शोधणे आणि वस्तूंना उपसमूहांमध्ये विभाजित करणे आवश्यक आहे. हे सहसा वर्गीकरण कार्याच्या आधी असते, कारण ते आपल्याला वस्तूंचे गट परिभाषित करण्यास अनुमती देते. क्लस्टरिंगचे दोन मुख्य प्रकार आहेत - श्रेणीबद्ध आणि बायनरी. श्रेणीबद्ध क्लस्टरिंगमध्ये क्लस्टरचे एक झाड तयार करणे समाविष्ट आहे, ज्यामध्ये प्रत्येक दस्तऐवजांचा एक लहान गट आहे. बायनरी क्लस्टरिंग युटिलिटीचे उदाहरण IBM सर्व्हरवर http://www.software.ibm.com/data/iminer/fortext वर उपलब्ध आहे. बायनरी क्लस्टरिंग समानता लिंक्सवर आधारित दस्तऐवज क्लस्टर्सचे ग्रुपिंग आणि ब्राउझिंग प्रदान करते. त्यांच्या मालमत्तेमध्ये सर्वात जवळची कागदपत्रे एका क्लस्टरमध्ये ठेवली जातात. क्लस्टरिंग प्रक्रियेदरम्यान, वजन आणि परिभाषित कीवर्डच्या संयुक्त वापरावर आधारित, दस्तऐवजापासून ते दस्तऐवजावर लिंक्सचा आधार तयार केला जातो. आज क्लस्टरिंगचा वापर मोठ्या डॉक्युमेंटरी ॲरेचे अमूर्तीकरण करण्यासाठी, दस्तऐवजांचे परस्परसंबंधित गट ओळखण्यासाठी, आवश्यक माहिती शोधताना ब्राउझिंग प्रक्रिया सुलभ करण्यासाठी, संग्रहातून अद्वितीय दस्तऐवज शोधण्यासाठी, डुप्लिकेट किंवा सामग्रीमध्ये समान असलेले दस्तऐवज ओळखण्यासाठी वापरले जाते.

आम्ही आणखी अनेक तंत्रज्ञान आव्हानांना नावे देऊ शकतो मजकूर खाण, उदाहरणार्थ, अंदाज, ज्यामध्ये ऑब्जेक्टच्या काही वैशिष्ट्यांच्या मूल्यांवर आधारित इतरांच्या मूल्यांचा अंदाज असतो.

दुसरे कार्य म्हणजे अपवाद शोधणे, म्हणजे, त्यांच्या वैशिष्ट्यांसह गर्दीतून उभ्या असलेल्या वस्तूंचा शोध घेणे. हे करण्यासाठी, प्रथम ऑब्जेक्ट्सचे सरासरी पॅरामीटर्स निर्धारित केले जातात आणि नंतर ज्या ऑब्जेक्ट्सचे पॅरामीटर्स सरासरी मूल्यांपेक्षा जोरदारपणे भिन्न असतात त्यांची तपासणी केली जाते. जसे ज्ञात आहे, अपवाद शोधणे मोठ्या प्रमाणावर वापरले जाते, उदाहरणार्थ, गुप्तचर संस्थांच्या कामात. नंतरचे किती अचूक होते हे शोधण्यासाठी वर्गीकरणानंतर या प्रकारचे विश्लेषण अनेकदा केले जाते.

क्लस्टरिंगच्या कार्यापासून काहीसे वेगळे म्हणजे वैयक्तिक दस्तऐवजांची संबंधित वैशिष्ट्ये (फील्ड, संकल्पना) शोधणे. हे कार्य अंदाजापेक्षा वेगळे आहे कारण नातेसंबंध कोणत्या वैशिष्ट्यांद्वारे लक्षात आले हे आधीच माहित नसते; वैशिष्ट्यांमधील कनेक्शन शोधणे हे निश्चितपणे लक्ष्य आहे. हे कार्य क्लस्टरिंगसारखेच आहे, परंतु दस्तऐवजांच्या संचावर आधारित नाही, परंतु त्यांच्यामध्ये अंतर्भूत असलेल्या वैशिष्ट्यांच्या संचावर आधारित आहे.

शेवटी, परिणामांवर प्रक्रिया करणे आणि त्याचा अर्थ लावणे मजकूर खाणव्हिज्युअलायझेशनला खूप महत्त्व आहे. डेटा व्हिज्युअलायझेशनमध्ये संरचित संख्यात्मक डेटावर प्रक्रिया करणे समाविष्ट आहे, परंतु ते असंरचित मजकूर दस्तऐवजांमध्ये नमुन्यांची प्रस्तुती करणे देखील महत्त्वाचे आहे. विशेषतः, आधुनिक वर्ग प्रणाली मजकूर खाणदस्तऐवजांच्या मोठ्या ॲरेचे विश्लेषण करू शकतात आणि या दस्तऐवजांमध्ये समाविष्ट असलेल्या संकल्पना आणि विषयांचे विषय अनुक्रमणिका तयार करू शकतात. व्हिज्युअलायझेशनचा वापर सामान्यत: दस्तऐवजांच्या संपूर्ण ॲरेची सामग्री सादर करण्यासाठी तसेच दस्तऐवज आणि त्यांच्या वर्गांच्या अभ्यासात वापरता येणारी नेव्हिगेशन यंत्रणा लागू करण्यासाठी केला जातो.

सिस्टम अंमलबजावणी

सध्या, अनेक आघाडीचे सॉफ्टवेअर उत्पादक मजकूर खाण क्षेत्रात त्यांची उत्पादने आणि उपाय ऑफर करतात. नियमानुसार, या स्केलेबल सिस्टम आहेत ज्या मजकूर डेटाचे विश्लेषण करण्यासाठी विविध गणिती आणि भाषिक अल्गोरिदम लागू करतात. त्यांच्याकडे चांगले विकसित ग्राफिकल इंटरफेस, समृद्ध व्हिज्युअलायझेशन आणि डेटा मॅनिपुलेशन क्षमता आहेत, विविध डेटा स्त्रोतांमध्ये प्रवेश प्रदान करतात आणि क्लायंट-सर्व्हर आर्किटेक्चरमध्ये कार्य करतात. येथे अशा प्रणालींची काही उदाहरणे आहेत:

  • इंटेलिजेंट मायनर फॉर टेक्स्ट (IBM)
  • TextAnalyst, WebAnalyst (मेगाकॉम्प्युटर इंटेलिजन्स)
  • मजकूर खाण कामगार (एसएएस)
  • SemioMap (Semio Corp.)
  • ओरॅकल मजकूर (ओरेकल)
  • नॉलेज सर्व्हर (स्वायत्तता)
  • Galaktika-ZOOM (Galaktika Corporation)
  • इन्फोस्ट्रीम (माहिती केंद्र "ELVISTI")

खाली आम्ही यापैकी काही प्रणाली अधिक तपशीलवार पाहू.

मजकूरासाठी बुद्धिमान खाण कामगार

मजकूर उत्पादनासाठी IBM इंटेलिजेंट मायनर हा कमांड लाइन किंवा स्क्रिप्टमधून स्वतंत्रपणे लाँच केलेल्या स्वतंत्र युटिलिटीजचा संच आहे. ही प्रणाली सखोल मजकूर विश्लेषणासाठी सर्वोत्तम साधनांपैकी एक आहे. ज्ञान व्यवस्थापन अनुप्रयोग तयार करण्यासाठी सिस्टममध्ये खालील मूलभूत उपयुक्तता (साधने) आहेत:

भाषा ओळख साधन - भाषा ओळख उपयुक्तता - दस्तऐवज संकलित केलेली भाषा स्वयंचलितपणे निर्धारित करण्यासाठी.

वर्गीकरण साधन - वर्गीकरण उपयुक्तता - विशिष्ट श्रेणीसाठी मजकूर स्वयंचलित असाइनमेंट (या साधनाच्या प्रशिक्षण टप्प्यासाठी इनपुट माहिती पुढील उपयुक्ततेचा परिणाम असू शकते - क्लस्टरायझेशन टूल).

क्लस्टरायझेशन टूल - क्लस्टरिंग युटिलिटी - शैली, फॉर्म आणि ओळखलेल्या कीवर्डच्या विविध वारंवारता वैशिष्ट्यांच्या समीपतेवर आधारित दस्तऐवजांचा एक मोठा संच गटांमध्ये विभागणे.

वैशिष्ट्य एक्सट्रॅक्शन टूल - नवीन गोष्टी ओळखण्यासाठी उपयुक्तता - पूर्व-निर्दिष्ट शब्दकोशाच्या विश्लेषणावर आधारित दस्तऐवजातील नवीन कीवर्ड (योग्य नावे, शीर्षके, संक्षेप) ओळखणे.

भाष्य साधन - मजकूरांचा "अर्थ ओळखण्यासाठी" आणि अमूर्त संकलित करण्यासाठी उपयुक्तता - स्त्रोत मजकूरासाठी भाष्ये.

मजकूरासाठी IBM इंटेलिजेंट मायनर मुख्यतः माहिती पुनर्प्राप्ती यंत्रणेवर आधारित साधनांचा एक शक्तिशाली संच एकत्र करते, जे संपूर्ण उत्पादनाचे वैशिष्ट्य आहे. प्रणालीमध्ये "टेक्स्ट मायनिंग" तंत्रज्ञानाच्या मर्यादेपलीकडे स्वतंत्र महत्त्व असलेल्या अनेक मूलभूत घटकांचा समावेश आहे - ही मजकूर शोध इंजिन माहिती पुनर्प्राप्ती प्रणाली, वेब स्पेस स्कॅनिंग युटिलिटी वेब क्रॉलर, नेट प्रश्न समाधान - शोधण्यासाठी एक उपाय आहे. स्थानिक वेब साइट किंवा अनेक इंट्रानेट/इंटरनेट सर्व्हर, Java नमुना GUI - मजकूर शोध इंजिनवर आधारित शोधांचे व्यवस्थापन आणि आयोजन करण्यासाठी Java Beans इंटरफेसचा संच.

माहिती खनन साधन म्हणून DB2 DBMS साठी "Information Integrator for Content" कॉम्प्लेक्समध्ये IBM उत्पादन म्हणून इंटेलिजेंट मायनर मजकूरासाठी समाविष्ट केले आहे.

इंटेलिजेंट मायनर कुटुंबाच्या विविध स्तरांच्या उत्पादनांची किंमत 18 ते 75 हजार डॉलर्स पर्यंत आहे.

मजकूर विश्लेषक

पॉली ॲनालिस्ट डेटा मायनिंग क्लास सिस्टमसाठी प्रसिद्ध असलेल्या मेगापुटर इंटेलिजन्स या रशियन कंपनीने टेक्स्ट ॲनालिस्ट सिस्टम (http://www.megaputer.com/products/ta/index.php3) देखील विकसित केली आहे, जी अशा समस्यांचे निराकरण करते. मजकूर खाण: मोठ्या मजकूराचे सिमेंटिक नेटवर्क तयार करणे, मजकूर सारांश तयार करणे, मजकूर शोध आणि स्वयंचलित वर्गीकरण आणि मजकूरांचे क्लस्टरिंग. सिमेंटिक नेटवर्क तयार करणे म्हणजे मजकूरातील मुख्य संकल्पना शोधणे आणि त्यांच्यातील संबंध प्रस्थापित करणे. अशा नेटवर्कचा वापर करून, आपण केवळ मजकूरात काय म्हटले आहे ते समजू शकत नाही तर संदर्भित नेव्हिगेशन देखील करू शकता. सारांश तयार करणे म्हणजे मजकूरातील वाक्ये हायलाइट करणे ज्यामध्ये या मजकुरासाठी महत्त्वपूर्ण असलेले शब्द इतरांपेक्षा जास्त वेळा आढळतात. 80% प्रकरणांमध्ये मजकूराची कल्पना येण्यासाठी हे पुरेसे आहे. प्रणालीमध्ये माहिती शोधण्यासाठी, नैसर्गिक भाषेतील प्रश्नांचा वापर प्रदान केला जातो. विनंती केल्यावर, एक अद्वितीय सिमेंटिक नेटवर्क तयार केले गेले आहे, जे दस्तऐवज नेटवर्कशी संवाद साधताना, आपल्याला आवश्यक मजकूर तुकडे निवडण्याची परवानगी देते. क्लस्टरिंग आणि वर्गीकरण मानक डेटा खाण पद्धती वापरून चालते.

मजकूर-विश्लेषक प्रणाली, विचार करते मजकूर खाणएक वेगळे गणितीय उपकरण म्हणून जे सॉफ्टवेअर डेव्हलपर माहिती पुनर्प्राप्ती प्रणाली प्लॅटफॉर्म किंवा डीबीएमएसवर अवलंबून न राहता त्यांच्या उत्पादनांमध्ये तयार करू शकतात. प्रणाली वापरण्यासाठी मुख्य व्यासपीठ MS Windows 9x/2000/NT आहे. Microsoft Internet Explorer साठी TextAnalyst प्लगइन आहे.

वेब विश्लेषक

वेबॲनालिस्ट सिस्टम (http://www.megaputer.com/products/wa/index.php3) - हे मेगापुटर इंटेलिजेंसचे उत्पादन देखील आहे - डेटा विश्लेषणाचा प्रभाव जास्तीत जास्त वाढवू इच्छिणाऱ्या कंपन्यांसाठी एक बुद्धिमान, स्केलेबल क्लायंट/सर्व्हर सोल्यूशन आहे. वेब वातावरण. WebAnalyst सर्व्हर माहिती संकलित करण्यासाठी आणि वेब साइटची सामग्री व्यवस्थापित करण्यासाठी तज्ञ प्रणाली म्हणून कार्य करते. WebAnalyst मॉड्यूल तीन समस्या सोडवतात: साइट अभ्यागत आणि त्यांनी विनंती केलेल्या संसाधनांबद्दल जास्तीत जास्त माहिती गोळा करणे; संकलित डेटाचे संशोधन आणि संशोधन परिणामांवर आधारित वैयक्तिकृत सामग्रीची निर्मिती. या समस्या एकत्रितपणे सोडवण्यामुळे, सिस्टम डेव्हलपरच्या मते, वेब साइटवर नवीन अभ्यागतांची संख्या वाढवणे आणि विद्यमान असलेल्यांना कायम ठेवणे, आणि त्यामुळे वेबॲनालिस्ट क्षमता एकत्रित करण्यास सक्षम आहे मजकूर खाणथेट संस्थेच्या वेबसाइटवर. हे तुम्हाला वैयक्तिकृत, स्वयंचलित आणि लक्ष्यित विपणन, स्वयंचलित सोर्सिंग आणि क्रॉस-सेलिंग आणि वापरकर्ता-सानुकूलित डेटाची विस्तारित श्रेणी ऑफर करण्यास अनुमती देते. वेबॲनालिस्ट हा एक बुद्धिमान ई-कॉमर्स ॲप्लिकेशन सर्व्हर आहे.

तांत्रिक व्यासपीठ TextAnalyst सारखेच आहे.

मजकूर खाण कामगार

अमेरिकन कंपनी SAS इन्स्टिट्यूटने लिखित भाषणातील काही व्याकरणात्मक आणि मौखिक अनुक्रमांची तुलना करण्यासाठी SAS टेक्स्ट मायनर प्रणाली जारी केली आहे. टेक्स्ट मायनर खूप अष्टपैलू आहे कारण ते मजकूर दस्तऐवजांसह विविध स्वरूपांमध्ये - डेटाबेस, फाइल सिस्टम आणि अगदी वेबवर देखील कार्य करू शकते.

Text Miner शक्तिशाली SAS Enterprise Miner पॅकेजमध्ये लॉजिकल टेक्स्ट प्रोसेसिंग प्रदान करते. हे वापरकर्त्यांना वय, उत्पन्न आणि ग्राहक मागणी नमुने यासारख्या विद्यमान संरचित डेटासह असंरचित मजकूर माहिती एकत्रित करून डेटा विश्लेषण प्रक्रिया समृद्ध करण्यास अनुमती देते. मजकूर खाण कामगार.

टेक्स्ट मायनरच्या तार्किक क्षमतेच्या यशस्वी वापराचे उदाहरण कॉम्पॅक कॉम्प्युटर कॉर्पोरेशनने दाखवले आहे, जे सध्या ई-मेलद्वारे प्राप्त झालेल्या आणि कंपनीच्या प्रतिनिधींद्वारे संकलित केलेल्या 2.5 गीगाबाइट्सपेक्षा जास्त मजकूर दस्तऐवजांचे विश्लेषण करून टेक्स्ट मायनरची चाचणी करत आहे. पूर्वी, अशा डेटावर प्रक्रिया करणे जवळजवळ अशक्य होते

टेक्स्ट मायनर प्रोग्राम आपल्याला विशिष्ट मजकूर दस्तऐवज किती सत्य आहे हे निर्धारित करण्यास अनुमती देतो. दस्तऐवजांमधील खोटे शोधणे मजकूराचे विश्लेषण करून आणि माहिती विकृत करण्याचा किंवा लपविण्याचा प्रयत्न करताना उद्भवू शकणारे लेखन शैलीतील बदल ओळखून केले जाते. अशा बदलांचा शोध घेण्यासाठी, डेटाबेस रेकॉर्डमधील विसंगती आणि ट्रेंड यांचा अर्थ न शोधता शोधणे हे तत्त्व वापरले जाते. त्याच वेळी, टेक्स्ट मायनरमध्ये सत्यतेच्या वेगवेगळ्या प्रमाणात दस्तऐवजांचा एक विस्तृत संच समाविष्ट असतो, ज्याची रचना टेम्पलेट्स म्हणून स्वीकारली जाते. खोटे डिटेक्टरवर प्रत्येक दस्तऐवज "रन" चे विश्लेषण केले जाते आणि या मानकांशी तुलना केली जाते, त्यानंतर प्रोग्राम दस्तऐवजासाठी एक किंवा दुसरा सत्यता निर्देशांक नियुक्त करतो. हा कार्यक्रम विशेषतः अशा संस्थांमध्ये उपयुक्त ठरू शकतो ज्यांना मोठ्या प्रमाणात इलेक्ट्रॉनिक पत्रव्यवहार प्राप्त होतो, तसेच कायद्याची अंमलबजावणी करणाऱ्या एजन्सींमध्ये खोटे शोधकांच्या बरोबरीने पुराव्याचे विश्लेषण करण्यासाठी, ज्यांची क्रिया एखाद्या व्यक्तीच्या भावनिक स्थितीचे निरीक्षण करण्यावर आधारित असते.

औषधामध्ये टेक्स्ट मायनरच्या वापराचे एक मनोरंजक उदाहरणः अमेरिकन राष्ट्रीय आरोग्य सेवा संस्थांपैकी एकाने देशभरातील क्लिनिकमधून गोळा केलेल्या हृदयरोगावरील 10 हजारांहून अधिक वैद्यकीय नोंदी गोळा केल्या. टेक्स्ट मायनरचा वापर करून या डेटाचे विश्लेषण करून, तज्ञांनी अहवालात काही प्रशासकीय अनियमितता शोधून काढल्या आणि हृदय व रक्तवाहिन्यासंबंधी रोग आणि पारंपारिक पद्धतींद्वारे निर्धारित नसलेल्या इतर आजारांमधील संबंध देखील निर्धारित करण्यात सक्षम झाले.

त्याच वेळी, SAS नोंदवते की ते मुख्यतः व्यावसायिक बुद्धिमत्तेचे लक्ष वेधण्यासाठी त्याचे टेक्स्ट मायनर उत्पादन जारी करेल.

SemioMap

सेमिओमॅप हे सेमिओटिक्स शास्त्रज्ञ क्लॉड वोगेल यांनी 1996 मध्ये तयार केलेले एन्ट्रीवा उत्पादन आहे. मे 1998 मध्ये, उत्पादन औद्योगिक कॉम्प्लेक्स SemioMap 2.0 म्हणून प्रसिद्ध करण्यात आले - पहिली प्रणाली मजकूर खाण, क्लायंट-सर्व्हर आर्किटेक्चरमध्ये काम करत आहे. SemioMap प्रणालीमध्ये दोन मुख्य घटक असतात - SemioMap सर्व्हर आणि SemioMap क्लायंट. प्रणाली तीन टप्प्यात कार्य करते:

  • अनुक्रमणिका; सेमिओमॅप सर्व्हर आपोआप असंरचित मजकूराचे ॲरे वाचतो, मुख्य वाक्ये (संकल्पना) काढतो आणि त्यातून एक अनुक्रमणिका तयार करतो;
  • संकल्पनांचे क्लस्टरिंग; सेमिओमॅप सर्व्हर काढलेल्या वाक्यांशांमधील कनेक्शन ओळखतो आणि त्यांच्यापासून तयार होतो, सह-घटनेवर आधारित, एक लेक्सिकल नेटवर्क ("संकल्पना नकाशा");
  • ग्राफिक प्रदर्शन आणि नेव्हिगेशन; मनाच्या नकाशांचे व्हिज्युअलायझेशन, जे मुख्य वाक्ये आणि त्यांच्यामधील कनेक्शनद्वारे द्रुत नेव्हिगेशन प्रदान करते, तसेच विशिष्ट दस्तऐवजांमध्ये द्रुतपणे प्रवेश करण्याची क्षमता देते.

सेमिओमॅप प्रत्येक फोल्डरसाठी स्वतंत्र डेटाबेस तयार करून, "फोल्डर्स" मध्ये सामग्रीचे विभाजन करण्यास समर्थन देते. सेमिओमॅपने ओळखलेल्या संकल्पनांमधील कनेक्शन स्त्रोत मजकूर ॲरेच्या परिच्छेदातील वाक्यांशांच्या सह-प्रसंगावर आधारित आहेत.

सेमिओमॅपचा मध्यवर्ती ब्लॉक एक लेक्सिकल एक्स्ट्रॅक्टर आहे - एक प्रोग्राम जो मजकूर संग्रहातून वाक्ये काढतो आणि या वाक्यांशांची सह-घटना (त्यांचे परस्पर कनेक्शन) ओळखतो. लेक्सिकल एक्स्ट्रॅक्टर पेटंट केलेल्या SEMIOLEX तंत्रज्ञानावर आधारित आहे. हे क्लॉड वोगेल यांनी विकसित केलेल्या संगणकीय सेमिऑटिक्स, भाषिक संप्रेषणातील चिन्हांचे विज्ञान या कल्पना लागू करते.

इंटरमीडिया मजकूर, ओरॅकल मजकूर

सुविधा मजकूर खाण, Oracle DBMS 7.3.3 मधील Text Server आणि Oracle8i मधील इंटरमीडिया टेक्स्ट कार्ट्रिजपासून सुरू होणारे, Oracle उत्पादनांचा अविभाज्य भाग आहेत. Oracle9i मध्ये, ही साधने विकसित झाली आहेत आणि त्यांना एक नवीन नाव प्राप्त झाले आहे - Oracle Text - DBMS मध्ये समाकलित केलेले एक सॉफ्टवेअर पॅकेज, जे तुम्हाला असंरचित मजकुरांशी संबंधित प्रश्नांसह प्रभावीपणे कार्य करण्यास अनुमती देते. या प्रकरणात, मजकूर प्रक्रिया रिलेशनल डेटाबेससह कार्य करण्यासाठी वापरकर्त्यास प्रदान केलेल्या क्षमतांसह एकत्रित केली जाते. विशेषतः, मजकूर प्रक्रिया अनुप्रयोग लिहिताना SQL वापरणे शक्य झाले आहे.

ओरॅकल टेक्स्ट टूल्सचे निराकरण करण्याचे उद्दिष्ट असलेले मुख्य कार्य म्हणजे त्यांच्या सामग्रीद्वारे दस्तऐवज शोधणे - शब्द किंवा वाक्यांश, जे आवश्यक असल्यास, बुलियन ऑपरेशन्स वापरून एकत्र केले जातात. सापडलेल्या दस्तऐवजांमध्ये क्वेरी शब्दांच्या वारंवारतेचा विचार करून शोध परिणाम प्रासंगिकतेनुसार रँक केले जातात. शोधाची पूर्णता वाढवण्यासाठी, ओरॅकल टेक्स्ट अनेक शोध क्वेरी विस्तार साधने प्रदान करते, त्यापैकी तीन गट वेगळे केले जाऊ शकतात. सर्वप्रथम, हे सर्व आकृतिशास्त्रीय स्वरूपांसह क्वेरी शब्दांचा विस्तार आहे, जो भाषेच्या आकृतिविज्ञानाच्या ज्ञानाचा समावेश करून लक्षात येतो. दुसरे म्हणजे, Oracle मजकूर शब्दकोष - एक शब्दकोष, तसेच शब्दलेखन आणि ध्वनी - अस्पष्ट शोध आणि व्यंजन शब्दांसाठी समान शब्दांसह क्वेरीचा विस्तार जोडून अर्थाच्या जवळ असलेल्या शब्दांच्या विस्तारास परवानगी देतो. चुकीचे स्पेलिंग शब्द शोधताना अस्पष्ट शोध वापरणे उचित आहे, तसेच योग्य शब्दलेखनाबद्दल शंका उद्भवल्यास - आडनावे, संस्थेची नावे इ.

ओरॅकल टेक्स्ट सिस्टम इंग्रजीमध्ये मजकूरांचे थीमॅटिक विश्लेषण प्रदान करते. प्रक्रियेदरम्यान, प्रत्येक दस्तऐवजाचा मजकूर भाषिक आणि सांख्यिकीय विश्लेषण प्रक्रियेच्या अधीन असतो, परिणामी त्याचे मुख्य विषय निर्धारित केले जातात आणि थीमॅटिक सारांश तयार केले जातात, तसेच सामान्य सारांश - अमूर्त.

सर्व वर्णन केलेली साधने एकत्रितपणे वापरली जाऊ शकतात, जी कागदपत्रे शोधण्यासाठी पारंपारिक SQL आणि PL/SQL सिंटॅक्ससह क्वेरी भाषेद्वारे समर्थित आहे. Oracle टेक्स्ट क्लिष्ट बहुउद्देशीय शोध आणि मजकूर डेटाच्या विश्लेषणाच्या संदर्भात आधुनिक रिलेशनल DBMS सह कार्य करण्याची क्षमता प्रदान करते.

ओरॅकल मजकुरामध्ये रशियन भाषेतील मजकूर माहितीवर प्रक्रिया करण्याची क्षमता खूपच मर्यादित आहे. या समस्येचे निराकरण करण्यासाठी, गॅरंट-पार्क-इंटरनेट कंपनीने इंटरमीडिया टेक्स्ट (किंवा ओरॅकल टेक्स्ट) सह एकत्रितपणे वापरण्यासाठी रशियन कॉन्टेक्स्ट ऑप्टिमायझर (RCO) मॉड्यूल विकसित केले. रशियन भाषेच्या मॉर्फोलॉजीला समर्थन देण्याव्यतिरिक्त, RCO मध्ये अस्पष्ट शोध, थीमॅटिक विश्लेषण आणि दस्तऐवज ॲबस्ट्रॅक्टिंगसाठी साधने समाविष्ट आहेत.

स्वायत्तता ज्ञान सर्व्हर

सांख्यिकीय सामग्री विश्लेषणातील त्याच्या विकासासाठी ओळखले जाणारे, ऑटोनॉमीचे सिस्टम आर्किटेक्चर स्वयंचलित वर्गीकरण आणि क्रॉस-रेफरन्सिंग समस्यांचे निराकरण करण्यासाठी अत्याधुनिक संदर्भ विश्लेषण आणि अर्थ काढण्याच्या तंत्रांसह बुद्धिमान नमुना पार्सिंग एकत्र करते. स्वायत्तता प्रणालीचा मुख्य फायदा म्हणजे सांख्यिकीय प्रक्रियेवर आधारित शक्तिशाली बुद्धिमान अल्गोरिदम. हे अल्गोरिदम क्लॉड शॅननच्या माहिती सिद्धांत, बायेसियन संभाव्यता आणि न्यूरल नेटवर्कवर आधारित आहेत.

ॲडॉप्टिव्ह प्रोबॅबिलिस्टिक मॉडेलिंग (APCM) ची संकल्पना स्वायत्ततेला दस्तऐवज मजकूरातील नमुने ओळखण्यास आणि इतर विविध दस्तऐवजांमध्ये समान नमुने स्वयंचलितपणे शोधण्याची परवानगी देते.

स्वायत्तता ज्ञान सर्व्हर प्रणालीमधील एक महत्त्वाचा मुद्दा म्हणजे मजकूराचे विश्लेषण करण्याची क्षमता आणि मजकूराच्या अर्थासह अटींच्या फ्रिक्वेन्सी आणि संबंधांचे परस्परसंबंध विश्लेषित करून दस्तऐवजांमधील मुख्य संकल्पना ओळखणे. स्वायत्तता - एजंटवेअर घटक दस्तऐवजांमधून अर्थ काढण्यासाठी आणि मजकूरातील वैशिष्ट्ये निर्धारित करण्यासाठी अद्वितीय नमुना विश्लेषण तंत्रज्ञान (नॉन-लिनियर ॲडॉप्टिव्ह डिजिटल सिग्नल प्रोसेसिंग) वापरतो. APCM तुम्हाला मजकूराच्या अर्थाची अनन्य "स्वाक्षरी" ओळखण्याची परवानगी देते, तसेच संकल्पना एजंट तयार करतात जे वेब साइट्सवर, बातम्या, ईमेल संग्रहण आणि इतर दस्तऐवजांमध्ये समान अर्थाच्या नोंदी शोधतात. प्रणाली पूर्वनिर्धारित कीवर्डवर आधारित नसल्यामुळे, ती कोणत्याही भाषेसह कार्य करू शकते.

ऑटोनॉमीच्या एजंट सिस्टमचा गाभा डायनॅमिक रिझनिंग इंजिन (DRE) आहे, जो पॅटर्न प्रोसेसिंग तंत्रज्ञानावर आधारित आहे जो ऑटोनॉमीच्या मूळ कंपनी, न्यूरोडायनामिक्समधून उद्भवलेल्या न्यूरल नेटवर्क तंत्रांचा वापर करतो. DRE चार मुख्य कार्ये अंमलात आणण्यासाठी अनुकूली संभाव्य मॉडेलिंगची संकल्पना वापरते: संकल्पना शोध, एजंट निर्मिती, एजंट प्रशिक्षण आणि मानक मजकूर शोध. DRE नैसर्गिक भाषेतील प्रश्न किंवा बूलियन ऑपरेटरद्वारे लिंक केलेल्या अटी स्वीकारते आणि क्वेरीच्या प्रासंगिकतेनुसार ऑर्डर केलेल्या कागदपत्रांची सूची परत करते. ही यंत्रणा सर्व स्वायत्तता एजंट सिस्टम उत्पादनांचा आधार आहे. ऑटोनॉमीच्या नॉलेज सर्व्हरचे वर्णन http://www.autonomy.com/tech/whitepaper.pdf येथे आढळू शकते.

गलक्टिका-झूम

Galaktika-ZOOM प्रणाली ही रशियन कॉर्पोरेशन Galaktika चे उत्पादन आहे. सिस्टमचा मुख्य उद्देश म्हणजे कीवर्ड वापरून बुद्धिमान शोध, रशियन आणि इंग्रजी भाषांचे आकृतीशास्त्र तसेच विशिष्ट पैलूंवर माहिती ॲरे तयार करणे. त्याच वेळी, माहितीची मात्रा शेकडो गीगाबाइट्सपर्यंत पोहोचू शकते. हे मोठ्या माहितीच्या वस्तूंवर लक्ष केंद्रित करते - मीडिया संदेश आणि लेख, उद्योग प्रेस, नियामक दस्तऐवजीकरण, व्यवसाय पत्रव्यवहार आणि एंटरप्राइझच्या अंतर्गत दस्तऐवज प्रवाहाची सामग्री, इंटरनेटवरील माहिती. त्याच वेळी, सिस्टम निवडलेल्या डेटाच्या वस्तुनिष्ठ अर्थविषयक कनेक्शनचे विश्लेषण करण्यासाठी आणि समस्येची "प्रतिमा" तयार करण्यासाठी काही साधने प्रदान करते - संयोगाने वापरल्या जाणाऱ्या महत्त्वपूर्ण शब्दांच्या क्रमवारीच्या सूचीच्या स्वरूपात माहिती प्रवाहातील बहुआयामी मॉडेल. समस्येच्या विषयासह. अभ्यास केलेल्या समस्येच्या विकासाच्या गतिशीलतेतील ट्रेंड ओळखण्यासाठी सिस्टममध्ये बरेच लक्ष दिले जाते. सिस्टीममध्ये सामान्य स्वरूपांसाठी कन्व्हर्टर आहेत: साधा मजकूर, RTF, DOC, HTML. Galaktika-ZOOM Windows 2000 OS वातावरणात कार्य करते.

इन्फोस्ट्रीम

वेबवर सतत व्युत्पन्न होत असलेल्या मोठ्या डायनॅमिक माहिती ॲरेचे कव्हरेज आणि सामान्यीकरण यासाठी गुणात्मकरीत्या नवीन दृष्टिकोन आवश्यक आहेत. सामग्री विश्लेषणाच्या पद्धतीशी जवळून संबंधित असलेल्या माहिती संसाधनांचे परीक्षण करण्यासाठी पद्धती तयार करण्याची आवश्यकता आहे - सामग्री निरीक्षण. गुणात्मक आणि परिमाणवाचक डेटा प्राप्त करण्यासाठी, अशा प्रकारचे निरीक्षण अगोदर निर्धारित न केलेल्या कालावधीत सतत केले जाणे आवश्यक आहे. या समस्येचे निराकरण करण्यासाठी, युक्रेनमध्ये ELVISTI माहिती केंद्रात InfoStream™ तंत्रज्ञान विकसित केले गेले आहे. इन्फोस्ट्रीम सॉफ्टवेअर आणि तंत्रज्ञान साधनांमध्ये तीन मुख्य घटक समाविष्ट आहेत:

  • माहिती संकलन आणि प्रक्रिया केंद्र;
  • डेटाबेसमध्ये परस्पर प्रवेश आयोजित करण्यासाठी केंद्र;
  • सामग्री निरीक्षण केंद्र.

InfoStream कंटेंट प्रोसेसिंग मेकॅनिझमचा गाभा पूर्ण-मजकूर माहिती पुनर्प्राप्ती प्रणाली InfoReS आहे. तंत्रज्ञान तुम्हाला पूर्ण-मजकूर डेटाबेस तयार करण्यास आणि माहिती शोधण्याची, थीमॅटिक माहिती चॅनेल तयार करण्यास, माहितीचे आपोआप वर्गीकरण करण्यास, डायजेस्ट व्युत्पन्न करण्यास, संकल्पनांमधील संबंधांचे तक्ते (ऑनलाइन प्रकाशनांमधील त्यांच्या घटनेशी संबंधित), वजन मूल्यांच्या वितरणाचे हिस्टोग्राम तयार करण्यास अनुमती देते. वैयक्तिक संकल्पनांची, तसेच कालांतराने त्यांच्या घटनेची गतिशीलता. इन्फोस्ट्रीम तंत्रज्ञान तुम्हाला एमएस वर्ड (डीओसी, आरटीएफ), पीडीएफ आणि सर्व मजकूर फॉरमॅट्स (साधा मजकूर, एचटीएमएल, एक्सएमएल) मध्ये डेटावर प्रक्रिया करण्याची परवानगी देते. InfoStream वर आधारित प्रणाली सध्या खालील OS प्लॅटफॉर्मवर कार्यरत आहेत: FreeBDS, Linux, Solaris.

चला भविष्यात पाहूया

काही काळापूर्वी, यूएस सेंट्रल इंटेलिजेंस एजन्सीने, यूएस सेंट्रलच्या विज्ञान आणि तंत्रज्ञान संचालनालयाचा भाग असलेल्या, मजकूर, रेडिओ आणि टेलिव्हिजन प्रसारणांमध्ये माहिती शोधण्यासाठी वापरलेले "डेटा मायनिंग" तंत्रज्ञान सामान्य लोकांसमोर सादर केले इंटेलिजेंस एजन्सीने, लोकांसमोर तंत्रज्ञानाचे प्रात्यक्षिक केले " मजकूर डेटा मायनिंग, मोठ्या प्रमाणावर दस्तऐवजांमध्ये आणि विविध भाषांमधील रेडिओ आणि टेलिव्हिजन प्रसारणांमध्ये अर्थपूर्ण माहिती शोधण्यासाठी वापरली जाते. शोध पद्धतशीर आणि यादृच्छिक दोन्ही स्त्रोतांचा वापर करून केला जातो आणि शोध वस्तू मुद्रित प्रकाशनांमधील मजकूर आणि डिजिटल स्वरूपात, ग्राफिक प्रतिमा, 35 भाषांमधील ऑडिओ माहिती आहेत. ऑडिओ माहिती फिल्टर करण्यासाठी, "ओएसिस" तंत्र वापरले जाते, जे भाषण ओळखते आणि मजकूरात बदलते. त्याच वेळी, तंत्रज्ञानामुळे पुरुष आवाज महिलांपासून वेगळे करणे, तसेच वेगवेगळ्या लोकांचे आवाज वेगळे करणे आणि संवादांच्या स्वरूपात रेकॉर्ड करणे शक्य होते. "ओएसिस" तंत्र तुम्हाला ऑडिओ स्ट्रीममधून फक्त ते आवाज किंवा शोध सेटिंग्जमध्ये समाविष्ट केलेली विशिष्ट माहिती निवडण्याची परवानगी देते.

Fluent नावाचे दुसरे संगणक तंत्रज्ञान CIA युनिट्सना मजकूर दस्तऐवजांमध्ये माहिती शोधण्याची परवानगी देते. या तंत्रज्ञानामध्ये कीवर्ड शोध समाविष्ट आहे, जिथे इंग्रजीमध्ये एखादा शब्द किंवा संयोजन प्रविष्ट केला जातो, ज्याचा ताबडतोब इतर अनेक भाषांमध्ये अनुवाद केला जातो आणि विविध भाषांमधील डेटाबेसमधून सापडलेली माहिती स्वयंचलित भाषांतरानंतर संशोधकाकडे पाठविली जाते. दुसरा प्रोग्राम, टेक्स्ट डेटा मायनिंग, आपल्याला मजकूर दस्तऐवजांसाठी विषय अनुक्रमणिका स्वयंचलितपणे तयार करण्यास तसेच दस्तऐवजांमध्ये विशिष्ट शब्दांच्या वापराच्या वारंवारतेवर डेटा प्राप्त करण्यास अनुमती देतो. बेकायदेशीर आर्थिक व्यवहार आणि अंमली पदार्थांच्या तस्करीचा मागोवा घेण्यासाठी सीआयए आज या तंत्रज्ञानाचा वापर करते.

वर नमूद केलेले तंत्रज्ञान CIA च्या विज्ञान आणि तंत्रज्ञान संचालनालयाच्या प्रगत माहिती तंत्रज्ञान (AIT) विभागाद्वारे हाताळले जाते. एआयटी संचालक लॅरी फेअरचाइल्ड म्हणाले, "आम्ही येथे दररोज होणाऱ्या माहितीच्या स्फोटात राहण्यासाठी पुरेसे वेगाने वाढत नाही आहोत," आम्ही कर्मचाऱ्यांना मोठ्या प्रमाणात डेटावर प्रक्रिया करण्यात मदत करण्यासाठी त्यांना सुसज्ज करणे आवश्यक आहे. माशी."

साधनांच्या व्यावसायिक वापराच्या दृष्टीने मजकूर खाणसीआयए मक्तेदारापासून दूर आहे. विश्लेषणात्मक कंपनी IDC च्या अंदाजानुसार, पुढील 4-5 वर्षांत अशा कार्यक्रमांची मागणी लक्षणीय वाढेल. अशा प्रकारे, 2005 पर्यंत, अशा सॉफ्टवेअरचा नफा $540 दशलक्ष (2002 मध्ये) वरून दीड अब्ज डॉलर्सपर्यंत वाढण्याची अपेक्षा आहे. सापडलेल्या माहितीचे स्पष्ट विश्लेषण, माहिती शोधणे (एखाद्या विशिष्ट समस्येवर विखुरलेल्या प्रत्यक्ष आणि अप्रत्यक्ष माहितीचे निष्कर्ष), ट्रेंड आणि व्यक्ती, घटना, प्रक्रिया यांच्यातील संबंध ओळखण्याची क्षमता असलेल्या थीमॅटिक डॉसियरची निर्मिती आणि देखभाल यासारख्या संधी आधीच वापरल्या जातात. अनेक मोठ्या उद्योगांद्वारे आणि पुढे नक्कीच मागणी असेल.

2006 पर्यंत, या प्रकारचे कार्यक्रम कोणत्याही स्तरावरील कंपन्यांमधील ग्राहकांच्या माहितीच्या विश्लेषणात प्रबळ होतील, मग ते कॉल सेंटर्स, इंटरनेट एजन्सी किंवा विश्लेषणात्मक एजन्सी असोत, META ग्रुपचे पूर्वीचे तज्ज्ञ अलेसेंड्रो झानासी म्हणतात. एचआर विभाग निर्देशकांच्या जटिल ग्रिडशी जुळणारे रेझ्युमे शोधण्यासाठी मजकूर खाण कार्यक्रम वापरतील. आणि मार्केटिंग विभागांना अशा कार्यक्रमांसाठी बाजारातील परिस्थितीचे विश्लेषक, ट्रेंड ट्रॅकिंग, स्पर्धकांची स्थिती आणि माहिती आणि विविध स्त्रोतांवर आधारित इतर निर्देशकांचा उपयोग होईल - बातम्या फीड, संशोधन अहवाल, पुनरावलोकने, पेटंट.

डेटा विश्लेषण तंत्रज्ञान (टेक्स्ट मायनिंग, डेटा मायनिंग)

पर्यवेक्षक: बायंडिन निकोलाई इव्हानोविच.

शैक्षणिक संस्था: फेडरल स्टेट बजेटरी इन्स्टिट्यूट ऑफ हायर प्रोफेशनल एज्युकेशन "मॉस्को स्टेट युनिव्हर्सिटी ऑफ इकॉनॉमिक्स, स्टॅटिस्टिक्स अँड इन्फॉर्मेटिक्स (MESI)", मॉस्को

ज्याच्याकडे माहिती आहे तो जगाचा मालक आहे. आजकाल, सोशल मीडियाचे विश्लेषण आणि देखरेखीचे महत्त्व जास्त सांगणे कठीण आहे. जलद आणि यशस्वी व्यवसाय विकास आणि इंटरनेटवर प्रभावी जाहिरातीसाठी, या पायऱ्या फक्त आवश्यक आहेत.

आज, पूर्वी प्राप्त केलेल्या माहितीचे विश्लेषण करून नवीन ज्ञान प्राप्त करणे आणि जमा करणे यासंबंधी कार्ये अधिक लोकप्रिय होत आहेत. मोठे डेटा वेअरहाऊस आणि निर्णय समर्थन प्रणाली तयार करण्याची गरज आहे.

चला डेटा विश्लेषण तंत्रज्ञान जवळून पाहू.

डेटा विश्लेषणाची सर्वात आशादायक क्षेत्रे:

· मजकूर माहिती विश्लेषण

· डेटा खाण

1. मजकूर माहितीचे विश्लेषण मजकूर खनन

डेटाबेसमध्ये संग्रहित केलेल्या संरचित माहितीच्या विश्लेषणासाठी प्राथमिक प्रक्रिया आवश्यक आहे: डेटाबेस डिझाइन करणे, विशिष्ट नियमांनुसार माहिती प्रविष्ट करणे, त्यास विशेष संरचनांमध्ये ठेवणे (उदाहरणार्थ, रिलेशनल टेबल्स) इ. मजकूर दस्तऐवज मजकूराचे शब्दार्थ आणि घटकांमधील संबंध गमावल्याशिवाय सारणीबद्ध प्रतिनिधित्वात रूपांतरित करणे जवळजवळ अशक्य आहे. या कारणास्तव, असे दस्तऐवज मजकूर फील्ड (BLOB फील्ड) सारख्या परिवर्तनाशिवाय डेटाबेसमध्ये संग्रहित केले जातात. त्याच वेळी, मजकूरात मोठ्या प्रमाणात माहिती लपलेली आहे, परंतु त्याचे असंरचित स्वरूप डेटा मायनिंग अल्गोरिदम वापरण्याची परवानगी देत ​​नाही. ही समस्या अनस्ट्रक्चर्ड टेक्स्ट ॲनालिसिस (टेक्स्ट मायनिंग) च्या पद्धतींनी सोडवली जाते.

मजकूर खननची व्याख्या: मजकूर ज्ञान शोध ही असंरचित मजकूर डेटामध्ये खरोखर नवीन, संभाव्य उपयुक्त आणि समजण्यायोग्य नमुने शोधण्याची एक क्षुल्लक प्रक्रिया आहे. "असंरचित मजकूर डेटा" हा दस्तऐवजांचा एक संच आहे जो त्याच्या संरचनेवर (वेब ​​पृष्ठे, ईमेल, नियामक दस्तऐवज) कोणत्याही निर्बंधाशिवाय तार्किकदृष्ट्या एकत्रित मजकूराचे प्रतिनिधित्व करतो.

मजकूर दस्तऐवजांचे विश्लेषण करण्याची प्रक्रिया अनेक चरणांच्या क्रमाने दर्शविली जाऊ शकते:

माहितीसाठी शोधा. सर्वप्रथम, कोणत्या दस्तऐवजांचे विश्लेषण करणे आवश्यक आहे आणि प्रवेश करणे आवश्यक आहे हे समजून घेणे आवश्यक आहे. वापरकर्ते स्वतंत्रपणे - मॅन्युअली विश्लेषण करण्यासाठी कागदपत्रांचा संच परिभाषित करू शकतात.

कागदपत्रांची पूर्व-प्रक्रिया. आवश्यक फॉर्ममध्ये सादर करण्यासाठी कागदपत्रांवर आवश्यक परिवर्तने केली जातात. अनावश्यक शब्द काढून टाकणे आणि मजकूर अधिक कठोर स्वरूप देणे.

माहिती काढणे. विश्लेषणासाठी मुख्य संकल्पनांची ओळख.

मजकूर खाण पद्धतींचा वापर. ग्रंथांमध्ये उपस्थित नमुने आणि संबंध काढले जातात.

परिणामांची व्याख्या. नैसर्गिक भाषेत परिणामांचे सादरीकरण किंवा चित्रमय स्वरूपात त्यांचे व्हिज्युअलायझेशन.

दस्तऐवज पूर्व-प्रक्रिया

थांबे शब्द काढत आहे. स्टॉप शब्द हे असे शब्द आहेत जे सहाय्यक आहेत आणि दस्तऐवजाच्या सामग्रीबद्दल थोडी माहिती देतात.

स्टेमिंग - मॉर्फोलॉजिकल शोध. यात प्रत्येक शब्दाला त्याच्या सामान्य स्वरूपात रूपांतरित करणे समाविष्ट आहे.

एल-ग्राम हे मॉर्फोलॉजिकल पार्सिंग आणि शब्द काढणे थांबवण्याचा पर्याय आहे. ते आपल्याला मजकूर अधिक कठोर बनविण्याची परवानगी देतात, परंतु माहिती नसलेल्या शब्दांची संख्या कमी करण्याची समस्या सोडवत नाहीत;

केस रूपांतरण. या तंत्रामध्ये सर्व वर्णांना अप्पर किंवा लोअर केसमध्ये रूपांतरित करणे समाविष्ट आहे.

सर्वात प्रभावी म्हणजे सर्व पद्धतींचा एकत्रित वापर.

मजकूर खाण कार्ये

वर्गीकरण - एक किंवा अधिक पूर्वनिर्धारित श्रेण्यांच्या प्रत्येक दस्तऐवजाचे निर्धारण ज्यामध्ये हा दस्तऐवज संबंधित आहे, दिलेल्या निश्चित संचामध्ये शब्दार्थाप्रमाणे समान दस्तऐवजांच्या गटांची स्वयंचलित ओळख

स्वयंचलित भाष्य (सारांश) मजकूर लहान करणे आणि त्याचा अर्थ जतन करणे. परिणामामध्ये मजकूरातील सर्वात लक्षणीय वाक्ये समाविष्ट आहेत.

मुख्य संकल्पना निष्कर्षण (वैशिष्ट्य निष्कर्षण) - मजकूरातील तथ्ये आणि नातेसंबंधांची ओळख (संज्ञा आणि सामान्य संज्ञा: लोकांचे नाव आणि आडनाव, संस्थांची नावे इ.).

मजकूर-बेस नेव्हिगेशन - विशिष्ट विषय आणि अटींवरील दस्तऐवजांमधून फिरणे. हे मुख्य संकल्पना आणि त्यांच्यातील काही संबंध ओळखून केले जाते.

ट्रेंड ॲनालिसिस तुम्हाला ठराविक कालावधीत दस्तऐवजांच्या सेटमध्ये ट्रेंड ओळखण्याची परवानगी देते.

संघटना शोधा. दस्तऐवजांच्या दिलेल्या संचामध्ये, मुख्य संकल्पनांमधील सहयोगी संबंध ओळखले जातात.

सूचीबद्ध समस्यांचे बरेच प्रकार आहेत, तसेच त्यांचे निराकरण करण्याच्या पद्धती देखील आहेत. हे पुन्हा एकदा मजकूर विश्लेषणाचे महत्त्व पुष्टी करते.

मजकूर माहिती विश्लेषण साधनांची उदाहरणे:

ओरॅकल टूल्स - ओरॅकल टेक्स्ट2.

IBM कडील साधने - Text1 साठी इंटेलिजेंट मायनर

एसएएस इन्स्टिट्यूट टूल्स - टेक्स्ट मायनर

डेटा मायनिंग डेटा मायनिंग

बुद्धिमान डेटा विश्लेषण (इंग्रजी: डेटा मायनिंग, इतर भाषांतरे - “डेटा मायनिंग”, “डेटा उत्खनन”) - डेटा सेटमधील अंतर्निहित नमुन्यांची ओळख.

· बुद्धिमान विश्लेषणासाठी विशेष "बॉक्स्ड" सॉफ्टवेअर उत्पादने;

· गणिती पॅकेजेस;

· स्प्रेडशीट्स (आणि त्यांच्यावर विविध प्रकारचे ॲड-ऑन);

· डेटाबेस व्यवस्थापन प्रणाली (DBMS) मध्ये एकत्रित साधने;

· इतर सॉफ्टवेअर उत्पादने.

डेटा मायनिंग कार्ये:

वर्गीकरणाचे कार्य म्हणजे प्रत्येक वस्तूची श्रेणी आणि वर्ग निश्चित करणे.

अंकीय मूल्य निर्धारित करण्यासाठी नमुने शोधणे हा प्रतिगमनाचा उद्देश आहे.

संख्यात्मक अनुक्रमाच्या विद्यमान मूल्यांवर आधारित नवीन मूल्यांचा अंदाज लावण्याचे कार्य. ट्रेंड विचारात घेतले जातात.

मजकूर डेटा खाण विश्लेषण

क्लस्टरिंगचे कार्य म्हणजे समान पॅरामीटर्ससह ऑब्जेक्ट्सचा समूह (क्लस्टर) मध्ये विभाजित करणे. या प्रकरणात, वर्गीकरणाच्या विपरीत, क्लस्टर्सची संख्या आणि त्यांची वैशिष्ट्ये आधीच अज्ञात असू शकतात आणि पॅरामीटर्सच्या संचाच्या आधारावर एकत्रित वस्तूंच्या समीपतेच्या डिग्रीवर आधारित क्लस्टर्सच्या बांधकामादरम्यान निर्धारित केले जाऊ शकतात.

अनेक समान संचांमध्ये वारंवार घडणाऱ्या वस्तूंचे संच ओळखणे हे संबंध निश्चित करण्याचे कार्य आहे.

अनुक्रम विश्लेषण - घटनांच्या अनुक्रमांमध्ये नमुने शोधणे.

विचलन विश्लेषण - सर्वसामान्य प्रमाणापेक्षा भिन्न असलेल्या घटनांचा शोध.

डेटा मायनिंग समस्या सोडवण्याच्या पद्धतीवर आधारित, त्यांना दोन वर्गांमध्ये विभागले जाऊ शकते: पर्यवेक्षी शिक्षण आणि पर्यवेक्षित शिक्षण. पहिल्या प्रकरणात, प्रशिक्षण डेटा सेट आवश्यक आहे ज्यावर डेटा मायनिंग मॉडेल तयार केले जाते आणि प्रशिक्षित केले जाते. पूर्ण झालेल्या मॉडेलची चाचणी केली जाते आणि त्यानंतर नवीन डेटा सेटमधील मूल्यांचा अंदाज लावण्यासाठी वापरला जातो. दुसऱ्या प्रकरणात, विद्यमान डेटा सेटमध्ये विद्यमान नमुने ओळखणे हे लक्ष्य आहे.

निष्कर्ष

डेटा मायनिंग हे उपयोजित गणितातील सर्वात संबंधित आणि लोकप्रिय क्षेत्रांपैकी एक आहे. आधुनिक व्यवसाय आणि उत्पादन प्रक्रिया मोठ्या प्रमाणात डेटा व्युत्पन्न करतात, ज्यामुळे रनटाइममध्ये डायनॅमिकपणे बदलणाऱ्या डेटाचा मोठ्या प्रमाणात अर्थ लावणे आणि प्रतिसाद देणे लोकांना कठीण होत आहे. बहुआयामी, विषम, अपूर्ण, चुकीचे, विरोधाभासी, अप्रत्यक्ष डेटामधून जास्तीत जास्त उपयुक्त ज्ञान काढणे आवश्यक आहे. आणि सर्वात महत्त्वाचे म्हणजे, डेटा व्हॉल्यूम गीगाबाइट्स किंवा अगदी टेराबाइटमध्ये मोजला असल्यास हे कार्यक्षमतेने करा.

लोकांना माहितीच्या ओव्हरलोडपासून संरक्षण करणे, ऑपरेशनल डेटाला उपयुक्त माहितीमध्ये रूपांतरित करणे महत्वाचे आहे जेणेकरून योग्य वेळी योग्य कृती करता येतील.

वापरलेले साहित्य आणि इंटरनेट संसाधनांची यादी

1.एल.एम. मजकूर वर्गीकृत करण्यासाठी आणि सामग्रीची गुणवत्ता निश्चित करण्यासाठी एर्माकोवा पद्धती. बुलेटिन ऑफ पर्म युनिव्हर्सिटी 2011. UDC 004.912

3.

4.

5.

6.



आम्ही वाचण्याची शिफारस करतो

वर