मालवेअर हे अनाहूत किंवा धोकादायक प्रोग्राम आहेत जे...
नमस्कार, KtoNaNovenkogo.ru ब्लॉगच्या प्रिय वाचकांनो. आज आम्ही तुमच्याशी साइटवर आणि प्रोग्राममधील क्रॅक कोठून येतात, कोणते मजकूर एन्कोडिंग अस्तित्वात आहेत आणि कोणते वापरावे याबद्दल बोलू. मूलभूत ASCII, तसेच त्याच्या विस्तारित आवृत्त्या CP866, KOI8-R, Windows 1251 पासून सुरू होणाऱ्या आणि युनिकोड कन्सोर्टियम UTF 16 आणि 8 च्या आधुनिक एन्कोडिंगसह समाप्त होणाऱ्या, त्यांच्या विकासाचा इतिहास जवळून पाहू. सामग्री सारणी:
- Asuka च्या विस्तारित आवृत्त्या - CP866 आणि KOI8-R एन्कोडिंग
- Windows 1251 - ASCII भिन्नता आणि का krakozyabry बाहेर येतात
ASCII - लॅटिन वर्णमाला साठी मूलभूत मजकूर एन्कोडिंग
आयटी उद्योगाच्या निर्मितीसह मजकूर एन्कोडिंगचा विकास एकाच वेळी झाला आणि या काळात त्यांनी बरेच बदल केले. ऐतिहासिकदृष्ट्या, हे सर्व EBCDIC सह सुरू झाले, जे रशियन उच्चारांमध्ये ऐवजी असंगत होते, ज्यामुळे अक्षरे एन्कोड करणे शक्य झाले. लॅटिन वर्णमाला, नियंत्रण वर्णांसह अरबी अंक आणि विरामचिन्हे. परंतु तरीही, आधुनिक मजकूर एन्कोडिंगच्या विकासाचा प्रारंभिक बिंदू प्रसिद्ध मानला पाहिजे ASCII(अमेरिकन मानक साठी कोड माहिती अदलाबदल, जे रशियन भाषेत सहसा "आस्की" म्हणून उच्चारले जाते). हे इंग्रजी भाषिक वापरकर्त्यांद्वारे सामान्यतः वापरल्या जाणाऱ्या पहिल्या 128 वर्णांचे वर्णन करते - लॅटिन अक्षरे, अरबी अंक आणि विरामचिन्हे. ASCII मध्ये वर्णन केलेल्या या 128 वर्णांमध्ये काही समाविष्ट आहेत सेवा वर्णजसे ब्रॅकेट, हॅश मार्क्स, तारका इ. खरं तर, आपण त्यांना स्वतः पाहू शकता:ASCII च्या मूळ आवृत्तीतील हे 128 वर्ण मानक बनले आहेत आणि इतर कोणत्याही एन्कोडिंगमध्ये तुम्हाला ते नक्कीच सापडतील आणि ते या क्रमाने दिसतील. परंतु वस्तुस्थिती अशी आहे की माहितीच्या एका बाइटसह तुम्ही १२८ नव्हे तर २५६ भिन्न मूल्ये एन्कोड करू शकता (दोन ते आठची शक्ती २५६ इतकी आहे), त्यामुळे खालील मूलभूत आवृत्तीअसुकांची संपूर्ण मालिका दिसू लागली विस्तारित ASCII एन्कोडिंग, ज्यामध्ये, 128 मूलभूत वर्णांव्यतिरिक्त, राष्ट्रीय एन्कोडिंगची चिन्हे एन्कोड करणे देखील शक्य होते (उदाहरणार्थ, रशियन). येथे, वर्णनात वापरल्या जाणाऱ्या संख्या प्रणालींबद्दल थोडे अधिक सांगणे योग्य आहे. सर्वप्रथम, जसे की आपणा सर्वांना माहिती आहे की, संगणक केवळ बायनरी प्रणालीमधील संख्यांसह कार्य करतो, म्हणजे शून्य आणि एक (“ बुलियन बीजगणित"जर कोणी कॉलेज किंवा शाळेत गेले असेल तर). एका बाइटमध्ये आठ बिट्स असतात, त्यातील प्रत्येक पॉवर दोनची असते, शून्यापासून सुरू होते आणि दोन ते सातव्या पॉवरने समाप्त होते:
प्रत्येकाला हे समजणे अवघड नाही संभाव्य संयोजनअशा बांधकामात फक्त 256 शून्य आणि एक असू शकतात बायनरी प्रणालीदशांश ते अगदी सोपे आहे. तुम्हाला फक्त दोनच्या सर्व शक्ती त्यांच्या वरील बरोबर जोडणे आवश्यक आहे. आमच्या उदाहरणात, हे 1 (शून्य ची 2 ची घात) अधिक 8 (दोन ची 3 ची घात), अधिक 32 (दोन ची पाचवी घात), अधिक 64 (सहाव्या घाताची), अधिक 128 असे निघते. (सातव्या शक्तीकडे). एकूण 233 इंच दशांश प्रणालीहिशेब जसे आपण पाहू शकता, सर्वकाही अगदी सोपे आहे. परंतु जर तुम्ही ASCII अक्षरांसह सारणीकडे बारकाईने पाहिले तर तुम्हाला ते हेक्साडेसिमल एन्कोडिंगमध्ये दर्शविले गेले असल्याचे दिसेल. उदाहरणार्थ, आस्कीमध्ये "तारांकित" जुळते हेक्साडेसिमल संख्या 2A. तुम्हाला कदाचित हे माहित असेल की हेक्साडेसिमल प्रणाली A (म्हणजे दहा) ते F (म्हणजे पंधरा) अरबी अंक आणि लॅटिन अक्षरांव्यतिरिक्त संख्या वापरली जातात. बरं मग, साठी भाषांतर बायनरी संख्याहेक्साडेसिमल पर्यंतखालील सोप्या आणि स्पष्ट पद्धतीचा अवलंब करा. वरील स्क्रीनशॉटमध्ये दाखवल्याप्रमाणे माहितीचा प्रत्येक बाइट चार बिट्सच्या दोन भागात विभागलेला आहे. ते. प्रत्येक अर्ध्या बाइटमध्ये बायनरी कोडफक्त सोळा मूल्ये एन्कोड केली जाऊ शकतात (दोन ते चौथ्या पॉवर), जी सहजपणे हेक्साडेसिमल संख्या म्हणून दर्शविली जाऊ शकतात. शिवाय, बाइटच्या डाव्या अर्ध्या भागात, स्क्रीनशॉटमध्ये दर्शविल्याप्रमाणे नाही, शून्यापासून प्रारंभ करून अंश पुन्हा मोजणे आवश्यक आहे. परिणामी, साध्या गणनेद्वारे, आम्हाला मिळते की स्क्रीनशॉटमध्ये E9 क्रमांक एन्कोड केलेला आहे. मला आशा आहे की माझ्या युक्तिवादाचा मार्ग आणि या कोडेचे निराकरण तुम्हाला स्पष्ट झाले असेल. बरं, आता मजकूर एन्कोडिंगबद्दल बोलूया.
Asuka च्या विस्तारित आवृत्त्या - CP866 आणि KOI8-R स्यूडोग्राफिक्ससह एन्कोडिंग
म्हणून, आम्ही ASCII बद्दल बोलू लागलो, जो होता, सर्व आधुनिक एन्कोडिंगच्या विकासाचा प्रारंभिक बिंदू (Windows 1251, Unicode, UTF 8). सुरुवातीला, त्यात लॅटिन वर्णमाला, अरबी अंक आणि इतर काही केवळ 128 वर्ण होते, परंतु विस्तारित आवृत्तीमध्ये माहितीच्या एका बाइटमध्ये एन्कोड केलेली सर्व 256 मूल्ये वापरणे शक्य झाले. त्या. आस्कीमध्ये तुमच्या भाषेतील अक्षरांची चिन्हे जोडणे शक्य झाले. येथे स्पष्ट करण्यासाठी आपल्याला पुन्हा विषयांतर करावे लागेल - आम्हाला मजकूर एन्कोडिंगची अजिबात गरज का आहे?आणि ते इतके महत्वाचे का आहे. तुमच्या संगणकाच्या स्क्रीनवरील वर्ण दोन गोष्टींच्या आधारे तयार होतात - सर्व प्रकारच्या वर्णांचे व्हेक्टर आकार (प्रतिनिधित्व) संच (ते तुमच्या संगणकावर स्थापित केलेल्या फॉन्टसह फाइल्समध्ये असतात) आणि कोड जो तुम्हाला अचूकपणे बाहेर काढू देतो. व्हेक्टर आकार (फॉन्ट फाईल) च्या या संचातून योग्य ठिकाणी घालणे आवश्यक आहे. हे स्पष्ट आहे की व्हेक्टर आकारांसाठी फॉन्ट स्वतः जबाबदार आहेत, परंतु ऑपरेटिंग सिस्टम आणि त्यात वापरलेले प्रोग्राम एन्कोडिंगसाठी जबाबदार आहेत. त्या. तुमच्या संगणकावरील कोणताही मजकूर हा बाइट्सचा संच असेल, ज्यापैकी प्रत्येक या मजकुराचा एक एकल वर्ण एन्कोड करतो. हा मजकूर स्क्रीनवर प्रदर्शित करणारा प्रोग्राम (टेक्स्ट एडिटर, ब्राउझर इ.), कोड पार्स करताना, पुढील वर्णाचे एन्कोडिंग वाचतो आणि संबंधित वेक्टर फॉर्म शोधतो. आवश्यक फाइलहा मजकूर दस्तऐवज प्रदर्शित करण्यासाठी जोडलेला फॉन्ट. सर्व काही साधे आणि सामान्य आहे. याचा अर्थ असा की आम्हाला आवश्यक असलेले कोणतेही वर्ण एन्कोड करण्यासाठी (उदाहरणार्थ, राष्ट्रीय वर्णमालावरून), दोन अटी पूर्ण केल्या पाहिजेत - या वर्णाचा वेक्टर फॉर्म वापरलेल्या फॉन्टमध्ये असणे आवश्यक आहे आणि हे वर्ण विस्तारित ASCII एन्कोडिंगमध्ये एन्कोड केले जाऊ शकते. एक बाइट. म्हणून, असे पर्याय अस्तित्वात आहेत संपूर्ण घड. फक्त रशियन भाषेतील वर्ण एन्कोड करण्यासाठी, विस्तारित आस्काचे अनेक प्रकार आहेत. उदाहरणार्थ, मूळतः दिसू लागले CP866, ज्यामध्ये रशियन वर्णमालेतील वर्ण वापरण्याची क्षमता होती आणि ती ASCII ची विस्तारित आवृत्ती होती. त्या. तिला वरचा भागअसुका (128 लॅटिन वर्ण, संख्या आणि इतर बकवास) च्या मूळ आवृत्तीशी पूर्णपणे जुळते, जे अगदी वरच्या स्क्रीनशॉटमध्ये सादर केले आहे, परंतु आता तळाचा भाग CP866 एन्कोडिंगसह टेबल्समध्ये फक्त खाली स्क्रीनशॉटमध्ये दर्शविलेले फॉर्म होते आणि तुम्हाला आणखी 128 वर्ण (रशियन अक्षरे आणि सर्व प्रकारचे स्यूडो-ग्राफिक्स) एन्कोड करण्याची परवानगी दिली:तुम्ही पहा, उजव्या स्तंभात संख्या 8 ने सुरू होते, कारण... 0 ते 7 पर्यंतची संख्या ASCII च्या मूलभूत भागाचा संदर्भ देते (पहिला स्क्रीनशॉट पहा). ते. CP866 मधील रशियन अक्षर “M” मध्ये कोड 9C असेल (हे 9 सह संबंधित ओळीच्या छेदनबिंदूवर स्थित आहे आणि हेक्साडेसिमल क्रमांक प्रणालीमधील क्रमांक C सह स्तंभ), जे माहितीच्या एका बाइटमध्ये लिहिले जाऊ शकते, आणि जर उपलब्ध योग्य फॉन्टरशियन वर्णांसह, हे पत्र कोणत्याही समस्येशिवाय मजकूरात दिसेल. ही रक्कम कुठून आली? CP866 मध्ये स्यूडोग्राफिक्स? संपूर्ण मुद्दा असा आहे की रशियन मजकूरासाठी हे एन्कोडिंग त्या खडबडीत वर्षांमध्ये विकसित केले गेले होते जेव्हा ग्राफिकल ऑपरेटिंग सिस्टम आता आहेत तितक्या व्यापक नव्हत्या. आणि डोसा आणि तत्सम मजकूर ऑपरेटिंग सिस्टीममध्ये, स्यूडोग्राफिक्सने किमान कोणत्याही प्रकारे मजकूरांच्या डिझाइनमध्ये विविधता आणणे शक्य केले आणि म्हणून CP866 आणि असुकाच्या विस्तारित आवृत्त्यांच्या श्रेणीतील इतर सर्व समवयस्क त्यात विपुल आहेत. CP866 IBM द्वारे वितरीत केले गेले, परंतु या व्यतिरिक्त, रशियन भाषेतील वर्णांसाठी अनेक एन्कोडिंग विकसित केले गेले, उदाहरणार्थ, समान प्रकार (विस्तारित ASCII) श्रेय दिले जाऊ शकतात. KOI8-R:
त्याच्या ऑपरेशनचे सिद्धांत थोडे पूर्वी वर्णन केलेल्या CP866 प्रमाणेच राहते - मजकूराचे प्रत्येक वर्ण एका सिंगल बाइटद्वारे एन्कोड केलेले आहे. स्क्रीनशॉट KOI8-R सारणीचा दुसरा भाग दर्शवितो, कारण पूर्वार्ध मूलभूत असुकाशी पूर्णपणे सुसंगत आहे, जो या लेखातील पहिल्या स्क्रीनशॉटमध्ये दर्शविला आहे. KOI8-R एन्कोडिंगच्या वैशिष्ट्यांपैकी, हे लक्षात घेतले जाऊ शकते की त्याच्या टेबलमधील रशियन अक्षरे आत जात नाहीत. वर्णक्रमानुसार, उदाहरणार्थ, त्यांनी CP866 मध्ये केले. जर तुम्ही पहिला स्क्रीनशॉट पाहिला (मूलभूत भागाचा, जो सर्व विस्तारित एन्कोडिंगमध्ये समाविष्ट आहे), तुमच्या लक्षात येईल की KOI8-R मध्ये रशियन अक्षरे टेबलच्या समान सेलमध्ये लॅटिन वर्णमालाच्या संबंधित अक्षरे आहेत. टेबलच्या पहिल्या भागापासून. हे फक्त एक बिट (दोन ते सातव्या पॉवर किंवा 128) टाकून रशियनमधून लॅटिन वर्णांवर स्विच करण्याच्या सोयीसाठी केले गेले.
Windows 1251 - ASCII ची आधुनिक आवृत्ती आणि क्रॅक का बाहेर येतात
मजकूर एन्कोडिंगचा पुढील विकास या वस्तुस्थितीमुळे झाला की ग्राफिकल ऑपरेटिंग सिस्टम लोकप्रिय होत आहेत आणि त्यामध्ये स्यूडोग्राफिक्स वापरण्याची आवश्यकता कालांतराने नाहीशी झाली. परिणामी, एक संपूर्ण गट असा निर्माण झाला की, मूलत: अजूनही असुकाच्या विस्तारित आवृत्त्या होत्या (मजकूराचा एक वर्ण माहितीच्या एका बाइटसह एन्कोड केलेला आहे), परंतु स्यूडोग्राफिक चिन्हे वापरल्याशिवाय. ते तथाकथित लोकांचे होते ANSI एन्कोडिंग, जे अमेरिकन स्टँडर्ड्स इन्स्टिट्यूटने विकसित केले होते. सामान्य भाषेत, रशियन भाषेच्या समर्थनासह आवृत्तीसाठी सिरिलिक नाव देखील वापरले गेले. याचे उदाहरण देता येईल विंडोज 1251. हे पूर्वी वापरलेल्या CP866 आणि KOI8-R पेक्षा अनुकूलपणे भिन्न आहे कारण त्यात स्यूडोग्राफिक चिन्हांची जागा रशियन टायपोग्राफीच्या गहाळ चिन्हे (उच्चार चिन्ह वगळता) तसेच जवळच्या स्लाव्हिक भाषांमध्ये वापरल्या जाणाऱ्या चिन्हांनी घेतली होती. रशियन (युक्रेनियन, बेलारूसी इ.):रशियन भाषेच्या एन्कोडिंगच्या अशा विपुलतेमुळे, फॉन्ट उत्पादक आणि उत्पादक सॉफ्टवेअरडोकेदुखी सतत उद्भवली, आणि तुम्ही आणि मी, प्रिय वाचक, अनेकदा तेच कुप्रसिद्ध झाले krakozyabryजेव्हा मजकूरात वापरलेल्या आवृत्तीमध्ये गोंधळ होता. द्वारे संदेश पाठवताना आणि प्राप्त करताना ते बरेचदा दिसू लागले ईमेल, ज्याने अतिशय जटिल रूपांतरण तक्त्या तयार केल्या आहेत, जे खरं तर, या समस्येचे निराकरण करण्यात मूलभूतपणे अक्षम होते आणि बहुतेकदा वापरकर्ते पत्रव्यवहारासाठी लॅटिन अक्षरांचे लिप्यंतरण वापरतात जेणेकरुन रशियन एन्कोडिंग जसे की CP866, KOI8- वापरताना कुख्यात नौटंकी टाळण्यासाठी. R किंवा Windows 1251 खरेतर, रशियन मजकुराऐवजी दिसणारे krakozyabrs हे एन्कोडिंगच्या चुकीच्या वापराचे परिणाम होते. या भाषेचा, जे एन्कोड केलेले एकाशी जुळत नाही मजकूर संदेशसुरुवातीला उदाहरणार्थ, जर तुम्ही कोड वापरून CP866 वापरून एन्कोड केलेले वर्ण प्रदर्शित करण्याचा प्रयत्न केला विंडोज टेबल 1251, नंतर संदेशाचा मजकूर पूर्णपणे पुनर्स्थित करून, तेच गब्बरिश (अर्थहीन वर्णांचा संच) बाहेर येतील. वेबसाइट, फोरम किंवा ब्लॉग तयार करताना आणि सेट करताना अशीच परिस्थिती उद्भवते, जेव्हा रशियन अक्षरांसह मजकूर चुकीने साइटवर डीफॉल्टनुसार वापरल्या जाणाऱ्या चुकीच्या एन्कोडिंगमध्ये किंवा चुकीच्या एन्कोडिंगमध्ये जतन केला जातो. मजकूर संपादक, जे उघड्या डोळ्यांना न दिसणाऱ्या कोडमध्ये गॅग जोडते. सरतेशेवटी, पुष्कळ लोक या परिस्थितीला पुष्कळ एन्कोडिंगसह कंटाळले आणि सतत बकवास बाहेर काढले, आणि एक नवीन सार्वभौमिक भिन्नता तयार करण्यासाठी पूर्व-आवश्यकता दिसू लागली जी सर्व विद्यमान बदलांना पुनर्स्थित करेल आणि शेवटी देखाव्यासह समस्या सोडवेल. न वाचता येणारे मजकूर. याव्यतिरिक्त, चीनी सारख्या भाषांची समस्या होती, जिथे 256 पेक्षा जास्त भाषा वर्ण होते.
युनिकोड - युनिव्हर्सल एन्कोडिंग्स UTF 8, 16 आणि 32
आग्नेय आशियाई भाषा गटातील या हजारो वर्णांचे वर्णन ASCII च्या विस्तारित आवृत्त्यांमध्ये वर्ण एन्कोडिंगसाठी वाटप केलेल्या माहितीच्या एका बाइटमध्ये केले जाऊ शकत नाही. परिणामी, एक कन्सोर्टियम तयार केले गेले युनिकोड(युनिकोड - युनिकोड कन्सोर्टियम) अनेक आयटी उद्योगातील नेत्यांच्या सहकार्याने (जे सॉफ्टवेअर तयार करतात, हार्डवेअर एन्कोड करतात, जे फॉन्ट तयार करतात), ज्यांना सार्वत्रिक मजकूर एन्कोडिंगच्या उदयामध्ये रस होता. युनिकोड कन्सोर्टियमच्या आश्रयाने प्रसिद्ध झालेला पहिला प्रकार होता UTF 32. एन्कोडिंग नावातील संख्या म्हणजे एक वर्ण एन्कोड करण्यासाठी वापरल्या जाणाऱ्या बिट्सची संख्या. नवीन युनिव्हर्सल UTF एन्कोडिंगमध्ये एक एकल वर्ण एन्कोड करण्यासाठी आवश्यक असणाऱ्या माहितीच्या 4 बाइट्सच्या बरोबरीचे 32 बिट. परिणामी, ASCII च्या विस्तारित आवृत्तीमध्ये आणि UTF-32 मध्ये एन्कोड केलेली मजकूर असलेली समान फाइल, नंतरच्या बाबतीत, आकार (वजन) चारपट मोठा असेल. हे वाईट आहे, परंतु आता आमच्याकडे YTF वापरून दोन ते बत्तीस-सेकंद पॉवरच्या बरोबरीच्या अक्षरांची संख्या एन्कोड करण्याची संधी आहे ( अब्जावधी वर्ण, जे कोणत्याही वास्तविक कव्हर करेल आवश्यक मूल्यएक प्रचंड राखीव सह). परंतु युरोपियन गटाच्या भाषा असलेल्या अनेक देशांसाठी हे आहे प्रचंड रक्कमएन्कोडिंगमध्ये अक्षरे वापरण्याची अजिबात गरज नव्हती, परंतु जेव्हा UTF-32 वापरला गेला तेव्हा त्यांच्या वजनात चौपट वाढ झाली नसती. मजकूर दस्तऐवज, आणि परिणामी, इंटरनेट ट्रॅफिकचे प्रमाण आणि संग्रहित डेटाचे प्रमाण वाढले आहे. हे खूप आहे आणि कोणीही असा कचरा घेऊ शकत नाही. युनिकोडच्या विकासाचा परिणाम म्हणून, UTF-16, जे इतके यशस्वी ठरले की ते आम्ही वापरत असलेल्या सर्व वर्णांसाठी मूलभूत जागा म्हणून डीफॉल्टनुसार स्वीकारले गेले. एक वर्ण एन्कोड करण्यासाठी ते दोन बाइट्स वापरते. ही गोष्ट कशी दिसते ते पाहूया. विंडोज ऑपरेटिंग सिस्टममध्ये, तुम्ही “प्रारंभ” - “प्रोग्राम” - “ॲक्सेसरीज” - “सिस्टम टूल्स” - “कॅरेक्टर टेबल” या मार्गाचे अनुसरण करू शकता. परिणामी, तुमच्या सिस्टमवर स्थापित केलेल्या सर्व फॉन्टच्या वेक्टर आकारांसह एक टेबल उघडेल. आपण "मध्ये निवडल्यास अतिरिक्त पर्याय» युनिकोड वर्णांचा संच, आपण प्रत्येक फॉन्टसाठी त्यात समाविष्ट केलेली वर्णांची संपूर्ण श्रेणी स्वतंत्रपणे पाहू शकता. तसे, त्यापैकी कोणत्याही वर क्लिक करून, आपण त्याचे दोन-बाइट पाहू शकता UTF-16 फॉरमॅटमध्ये कोड, चार हेक्साडेसिमल अंकांचा समावेश आहे: UTF-16 मध्ये 16 बिट्स वापरून किती वर्ण एन्कोड केले जाऊ शकतात? 65,536 (दोन ते सोळा च्या पॉवर), आणि ही संख्या आहे जी युनिकोडमध्ये बेस स्पेस म्हणून स्वीकारली गेली. याव्यतिरिक्त, ते वापरून सुमारे दोन दशलक्ष वर्ण एन्कोड करण्याचे मार्ग आहेत, परंतु ते मजकूराच्या दशलक्ष वर्णांच्या विस्तारित जागेपर्यंत मर्यादित होते. परंतु युनिकोड एन्कोडिंगच्या या यशस्वी आवृत्तीने देखील ज्यांनी लिहिले त्यांना फारसे समाधान मिळाले नाही, उदाहरणार्थ, फक्त प्रोग्राम्स इंग्रजी, कारण ASCII च्या विस्तारित आवृत्तीपासून UTF-16 मध्ये संक्रमण झाल्यानंतर, दस्तऐवजांचे वजन दुप्पट झाले (Aski मध्ये प्रति वर्ण एक बाइट आणि UTF-16 मध्ये समान वर्णासाठी दोन बाइट). युनिकोड कन्सोर्टियममधील सर्वांच्या आणि सर्वांच्या समाधानासाठी हे निश्चितपणे ठरवले गेले. एन्कोडिंगसह यापरिवर्तनीय लांबी. त्याला UTF-8 असे म्हणतात. शीर्षकात आठ असूनही ते खरोखरच आहे परिवर्तनीय लांबी, म्हणजे मजकूराचा प्रत्येक वर्ण एक ते सहा बाइट लांबीच्या अनुक्रमात एन्कोड केला जाऊ शकतो. व्यवहारात, UTF-8 फक्त एक ते चार बाइट्सची श्रेणी वापरते, कारण कोडच्या चार बाइट्सच्या पलीकडे कोणत्याही गोष्टीची कल्पना करणे देखील सैद्धांतिकदृष्ट्या शक्य नाही. त्यातील सर्व लॅटिन अक्षरे एका बाइटमध्ये एन्कोड केलेली आहेत, अगदी जुन्या ASCII प्रमाणे. लक्षात घेण्यासारखे आहे की केवळ लॅटिन वर्णमाला एन्कोड करण्याच्या बाबतीत, युनिकोड न समजणारे प्रोग्राम देखील YTF-8 मध्ये एन्कोड केलेले काय वाचतील. त्या. असुकाचा मुख्य भाग युनिकोड कन्सोर्टियमच्या या निर्मितीमध्ये हस्तांतरित करण्यात आला. UTF-8 मधील सिरिलिक वर्ण दोन बाइट्समध्ये एन्कोड केलेले आहेत आणि उदाहरणार्थ, जॉर्जियन वर्ण - तीन बाइट्समध्ये. युनिकोड कन्सोर्टियमने, UTF 16 आणि 8 तयार केल्यानंतर, मुख्य समस्या सोडवली - आता आमच्याकडे आहे फॉन्टमध्ये एकच कोड स्पेस आहे. आणि आता त्यांचे उत्पादक त्यांच्या सामर्थ्य आणि क्षमतांवर आधारित मजकूर वर्णांच्या वेक्टर फॉर्मसह ते भरू शकतात. अगदी वर दिलेल्या "प्रतीक तक्त्या" मध्ये, ते पाहिले जाऊ शकते भिन्न फॉन्टसमर्थन विविध प्रमाणातचिन्हे काही युनिकोड-समृद्ध फॉन्ट खूप भारी असू शकतात. परंतु आता ते भिन्न एन्कोडिंगसाठी तयार केले गेले आहेत या वस्तुस्थितीत भिन्न नाहीत, परंतु फॉन्ट निर्मात्याने विशिष्ट वेक्टर फॉर्मसह एकल कोड जागा भरली आहे किंवा पूर्णपणे भरली नाही.रशियन अक्षरांऐवजी वेडे शब्द - ते कसे सोडवायचे
आता मजकुराऐवजी krakozyabrs कसे दिसतात किंवा दुसऱ्या शब्दांत, रशियन मजकूरासाठी योग्य एन्कोडिंग कसे निवडले जाते ते पाहू या. वास्तविक, तो ज्या प्रोग्राममध्ये तुम्ही हा मजकूर तयार किंवा संपादित करता, किंवा मजकूराच्या तुकड्यांचा वापर करून कोड सेट केला आहे. संपादन आणि तयार करण्यासाठी मजकूर फाइल्सवैयक्तिकरित्या, मी माझ्या मते, Html आणि PHP संपादक Notepad++ वापरतो. तथापि, ते इतर शेकडो प्रोग्रामिंग आणि मार्कअप भाषांचे वाक्यरचना हायलाइट करू शकते आणि प्लगइन वापरून विस्तारित करण्याची क्षमता देखील आहे. वाचा तपशीलवार पुनरावलोकनहे अप्रतिम कार्यक्रमदिलेल्या लिंकद्वारे. IN शीर्ष मेनू Notepad++ मध्ये एक "एनकोडिंग" आयटम आहे, जिथे तुम्हाला तुमच्या साइटवर डीफॉल्टनुसार वापरल्या जाणाऱ्या विद्यमान पर्यायामध्ये रूपांतरित करण्याची संधी असेल:जूमला 1.5 आणि त्यावरील साइटच्या बाबतीत, तसेच वर्डप्रेसवरील ब्लॉगच्या बाबतीत, तुम्ही क्रॅक दिसणे टाळण्यासाठी पर्याय निवडावा. UTF 8 BOM शिवाय. BOM उपसर्ग काय आहे? वस्तुस्थिती अशी आहे की जेव्हा ते YUTF-16 एन्कोडिंग विकसित करत होते, तेव्हा काही कारणास्तव त्यांनी थेट अनुक्रमात (उदाहरणार्थ, 0A15) आणि उलट (150A) दोन्ही वर्ण कोड लिहिण्याची क्षमता यासारखी गोष्ट जोडण्याचा निर्णय घेतला. . आणि कोड्स कोणत्या क्रमाने वाचायचे हे प्रोग्राम्सला समजण्यासाठी, त्याचा शोध लावला गेला BOM(बाइट ऑर्डर मार्क किंवा, दुसऱ्या शब्दांत, स्वाक्षरी), जे कागदपत्रांच्या अगदी सुरुवातीस तीन अतिरिक्त बाइट जोडून व्यक्त केले गेले. UTF-8 एन्कोडिंगमध्ये, युनिकोड कन्सोर्टियममध्ये कोणतेही BOM प्रदान केले गेले नाहीत आणि म्हणून स्वाक्षरी जोडणे (दस्तऐवजाच्या सुरूवातीस ते कुख्यात अतिरिक्त तीन बाइट्स) काही प्रोग्राम्सना कोड वाचण्यापासून प्रतिबंधित करते. म्हणून, UTF मध्ये फाइल्स सेव्ह करताना, आम्ही नेहमी BOM शिवाय (स्वाक्षरीशिवाय) पर्याय निवडला पाहिजे. त्यामुळे तुम्ही आगाऊ आहात क्रॉलिंग क्रॅकोझ्याबर्सपासून स्वतःचे संरक्षण करा. लक्षात घेण्यासारखे आहे की विंडोजमधील काही प्रोग्राम्स हे करू शकत नाहीत (ते बीओएमशिवाय यूटीएफ -8 मध्ये मजकूर जतन करू शकत नाहीत), उदाहरणार्थ, समान कुख्यात विंडोज नोटपॅड. हे दस्तऐवज UTF-8 मध्ये सेव्ह करते, परंतु तरीही त्याच्या सुरुवातीला स्वाक्षरी (तीन अतिरिक्त बाइट) जोडते. शिवाय, हे बाइट्स नेहमी सारखेच असतील - कोड थेट क्रमाने वाचा. परंतु सर्व्हरवर, या छोट्या गोष्टीमुळे, एक समस्या उद्भवू शकते - बदमाश बाहेर येतील. म्हणून, कोणत्याही परिस्थितीत नियमित वापरू नका विंडोज नोटपॅड तुमच्या साइटवरील दस्तऐवज संपादित करण्यासाठी तुम्हाला कोणतीही क्रॅक दिसण्याची इच्छा नसल्यास. सर्वोत्तम आणि सर्वात साधा पर्यायमला वाटते आधीच उल्लेख केला आहे नोटपॅड संपादक++, ज्याचे व्यावहारिकदृष्ट्या कोणतेही तोटे नाहीत आणि केवळ फायदे आहेत. Notepad++ मध्ये, जेव्हा तुम्ही एन्कोडिंग निवडता, तेव्हा तुमच्याकडे मजकूर UCS-2 एन्कोडिंगमध्ये रूपांतरित करण्याचा पर्याय असेल, जो युनिकोड मानकाच्या अगदी जवळ आहे. तसेच नोटपॅडमध्ये एएनएसआयमधील मजकूर एन्कोड करणे शक्य होईल, म्हणजे. रशियन भाषेच्या संदर्भात, हे Windows 1251 असेल, ज्याचे आम्ही आधीच वर्णन केले आहे की ही माहिती कोठून येते? हे तुमच्या ऑपरेटिंग रूमच्या नोंदणीमध्ये नोंदणीकृत आहे विंडोज सिस्टम्स- ANSI च्या बाबतीत कोणते एन्कोडिंग निवडायचे, OEM च्या बाबतीत कोणते निवडायचे (रशियन भाषेसाठी ते CP866 असेल). तुम्ही तुमच्या संगणकावर दुसरी डीफॉल्ट भाषा सेट केल्यास, ही एन्कोडिंग्स त्याच भाषेसाठी ANSI किंवा OEM श्रेणीतील तत्सम भाषांसह बदलली जातील. तुम्ही दस्तऐवज Notepad++ मध्ये तुम्हाला आवश्यक असलेल्या एन्कोडिंगमध्ये सेव्ह केल्यानंतर किंवा संपादनासाठी साइटवरून दस्तऐवज उघडल्यानंतर, तुम्ही त्याचे नाव संपादकाच्या खालच्या उजव्या कोपर्यात पाहू शकता: rednecks टाळण्यासाठी, वर वर्णन केलेल्या क्रियांव्यतिरिक्त, हेडरमध्ये लिहिणे उपयुक्त ठरेल स्रोत कोडया एन्कोडिंगबद्दल साइटची सर्व पृष्ठे माहिती, जेणेकरून सर्व्हर किंवा स्थानिक होस्टवर कोणताही गोंधळ होणार नाही. सर्वसाधारणपणे, सर्व भाषांमध्ये हायपरटेक्स्ट मार्कअप Html व्यतिरिक्त, एक विशेष xml घोषणा वापरली जाते, जी मजकूर एन्कोडिंग दर्शवते.< ? xml version= "1.0" encoding= "windows-1251" ? >कोड पार्स करण्यापूर्वी, ब्राउझरला माहित असते की कोणती आवृत्ती वापरली जात आहे आणि त्या भाषेच्या अक्षर कोडचा नेमका अर्थ कसा लावायचा आहे. परंतु लक्षात घेण्याजोगा गोष्ट म्हणजे जर तुम्ही दस्तऐवज डीफॉल्ट युनिकोडमध्ये सेव्ह केला तर ही xml घोषणा वगळली जाऊ शकते (बीओएम नसल्यास UTF-8 किंवा बीओएम असल्यास UTF-16 एन्कोडिंग मानले जाईल). दस्तऐवजाच्या बाबतीत HTML भाषाएन्कोडिंग दर्शविण्यासाठी वापरले जाते मेटा घटक, जे ओपनिंग आणि क्लोजिंग हेड टॅग दरम्यान लिहिलेले आहे: < head> . . . < meta charset= "utf-8" > . . . < / head>एचटीएमएल 4.01 मधील मानकांमध्ये स्वीकारल्या गेलेल्या नोंदीपेक्षा ही एंट्री अगदी वेगळी आहे, परंतु हळूहळू सादर होत असलेल्या नवीनशी पूर्णपणे सुसंगत आहे. HTML मानक 5, आणि त्यावर वापरल्या जाणाऱ्या कोणालाही ते पूर्णपणे योग्यरित्या समजले जाईल वर्तमान क्षणब्राउझर सिद्धांतानुसार, एन्कोडिंग दर्शविणारा मेटा घटक HTML दस्तऐवजठेवणे चांगले होईल दस्तऐवज शीर्षलेखात शक्य तितक्या उच्चजेणेकरुन मजकुरातील पहिले वर्ण मुलभूत ANSI (जे नेहमी योग्यरितीने आणि कोणत्याही भिन्नतेमध्ये वाचले जातात) मधून येत नसताना, ब्राउझरकडे आधीपासूनच या वर्णांच्या कोडचा अर्थ कसा लावायचा याबद्दल माहिती असणे आवश्यक आहे. प्रथम लिंक
UTF-8 कसे कार्य करते आणि युनिकोड काय आहे हे समजून घेण्याचे कारण म्हणजे UTF-8 सह कार्य करण्यासाठी VBScript मध्ये अंगभूत कार्ये नाहीत. आणि मला काम करणारे काहीही सापडले नाही म्हणून, मला ते स्वतःच लिहावे/समाप्त करावे लागले. माझ्या मते, अनुभव कोणत्याही परिस्थितीत उपयुक्त आहे. अधिक चांगल्या प्रकारे समजून घेण्यासाठी, मी सिद्धांतासह प्रारंभ करू.
युनिकोड बद्दल
युनिकोडच्या आगमनापूर्वी, 8-बिट एन्कोडिंग मोठ्या प्रमाणावर वापरले जात होते, ज्याचे मुख्य तोटे स्पष्ट आहेत:- तेथे फक्त 255 वर्ण आहेत, आणि तरीही त्यापैकी काही ग्राफिक नाहीत;
- दस्तऐवज ज्यामध्ये तयार केला होता त्यापेक्षा वेगळ्या एन्कोडिंगसह उघडण्याची क्षमता;
- प्रत्येक एन्कोडिंगसाठी फॉन्ट तयार करणे आवश्यक आहे.
UTF-8 बद्दल
मला एकदा वाटले की युनिकोड आहे आणि UTF-8 आहे. नंतर मला कळले की माझी चूक होती.UTF-8 हे युनिकोडचे फक्त 8-बिट प्रतिनिधित्व आहे. 128 पेक्षा कमी कोड असलेले वर्ण एक बाइट म्हणून दर्शविले जातात आणि युनिकोडमध्ये ते ASCII ची पुनरावृत्ती करत असल्याने, केवळ या वर्णांसह लिहिलेला मजकूर ASCII मजकूर असेल. 128 मधील कोड असलेले वर्ण 2 बाइट्समध्ये एन्कोड केले आहेत, 2048 - 3 मधील कोडसह 65536 - 4 मधील कोड आहेत. त्यामुळे 6 बाइट्स मिळवणे शक्य होईल, परंतु त्यांच्यासह एन्कोड करण्यासाठी काहीही शिल्लक नाही.
0x00000000 - 0x0000007F: 0xxxxxxx 0x00000080 - 0x000007FF: 110xxxxx 10xxxxxx 0x00000800 - 0x0000FFFF: 1110xx10xx10xx0xx : 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
आम्ही UTF-8 मध्ये एन्कोड करतो
प्रक्रिया अंदाजे अशी आहे:- आम्ही प्रत्येक अक्षर युनिकोडमध्ये रूपांतरित करतो.
- चिन्ह कोणत्या श्रेणीचे आहे ते आम्ही तपासतो.
- जर चिन्ह कोड 128 पेक्षा कमी असेल, तर आम्ही तो न बदलता निकालात जोडतो.
- जर कॅरेक्टर कोड 2048 पेक्षा कमी असेल, तर आम्ही कॅरेक्टर कोडचे शेवटचे 6 बिट्स आणि पहिले 5 बिट्स घेऊ. आम्ही पहिल्या 5 बिट्समध्ये 0xC0 जोडतो आणि अनुक्रमाचा पहिला बाइट मिळवतो आणि शेवटच्या 6 बिट्समध्ये 0x80 जोडतो आणि दुसरा बाइट मिळवतो. एकत्र करा आणि निकालात जोडा.
- आम्ही मोठ्या कोडसाठी अशाच प्रकारे सुरू ठेवू शकतो, परंतु जर वर्ण U+FFFF च्या पलीकडे असेल तर आम्हाला UTF-16 सरोगेट्सचा सामना करावा लागेल.
डीकोडिंग UTF-8
- आम्ही फॉर्म 11xxxxxx चे पहिले वर्ण शोधत आहोत
- आम्ही फॉर्म 10xxxxxx चे सर्व त्यानंतरचे बाइट्स मोजतो
- जर अनुक्रम दोन बाइट्स असेल आणि पहिला बाइट 110xxxxx असेल, तर आम्ही उपसर्ग कापून त्यांना जोडतो, पहिल्या बाइटला 0x40 ने गुणाकार करतो.
- त्याचप्रमाणे दीर्घ अनुक्रमांसाठी.
- आम्ही संपूर्ण अनुक्रम सह पुनर्स्थित करतो इच्छित चिन्हयुनिकोड.
UTF-8 कसे कार्य करते आणि युनिकोड काय आहे हे समजून घेण्याचे कारण म्हणजे UTF-8 सह कार्य करण्यासाठी VBScript मध्ये अंगभूत कार्ये नाहीत. आणि मला काम करणारे काहीही सापडले नाही म्हणून, मला ते स्वतःच लिहावे/समाप्त करावे लागले. माझ्या मते, अनुभव कोणत्याही परिस्थितीत उपयुक्त आहे. अधिक चांगल्या प्रकारे समजून घेण्यासाठी, मी सिद्धांतासह प्रारंभ करू.
युनिकोड बद्दल
युनिकोडच्या आगमनापूर्वी, 8-बिट एन्कोडिंग मोठ्या प्रमाणावर वापरले जात होते, ज्याचे मुख्य तोटे स्पष्ट आहेत:- तेथे फक्त 255 वर्ण आहेत, आणि तरीही त्यापैकी काही ग्राफिक नाहीत;
- दस्तऐवज ज्यामध्ये तयार केला होता त्यापेक्षा वेगळ्या एन्कोडिंगसह उघडण्याची क्षमता;
- प्रत्येक एन्कोडिंगसाठी फॉन्ट तयार करणे आवश्यक आहे.
UTF-8 बद्दल
मला एकदा वाटले की युनिकोड आहे आणि UTF-8 आहे. नंतर मला कळले की माझी चूक होती.UTF-8 हे युनिकोडचे फक्त 8-बिट प्रतिनिधित्व आहे. 128 पेक्षा कमी कोड असलेले वर्ण एक बाइट म्हणून दर्शविले जातात आणि युनिकोडमध्ये ते ASCII ची पुनरावृत्ती करत असल्याने, केवळ या वर्णांसह लिहिलेला मजकूर ASCII मजकूर असेल. 128 मधील कोड असलेले वर्ण 2 बाइट्समध्ये एन्कोड केले आहेत, 2048 - 3 मधील कोडसह 65536 - 4 मधील कोड आहेत. त्यामुळे 6 बाइट्स मिळवणे शक्य होईल, परंतु त्यांच्यासह एन्कोड करण्यासाठी काहीही शिल्लक नाही.
0x00000000 - 0x0000007F: 0xxxxxxx 0x00000080 - 0x000007FF: 110xxxxx 10xxxxxx 0x00000800 - 0x0000FFFF: 1110xx10xx10xx0xx : 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
आम्ही UTF-8 मध्ये एन्कोड करतो
प्रक्रिया अंदाजे अशी आहे:- आम्ही प्रत्येक अक्षर युनिकोडमध्ये रूपांतरित करतो.
- चिन्ह कोणत्या श्रेणीचे आहे ते आम्ही तपासतो.
- जर चिन्ह कोड 128 पेक्षा कमी असेल, तर आम्ही तो न बदलता निकालात जोडतो.
- जर कॅरेक्टर कोड 2048 पेक्षा कमी असेल, तर आम्ही कॅरेक्टर कोडचे शेवटचे 6 बिट्स आणि पहिले 5 बिट्स घेऊ. आम्ही पहिल्या 5 बिट्समध्ये 0xC0 जोडतो आणि अनुक्रमाचा पहिला बाइट मिळवतो आणि शेवटच्या 6 बिट्समध्ये 0x80 जोडतो आणि दुसरा बाइट मिळवतो. एकत्र करा आणि निकालात जोडा.
- आम्ही मोठ्या कोडसाठी अशाच प्रकारे सुरू ठेवू शकतो, परंतु जर वर्ण U+FFFF च्या पलीकडे असेल तर आम्हाला UTF-16 सरोगेट्सचा सामना करावा लागेल.
डीकोडिंग UTF-8
- आम्ही फॉर्म 11xxxxxx चे पहिले वर्ण शोधत आहोत
- आम्ही फॉर्म 10xxxxxx चे सर्व त्यानंतरचे बाइट्स मोजतो
- जर अनुक्रम दोन बाइट्स असेल आणि पहिला बाइट 110xxxxx असेल, तर आम्ही उपसर्ग कापून त्यांना जोडतो, पहिल्या बाइटला 0x40 ने गुणाकार करतो.
- त्याचप्रमाणे दीर्घ अनुक्रमांसाठी.
- इच्छित युनिकोड वर्णाने संपूर्ण क्रम बदला.
(0 ते 127 पर्यंतचे कोड), म्हणजे लॅटिन अक्षरे, संख्या आणि विशेष वर्ण एका बाइटमध्ये एन्कोड केलेले आहेत.
रशियन अक्षरे (सिरिलिक) 16-बिट (डबल-बाइट) कोडद्वारे दर्शविली जातात:
110XXXXXX 10XXXXXX, जेथे X हे सारणीनुसार वर्ण कोड ठेवण्यासाठी बायनरी अंक दर्शविते.
युनिकोड जेथे X हे सारणीनुसार वर्ण कोड ठेवण्यासाठी बायनरी अंक दर्शवितेयुनिकोड हे अक्षर एन्कोडिंग मानक आहे जे तुम्हाला जवळजवळ सर्व लिखित भाषांमधील वर्णांचे प्रतिनिधित्व करण्यास अनुमती देते. युनिकोडमध्ये दर्शविलेले वर्ण स्वाक्षरी न केलेले पूर्णांक म्हणून एन्कोड केलेले आहेत. या क्रमांकांना आम्ही युनिकोडमध्ये किंवा फक्त कॅरेक्टर कोड म्हणू.
युनिकोडमध्ये संगणकावर वर्णांचे अनेक प्रकार आहेत: UTF-8, UTF-16 (UTF-16BE, UTF-16LE) आणि UTF-32 (UTF-32BE, UTF-32LE). (इंग्रजी: युनिकोड ट्रान्सफॉर्मेशन फॉरमॅट - UTF). ते कसे एन्कोड केले आहे ते पाहूया UTF-8 जेथे X हे सारणीनुसार वर्ण कोड ठेवण्यासाठी बायनरी अंक दर्शवितेपत्र जेथे X हे सारणीनुसार वर्ण कोड ठेवण्यासाठी बायनरी अंक दर्शवितेआणि 110 . तिच्या UTF-8, UTF-16 (UTF-16BE, UTF-16LE) आणि UTF-32 (UTF-32BE, UTF-32LE): 110 - 1046 10 किंवा 0416 16 किंवा 10000 010110 2. 10 बायनरी स्वरूपात ते दोन भागांमध्ये विभागले गेले आहे: पाच डावे बिट्स आणि सहा उजवे बिट्स. डावी बाजू विशेषता सह बाइटला पूरक आहे 10 डबल-बाइट कोड ते कसे एन्कोड केले आहे ते पाहूया 10000. उजव्या बाजूला दोन बिट नियुक्त केले आहेत UTF-8, UTF-16 (UTF-16BE, UTF-16LE) आणि UTF-32 (UTF-32BE, UTF-32LE)मल्टीबाइट कोड चालू ठेवण्याचे चिन्ह:
110
10000 10
010110 2
010110. अंतिम पत्र कोड
व्ही जेथे X हे सारणीनुसार वर्ण कोड ठेवण्यासाठी बायनरी अंक दर्शवितेअसे दिसते:
किंवा D0 96 16 जेथे X हे सारणीनुसार वर्ण कोड ठेवण्यासाठी बायनरी अंक दर्शवितेअशा प्रकारे, रशियन अक्षर दोनदा एन्कोड केले आहे: प्रथम 11-बिटमध्ये UTF-8, UTF-16 (UTF-16BE, UTF-16LE) आणि UTF-32 (UTF-32BE, UTF-32LE), आणि नंतर 16-बिट UTF-8 वर. UTF-8, UTF-16 (UTF-16BE, UTF-16LE) आणि UTF-32 (UTF-32BE, UTF-32LE)खालील सारणीमध्ये, कोड व्यतिरिक्त आणिहेक्साडेसिमल क्रमांक प्रणालीमध्ये, कोड दिले जातात दशांश संख्या प्रणालीमध्ये आणि तुलना करण्यासाठी, एन्कोडिंगमध्ये सिरिलिक कोड.
, अन्यथा म्हणतात | जेथे X हे सारणीनुसार वर्ण कोड ठेवण्यासाठी बायनरी अंक दर्शविते | UTF-8, UTF-16 (UTF-16BE, UTF-16LE) आणि UTF-32 (UTF-32BE, UTF-32LE) | आणि | ||
---|---|---|---|---|---|
windows-1251 | UTF-8 मध्ये सिरिलिक कोड सारणी | windows-1251 | UTF-8 मध्ये सिरिलिक कोड सारणी | ||
प्रतीक | 0410 | 1040 | हेक्स. | 208 144 | 192 |
दहा | 0411 | 1041 | ए | 208 145 | 193 |
D090 | 0412 | 1042 | बी | 208 146 | 194 |
D091 | 0413 | 1043 | IN | 208 147 | 195 |
D092 | 0414 | 1044 | जी | 208 148 | 196 |
D093 | 0415 | 1045 | डी | 208 149 | 197 |
ते कसे एन्कोड केले आहे ते पाहूया | 0416 | 1046 | D094 | 208 150 | 198 |
इ | 0417 | 1047 | D095 | 208 151 | 199 |
D096 | 0418 | 1048 | झेड | 208 152 | 200 |
D097 | 0419 | 1049 | आणि | 208 153 | 201 |
D098 | वाय | 1050 | D099 | 208 154 | 202 |
TO | 041A | 1051 | D09A | 208 155 | 203 |
एल | 041B | 1052 | D09B | 208 156 | 204 |
एम | 041C | 1053 | D09C | 208 157 | 205 |
एन | 041D | 1054 | D09D | 208 158 | 206 |
बद्दल | 041E | 1055 | D09E | 208 159 | 207 |
पी | 0420 | 1056 | 041F | 208 160 | 208 |
D09F | 0421 | 1057 | आर | 208 161 | 209 |
D0A0 | 0422 | 1058 | सह | 208 162 | 210 |
D0A1 | 0423 | 1059 | टी | 208 163 | 211 |
D0A2 | 0424 | 1060 | यू | 208 164 | 212 |
D0A3 | 0425 | 1061 | एफ | 208 165 | 213 |
D0A4 | 0426 | 1062 | एक्स | 208 166 | 214 |
D0A5 | 0427 | 1063 | सी | 208 167 | 215 |
D0A6 | 0428 | 1064 | एच | 208 168 | 216 |
D0A7 | 0429 | 1065 | शे | 208 169 | 217 |
D0A8 | SCH | 1066 | D0A9 | 208 170 | 218 |
कॉमरसंट | 042A | 1067 | D0AA | 208 171 | 219 |
वाय | 042B | 1068 | D0AB | 208 172 | 220 |
b | 042C | 1069 | D0AC | 208 173 | 221 |
इ | 042D | 1070 | D0AD | 208 174 | 222 |
यु | 042E | 1071 | D0AE | 208 175 | 223 |
आय | 0430 | 1072 | 042F | 208 176 | 224 |
D0AF | 0431 | 1073 | ए | 208 177 | 225 |
D0B0 | 0432 | 1074 | b | 208 178 | 226 |
D0B1 | 0433 | 1075 | व्ही | 208 179 | 227 |
D0B2 | 0434 | 1076 | जी | 208 180 | 228 |
D0B3 | 0435 | 1077 | d | 208 181 | 229 |
D0B4 | 0436 | 1078 | e | 208 182 | 230 |
D0B5 | 0437 | 1079 | आणि | 208 183 | 231 |
D0B6 | 0438 | 1080 | h | 208 184 | 232 |
D0B7 | 0439 | 1081 | आणि | 208 185 | 233 |
D0B8 | व्या | 1082 | D0B9 | 208 186 | 234 |
ला | 043A | 1083 | D0BA | 208 187 | 235 |
l | 043B | 1084 | D0BB | 208 188 | 236 |
मी | 043C | 1085 | D0BC | 208 189 | 237 |
n | 043D | 1086 | D0BD | 208 190 | 238 |
ओ | 043E | 1087 | D0BE | 208 191 | 239 |
n | 0440 | 1088 | 043F | 209 128 | 240 |
D0BF | 0441 | 1089 | आर | 209 129 | 241 |
D180 | 0442 | 1090 | सह | 209 130 | 242 |
D181 | 0443 | 1091 | D183 | 209 131 | 243 |
f | 0444 | 1092 | D184 | 209 132 | 244 |
एक्स | 0445 | 1093 | D185 | 209 133 | 245 |
ts | 0446 | 1094 | D186 | 209 134 | 246 |
h | 0447 | 1095 | D187 | 209 135 | 247 |
w | 0448 | 1096 | D188 | 209 136 | 248 |
sch | 0449 | 1097 | D189 | 209 137 | 249 |
ъ | 044A | 1098 | D18A | 209 138 | 250 |
s | 044B | 1099 | D18B | 209 139 | 251 |
b | 044C | 1100 | D18C | 209 140 | 252 |
उह | 044D | 1101 | D18D | 209 141 | 253 |
यू | 044E | 1102 | D18E | 209 142 | 254 |
आय | 044F | 1103 | D18F | 209 143 | 255 |
सामान्य नियमाबाहेरील चिन्हे | |||||
यो | 0401 | 1025 | D001 | 208 101 | 168 |
e | 0451 | 1025 | D191 | 209 145 | 184 |