एएनएसआई और यूनिकोड की तरह कैरेक्टर एन्कोडिंग क्या हैं, और वे कैसे भिन्न हैं?

विषयसूची:

एएनएसआई और यूनिकोड की तरह कैरेक्टर एन्कोडिंग क्या हैं, और वे कैसे भिन्न हैं?
एएनएसआई और यूनिकोड की तरह कैरेक्टर एन्कोडिंग क्या हैं, और वे कैसे भिन्न हैं?

वीडियो: एएनएसआई और यूनिकोड की तरह कैरेक्टर एन्कोडिंग क्या हैं, और वे कैसे भिन्न हैं?

वीडियो: एएनएसआई और यूनिकोड की तरह कैरेक्टर एन्कोडिंग क्या हैं, और वे कैसे भिन्न हैं?
वीडियो: What is Bitcoin? Bitcoin Explained Simply for Dummies - YouTube 2024, अप्रैल
Anonim
एएससीआईआईआई, यूटीएफ -8, आईएसओ -885 9 … आपने इन अजीब monikers चारों ओर तैरते देखा होगा, लेकिन वास्तव में उनका क्या मतलब है? जैसा कि हम समझाते हैं कि चरित्र एन्कोडिंग क्या है और ये शब्दकोष स्क्रीन पर दिखाई देने वाले सादा पाठ से कैसे संबंधित हैं।
एएससीआईआईआई, यूटीएफ -8, आईएसओ -885 9 … आपने इन अजीब monikers चारों ओर तैरते देखा होगा, लेकिन वास्तव में उनका क्या मतलब है? जैसा कि हम समझाते हैं कि चरित्र एन्कोडिंग क्या है और ये शब्दकोष स्क्रीन पर दिखाई देने वाले सादा पाठ से कैसे संबंधित हैं।

मौलिक बिल्डिंग ब्लॉक

जब हम लिखित भाषा के बारे में बात करते हैं, तो हम अक्षरों के निर्माण खंडों के बारे में बात करते हैं, जो वाक्य, पैराग्राफ आदि बनाते हैं। पत्र प्रतीक हैं जो ध्वनियों का प्रतिनिधित्व करते हैं। जब आप भाषा के बारे में बात करते हैं, तो आप ध्वनियों के समूहों के बारे में बात कर रहे हैं जो कुछ प्रकार के अर्थ बनाने के लिए एक साथ आते हैं। प्रत्येक भाषा प्रणाली में उन नियमों और परिभाषाओं का जटिल सेट होता है जो उन अर्थों को नियंत्रित करते हैं। यदि आपके पास कोई शब्द है, तो यह बेकार है जब तक कि आप नहीं जानते कि यह कौन सी भाषा है और आप इसे उस भाषा बोलने वाले अन्य लोगों के साथ उपयोग करते हैं।

(ग्रंथ, तुलु और मलयालम स्क्रिप्ट की तुलना, विकिपीडिया से छवि)
(ग्रंथ, तुलु और मलयालम स्क्रिप्ट की तुलना, विकिपीडिया से छवि)

कंप्यूटर की दुनिया में, हम "चरित्र" शब्द का उपयोग करते हैं। एक चरित्र विशिष्ट मानकों द्वारा परिभाषित एक अमूर्त अवधारणा का प्रकार है, लेकिन यह अर्थ की मौलिक इकाई है। लैटिन 'ए' ग्रीक 'अल्फा' या अरबी 'अलीफ' जैसा नहीं है क्योंकि उनके पास अलग-अलग संदर्भ हैं - वे अलग-अलग भाषाओं से हैं और थोड़ा अलग उच्चारण हैं - इसलिए हम कह सकते हैं कि वे अलग-अलग पात्र हैं। एक चरित्र के दृश्य प्रतिनिधित्व को "ग्लिफ" कहा जाता है और ग्लिफ के विभिन्न सेटों को फोंट कहा जाता है। पात्रों के समूह "सेट" या "प्रदर्शन" से संबंधित हैं।

जब आप एक पैराग्राफ टाइप करते हैं और आप फ़ॉन्ट बदलते हैं, तो आप अक्षरों के ध्वन्यात्मक मूल्यों को नहीं बदल रहे हैं, आप बदल रहे हैं कि वे कैसे दिखते हैं। यह सिर्फ कॉस्मेटिक है (लेकिन महत्वहीन नहीं है!)। प्राचीन मिस्र और चीनी जैसे कुछ भाषाओं में विचारधाराएं हैं; ये ध्वनियों के बजाए पूरे विचारों का प्रतिनिधित्व करते हैं, और उनके उच्चारण समय और दूरी के साथ भिन्न हो सकते हैं। यदि आप एक चरित्र को दूसरे के लिए प्रतिस्थापित करते हैं, तो आप एक विचार को प्रतिस्थापित कर रहे हैं। यह सिर्फ अक्षरों को बदलने से ज्यादा है, यह एक ideogram बदल रहा है।

अक्षरों को सांकेतिक अक्षरों में बदलना

(विकिपीडिया से छवि)
(विकिपीडिया से छवि)

जब आप कीबोर्ड पर कुछ टाइप करते हैं, या फ़ाइल लोड करते हैं, तो कंप्यूटर को कैसे पता चलेगा कि कैसे प्रदर्शित किया जाए? यही चरित्र एन्कोडिंग के लिए है। आपके कंप्यूटर पर टेक्स्ट वास्तव में अक्षर नहीं है, यह युग्मित अल्फान्यूमेरिक मानों की एक श्रृंखला है। चरित्र एन्कोडिंग एक कुंजी के रूप में कार्य करता है जिसके लिए मूल्य किस पात्र से मेल खाते हैं, कितना ऑर्थोग्राफी निर्देशित करता है कि कौन से अक्षरों से मेल खाता है। मोर्स कोड एक प्रकार का चरित्र एन्कोडिंग है। यह बताता है कि बीप जैसे लंबी और छोटी इकाइयों के समूह पात्रों का प्रतिनिधित्व करते हैं। मोर्स कोड में, वर्ण केवल अंग्रेजी अक्षरों, संख्याओं और पूर्ण स्टॉप हैं। कई कंप्यूटर वर्ण एन्कोडिंग हैं जो अक्षरों, संख्याओं, उच्चारण चिह्नों, विराम चिह्नों, अंतर्राष्ट्रीय प्रतीकों, आदि में अनुवाद करते हैं।

अक्सर इस विषय पर, "कोड पेज" शब्द का भी उपयोग किया जाता है। वे अनिवार्य रूप से चरित्र एन्कोडिंग हैं जो विशिष्ट कंपनियों द्वारा उपयोग किए जाते हैं, अक्सर मामूली संशोधन के साथ। उदाहरण के लिए, विंडोज 1252 कोड पेज (जिसे पहले एएनएसआई 1252 के नाम से जाना जाता है) आईएसओ -885 9 -1 का एक संशोधित रूप है। वे मानक और संशोधित चरित्र एन्कोडिंग को संदर्भित करने के लिए अधिकतर आंतरिक प्रणाली के रूप में उपयोग किए जाते हैं जो एक ही सिस्टम के लिए विशिष्ट होते हैं। प्रारंभ में, चरित्र एन्कोडिंग इतना महत्वपूर्ण नहीं था क्योंकि कंप्यूटर एक दूसरे के साथ संवाद नहीं करते थे। इंटरनेट के साथ एक आम घटना होने के कारण प्रमुखता और नेटवर्किंग बढ़ने के साथ, यह हमारे दैनिक जीवन के लिए तेजी से महत्वपूर्ण हो गया है, इसके बिना हम इसे महसूस भी कर रहे हैं।

कई अलग-अलग प्रकार

(सरह सोसाक से छवि)
(सरह सोसाक से छवि)

वहां बहुत सारे चरित्र एन्कोडिंग हैं, और इसके लिए बहुत सारे कारण हैं। आप जिस चरित्र एन्कोडिंग का उपयोग करना चुनते हैं वह आपकी आवश्यकताओं के आधार पर निर्भर करता है। यदि आप रूसी में संवाद करते हैं, तो यह एक वर्ण एन्कोडिंग का उपयोग करने के लिए समझ में आता है जो सिरिलिक अच्छी तरह से समर्थन करता है। यदि आप कोरियाई में संवाद करते हैं, तो आपको कुछ ऐसा चाहिए जो हंगुल और हंजा को अच्छी तरह से दर्शाता हो। यदि आप गणितज्ञ हैं, तो आप कुछ ऐसा चाहते हैं जिसमें सभी वैज्ञानिक और गणितीय प्रतीकों का प्रतिनिधित्व किया जाए, साथ ही यूनानी और लैटिन ग्लाइफ भी प्रदर्शित हों। यदि आप एक शरारती हैं, तो शायद आप ऊपर-नीचे पाठ से लाभ उठाएंगे। और, यदि आप किसी भी दिए गए व्यक्ति द्वारा उन सभी प्रकार के दस्तावेज़ों को देखना चाहते हैं, तो आप एक एन्कोडिंग चाहते हैं जो काफी आम और आसानी से सुलभ हो।

आइए कुछ और आम लोगों पर नज़र डालें।

(ASCII तालिका का अंश, asciitable.com से छवि)
(ASCII तालिका का अंश, asciitable.com से छवि)
  • ASCII - अमेरिकन इंटरनेशनल कोड फॉर इन्फॉर्मेशन इंटरचेंज पुराने चरित्र एन्कोडिंग में से एक है। यह मूल रूप से टेलीग्राफिक कोडों के आधार पर तैयार किया गया था और अधिक प्रतीकों और कुछ पुराने-पुराने गैर-मुद्रित नियंत्रण वर्णों को शामिल करने के लिए समय के साथ विकसित हुआ था। यह शायद मूलभूत है क्योंकि आप आधुनिक प्रणालियों के संदर्भ में प्राप्त कर सकते हैं, क्योंकि यह लैंगिक वर्णमाला तक सीमित अक्षरों के बिना सीमित है। इसकी 7-बिट एन्कोडिंग केवल 128 वर्णों की अनुमति देती है, यही कारण है कि दुनिया भर में कई अनौपचारिक रूप हैं।
  • आईएसओ 8859 - मानक एन्कोडिंग के मानकीकरण के सबसे व्यापक रूप से उपयोग किए जाने वाले समूह के लिए अंतर्राष्ट्रीय संगठन संख्या 885 9 है। प्रत्येक विशिष्ट एन्कोडिंग को एक संख्या द्वारा नामित किया जाता है, जो अक्सर एक वर्णनात्मक moniker द्वारा prefixed, उदा। आईएसओ -885 9-3 (लैटिन -3), आईएसओ -885 9-6 (लैटिन / अरबी)।यह एएससीआईआई का एक सुपरसेट है, जिसका अर्थ है कि एन्कोडिंग में पहले 128 मान ASCII के समान हैं। हालांकि, यह 8-बिट है, और 256 वर्णों की अनुमति देता है, इसलिए यह वहां से निकलता है और इसमें वर्णों के एक अलग सेट पर केंद्रित प्रत्येक विशिष्ट एन्कोडिंग के साथ वर्णों की एक विस्तृत श्रृंखला शामिल होती है। लैटिन -1 में उच्चारण अक्षरों और प्रतीकों का एक गुच्छा शामिल था, लेकिन बाद में लैटिन-9 नामक एक संशोधित सेट के साथ प्रतिस्थापित किया गया जिसमें यूरो प्रतीक जैसे अद्यतन ग्लिफ शामिल हैं।
Image
Image

(तिब्बती लिपि का अंश, यूनिकोड v4, unicode.org से)

  • यूनिकोड - यह एन्कोडिंग मानक सार्वभौमिकता का लक्ष्य रखता है। वर्तमान में इसमें कई ब्लॉक में 9 3 स्क्रिप्ट शामिल हैं, जिनमें कई काम हैं। यूनिकोड अन्य चरित्र सेटों की तुलना में अलग-अलग काम करता है जिसमें सीधे ग्लिफ के लिए कोडिंग करने की बजाय, प्रत्येक मान को "कोड पॉइंट" पर निर्देशित किया जाता है। ये हेक्साडेसिमल मान हैं जो वर्णों से मेल खाते हैं लेकिन ग्लिफ स्वयं प्रोग्राम द्वारा अलग तरीके से प्रदान किए जाते हैं, जैसे आपका वेब ब्राउज़र। इन कोड बिंदुओं को आमतौर पर निम्नानुसार चित्रित किया जाता है: यू +0040 (जो '@' में अनुवाद करता है)। यूनिकोड मानक के तहत विशिष्ट एन्कोडिंग यूटीएफ -8 और यूटीएफ -16 हैं। यूटीएफ -8 ASCII के साथ अधिकतम संगतता की अनुमति देने का प्रयास करता है। यह 8-बिट है, लेकिन प्रतिस्थापन तंत्र और प्रति चरित्र मूल्यों के एकाधिक जोड़े के माध्यम से सभी पात्रों की अनुमति देता है। यूटीएफ -16 मानक के साथ एक पूर्ण 16-बिट संगतता के लिए सही ASCII संगतता को छूता है।
  • आईएसओ 10646 - यह वास्तविक एन्कोडिंग नहीं है, केवल यूनिकोड का एक चरित्र सेट जिसे आईएसओ द्वारा मानकीकृत किया गया है। यह ज्यादातर महत्वपूर्ण है क्योंकि यह एचटीएमएल द्वारा वर्णित चरित्र प्रदर्शन है। यूनिकोड द्वारा प्रदान किए गए कुछ अधिक उन्नत फ़ंक्शंस जो बाएं-से-दाएं स्क्रिप्टिंग के साथ संयोजन और दाएं से बाएं को छोड़ने की अनुमति देते हैं। फिर भी, यह इंटरनेट पर उपयोग के लिए बहुत अच्छी तरह से काम करता है क्योंकि यह विभिन्न प्रकार की स्क्रिप्ट के उपयोग की अनुमति देता है और ब्राउज़र को ग्लिफ की व्याख्या करने की अनुमति देता है। यह स्थानीयकरण कुछ हद तक आसान बनाता है।

मुझे क्या एन्कोडिंग का उपयोग करना चाहिए?

खैर, एएससीआईआईआई अधिकांश अंग्रेजी बोलने वालों के लिए काम करता है, लेकिन अधिक के लिए नहीं। अधिकतर आप आईएसओ -885 9 -1 देखेंगे, जो अधिकांश पश्चिमी यूरोपीय भाषाओं के लिए काम करता है। आईएसओ -885 9 के अन्य संस्करण सिरिलिक, अरबी, यूनानी, या अन्य विशिष्ट स्क्रिप्ट के लिए काम करते हैं। हालांकि, यदि आप एक ही दस्तावेज़ में या उसी वेब पेज पर एकाधिक स्क्रिप्ट प्रदर्शित करना चाहते हैं, तो यूटीएफ -8 बहुत बेहतर संगतता की अनुमति देता है। यह उन लोगों के लिए भी वास्तव में अच्छा काम करता है जो उचित विराम चिह्न, गणित प्रतीकों, या ऑफ-द-कफ पात्रों, जैसे वर्ग और चेकबॉक्स का उपयोग करते हैं।

(एक दस्तावेज़ में एकाधिक भाषाएं, gujaratsamachar.com का स्क्रीनशॉट)
(एक दस्तावेज़ में एकाधिक भाषाएं, gujaratsamachar.com का स्क्रीनशॉट)

हालांकि, प्रत्येक सेट में कमी है। एएससीआईआईआई अपने विराम चिह्नों में सीमित है, इसलिए यह टाइपोग्राफ़िक रूप से सही संपादन के लिए अविश्वसनीय रूप से अच्छी तरह से काम नहीं करता है। शब्द से कभी कॉपी / पेस्ट करें केवल ग्लिफ के कुछ अजीब संयोजन के लिए? यह आईएसओ -885 9 की कमी है, या अधिक सही ढंग से, ओएस-विशिष्ट कोड पृष्ठों के साथ इसकी अनुमानित इंटर-ऑपरेटिबिलिटी (हम आपको देख रहे हैं, माइक्रोसॉफ्ट!)। यूटीएफ -8 की बड़ी कमी संपादन और प्रकाशन अनुप्रयोगों में उचित समर्थन की कमी है। एक और समस्या यह है कि ब्राउज़र अक्सर व्याख्या नहीं करते हैं और यूटीएफ -8 एन्कोडेड चरित्र के बाइट ऑर्डर मार्क को प्रदर्शित करते हैं। इसके परिणामस्वरूप अवांछित ग्लिफ प्रदर्शित किए जा रहे हैं। और निश्चित रूप से, एक एन्कोडिंग घोषित करना और किसी वेब पेज पर उन्हें सही तरीके से संदर्भित / संदर्भित किए बिना वर्णों का उपयोग करना, ब्राउज़र के लिए उन्हें सही ढंग से प्रस्तुत करना और खोज इंजनों को उचित रूप से अनुक्रमणित करना मुश्किल बनाता है।

अपने दस्तावेजों, पांडुलिपियों और इतने आगे के लिए, आप जो भी काम पूरा करने के लिए आवश्यक हैं उसका उपयोग कर सकते हैं। जहां तक वेब जाता है, ऐसा लगता है कि ज्यादातर लोग यूटीएफ -8 संस्करण का उपयोग करने पर सहमत होते हैं जो बाइट ऑर्डर मार्क का उपयोग नहीं करता है, लेकिन यह पूरी तरह से सर्वसम्मति नहीं है। जैसा कि आप देख सकते हैं, प्रत्येक वर्ण एन्कोडिंग का अपना उपयोग, संदर्भ, और शक्तियां और कमजोरियां होती हैं। एक अंतिम उपयोगकर्ता के रूप में, आपको शायद इसका सामना नहीं करना पड़ेगा, लेकिन अगर आप चुनते हैं तो अब आप अतिरिक्त कदम उठा सकते हैं।

सिफारिश की: