യുണികോഡ്

വിക്കിപീഡിയ, ഒരു സ്വതന്ത്ര വിജ്ഞാനകോശം.

ലോകഭാഷകളിലെ ലിപികളുടെ കമ്പ്യൂട്ടറുകളിലുള്ള ആവിഷ്കാരത്തിനായി നിര്‍മ്മിച്ചിരിക്കുന്ന ഒരു മാനദണ്ഡമാണ് യൂണികോഡ്. യൂണീകോഡ് കണ്‍സോര്‍ഷ്യം എന്ന ലാഭരഹിത സംഘടനയാണ് യൂണീകോഡിന്റെ നിര്‍മ്മാണത്തിനു പിന്നില്‍. ലോകത്ത് നിലനില്‍ക്കുന്ന എല്ലാഭാഷകളേയും ഒരുമിച്ചവതരിപ്പിക്കുക എന്നതാണ് ഈ സംഘടനയുടെ പ്രഖ്യാപിത ലക്ഷ്യം. പുതിയ പല ഓപ്പറേറ്റിങ്ങ് സിസ്റ്റങ്ങളും, എക്സ്.എം.എല്‍, ജാവാ തുടങ്ങിയ സാങ്കേതിക വിദ്യകളും യൂണീകോഡിനെ പിന്തുണക്കുന്നുണ്ട്.

[തിരുത്തുക] ചരിത്രം

അക്ഷരങ്ങളും അക്കങ്ങളും ചിഹ്നങ്ങളും പൂജ്യത്തിന്റേയും ഒന്നിന്റേയും കൂട്ടങ്ങളായി മാറ്റിയാണ് കമ്പ്യൂട്ടറില്‍ ശേഖരിച്ചു വയ്ക്കുന്നത്. ഇങ്ങനെ ശേഖരിക്കുന്നതിന് ഓരോന്നിനും അതി‍ന്റേതായ കോഡുകള്‍ ഉണ്ടായിരിക്കണം. ഇപ്പോള്‍ ഇത് കൂടുതലായും ASCII (അമേരിക്കന്‌ സ്റ്റാന്‍ഡാര്‍ഡ് കോഡ് ഫോര്‍ ഇന്‍ഫര്‍മേഷന്‌ ഇന്‍റ്റര്‍ചേഞ്ച്) കോഡുപയോഗിച്ചാണ് നിര്‍വ്വഹിച്ചു വരുന്നത്. ഇതുപയോഗിച്ചുണ്ടാക്കാവുന്ന അക്ഷരാദികളുടെ എണ്ണം (256) പരിമിതമായതുകൊണ്ട് രണ്ടു ഭാഷകളിലെ അക്ഷരങ്ങളേ ഒരേ സമയം ഉപയോഗിക്കാന്‍ സാധിക്കുകയുള്ളു. ഇതില്‌ ആദ്യത്തെ 128 എണ്ണം ഇംഗ്ളീഷിനും അടുത്ത 128 എണ്ണം വേറെ ഏതെങ്കിലും ഭാഷക്കും ഉപയോഗിക്കാം.

ലോകമാസകലം കമ്പ്യുട്ടറുകള്‍ വരുകയും അവയെയെല്ലാം ബന്ധിപ്പിക്കുന്ന ഇന്റര്‍നെറ്റ് സംജാതമാകുകയും ചെയ്തതോടെ ലോകഭാഷകള്‍ എല്ലാം അടങ്ങുന്ന ഒരു കോഡിംഗ് സിസ്റ്റം ആവശ്യമായിവന്നു. ഇതിലേക്കായി ഇന്റര്‍നാഷണല്‍ സ്റ്റാന്‍ഡാര്‍ഡ് ISO/IEC 106461, ഒരു പദ്ധതി തയ്യാറാക്കി. ഈ പദ്ധതിയില്‍ ഉള്‍പ്പെടുത്തിയ എല്ലാ അക്ഷരാദികളേയും സ്വാംശീകരിച്ചുകൊണ്ട് കുറച്ചു കൂടി ബൃഹത്തായതും ലോകഭാഷകളാകമാനം ഉള്‍ക്കൊള്ളാനാവുന്നതും ഭാവി വികസനങ്ങള്‍ക്ക് പഴുതുള്ളതുമായ ഒരു കോഡിംഗ് സമ്പ്രദായം വേണമെന്ന് കമ്പ്യൂട്ടര്‍ ലോകത്തിനു തോന്നി. അങ്ങനെയാണ് കമ്പ്യൂട്ടര്‍ കോര്‍പ്പറേഷനുകളും സോഫ്റ്റ്വെയര്‍ ഡാറ്റാബേസ് കച്ചവടക്കാരും, അന്താരാഷ്ട്ര ഏജന്‍സികളും ഉപയോക്താക്കളും ചേര്‍ന്ന് 1991-ല്‌ ദി യുണിക്കോഡ് കണ്‌സോര്‍ഷ്യം എന്ന ഒരു സംഘടന രൂപീകരിച്ചത്. ഇന്ത്യാ ഗവണ്‍മെണ്‍റ്റിന്‍റ്റെ ഇന്‍ഫര്‍മേഷന്‌ ടെക്നോളജി ഡിപ്പാര്‍ട്ട് മെന്‍റ്റ് ഇതിലെ ഒരു മുഴുവന്‍ സമയ അംഗമാണ് .

ഇന്റര്‍നാഷണല്‍ സ്റ്റാന്റേര്‍ഡ് ഓര്‍ഗനൈസേഷനും യുണിക്കോഡും ചേര്‍ന്ന് 1992ല്‌ യൂണിക്കോഡ് വേര്‍ഷന്‌ 1.0 പുറത്തിറക്കി. ഇതു പരിഷ്കരിച്ച് 2.0യും 2000 ഫെബ്രുവരിയില്‍ 3.0യും പുറത്തിറങ്ങി. ISO 10646 -ല്‌ 32 ബിറ്റുപയോഗിച്ചിരുന്നിടത്ത് 16 ബിറ്റു മാത്രമേ യൂണിക്കോഡ് ഉപയോഗിക്കുന്നുള്ളൂ. അതായത് 16 സ്ഥാനങ്ങളിലായി ഒന്നും പൂജ്യവും നിരത്തി 65000-ല്‌ പരം അക്ഷരാദികളുടെ കോഡുകള്‌ നിര്‍മ്മിക്കാം. ഇവ 500 ഓളം ഭാഷകള്‍ക്കു മതിയാകും. പുരാതന ലിപികളും ഭാവിയില്‍ ഉണ്ടാകുന്ന ലിപികളും ഇതില്‍ ഉള്‍ക്കൊള്ളിക്കാന്‍ തക്കവിധത്തില്‍ ഇതിനെ വിപുലപ്പെടുത്താനും സാധിക്കുന്നതാണ്‍ . പ്രധാനപ്പെട്ട ലോകഭാഷകള്‍ മിക്കവാറും എല്ലാം തന്നെ ഉള്‍പ്പെട്ടുത്തി 49194 അക്ഷരാദികള്‍ക്ക് ഇതിനകം കോഡുകള്‌ നല്കിക്കഴിഞ്ഞു. ഇതില്‍ ചൈനീസും ജാപ്പനീസും ഉള്‍പ്പെടും. അടുത്തുതന്നെ ബര്‍മീസ്, സിന്‍ഹാളീസ്, സിറിയക് മുതലായ ഭാഷകളും ഇതിന്റേ കീഴില്‌ കൊണ്ടു വരുന്നതാണ്.

യൂണിക്കോഡ് ഭാഷയിലെ അക്ഷരങ്ങള്‍ക്ക് കോഡുകള്‍ നല്‌കിയെങ്കിലും അവ എങ്ങനെ സ്ക്രീനില്‍ കാണണമെന്ന് ഹാര്‍ഡ്‍വേറും സോഫ്‍റ്റ്വേറും ഇറക്കുന്നവരാണ് തീരുമാനിക്കുന്നത്. ലോക ഭാഷകള്‍ ഒരേ സ്ക്രീനില്‍ പ്രത്യക്ഷപ്പെടേണ്ടി വരുമ്പോള്‍ ലോക പ്രശസ്തരായ IBM, മൈക്രോസോഫ്റ്റ്, ഒറാക്കിള്‍, ആപ്പിള്‍ എന്നിത്യാദി വമ്പന്‍ മാരെല്ലാം യൂണിക്കോഡിനെ വാരിപ്പുണരുന്നതില്‍ അത്ഭുതപ്പെടാനില്ല. ഇന്റര്‍നെറ്റിന്റേ ലോകവ്യാപകമായ പ്രചാരത്തോടുകൂടി യൂണിക്കോഡും ഒരു ആഗോളലിപികളുടെ കോഡായിമാറിക്കഴിഞ്ഞു

9 ഇന്ത്യന്‍ ഭാഷകള്‍ക്കായി 128 X 9 = 1152 കോഡുകള്‍ (2304 മുതല്‍ 3455 വരെ) അലോട്ടുചെയ്തിരിക്കുന്നതില്‍ 3328 മുതല്‍ 3455 വരെയുള്ള 128 എണ്ണം മലയാള ലിപികള്‍ക്കാണ് തന്നിരിക്കുന്നത്.

[തിരുത്തുക] യൂണിക്കോഡിനു മുമ്പ്

ഇത്ര നാളും ആംഗലേയമായിരുന്നു കമ്പ്യൂട്ടര്‍ രംഗത്ത് എല്ലാ കാര്യങ്ങള്‍ക്കും ഉപയോഗിച്ചിരുന്നത്. പ്രോഗ്രാമുകളും ,പ്രമാണങ്ങളും, ഇന്റര്‍നെറ്റിലെ വിവിധ ആവശ്യങ്ങള്‍ക്കുമെല്ലാം ആംഗലേയ ഭാഷയാണ് ഉപയോഗിച്ചിരുന്നത്.

അടിസ്ഥാനപരമായി കമ്പ്യൂട്ടറുകള്‍ സംഖ്യകളാണ് എല്ലാ കാര്യങ്ങള്‍ക്കും ഉപയോഗിക്കുന്നത്. അക്ഷരങ്ങളും, അക്കങ്ങളും, ചിഹ്നങ്ങളുമൊക്കെ സംഖ്യകളായിട്ടാണ് കമ്പ്യൂട്ടര്‍ ശേഖരിച്ചുവക്കുന്നത്. അക്ഷരങ്ങള്‍ സംഖ്യാരീതിയിലാക്കാന്‍ വിവിധ എന്‍കോഡിങ്ങ് രീതികള്‍ നിലവിലുണ്ട്. ആസ്‌കി (ASCII), എബ്‌സിഡിക്(EBCDIC), യൂണിക്കോഡ് എന്നിങ്ങനെ വിവിധ എന്‍കോഡിങ്ങ് രീതികള്‍. അക്കങ്ങളും, ഭാഷാചിഹ്നങ്ങളുമൊക്കെ സംഖ്യകളായാണ് കമ്പ്യൂട്ടറിനുള്ളില്‍ ഇരിക്കുന്നതെങ്കിലും, ഇത്തരം സംഖ്യകള്‍ സാധാരണ സംഖ്യകള്‍ പോലെയല്ല കൈകാര്യം ചെയ്യപ്പെടുന്നത്.

ആദ്യകാലത്ത് കമ്പ്യൂട്ടറുകള്‍ കൂടുതലും സംഖ്യാസംബന്ധമായ കണക്കുകൂട്ടലുകള്‍ക്കാണ് കൂടുതലും ഉപയോഗിച്ചിരുന്നത്, എന്നിരുന്നാലും അക്കങ്ങളും അക്ഷരങ്ങളും രേഖപ്പെടുത്തേണ്ട അവസരങ്ങള്‍ അക്കാലത്തും ഉണ്ടായിരുന്നു. ടൈപ്പ്റൈറ്ററുകളായിരുന്നു ലിഖിതങ്ങളായ പ്രമാണങ്ങളും മറ്റും ഉണ്ടാക്കാന്‍ അധികം ഉപയോഗിച്ചിരുന്നത്. പതുക്കെ കമ്പ്യൂട്ടറുകള്‍ ടൈപ്പ്റൈറ്ററുകളെ പിന്തള്ളി. ലിഖിതങ്ങളും അല്ലാത്തതുമായ പ്രമാണങ്ങള്‍, ചിത്രങ്ങള്‍ എന്നിവ സൃഷ്ടിക്കാനുള്ള കമ്പ്യൂട്ടറിന്റെ കഴിവ് വര്‍ദ്ധിച്ചു വന്നുകൊണ്ടിരുന്നതാണ് ഇതിനു കാരണം. അച്ചടിക്കുന്നതിനു മുമ്പ് തിരുത്താനുള്ള സൌകര്യവും കമ്പ്യൂട്ടര്‍ സൃഷ്ടിതമായ പ്രമാണങ്ങള്‍ക്കുണ്ടായിരുന്നു. പക്ഷെ വളരെ ചുരുക്കം അക്ഷരങ്ങളും , ചിഹ്നങ്ങളും മറ്റുമെ ഉപയോഗിക്കാന്‍ പറ്റുമായിരുന്നുള്ളൂ. ശരിക്കും പറഞ്ഞാല്‍ സംഖ്യകളും, സാധാരണ ഉപയോഗിക്കുന്ന ആംഗലേയ അക്ഷരങ്ങളും ചിഹ്നങ്ങളും മാത്രമേ ശരിയായി കമ്പ്യൂട്ടറില്‍ പ്രയോഗിക്കാന്‍ സാധിക്കുമായിരുന്നുള്ളൂ അക്കാലത്ത്. ലോകത്ത് മനുഷ്യര്‍ എഴുതാനും വായിക്കാനും ഉപയോഗിക്കുന്ന പതിനായിരക്കണക്കിനു അക്ഷരങ്ങളും ചിഹ്നങ്ങളും കൈകാര്യം ചെയ്യുവാന്‍ കമ്പ്യൂട്ടറുകള്‍ക്ക് സാധിച്ചിരുന്നില്ല. എന്നു പറഞ്ഞാല്‍ വിവിധപ്രദേശങ്ങളില്‍ ജീവിക്കുന്ന മനുഷ്യര്‍ക്ക് അവരുടെ ഭാഷയില്‍ പ്രമാണങ്ങള്‍ സൃഷ്ടിക്കുകയോ, തിരുത്തുകയോ, മാറ്റിയെഴുതുകയോ, അച്ചടിക്കുകയോ ചെയ്യുക അസാധ്യമായിരുന്നു. ഈ സമസ്യകള്‍ക്കെല്ലാമുള്ള ഒരുത്തരമാണ് യുണിക്കോഡ്.

[തിരുത്തുക] എന്തുകൊണ്ട് യുണിക്കോഡ്

മോസില്ല ഫയര്‍ഫോക്സില്‍ എന്‍കോഡിങ്ങ് രീതി തിരഞ്ഞെടുക്കുന്ന വഴി

കമ്പ്യൂട്ടറിനുള്ളില്‍ എല്ലാം സംഖ്യകളാണ്, അപ്പോള്‍ അക്ഷരങ്ങളും ചിഹ്നങ്ങളുമൊക്കെ കമ്പ്യൂട്ടറിനുള്ളില്‍ ശേഖരിക്കണമെങ്കില്‍ അവയെ സംഖ്യാരൂപത്തില്‍ ആക്കണം. അതിനുള്ള മാര്‍ഗമാണ് വിവിധ എന്‍കോഡിങ്ങ് സമ്പ്രദായങ്ങള്‍. ( കമ്പ്യൂട്ടറുകള്‍ ബൈനറി സംഖ്യകളാണ് ആന്തരികപ്രവര്‍ത്തനങ്ങള്‍ക്ക് ഉപയോഗിക്കുന്നത്. ബൈനറി സമ്പ്രദായത്തില്‍ രണ്ട് അക്കങ്ങളെയുള്ളൂ പൂജ്യവും ഒന്നും, അതിനാല്‍ ശേഖരിച്ചു വയ്ക്കാന്‍ എളുപ്പമാണ്, രണ്ട് അക്കങ്ങളേ ഉള്ളുവല്ലോ.) അതാ‍യത് അക്ഷരങ്ങളെ സംഖ്യകളായി രേഖപ്പെടുത്താം.

ഒരു സാധാരണ രീതി ഇതാണ്, 0 തൊട്ട് 255 വരെയുള്ള സംഖ്യകളുപയോഗിക്കുക (ഈ സംഖ്യകളുടെ ബൈനറി രൂപമാണുപയോഗിക്കുന്നത്) അപ്പൊ മൊത്തം 256 അക്ഷരങ്ങള്‍ രേഖപ്പെടുത്തിവയ്ക്കാന്‍ സാധിക്കും ഈ രീതിയില്‍. ഒരു ബൈറ്റ് ഉപയോഗിച്ചാണ് ഓരോ അക്ഷരവും രേഖപ്പെടുത്തുന്നത്. ഒരു ബൈറ്റ് എന്നാല്‍ 8 ബിറ്റുകളുടെ ഒരു കൂട്ടമാണ്. എട്ടെണ്ണത്തെ സൂചിപ്പിക്കുന്നതിനാല്‍ ബൈറ്റിന് ഒക്ടറ്റ് എന്നും പറയും.

ഉദാഹരണത്തിന് പൂജ്യം എന്ന് എഴുതണമെങ്കില്‍ ‘ 00000000 ’ എന്നാണ് എഴുതുക
                           ഒന്നിന്  ‘ 00000001 ’ എന്നും
                           രണ്ടിന് ‘ 00000010 ’ എന്നിങ്ങനെ ബൈനറിയില്‍ ഒക്ടറ്റ് ആയി എഴുതാം.

എട്ട് ബിറ്റുകള്‍ ഉപയോഗിച്ച് പരമാവധി 256 അക്ഷരങ്ങള്‍ മാത്രമേ രേഖപ്പെടുത്തി വക്കാന്‍ സാധിക്കൂ, കാരണം എട്ടു ബിറ്റുകള്‍ കൊണ്ട് അടയാളപ്പെടുത്താന്‍ പറ്റുന്ന ഏറ്റവും വലിയ ബൈനറി സംഖ്യ ഇതാണ് ‘ 11111111 ’ , ദശാംശ സംഖ്യാരീതിയില്‍(Decimal numbersystem) 255 ആണിത്.

ഏതുരീതി ഉപയോഗിച്ചായാലും അക്ഷരങ്ങളെ (characters) ഏതെങ്കിലും ഒരു സംഖ്യ ഉപയോഗിച്ചു രേഖപ്പെടുത്തുന്നതിന് ‘ ക്യാരക്ട്ര്‍ എന്‍കോഡിങ്ങ് ‘ (character encoding) എന്നു പറയുന്നു, പ്രസ്തുത അക്ഷരങ്ങളുടെ സംഖ്യാരൂപത്തിന് ' ക്യാരക്ട്ര്‍ കോഡ് ' (character code) എന്നും പറയുന്നു. ലോകത്തില്‍ കുറെയധികം ക്യാരക്ടര്‍ കോഡുകള്‍ ഉപയോഗത്തിലുണ്ട്. മിക്ക ക്യാരക്ടര്‍ എന്‍കോഡിങ് രീതികള്‍ക്കും ഒരു സാമ്യത ഉണ്ട്, 0 മുതല്‍ 127 വരെ ഉള്ള സംഖ്യകള്‍ ഒരേ അക്ഷരങ്ങളെയായിരിക്കും അടയാളപ്പെടുത്തുന്നത്. ഈ അക്ഷരങ്ങള്‍ ആംഗലേയ അക്ഷരമാലയിലെ 26 അക്ഷരങ്ങള്‍, അവയുടെ വലിയക്ഷരങ്ങള്‍ (Capital Letters), 0 തൊട്ട് 9 വരെയുള്ള സംഖ്യകള്‍, ചിഹ്നങ്ങള്‍ എന്നിവയാ‍ണ്. 0 തൊട്ട് 127 വരെയുള്ള സംഖ്യകള്‍ മാത്രം ഉപയോഗിച്ചുള്ള ക്യാരക്ടര്‍ എന്‍കോഡിങ്ങ് രീതിക്ക് ആസ്‌കി (എ.സ്.സി.ഐ.ഐ - ASCII) എന്നു പറയുന്നു.

പക്ഷെ ആസ്‌കി ഉപയോഗിച്ച് തല്‍ക്കാലം ആംഗലേയഭാഷമാത്രമേ അടയാളപ്പെടുത്തുവാന്‍ സാധിക്കൂ, ഉദാഹരണത്തിന് ഫ്രഞ്ചു ഭാഷയിലെ ചില അക്ഷരങ്ങള്‍ (é , ô) രേഖപ്പെടുത്തുവാനുള്ള വിസ്താരം ആസ്‌കിക്കില്ല. ആ സ്ഥിതിക്ക് 127 നു മുകളിലോട്ട് സംഖ്യകളുള്ള ഒരു എന്‍കോഡിങ്ങ് രീതി ആവശ്യമാണ് കൂടുതല്‍ അക്ഷരങ്ങള്‍ അടയാളപ്പെടുത്തുവാനായി. ഇങ്ങനെ ഒരു സമസ്യ വന്നപ്പോള്‍ ഉണ്ടാക്കപ്പെട്ട ഒരു ക്യാരക്ടര്‍ എന്‍കോഡിങ്ങ് രീതിയാണ് ലാറ്റിന്‍ 1 (Latin 1). ഈ രീതിയില്‍ 0 തൊട്ട് 255 വരെയുള്ള സംഖ്യകളുപയോഗിച്ചാണ് എന്‍കോഡിങ്ങ് ചെയ്യുന്നത്, 0 തൊട്ട് 127 വരെ ആസ്‌കി അക്ഷരങ്ങള്‍ തന്നെയാണ്, 128 തൊട്ട് 255 വരെയുള്ള സംഖ്യകളുപയോഗിച്ച് ആവശ്യമായ ലാറ്റിന്‍ അക്ഷരങ്ങളും ചിഹ്നങ്ങളും അടയാളപ്പെടുത്തിയിരിക്കുന്നു. ഇവിടെയും പ്രശ്നങ്ങളുണ്ട് ലാറ്റിന്‍ 1 ഉപയോഗിച്ച് പടിഞ്ഞാറന്‍ യൂറോപ്പിയന്‍ ഭാഷകളായ ആംഗലേയം, ഫ്രെഞ്ച്, സ്പാനിഷ്, ജര്‍മ്മന്‍ എന്നീ ഭാഷാക്ഷരങ്ങള്‍ മാത്രമേ രേഖപ്പെടുത്തുവാന്‍ സാധിച്ചിരുന്നുള്ളൂ. മദ്ധ്യ-കിഴക്കന്‍ യൂറോപ്പിയന്‍ പ്രദേശങ്ങളിലെ ഭാഷകള്‍ക്കും, ഗ്രീക്ക്, സിറില്ലിക്, അറബിക്, എന്നീ ഭാഷകള്‍ക്കും വേണ്ടി ലാറ്റിന്‍ 2 (Latin 2) എന്ന എന്‍കോഡിങ്ങ് രീതി നിലവിലുണ്ട്. ഏതെങ്കിലും ഒരു ഭാഷ ഉപയോഗിക്കുമ്പോള്‍ ആ ഭാഷയിലെ അക്ഷരങ്ങളും ചിഹ്നങ്ങളും അടയാളപ്പെടുത്തിയിട്ടുള്ള എന്‍കോഡിങ്ങ് രീതി നാം തെരഞ്ഞെടുക്കണം. ക്യാരക്ടര്‍ എന്‍കോഡിങ്ങ് രീതികള്‍ ആവശ്യമനുസരിച്ച് മാറ്റുവാനുള്ള സംവിധാനം മിക്ക സോഫ്റ്റ്വെയറുകളിലും ഉണ്ട്.

പക്ഷെ പ്രശ്നം ഉണ്ടാവുക ഒരേ സമയത്ത് വിവിധ ഭാഷകള്‍ ഉപയോഗിക്കേണ്ടി വരുമ്പോളാണ്. ഉദാഹരണത്തിന് ഫ്രഞ്ചും ഗ്രീക്കും ഒരു സ്ഥലത്ത് വേണമെന്നു കരുതുക, ഫ്രെഞ്ചിനെ പിന്താങ്ങുന്ന എന്‍കോഡിങ്ങ് രീതി ലാറ്റിന്‍ 1 ആണ് എന്നാല്‍ ഗ്രീക്ക് അക്ഷരങ്ങള്‍ ലാറ്റിന്‍ 2 എന്‍കോഡിങ്ങിലേ കാണുകയുള്ളൂ. ഒരേ പ്രമാണത്തില്‍ രണ്ട് എന്‍കോഡിങ്ങ് രീതികള്‍ ഉപയോഗിക്കാന്‍ സാധ്യമല്ല, അപ്പോള്‍ പിന്നെ 0 തൊട്ട് 255 വരെയുള്ള സംഖ്യകള്‍ ഉപയോഗിച്ച് വിവിധ ഭാഷകള്‍ക്ക് വേണ്ടി വ്യത്യസ്ത എന്‍കോഡിങ്ങ് രീതികള്‍ വികസിപ്പിക്കുന്നത് ശാ‍ശ്വതമല്ല എന്നു വേണം പറയാന്‍.

മറ്റൊരു പ്രശ്നം കൂടിയുണ്ട് കണക്കിലെടുക്കാന്‍, ചൈനീസ്, ജാപ്പനീസ് പോലുള്ള ഭാഷകളിലുള്ള അക്ഷരങ്ങളുടെ എണ്ണം വളരെക്കൂടുതലാണ്, 256 ല്‍ അവ ഒതുങ്ങില്ല.

ഈ പ്രശ്നങ്ങള്‍ക്കുള്ള ഒരു പോംവഴി എല്ലാഭാഷകളിലേയും ഓരോ അക്ഷരവും ചിഹ്നവും, അനന്യമായ ഒരു സംഖ്യയാല്‍ അടയാളപ്പെടുത്താന്‍ പറ്റിയ ഒരു എന്‍കോഡിങ്ങ് രീതി വികസിപ്പിക്കുകയാണ്. ഈ സംഖ്യ ഏതെങ്കിലും ഭാഷയെയോ, ഫോണ്ടിനെയോ, സോഫ്റ്റ്വെയറിനെയോ, ഓപ്പറേറ്റിങ്ങ് സിസ്റ്റത്തെയോ, ഉപകരണത്തെയോ അടിസ്ഥാനപ്പെടുത്തിയുള്ളതാവില്ല. ഇതൊരു സാര്‍വത്രികമായ സംഖ്യയായിരിക്കും. ലോകത്തില്‍ ഇപ്പോള്‍ നിലവിലുള്ള എല്ലാ ഭാഷകളും ഉള്‍ക്കൊള്ളുന്നതും, അവയുടെ ഭാവിയില്‍ വരാവുന്ന എല്ലാ ആവശ്യങ്ങള്‍ക്കും ഉതകുന്നതുമായിരിക്കണം ഇത്. ഈ പറഞ്ഞപ്രകാരമുള്ള ഒരു എന്‍കോഡിങ്ങ് രീതിയാ‍ണ് യുണിക്കോഡ്.

ഈ ലേഖനം കൂടുതല്‍ വിക്കിവത്കരിക്കേണ്ടതുണ്ട്