יוניקוד
מתוך ויקיפדיה, האנציקלופדיה החופשית

יוניקוד (Unicode) הוא תקן בינלאומי לייצוג טקסט במערכות מחשב. התקן מגדיר מערכת תווים המקיפה את כל מערכות הכתב הנמצאות כיום בשימוש פעיל בשפות העולם, וכן מערכות כתב ותווים נוספים שבהם נעשה שימוש בתחומים מדעיים וטכניים, כגון מתמטיקה ובלשנות. בנוסף מגדיר התקן כללים לייצוג צירופים של תווים שונים (כגון אות לטינית שעליה סימן אקצנט, או אות עברית שעליה סימן ניקוד), וכללים לייצוג והצגה של טקסט דו־כיווני (הכולל קטעים במערכת כתב הנכתבת משמאל לימין ובכזו הנכתבת מימין לשמאל).
מערכות הפעלה חדשות כדוגמת Windows 2000 ו־Windows XP, הגרסאות החדשות ביותר של לינוקס ומערכת ההפעלה OS X של המקינטוש כולן עושות שימוש בתקן יוניקוד. מערכות ההפעלה הראשונות שתמכו ב־Unicode היו Windows NT על כל גרסאותיהן ו־Plan9, שהיא מערכת מבוססת יוניקס.
תקן מקובל ליצוג טקסט לפני יוניקוד היה ASCII, שייצג את האלפבית הלטיני הפשוט (ללא אקצנטים וכו'), מספרים וסימני פיסוק בקידוד של 7 סיביות. כדי לתמוך בתווים נוספים הורחב ייצוג זה לקידוד של 8 סיביות, שכל אחד מהם הכיל 256 תווים: 128 תווי ASCII ו-128 תווים אחרים לפי האזור. כך למשל, המספר 224 הכיל את האות à בקידוד של מערב אירופה ואת האות א בקידוד העברי. דבר זה גרם לבעיות בהעברה של טקסט ממערכות שונות. ב־1990 התכנסו חברות תוכנה ותקשורת עולמיות כדי לפתור את הבעיה וכך החלה התקינה של יוניקוד.
תחילה (כלומר עד לגרסה 2.0) התבסס יוניקוד על קידוד של 16 סיביות, היכול להכיל 65,536 תווים. לאחר שתוקנו תווים רבים לצורכי תאימות (כגון הברות קוריאניות), היה ברור כי אין זה מספר מספיק לכל הצרכים העולמיים, וגרסה 2.0 של יוניקוד הורחבה להכיל 1,112,064 תווים באמצעות מנגון UTF-16, שבו 2048 קודים מנוצלים כדי לייצג יותר ממיליון תווים. בגרסה 3.1 של יוניקוד הותקנו התווים הראשונים מעבר לתחום ה־65,536 העליונים (המשטח הרב־לשוני הבסיסי), וקידוד יוניקוד ניתן לבצע באחת משלוש צורות: UTF-8, UTF-16 ו־UTF-32. הראשונה משמשת באינטרנט ובלינוקס, השנייה ב־Java ובחלונות, והאחרונה בתור קידוד פנימי (בתוך הזיכרון) של מערכות יוניקס מסוימות.
תקן ה-Unicode מוסיף נדבך קטן בהפיכתו של העולם לכפר גלובלי קטן בשל העובדה שיש מערכת קידוד אחידה שאפשר להשתמש בה בכל העולם. הדבר מקל במיוחד על אנשים הנוסעים ברחבי העולם, היכולים כמעט בכל מחשב לכתוב בשפתם. כמו גם החלפת תכתובות באינטרנט בין אנשים דוברי שפות שונות מרחבי העולם.
[עריכה] אוצר התווים של יוניקוד
כל תו ביוניקוד הוא בעל שם ומספר סידורי (שאותו נהוג לציין בבסיס הקסדצימלי עם הקידומת U+). לדוגמה, האות העברית "א" ידועה בשם HEBREW LETTER ALEF או U+05D0. כאשר קונסורציום Unicode מוסיף תו חדש לתקן, מספרו הסידורי מוקצה מתוך אחד מהבלוקים הבאים, בהתאם להשתייכותו. להלן הבלוקים נכון לגרסה 4.0 של התקן וטווחיהם המספריים (מצוינים בבסיס הקסדצימלי):
- 0000-007F: לטינית בסיסית
- 0080-00FF: השלמה של Latin-1
- 0100-017F: לטינית מורחבת א'
- 0180-024F: לטינית מורחבת ב'
- 0250-02AF: הרחבות לאלפבית הפונטי הבינלאומי.
- 02B0-02FF: תווים משני מרווח
- 0300-036F: סימנים מבחינים מתחברים
- 0370-03FF: יוונית וקופטית
- 0400-04FF: קירילית
- 0500-052F: השלמה של קירילית
- 0530-058F: ארמנית
- 0590-05FF: עברית
- 0600-06FF: ערבית
- 0700-074F: סורית
- 0780-07BF: ת'אנה
- 0900-097F: דבנגארי
- 0980-09FF: בנגאלי
- 0A00-0A7F: גורמוכי
- 0A80-0AFF: גוג'ראטי
- 0B00-0B7F: אורייה
- 0B80-0BFF: טאמיל
- 0C00-0C7F: טלוגו
- 0C80-0CFF: קנאדה
- 0D00-0D7F: מלאיאלם
- 0D80-0DFF: סינהאלה
- 0E00-0E7F: תאילנדית
- 0E80-0EFF: לאו
- 0F00-0FFF: טיבטית
- 1000-109F: מיאנמר (בורמזית)
- 10A0-10FF: גאורגית
- 1100-11FF: ג'אמו (יסודות מתחברים) של הנגול (קוריאנית)
- 1200-137F: אתיופית
- 13A0-13FF: צ'רוקי
- 1400-167F: הברות קנדיות ילידיות מאוחדות
- 1680-169F: אוגם (כתב אירי עתיק)
- 16A0-16FF: רונית
- 1700-171F: טגלוג
- 1720-173F: הנונואו
- 1740-175F: בוהיד
- 1760-177F: טגבאנווה
- 1780-17FF: ח'מר
- 1800-18AF: מונגולית
- 1900-194F: לימבו
- 1950-197F: טאי לה
- 19E0-19FF: סמלים לח'מר
- 1D00-1D7F: הרחבות פונטיות
- 1E00-1EFF: לטינית מורחבת נוספת
- 1F00-1FFF: יוונית מורחבת
- 2000-206F: פיסוק כללי
- 2070-209F: תווים עיליים ותחתיים
- 20A0-20CF: סמלי מטבע
- 20D0-20FF: סימנים מבחינים מתחברים בשביל סמלים
- 2100-214F: סמלים דמויי אותיות
- 2150-218F: צורות מספרים
- 2190-21FF: חצים
- 2200-22FF: אופרטורים מתמטיים
- 2300-23FF: סימנים טכניים שונים
- 2400-243F: תמונות של תווי בקרה
- 2440-245F: סימנים לסורקי כתב (OCR)
- 2460-24FF: סימנים אלפאנומריים מוסגרים
- 2500-257F: סרטוט קופסאות
- 2580-259F: יסודות של בלוקים
- 25A0-25FF: צורות הנדסיות
- 2600-26FF: סמלים שונים
- 2700-27BF: קישוטים
- 27C0-27EF: סמלים מתמטיים שונים א'
- 27F0-27FF: השלמה של חצים א'
- 2800-28FF: תרשימי ברייל
- 2900-297F: השלמה של חצים ב'
- 2980-29FF: סמלים מתמטיים שונים ב'
- 2A00-2AFF: השלמה של סמלים מתמטיים
- 2B00-2BFF: סמלים וחצים שונים
- 2EB0-2EFF: השלמה של שורשי כתב סיני
- 2F00-2FDF: שורשי קנגשי
- 2FF0-2FFF: תווים לתיאור אידיאוגרפי
- 3000-303F: סימני פיסוק לסינית, יפנית וקוריאנית
- 3040-309F: הירגאנה (הברות יפניות)
- 30A0-30FF: קטקאנה (הברות יפניות)
- 3100-312F: בופומופו (תווים ללימוד סינית)
- 3130-318F: ג'אמו של הנגול לתאימות
- 3190-319F: קאנבון
- 31A0-31BF: בופומופו מורחב
- 31F0-31FF: הרחבות פונטיות לקטקאנה
- 3200-32FF: תווים וחודשים מוסגרים לסינית, יפנית וקוריאנית
- 3300-33FF: תאימות לסינית, יפנית וקוריאנית
- 3400-4DBF: אידיאוגרמות סיניות מאוחדות, הרחבה א'
- 4DC0-4DFF: סמלי הקסגרמה של ייג'ינג
- 4E00-9FFF: אידיאוגרמות סיניות מאוחדות
- A000-A48F: הברות יי
- A490-A4CF: שורשי יי
- AC00-D7AF: הברות הנגול (קוריאנית)
- D800-DB7F: ממלאי מקום גבוהים (ראו UTF-16)
- DB80-DBFF: ממלאי מקום גבוהים לשימוש פרטי
- DC00-DFFF: ממלאי מקום נמוכים
- E000-F8FF: אזור שימוש פרטי
- F900-FAFF: אידיאוגרמות סיניות לתאימות
- FB00-FB4F: צורות תצוגה לאלפבית
- FB50-FDFF: צורות תצוגה לערבית א'
- FE00-FE0F: בוררי צורות משנה
- FE20-FE2F: חצאי סימנים מתחברים
- FE30-FE4F: צורות תאימות לסינית, יפנית וקוריאנית
- FE50-FE6F: צורות משנה קטנות
- FE70-FEFF: צורות תצוגה לערבית ב'
- FF00-FFEF: צורות לאורך חצוי ואורך מלא
- FFF0-FFFF: מיוחדים
- 10000-1007F: הברות של כתב לינארי B
- 10080-100FF: אידיאוגרמות של כתב לינארי B
- 10100-1013F: מספרים אגאיים
- 10300-1032F: איטאלית עתיקה
- 10330-1034F: גותית
- 10380-1039F: אוגריתית
- 10400-1044F: דזרט (כתב מורמוני)
- 10450-1047F: שאוויאנית (הכתב שהמציא ג'ורג' ברנרד שו)
- 10480-104AF: אוסמאניה
- 10800-1083F: הברות קפריסאיות
- 1D000-1D0FF: סמלים מוזיקליים ביזנטיים
- 1D100-1D1FF: סמלים מוזיקליים
- 1D300-1D35F: סמלי טאי שואן ג'ינג
- 1D400-1D7FF: סמלים מתמטיים אלפאנומריים
- 20000-2A6DF: אידיאוגרמות סיניות מאוחדות, הרחבה ב'
- 2F800-2FA1F: השלמה של אידיאוגרמות סיניות לתאימות
- E0000-E007F: תגים
- E0100-E01EF: השלמה של בוררי צורות משנה
- F0000-FFFFF: אזור שימוש פרטי משלים א'
- 100000-10FFFF: אזור שימוש פרטי משלים ב'
[עריכה] ראו גם
- אלגוריתם דו-כיווניות של יוניקוד
- דחיסת Unicode
[עריכה] קישורים חיצוניים
- האתר של ארגון יוניקוד
- decodeunicode 50.000 gifs.