Base64
出典: フリー百科事典『ウィキペディア(Wikipedia)』
Base64は、データを64種類の印字可能な英数字のみを用いて、それ以外の文字を扱うことの出来ない通信環境にてマルチバイト文字やバイナリデータを扱うためのエンコード方式である。MIMEによって規定されていて、7ビットのデータしか扱うことの出来ない電子メールにて広く利用されている。具体的には、A–Z, a–z, 0–9 までの62文字と、記号2つ (+ , /) 、さらにパディング(余った部分を詰める)のための記号として = が用いられる。この変換によって、データ量は4/3になる。また、MIMEの基準では76文字ごとに改行文字が入るため、この分の2バイトを計算に入れるとデータ量は約137%となる。
目次 |
[編集] 変換形式
Base64変換の手順を以下に挙げる。
- 元データの先頭3バイト (24bit) 分を取り出す。
- 6bitずつ4つに分割し、各6bitの値に対して以下の表のような変換をして行う。
- データが終わるまでこれを続ける。
- さらに、最後にエンコードしたデータが3バイトに満たなかった場合、その分だけ = 記号を最後に付加する。(結果として得られる文字列の長さは常に4の倍数になる)
[編集] 変換表
データ | 文字 | データ | 文字 | データ | 文字 | データ | 文字 | |||||||
0 | 000000 | A | 16 | 010000 | Q | 32 | 100000 | g | 48 | 110000 | w | |||
1 | 000001 | B | 17 | 010001 | R | 33 | 100001 | h | 49 | 110001 | x | |||
2 | 000010 | C | 18 | 010010 | S | 34 | 100010 | i | 50 | 110010 | y | |||
3 | 000011 | D | 19 | 010011 | T | 35 | 100011 | j | 51 | 110011 | z | |||
4 | 000100 | E | 20 | 010100 | U | 36 | 100100 | k | 52 | 110100 | 0 | |||
5 | 000101 | F | 21 | 010101 | V | 37 | 100101 | l | 53 | 110101 | 1 | |||
6 | 000110 | G | 22 | 010110 | W | 38 | 100110 | m | 54 | 110110 | 2 | |||
7 | 000111 | H | 23 | 010111 | X | 39 | 100111 | n | 55 | 110111 | 3 | |||
8 | 001000 | I | 24 | 011000 | Y | 40 | 101000 | o | 56 | 111000 | 4 | |||
9 | 001001 | J | 25 | 011001 | Z | 41 | 101001 | p | 57 | 111001 | 5 | |||
10 | 001010 | K | 26 | 011010 | a | 42 | 101010 | q | 58 | 111010 | 6 | |||
11 | 001011 | L | 27 | 011011 | b | 43 | 101011 | r | 59 | 111011 | 7 | |||
12 | 001100 | M | 28 | 011100 | c | 44 | 101100 | s | 60 | 111100 | 8 | |||
13 | 001101 | N | 29 | 011101 | d | 45 | 101101 | t | 61 | 111101 | 9 | |||
14 | 001110 | O | 30 | 011110 | e | 46 | 101110 | u | 62 | 111110 | + | |||
15 | 001111 | P | 31 | 011111 | f | 47 | 101111 | v | 63 | 111111 | / |
[編集] 主な利用例
[編集] 電子メール
電子メールでは、SMTPなどの制約により、7bit文字列以外をやり取りすることは出来ない。そのため、添付ファイルなどのバイナリ形式のデータを送信する際に標準的に利用されている。
[編集] Basic認証
HTTPヘッダでは、特殊記号を使用することが出来ないため、ユーザー名とパスワードをコロン (:) で区切ってBase64エンコードした文字列が認証に用いられている。
[編集] 電子掲示板
インターネット上の電子掲示板では、文字列以外のバイナリデータの書き込みは基本的に不可能である。そこで、画像やテキスト文章を圧縮したファイルなどをやり取りするために、この形式が使用されることがある。
[編集] 問題点
このエンコードをするとデータ量が大きく増加するため、特に大きなファイルの送受信などをする場合は、電子メール以外の手段を利用したほうが格段に速い場合がある。また、英文の中に特殊文字が混じっているテキスト文章などは、特殊文字だけをエンコードした方がデータ効率が良く、デコードを行わなくても大体のデータが読めると言う利点がある。(Quoted-printable参照)
URLにBase64を含ませると、'+'と'/'が問題を引き起こすことがある。これらの文字がURLで特別な意味を持つために'%XX'の形にエスケープする必要が生じるためである。 他にも、'+'と'/'が特別な意味をもつ個所(正規表現など)やその使用が制限される個所(XMLなど)でBase64を用いるときには、この二文字のかわりに'!'、'-'、'.'等を用いることがある。
[編集] 関連項目
- URLエンコード
- uuencode
- BinHex