UNICODE

こんにちは、フルーツポンチです。
今回はUNICODEについてです。

UNICODE

今回はUNICODEについて紹介していきます。

UNICODEは、ファイルで文字を保存するときに使用される文字コードといわれるもののうちの一つで、文字コードの中では現在1番目か2番目くらいに使われているといっても過言ではないぐらいに、よく使われるものです。

UNICODEが誕生した経緯を軽く説明すると、誕生する前にはいろいろな言語に対応するためなどに多くの文字コードが存在しており、文字コードがわからなかったりなどで、文章のやりとりに支障が発生したりしていたため、すべての言語に対応した文字コードを作ろうとして誕生したものになります。

このUNICODEですが、すべての言語を表すのに当初想定していた長さでは表現しきれないことが判明したりなどの経緯を経た結果、さらにUTF-8,UTF-16,UTF-32などの方言のようなものがあり、単純にUNICODEといった場合はどれかが明確にわからない場合もありますが、執筆時点(2021/10/29)でWindowsで”Unicode”と出てきた場合は、基本的にUTF-16というもののうち、さらにリトルエンディアンといわれるものを指すことが多く、また、それ以外の場合は比較的よく使われるUTF-8を指すことが多いようです。

このようにUNICODEには複数の方言のようなものがあり、どれが使用されているかわからなくなったりしてしまうので、見分けるためにバイトオーダーマーク(BOMと表記されることもあります)と呼ばれる、既定のバイト列を文章の先頭に記録しておく場合があります。
このバイトオーダーマークはプログラムが種類を見分けるために便利ですが、逆に見分ける機能がないプログラムなどで開いた場合に、文字化けしたような文字が先頭についてしまうような場合もあります。

また、このバイトオーダーマークはUNICODEを見分けるためだけでなく、他の文字コードでないかどうかを判別する際に使用されることもあります。
バイトオーダーマークは、他の文字コードではあまり出てこないような並びになっており、これが存在するかどうかでUNICODEかどうかが基本的には見分けられるというわけです。

このようにすべての言語に対応しようとして生まれたUNICODEですが、現在は絵文字なども含まれたりしていて、本当にたくさんの文字を表せるようになっています。
たくさんの文字を一つの文字コードで表せるというのは、国際化していく社会の中でとてもすばらしいことだと思うので、UNICODEを使用できるところが増えていけばいいなと思います。