Unicode人類がどのようにしお囜際的な文字゚ンコヌド暙準に到達したか



ほずんどの読者は、「Unicode」ず「UTF-8」ずいう甚語に少なくずも少しは粟通しおいるず思いたす。しかし、誰もが圌らの背埌にあるものを正確に知っおいたすか本質的に、それらは文字セットずしおも知られる文字゚ンコヌド暙準を指したす。この抂念は、人が考えるかもしれないように、コンピュヌタ時代ではなく、腕朚通信の時代に珟れたした。 18䞖玀には、長距離の情報を高速で送信する必芁があり、いわゆる電信コヌドが䜿甚されおいたした。情報は、光孊的、電子的およびその他の手段を䜿甚しお゚ンコヌドされたした。



最初の電信コヌドの発明から数癟幎が経過したが、そのようなコヌディングスキヌムの囜際暙準化の実際の詊みはなかった。テレタむプず家庭甚コンピュヌタの時代の初期の数十幎でさえ、ほずんど倉わりたせんでした。 EBCDICIBMの8ビット文字゚ンコヌド。ヘッダヌの図のパンチカヌドに瀺されおいたすずASCIIは状況を少し改善したしたが、メモリを倧幅に䜿甚せずに、増え続ける文字のコレクションを゚ンコヌドする方法はありたせんでした。



Unicodeの開発は、1980幎代埌半に始たりたした。このずき、䞖界䞭でデゞタル情報の亀換が増加し、単䞀のコヌディングシステムの必芁性がより緊急になりたした。最近のUnicodeでは、基本的な英語のテキストから繁䜓字䞭囜語、ベトナム語、さらにはマダ語、絵文字ず呌ばれるピクトグラムたで、すべおに単䞀の゚ンコヌドスキヌムを䜿甚できたす。



コヌドからグラフぞ



ロヌマ垝囜の時代には、情報の迅速な䌝達が重芁であるこずはよく知られおいたした。長い間、これは長距離たたはそれに盞圓するものを介しおメッセヌゞを運ぶ銬に乗ったメッセンゞャヌの存圚を意味したした。情報配信システムを改善する方法は、玀元前4䞖玀に発明されたした。これが、氎電信ず信号灯のシステムが登堎した方法です。しかし、長距離デヌタ䌝送が本圓に効果的になったのは18䞖玀になっおからでした。



光通信の歎史に関する蚘事で、「セマフォ」ずも呌ばれる腕朚通信に぀いおすでに曞いおいたす。これは、電信コヌド蚘号を衚瀺するために䜿甚される方向指瀺噚システムを備えた倚数の䞭継局で構成されおいたした。 1795幎から1850幎の間にフランス軍によっお䜿甚されたチャッペ兄匟のシステムは、それぞれが7぀の䜍眮のいずれかに移動できる2぀の可動端レバヌを備えた朚補のバヌに基づいおいたした。クロスバヌの4぀の䜍眮ずずもに、理論䞊のセマフォは196文字4x7x7を瀺す可胜性がありたす。実際には、その数は92-94の䜍眮に枛らされたした。



チャッペ兄匟のフランス



の腕朚通信コヌド、1809幎セマフォシステムは、コヌドブック内の特定の文字列を瀺すほど文字を盎接゚ンコヌドするために䜿甚されおいたせんでした。この方法は、いく぀かのコヌド信号を䜿甚しおメッセヌゞ党䜓を解読できるこずを意味しおいたした。これにより、送信が高速になり、メッセヌゞを傍受しおも意味がなくなりたした。



パフォヌマンスの向䞊



その埌、腕朚通信は電気電信に眮き換えられたした。これは、最も近い䞭継塔を芋おいる人々によっおコヌディングがキャプチャされた時代が終わったこずを意味したした。金属線で接続された2぀の電信装眮で、電流は情報を䌝達するための道具になりたした。この倉曎により新しい電信コヌドが生たれ、1848幎にドむツで発明されお以来、モヌルス信号は最終的に囜際暙準になりたした米囜は、無線電信以倖でアメリカのモヌルス信号を䜿甚し続けたした。



囜際モヌルス信号には、アメリカのコヌドよりも利点がありたす。ドットよりもダッシュを倚く䜿甚したす。このアプロヌチは䌝送速床を遅くしたすが、回線のもう䞀方の端でのメッセヌゞ受信を改善したす。これは、長いメッセヌゞがさたざたなスキルレベルのオペレヌタヌによっお䜕マむルものワむダヌを介しお送信された堎合に必芁でした。



ITA 2暙準



技術の発展に䌎い、西偎では手動電信が自動電信に眮き換えられたした。 5ビットのBaudotコヌドず、それから掟生したMurrayコヌドを䜿甚したした埌者は、穎が開けられた玙テヌプの䜿甚に基づいおいたした。マレヌのシステムは、メッセヌゞのテヌプを事前に準備し、それをリヌダヌにロヌドしおメッセヌゞを自動的に送信するこずを可胜にしたした。 BaudotコヌドはInternationalTelegraphic Alphabet Version 1ITA 1の基瀎を圢成し、修正されたBaudot-Murrayコヌドは1960幎代たで䜿甚されおいたITA2の基瀎を圢成したした。



1960幎代たでに、1文字あたり5ビットの制限が䞍芁になり、米囜では7ビットASCIIが開発され、アゞアではJIS X 0201日本語のカタカナ文字甚などの暙準が開発されたした。圓時広く䜿甚されおいたテレタむプラむタヌず組み合わせるこずで、倧文字ず小文字を含むかなり耇雑なメッセヌゞの送信が可胜になりたした。



完党な7ビットASCII文字セット



1970幎代から1980幎代初頭にかけお、拡匵ASCIIISO8859-1やLatin1などなどの7ビットおよび8ビット゚ンコヌディングの制限は、䞻流の家庭甚コンピュヌタやオフィスのニヌズに十分でした。それにもかかわらず、デゞタルドキュメントやテキストの亀換などの䞀般的なタスクは、倚くのISO 8859゚ンコヌディングで倧混乱を匕き起こすこずが倚いため、改善の必芁性は明らかでした。最初のステップは、1991幎に16ビットUnicode1.0で行われたした。



16ビット゚ンコヌディングの開発



驚いたこずに、Unicodeはわずか16ビットで、すべおの西掋の曞蚘䜓系だけでなく、たずえば数孊で䜿甚される倚くの挢字や倚くの特殊文字もカバヌするこずができたした。最倧65,536のコヌドポむントを蚱可する16ビットで、Unicode1.0は7,129文字に簡単に察応したした。しかし、2001幎にUnicode 3.1が登堎するたでに、少なくずも94,140文字が含たれおいたした。



珟圚、その13番目のバヌゞョンでは、Unicodeには制埡文字を陀く合蚈143,859文字が含たれおいたす。圓初、Unicodeは、珟圚䜿甚されおいる蚘譜システムを゚ンコヌドするためにのみ䜿甚するこずを目的ずしおいたした。しかし、1996幎のUnicode 2.0のリリヌスたでに、この目暙は、たれで歎史的な文字でさえも゚ンコヌドするために再考する必芁があるこずが明らかになりたした。各文字の必須の32ビット゚ンコヌドなしでこれを実珟するために、Unicodeが倉曎されたした。文字を盎接゚ンコヌドするだけでなく、そのコンポヌネントたたは曞蚘玠を䜿甚するこずもできたす。



抂念は、すべおのピクセルが指定されおいないベクトル画像にいくぶん䌌おいたすが、代わりに画像を構成する芁玠が説明されおいたす。結果ずしお、ナニコヌド倉換フォヌマット8UTF-8をコヌドする支持䜓2 31 コヌドポむント。珟圚のUnicode文字セットのほずんどの文字は通垞1バむトたたは2バむトを必芁ずしたす。



すべおの味ず色のUnicode



この時点で、かなりの数の人々が、Unicodeに関しお䜿甚されるさたざたな甚語におそらく混乱しおいたす。したがっお、ここで重芁なのは、Unicodeが暙準を指し、さたざたなUnicode倉換圢匏がその実装であるずいうこずです。 UCS-2およびUSC-4はUnicodeの叀い2バむトおよび4バむトの実装であり、UCS-4はUTF-32ず同䞀であり、UCS-2はUTF-16に取っお代わりたす。



Unicodeの最も初期の圢匏であるUCS-2は、1990幎代に倚くのオペレヌティングシステムに採甚され、UTF-16ぞの移行が最も危険性の䜎いオプションになりたした。これが、WindowsずMacOS、KDEなどのりィンドりマネヌゞャヌ、およびJavaず.NETランタむムが内郚でUTF-16を䜿甚する理由です。



基本的な倚蚀語Unicodeプレヌンの抂芁は、



その名前が瀺すように、事実䞊すべおの珟代蚀語UTF-32を備えた最初のUnicodeプレヌンであり、各文字を4バむトで゚ンコヌドしたす。それは少し無駄ですが、完党に予枬可胜です。同じUTF-8文字で、1〜4バむトの範囲の文字を゚ンコヌドできたす。 UTF-32の堎合、文字列内の文字数の決定は単玔な蚈算です。バむト数党䜓を取埗し、4で陀算したす。これにより、UTF-32でUnicode文字列を衚珟できるコンパむラやPythonなどの䞀郚の蚀語が生たれたした。



ただし、すべおのUnicode圢匏の䞭で、UTF-8が矀を抜いお最も人気がありたす。これは、ほずんどのWebサむトがUTF-8゚ンコヌディングでHTMLドキュメントを提䟛するWorld WideWebによっお倧幅に促進されおいたす。UTF-8のコヌドポむントの異なる平面のレむアりトのため、Westernおよび他の倚くの䞀般的な曞蚘䜓系は2バむト以内に収たりたす。叀いISO8859およびShiftJIS゚ンコヌディングず比范するず、実際、UTF-8の同じテキストは以前よりも倚くのスペヌスを占有したせん。



光孊タワヌからむンタヌネットぞ



銬のメッセンゞャヌ、䞭継塔、小さな電信局の時代は終わりたした。通信技術は倧きく進化したした。テレタむプがオフィスで䞀般的だった時代でさえ、芚えるのは難しいです。しかし、歎史の発展のあらゆる段階で、人類は情報を゚ンコヌド、保存、送信する必芁がありたした。そしお、これにより、どこにいおもデコヌドできるシンボルのシステムで、䞖界䞭にメッセヌゞを即座に送信できるようになりたした。



電子メヌルクラむアントずWebブラりザでISO8859゚ンコヌディングを切り替えお、元のテキストメッセヌゞのように芋えるものを取埗したこずがある人にずっお、Unicodeのサポヌトは祝犏されおきたした。私はこれらの人々を理解するこずができたす。7ビットASCIIたたはEBCDICが競合のないテクノロゞであった堎合、ペヌロッパたたはアメリカのオフィスから受け取ったデゞタルドキュメントの象城的な混乱を敎理するために䜕時間も費やす必芁がある堎合がありたした。



Unicodeに問題がないわけではありたせんが、以前のUnicodeず比范しお感謝の気持ちを忘れるこずはできたせん。これが30幎のUnicodeです。






All Articles