ロシア語文字コードについて基本情報
ロシア語で使用される文字ロシアで使用されている現代キリル文字は、31文字、それ以外に記号として軟音記号と硬音記号の二つが加わり、標準では33文字を使用する。ただしこの点からして、いくつかの問題がある。 まず、通常表記ではyeとyoの二重母音は、文字としては区別されない。したがって二重母音yoは通常は表記が必要ない。 さらに硬子音は現代表記では、単語中で特別に発音の切り離しがおこなわれる場合のほかは表記されない。そのため、かつていくつかの種類のタイプライターなどは硬子音をキーとして持たず、アポストロフィーで代替することがあった。 加えて、同じキリル文字を使用していても、帝政ロシア語(亡命ロシア人社会では依然として流通していた)、ウクライナ、ベラルーシ、ブルガリア、セルビア、マケドニアといったスラブ系の諸言語およびソ連時代にキリル表記を受け入れた旧連邦構成共和国や自治共和国等の言語が、それぞれ特殊に使用する音声文字を持っている。したがって標準セットのキリル文字だけではない異バージョンが数多く存在する。 こうしたことからタイプライターの時代から、キリル文字キーボードの配列にはいくつかのマイナーバージョンが存在していたし、キリル文字コードの制定に関しても、同様の課題に直面することとなった。 以上のような事情を受けて、ロシア語をコンピュータ上で表示する方法について、様々な手法が編み出され、それらが混在しているのが現状である。 キリル文字コードロシア語で使用される文字コードは、上記のような事情とロシア地域におけるコンピュータ使用状況を反映して複数のサブセットを持っている。現在も有効な主な系列は以下のようなものだが、これら相互は互換性を持たない。ただしそれぞれの文字コード系列内に拡張バージョンがあり、これら相互は、ある程度の互換性を持っている。 キリル文字は、日本語やハングル、中国語などとは違い、1バイトでも表現可能である。ただし、前述の異体字の存在なども含め、通常の欧文特殊文字の扱いでは足りない。そのため1バイトで96領域を使用する体系となっていることが多い。その結果、他の代表的な欧文文字や記号との混在が極めて難しい。 KOI8(旧KOI8、CP878)70年代末にキリル文字のみのコードとして開発された7ビットコードであるKOI7に続いて、ラテン文字の同時使用を可能にするために、8ビットセットとして開発されたのがKOI8(旧KOI8)である。このKOIとは「情報交換コード」の略で、8とは8ビット文字であることを指す。この旧KOI8をベースにウクライナ語や他のキリル文字言語の特殊文字をも考慮したのがISO-IR-111である。このキャラクタセットのファミリーは、1987年に新文字コードが政府から発表されるまで、事実上の標準としての地位にあった。 ISO-8859-5旧KOI8系の文字コードは主にUNIXベースで事実上の標準としての地位を築いていたが、当時のソ連政府主導による文字コード制定作業は、1987年にKOI8系ではなくまったく新しい標準であるGOST19768-87を発表。これを元に1988年にISO-8859-5が確定した。ISO-8859-5の並びはキリル語アルファベットの順番に則っており、その点が、ラテン文字のアルファベット順を基本としたKOI8と大きく異なる。そのため、このISO-8859-5は一切他の文字コードとの互換性がない。RFC-1341(MIME)ではこのISO-8859-5をロシア語文字コードの標準とすることを推奨しており、Unicodeもこれを基準としてキリル文字コード部分を定めているが、この文字コードは実際上、ほとんど普及していない。 KOI8-r(現KOI8)ISO-8859-5が世界標準として確定し、それを使うことが公式には推奨されるようになったが、旧KOI8は依然として力を持ちつづけた。このKOI8の拡張コードが現在の標準であるKOI8-rである。KOI8-rの仕様は、ISO-8859-5に対抗する形でRFC-1489に記載され、インターネットでも事実上の標準となった。現在KOI8と称するのはこれである。 現KOI8は、ロシア語だけでなく、各種記号やキリル文字圏の特殊文字を独自にサポートし、ロシア語の標準セット以外では、旧KOI8との互換性は薄い。ただしこのファミリーに属するウクライナ語用のKOI8-u、およびその他のKOI8-ru、KOI-8 Unifiedといったコードとは、いくつかの異体字(例えばウクライナ語やベラルーシ語等特有の文字等)を除けば、互換性がある。 CP866DOS時代の標準的な文字コードで、それなりにロシア国内でも使われた。CPとはコードページの略で、主にパソコンで利用される文字コードの表記である。CP866は、MS-DOSのロシア語表示をサポートするために独自に開発され、上記のいずれの文字コードとも異なる。CP866の互換ファミリーであるKOI8 Alternativeという文字コードは最もよく利用されるAT互換機用のロシア語キャラクタセットだが、これも上述のKOI8系とはまったく異なった文字コード系列である。 Windows1251(CP1251)Windows環境の普及とともに需要をのばしてきたのがWindows標準の文字セットである。ロシアでは、Windowsはアンダーグラウンドを含め、早くから浸透していた。ロシア語版Windows for Workgroup(3.11)や英語版Windowsのロシア語エミュレータも普及し、現在はWindows95、98、NTなど、ほぼすべてのマイクロソフトOSが使われている。このマイクロソフトのキリル文字標準セットであるWindows Cyrillicは、通常のASCII文字セットに欧文特殊文字体系と同じようにして文字コード体系を当てはめている。これがCP1251と呼ばれるものである。現在インターネット上では、政府系も含め、かなり多くのロシア語サイトがこの文字セットを使用しており、KOI8と並ぶ勢力であると言える。 Macintosh Cyrillicロシアでは、その多言語使用の際の柔軟性が評価され、パソコン市場では、一時マッキントッシュがWindows以上に普及していた。マッキントッシュの文字コードはMacCyrillicと呼ばれる独自のもので、CP866とは大文字はほぼ一致するものの、小文字の位置が根本的に異なってしまう。現在でもマッキントッシュにより作成されたサイトで時々見掛けることはあるが、ほぼKOI8に置き換えられていると考えてよい。 当面必要な文字セットこのようにして見ると、インターネット経由等で、一般的にロシア語を利用するために必要な文字セットは大体以下のようになるはずである。 必ず用意すべきもの
できれば用意しておくほうがよいもの
特に必要はないもの
便利なツールなど上記のような事情を踏まえ、ロシア語用には文字コード変換ソフトが意外と揃っている。標準的なものであれば、最低でもKOI8-r、Windows1251、CP866は相互変換が可能である。 ロシア語によるWebブラウジングが可能な状態になったかどうかを確認するには、小原信利さんのページで確認できる。 |
|