話は尽きない

音楽、数学、言語学、人類学などについて

キリル文字圏の言語を特定する

キリル文字というのは、主にロシア語等のスラヴ語派の言語を表記するのに使われる文字です。
f:id:yoheijimbo:20180325164541j:plain
日本では「キリル文字=ロシア語」のようなイメージがついているような気がしますが、キリル文字で書かれているもの全てがロシア語というわけではありません。ロシア語以外にも、あらゆる言語でキリル文字が使用されています。
それでは、キリル文字の文章を見たときに、その言語の特徴的な単語や文法を把握していないと「これは〇〇語だ」と特定することができないか?というと、そういうわけでもありません。

実は、使用しているキリル文字の数や種類も各言語間で微妙に違います。つまり各言語の特徴的な単語や文法を全く知らなくても、文字を観察することで何語なのかをある程度絞り込むことができます。 

ということで今回は、各言語で使われているキリル文字を比較し、それが何語なのかを絞り込む方法を考察していきます。
 
 

スラヴ語派のキリル文字と言語

冒頭でキリル文字のことを「主にスラヴ語派を表記する文字」と説明しました。そもそもスラヴ語派とは似ている言語をまとめた言語グループのひとつで、ロシア語やチェコ語、ブルガリア語等がこれに属しています。しかしスラヴ語派の言語は全てキリル文字を使用しているかというとそうではなく、例えばチェコ語やポーランド語はラテン文字を使用しています。逆に、キリル文字を使用している言語が全てスラヴ語派という訳ではなく、テュルク諸語やウラル語族等といった別の言語グループでも使用されています。(非スラヴ語派は後ほど解説)

まずは「スラヴ語派」の言語とその中で使われるキリル文字を紹介します。
 

スラヴ語派のキリル文字一覧

А а , Б б , В в , Г г , Ґ ґ , Д д , Ѓ ѓ , Ђ ђ , Е е , Ё ё ,
Ѐ ѐ , Є є , Ж ж , З з , З́ з́ , Ѕ ѕ , И и , І і , Ї ї , Й й ,
Ѝ ѝ , Ј ј , К к , Ќ ќ , Л л , Љ љ , М м , Н н , Њ њ , О о ,
П п , Р р , С с , С́ с́ , Т т , Ћ ћ , У у , Ў ў , Ф ф , Х х ,
Ц ц , Ч ч , Џ џ , Ш ш , Щ щ , Ъ ъ , Ы ы , Ь ь , Э э , Ю ю ,
Я я

以上51種類がスラヴ語派の言語の中で使われているキリル文字です。
スラヴ語派の言語では、この中から何種類かのみを使用しており、どの文字を使用しているかが言語によって微妙に違っている訳です。例えばロシア語では以下のキリル文字が使用されています。

ロシア語で使用されるキリル文字

А а , Б б , В в , Г г , Д д , Е е , Ё ё , Ж ж , З з , И и ,
Й й , К к , Л л , М м , Н н , О о , П п , Р р , С с , Т т ,
У у , Ф ф , Х х , Ц ц , Ч ч , Ш ш , Щ щ , - ъ , - ы , - ь ,
Э э , Ю ю , Я я

以上の33種類です。(ъ , ы , ь は語頭に来ないため、通常大文字化しない)
つまり、この33種類以外の文字が表記してあった場合、「少なくともロシア語ではないな」ということがわかります。
それでは次にウクライナ語のキリル文字を見てみましょう。
 
 

ウクライナ語で使用されるキリル文字

А а , Б б , В в , Г г , Ґ ґ , Д д , Е е , Є є , Ж ж , З з ,
И и , І і , Ї ї , Й й , К к , Л л , М м , Н н , О о , П п ,
Р р , С с , Т т , У у , Ф ф , Х х , Ц ц , Ч ч , Ш ш , Щ щ ,
- ь , Ю ю , Я я

こちらもロシア語と同様33種類のキリル文字を扱いますが、よくみると使用文字に若干の違いがあります。

ロシア語にあってウクライナ語に無い文字は「Ё ё , - ъ , - ы , Э э」の4種類。逆にウクライナ語にあってロシア語に無い文字は「Ґ ґ , Є є , І і , Ї ї」の4種類です。

このような微妙な使用文字の違いから、「この文章はロシア語ではなくウクライナ語っぽいな」と予想していく訳ですが、実は「Ї ї」というキリル文字は世界中でウクライナ語にしか使われていないそうです。つまり、キリル文字の文章の中に「Ї ї」を見つけたら一発でウクライナ語と特定することができます。ちなみにこの「Ї ї」というのは母音なので、そこそこ使用頻度も高いはず(例えばウクライナ語の"おやすみなさい"は「Доброї ноч」という)なので、ウクライナ語は比較的特定しやすいと思われます。

それでは、他のスラヴ語派の言語も含めて一気に見て見ましょう。下の表は青字が「ロシア語には無いけどその言語にはある文字」、赤字が「ロシア語にはあるけどその言語には無い文字」として( )内にまとめています。また、テキスト量が多いので大文字のみ書き出しています。

言語名 話者数 キリル文字
ロシア語 1億8000万人 А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я
ウクライナ語 4500万人 А Б В Г Ґ Д Е Є Ж З И І Ї Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ь Ю Я ( Ё Ъ Ы Э )
ブルガリア語 1200万人 А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ь Ю Я ( Ё Ы Э )
セルビア語 1100万人 А Б В Г Д Ђ Е Ж З И J К Л Љ М Н Њ О П Р С Т Ћ У Ф Х Ц Ч Џ Ш ( Ё Й Щ Ъ Ы Ь Э Ю Я )
ベラルーシ語 780万人 А Б В Г Д Е Ё Ж З І Й К Л М Н О П Р С Т У Ў Ф Х Ц Ч Ш Ы Ь Э Ю Я ( И Щ Ъ )
ボスニア語 250万人 А Б В Г Д Ђ Е Ж З И J К Л Љ М Н Њ О П Р С Т Ћ У Ф Х Ц Ч Џ Ш ( Ё Й Щ Ъ Ы Ь Э Ю Я )
マケドニア語 200万人 А Б В Г Д Ѓ Е Ж З Ѕ И Ј К Ќ Л Љ М Н Њ О П Р С Т У Ф Х Ц Ч Џ Ш ( Ё Й Щ Ъ Ы Ь Э Ю Я )

さて、こうしてみるとそれぞれ個性があり、ある程度長い文章であれば大体何語かの予想がつきそうです。

しかしよく見ると、セルビア語とボスニア語は全く同じ文字構成になっています。セルビア語もボスニア語も実はラテン文字表記と併用しているそうですが、ボスニア語はどちらかというとラテン文字表記が標準的に使われているという点と、話者数の少なさから、この文字構成であればセルビア語の方が可能性が高いと言えます。

また、ブルガリア語には「ブルガリア語にあってロシア語に無い文字」が1つもありません。そうなるとロシア語とブルガリア語の判別が難しそうですが、特にロシア語における「ы」の使用頻度は比較的高いので、「ы」のある無しでロシア語とブルガリア語の判別をすれば良さそうです。

非スラヴ語派のキリル文字と言語

続いて、非スラヴ語派の言語のキリル文字とその言語を見ていきます。

非スラヴ語派でキリル文字を使っている言語は、具体的にはテュルク諸語、ウラル語族、コーカサス諸語、アルタイ諸語等といった言語グループです。基本的にはスラヴ語派で使われている51種類の文字と同じものを使いますが、非スラヴ語派の言語には独自に使用されているキリル文字も多数存在します。なので、先ほどの51種類以外の文字が出てきたら非スラヴ語派の言語であるといえます。

それでは、まずは非スラヴ語派の言語の中で登場する特殊なキリル文字を紹介します。

非スラヴ語派のキリル文字一覧

Ӑ ӑ , А̄ а̄ , А̊ а̊ , А̃ а̃ , Ӓ ӓ , Ӓ̄ ӓ̄ , Ә ә , Ә̃ ә̃ , Ӛ ӛ , Ӕ ӕ ,
Ғ ғ , Г̑ г̑ , Ҕ ҕ , Ӻ ӻ , Ӷ ӷ , Ӗ ӗ , Е̄ е̄ , Е̃ е̃ , Ё̄ ё̄ , Є̈ є̈ ,
Ӂ ӂ , Җ җ , Ӝ ӝ , Ҙ ҙ , Ӟ ӟ , Ԑ ԑ , Ԑ̈ ԑ̈ , Ӡ ӡ , Ӣ ӣ , И̃ и̃ ,
Ҋ ҋ , Ӥ ӥ , Қ қ , Ӄ ӄ , Ҡ ҡ , Ҟ ҟ , Ӆ ӆ , Ԯ ԯ , Ԓ ԓ , Ӎ ӎ ,
Ӊ ӊ , Ң ң , Ԩ ԩ , Ӈ ӈ , Ҥ ҥ , О̆ о̆ , О̃ о̃ , О̄ о̄ , Ӧ ӧ , Ө ө ,
Ө̄ ө̄ , Ӫ ӫ , Ҩ ҩ , Ԥ ԥ , Ҧ ҧ , Р̌ р̌ , Ҏ ҏ , Ҫ ҫ , Ҭ ҭ , У̃ у̃ ,
Ӯ ӯ , Ӱ ӱ , Ӳ ӳ , Ү ү , Ұ ұ , Х̑ х̑ , Ҳ ҳ , Ӽ ӽ , Ӿ ӿ , Һ һ ,
Ԧ ԧ , Ҵ ҵ , Ҷ ҷ , Ӵ ӵ , Ӌ ӌ , Ҹ ҹ , Ҽ ҽ , Ҿ ҿ , Ы̄ ы̄ , Ӹ ӹ ,
Ҍ ҍ , Э̄ э̄ , Э̇ э̇ , Ӭ ӭ , Ӭ̄ ӭ̄ , Ю̆ ю̆ , Ю̈ ю̈ , Ю̄ ю̄ , Я̆ я̆ , Я̄ я̄ ,
Я̈ я̈ , Ԝ ԝ , Ӏ ӏ

以上が非スラヴ語派の言語で使われているキリル文字です。ここでは93種類のキリル文字を紹介していますが、これら以外にも過去に使っていたが現在は使われていない文字 ( 日本語の「ゐ」や「ゑ」のような立ち位置の文字等 ) もたくさんありますし、単純に僕が調べきれてない文字もあるかもしれません。

非スラヴ語派の文字が全てがこれら93種類の中から構成されているわけではなく、スラヴ語派のキリル文字に追加で何文字かを加えた構成になります。スラヴ語派の言語では表現しない音を独自の文字で補っているような感じだと思われます。

数が多いので、まずはウクライナ語における「Ї」のように、その言語でのみしか使われていない文字をもつものをまとめて紹介します。

唯一のキリル文字をもつ言語とその文字
言語名 話者数 独自のキリル文字
チュヴァシ語 100万人 Ӑ ӑ , Ӗ ӗ , Ӳ ӳ
セリクプ語 1020人 А̊ а̊ , Я̈ я̈
ヒナルグ語 1000人 А̃ а̃ , Ә̃ ә̃ , Е̃ е̃ , И̃ и̃ , О̃ о̃ , У̃ у̃
キルディン・サーミ語 340人 Ӓ̄ ӓ̄ , Ҋ ҋ , Ӎ ӎ , Ӊ ӊ , Ҏ ҏ , Ҍ ҍ , Ӭ ӭ , Ӭ̄ ӭ̄
ハンティ語 12000人 Ӛ ӛ , Є̈ є̈ , Ԑ̈ ԑ̈ , Ю̆ ю̆ , Я̆ я̆
オセット語 1261人 Ӕ ӕ
ニヴフ語 200人 Ӻ ӻ , Р̌ р̌ , Ӿ ӿ
アレウト語 150人 Г̑ г̑ , Х̑ х̑
ウドムルト語 34万人 Ӝ ӝ , Ӟ ӟ , Ӥ ӥ , Ӵ ӵ
バシキール語 120万人 Ҙ ҙ
アブハズ語 20万人 Ӡ ӡ , Ҟ ҟ ,Ҩ ҩ , Ԥ ԥ , Ҧ ҧ , Ҭ ҭ , Ҵ ҵ , Ҽ ҽ , Ҿ ҿ
ウィルタ語 50人 Ԩ ԩ
カザフ語 1500万人 Ұ ұ
ハカス語 6万人 Ӌ ӌ
山地マリ語 3万人 Ӹ ӹ
ツンドラ・ネネツ語 3万人 Э̇ э̇

特定の言語のみで使われているキリル文字は以上のように49種類ありました。言語数でいうと16言語です。

つまり、このようなユニークな文字ではない残りの44種類のキリル文字は、それだけでは判断できません。そこで今度は残りの44種類の文字を基準に使われている言語をまとめました。ユニークな49種類のキリル文字表と併用することである程度限定できると思います。

キリル文字 言語名
А̄ а̄ エヴェンキ語, イングーシ語, マンシ語, ナナイ語, ウィルタ語, ウリチ語, キルディン・サーミ語, セリクプ語, チェチェン語
Ӓ ӓ ハンティ語, キルディン・サーミ語, 山地マリ語
Ә ә アブハズ語, バシキール語, ドンガン語, イテリメン語, カルムイク語, クルド語, ウイグル語, タタール語
Ғ ғ バシキール語, カラカルパク語, カザフ語, ウズベク語, タジク語
Ҕ ҕ アブハズ語, サハ語
Ӷ ӷ アブハズ語, ケット語, ニヴフ語, シベリア・ユピック語
Е̄ е̄ エヴェンキ語, マンシ語, ナナイ語, ネギダール語, ウィルタ語, キルディン・サーミ語, セリクプ語, チェチェン語
Ё̄ ё̄ エヴェン語, エヴェンキ語, ナナイ語, ネギダール語, キルディン・サーミ語, セリクプ語, ウリチ語
Ӂ ӂ ガガウズ語, モルドバ語, ルーマニア語(沿ドニエストル共和国のみ)
Җ җ ドンガン語, カルムイク語, タタール語, トルクメン語
Ԑ ԑ エネツ語, ハンティ語
Ӣ ӣ タジク語, キルディン・サーミ語, マンシ語
Қ қ カザフ語, ウイグル語, ウズベク語など
Ӄ ӄ チュクチ語, コリャーク語, アリュートル語, イテリメン語, ユカギール語など
Ҡ ҡ バシキール語, シベリア・タタール語
Ӆ ӆ イテリメン語, キルディン・サーミ語
Ԯ ԯ イテリメン語, ハンティ語
Ԓ ԓ チュクチ語, イテリメン語, ハンティ語
Ң ң カザフ語, トルクメン語, キルギス語など
Ӈ ӈ チュクチ・カムチャッカ語族, サモエード語派など多数
Ҥ ҥ アレウト語, アルタイ語, 牧地マリ語, サハ語
О̆ о̆ イテリメン語, ハンティ語
О̄ о̄ エヴェンキ語, マンシ語, ナナイ語, ネギダール語, ウイルタ語, ウリチ語, キルディン・サーミ語, セリクプ語, チェチェン語
Ӧ ӧ アルタイ語, ハカス語, コミ語, クルド語, マリ語, ショル語, ウドムルト語
Ө ө バシキール語, ブリヤート語, カルムイク語, カザフ語, ハンティ語, キルギス語, トゥバ語, モンゴル語, サハ語
Ө̄ ө̄ ネギダール語, ウイルタ語, セリクプ語
Ӫ ӫ エヴェン語, ハンティ語
Ҫ ҫ バシキール語, チュヴァシ語
Ӯ ӯ タジク語, キルディン・サーミ語, マンシ語
Ӱ ӱ アルタイ語, ハカス語, ハンティ語, マリ語, ショル語, コミ・ヤズヴァ語
Ү ү バシキール語, ブリヤート語, カザフ語, キルギス語, モンゴル語, タタール語など
Ҳ ҳ アブハズ語, イテリメン語, カラカルパク語, タジク語, ウズベク語
Ӽ ӽ イテリメン語, ニヴフ語
Һ һ バシキール語, ブリヤート語, カルムイク語, キルディン・サーミ語, サハ語, タタール語など
Ԧ ԧ ムスリム・タート語, ユダヤ・タート語
Ҷ ҷ アブハズ語, タジク語
Ҹ ҹ アルタイ語, アゼルバイジャン語(一部)
Ы̄ ы̄ エヴェンキ語, マンシ語, ナナイ語, ネギダール語, ウリチ語, セリクプ語
Э̄ э̄ エヴェンキ語, マンシ語, ナナイ語, ネギダール語, ウイルタ語, ウリチ語, キルディン・サーミ語, セリクプ語, チェチェン語
Ю̈ ю̈ セリクプ語, カレリア語
Ю̄ ю̄ エヴァンキ語, マンシ語, ナナイ語, ネギダール語, ウイルタ語, ウリチ語, キルディン・サーミ語, セリクプ語, チェチェン語
Я̄ я̄ エヴァンキ語, イングーシ語, マンシ語, ナナイ語, ネギダール語, ウリチ語, キルディン・サーミ語, セリクプ語, チェチェン語
Ԝ ԝ クルド語, ヤグノブ語
Ӏ ӏ イングーシ語など

 
以上です。
いくつかの可能性がある言語は特定が困難ですが、かなりマイナーな言語も含まれているため、そもそもお目にかかる機会が非常に少ないと思われます。

注意点

この記事の注意点がいくつかあります。
まず冒頭でも書いたように、「文字だけを見て言語をある程度絞る」という目的なので、言語の完璧な特定には至らない場合もあります。言語の完璧な特定にはその言語の文法や単語の知識が必要ですから、あくまで「言語特定の少しのヒントになる」ぐらいの気持ちで読んでいただければと思います。

また、ここに掲載した文字の一覧は現在使われているものをピックアップしたものなので、少し古いテキストの場合、上の一覧による特定方が当てはまらない場合があります。逆に、似ている発音のものを統一するために文字が減ったり、外来語に対応するために新しい文字を追加したり等、理由は様々考えられますが、将来的に使用する文字が変わっていく可能性も十分あります。

そしてもう一つ、これも先ほど書きましたが、非スラヴ語派の場合キリル文字以外の文字も併用されているという可能性が高いです。そのためキリル文字以外の文章でも、実はキリル文字圏の言語でもある可能性があります。「この文章はラテン文字で書かれているから、この記事に載っている言語では無いな」と安易に思わないよう注意が必要です。


練習問題

最後に、キリル文字の言語特定の練習問題的なものを作ってみました。次の文章が何語なのか当ててみましょう。2問あります。

【問1】

……
БЕҘҘЕҢ БУРЫСТАРҘЫ ЛА КИСЕР.
БЕҘҘЕ ҠОТКОНАН ҺАҠЛА, МӘКЕРЛЕНӘН ҠОТКАР.
СӨНКИ БАТШАЛЫҠ ТА, ҠӨҘРӘТ ТӘ, ШӨҺРӘТ ТӘ МӘҢГЕГӘ ҺИНЕКЕ.
АМИН!

 ー Life of Jesus より

(答え*1


【問2】

Малка мома си са Богу моли:
—Дай ми, Боже, очи голубови,
Дай ми, Боже, очи голубови;
Дай ми, Боже, крилца соколови,

Дай ми, Боже, крилца соколови;
Да си форкнам отвъд бели Дунав,
Да си форкнам отвъд бели Дунав,
Да си найда момче според мене.

Чу я Господ.
Стори очи голубови
И крилца соколови

Та й даде крилца соколови
Та си найде момче според нея,
Та си найде момче според нея,
Боже.

 ー Малка мома (民謡)

(答え*2


ということで、今回は以上です。








練習問題の答え↓
 

*1:バシキール語

*2:ブルガリア語