続・帰ってきたはぐれ日記

@えりえりの個人ブログ ネットまわりのことを主に書いていきます

Japanist導入 その後

ほぼ一週間ほどかけて、ユーザー辞書を移行したあとの整理をしました。
細かいことですが
ATOKが持っていた、さまざまな盛り合わせ風の変換機能というのはやはり強力で
それを抜き出せない以上
Japanistに、きちんと教え込む必要があったわけです。
まず 方言変換 次に 口語対応 まとめてきちんと手直ししたものでは、この二つがポイントになりました。

Japanistにあわせた『京言葉辞書』を作る

わたしは京都人です。
ネットの書き言葉では、関西弁風な言い回しもしますが
書き物の中では、土地柄やはり京都に寄ったものが必要な場面もありますので
よく使う言葉を、まとめてデータにしました。

作り方は、移行データと同じくshift-JISエンコード
登録語彙→(タブ)→読み→(タブ)→品詞定義(改行)
という、横書きテキストファイルにまとめます。

まずは特別な語彙を。
たとえば
「ももける(毛羽立つ)」「でこちん(額)」「さぶいぼ(鳥肌)」「気づつない(申し訳ない)」
というような、京都で使われる独特の言い回しですね。
古語由来や、西日本の各所に少しずつ変わって伝わったもの
江戸弁になって、定着したものも含めるとかなりの数になりますので
あくまで、よく使うもの百語に留めました。

ATOKのオフィシャルには、こんなサイトもあります。
全国方言WEBほべりぐ http://hougen.atok.com/

しかし、頻用語彙を登録しただけでは、会話文にはなりません。
「○○ちゃん、三つやて。ほんまによぅ喋らはんなぁ」とか
「なんやあんた、最初と最後で言うてることちゃうやん」とか
予測変換も使えますが、その際にも出来れば品詞の切れ目くらいは覚えてもらいたいもの。
例えば
名詞+スルという、サ変活用の〜(し)(や)はる(例 てんごしはる)
否定のナイに相当する〜ひん(例 居いひん)または〜へん(例 構へん)
など
ハ行の挟まる変化は、関西圏でも京都周辺のごく一部で使われる独特のものです。

しかし、Japanistには助動詞の定義がないので、活用する形では登録できません。
それをまず頭に入れて
特別な語彙以外の、“京ことば”ならではの語尾変化を、ひとつずつ接尾語として登録します。
それに相当する動詞の語幹も入れていきます。
上記の例ですと、喋(しゃべ) 構(かま) などの語幹の訓読みですね。
ここで注意したいのは、品詞登録を、文法通りにラ行五段活用動詞などにしないこと。
文法準拠で、せっかく登録した方言用の接尾語をつけてくれなくなります。
そこで、定義としては、語尾変化の縛りがない一般名詞や接続なしで。
そうすると、「しゃべ-らへん」や「しゃべ-んない」などの読みに対し
変換候補にひらがなだけでなく「喋」が出るようになります。

こうしたワ行五段やラ行五段活用動詞などの語幹は
江戸弁や、現代関東弁でも音便変化するので、よく使うものは入れてしまいました。
Japanist以外のIMEでも、機能は同じだと思いますので
口語を一つ一つ登録なさっていた方は、一度お試しください。

Weblio に活用形ごとの一覧があります。ご参考まで。(ラ行五段活用 動作

ん-撥音便と五段活用動詞

京ことばと同じく、江戸ことばや現代の関東弁も独特の語彙があります。
しかし、こちらは非常に数が多い(笑) 特に江戸ものは、レンガ並みの分厚さの辞典があるぐらいで。
細かいことは、こうした辞書を引きながらのんびりやることにして

とりあえずは、現代の関東一円でよく使われる語尾変化を登録しました。
こちらも、動詞活用に独特の音便がはいります。
京都の、ウ音便・イ音便に対し
東京では、ンの挟まる撥音便、小さなツで跳ねる促音便という感じですね。
訳わかんないよ」とか「返事に困っちゃって」という会話。こういう場面で使われます。

このふたつの例では
訳わか+んない 困+っちゃ+(って) という感じでしょうか。
訳わからない、意味わからない、というのも元は若者言葉ですが
くだけた会話では、比較的スタンダードです。
語幹を名詞化して登録するのはもちろん、間の助詞が省かれて一体化した、ラ行五段活用動詞としても登録しました。 



最後に
こうした予測変換だけに頼らないやり方は、あくまでマシンフリーズなどの不測の事態に備えたものとお留め置きください。
また、Japanistは学習登録機能も優れていますが
ATOK同様、頻度を加減してやらないと、たちまち誤変換履歴の塊になってしまいます。

そんなわけで
ここまで、なんと三百語登録。移動データと合わせると、11400弱語にもなります。
それでもサクサク動くのは、まぁ……マシンスペックなわけですが……(すみません)……

こう書くと、まるで語彙の豊富さを誇っているかのようですが
難解な言葉は、Japanistから辞書引きできる辞書群に任せています。
富士通発行のものであれば、広辞苑もディスクからも読んでくれます)
こうしたプリインストール辞書の豊富さもまた、このアプリのよさです。

しかし、小説書きにとって大切なのは、数の多さより柔軟さ。
わたしのIMEを鍛えるユーザー辞書調教(笑)は、まだまだ続きます。
また気づいたことがあれば、備忘録として書き残しましょう。