続・帰ってきたはぐれ日記

@えりえりの個人ブログ ネットまわりのことを主に書いていきます

Japanist導入

ATOK2012からJapanist2003に乗り換えました。
(そのわけは、この辺りの記事に詳しく)
使い始めてまだ三日目ですが、なかなかいい感じで動いてますよ。
ただ、ここに至るまで紆余曲折あったもので、言いたいことも山積みなんですけど(笑)
書き出すとキリがございません……

そこで今回の備忘録としては、
まずWindows7 64bit対応パッチをあてること
それからATOK2012から抽出したユーザー辞書を移行すること
この二点に絞って書き留めておこうと思います。

本体インストールから、パッチあてまで

導入したのは、先にも書いた通りJapanist2003というバージョンです。
店頭では、まずお目にかからないものなのでオンラインで購入しましょう。
わたしは割引率の高かったAmazonで購入しました。(Japanist 2003

◆インストール準備

本体自体はもう九年も前のものですが
Windows7 64bit対応パッチは、今年の三月に更新されています。(こちらの修正モジュールから)よかったよかった^^
また、このダウンロードページの全バージョン共通にある郵便番号辞書は2012年版です。
この二つは必須で、頂いてまいりましょう。
さらに、同じダウンロード・WEBオプションの2003には、その他の辞書もありますが、
データの古いものも混じってますので、そこはお好みで。

そして
インストールの手順としては、32bit版をディスクからインストール
次にパッチをあてる。(再起動を三度求められますが、そこは素直に)
環境を作って、辞書を移動。こういう感じですね。

ですが、わたしの場合
これまで使っていたATOKが、かな入力の際にエラーを吐くということで
環境を引き継がせるわけにはいきませんし(一度やったら、エラーも引き継ぎました→つまり原因は…げふんげふん)
さらに辞書移動となると、全部手作業。大事なことなので復唱します。何から何まで、全部手作業です(笑)

それでは、ここでガックリ肩を落としつつ
インストールまでにやるべきことを済ませてしまいましょう。それは辞書データづくりです。
すでにご想像どおり、ATOKのユーザー辞書とJapanistのユーザー辞書は微妙に体裁が違います。
それを手作業で直してやるのです……が
Excelないしはエディタ(文字検索や一括置換ができるもの)があれば、ぐんと楽になります。
もしも、顔文字辞書や機種依存文字などのユーザー辞書データをお持ちの場合は
Unicode(UTF16 BOM)を扱えるエディタを用意してください。
(ただし、Japanistはshift-JISテキストデータしか自動で読み込んでくれないので、BOMつきなどの文字コードは、ひとつひとつコピペ登録する必要があります)
また、漢字の第三〜第四水準に関しては、フォント以外、特にユーザー側で用意する必要はないと思われます。

※追記 6/27
エディタにソート機能があると、さらに捗ります。
フリーウェアでも、こうした機能のついたものがあるのでベクターさんなどで検索してみてください。

辞書データを抽出・移行する

エディタかExcelを用意したら、まずATOKの辞書メンテナンス→辞書ユーティリティを立ち上げましょう。
メニューのツール→単語用例の一覧・出力を開きます。こんな感じ。
f:id:erika4480:20120626162507g:image:medium

まずは、ファィル名ですが、参照→開く→なんでもいいのでファイル名.txtからしか作れません。
変な仕様ですが、こんなしょうもないとこで躓かないよう(→躓いたっちゅうねん)

ここからは、少し考えながら進めましょう。
どれくらいのデータを移行するか、決まってますか。
もし決まっていないなら
抽出の前にユーティリティを眺めて、今一度、データを精査して下さい。
わたしは、18000語の登録単語を11000語にしぼって、各品詞ごとに整理しました。
自動登録のデータは、必要なモノだけ登録してやってもいいですが
この程度のことはJapanistでも随時学習されますので、あまり必要なければ、カットしたほうが効率よく作業も進みます。

もし、ATOK辞書ユーティリティの“内容整理”を、一度もお試しでなければ
ファィル→内容整理で、作業がぐんと捗ります。ご参考まで。

◆品詞ごとのデータファイルを作る。

それでは、登録単語から、品詞ごとのデータファイルを作ります。
対象品詞→設定で、こんな感じ。
f:id:erika4480:20120626162506g:image:medium

特種文字が含まれている短縮語や顔文字は、Unicodeで出力して、のちのコピペ資料にしますが
それ以外のものは、すべてチェックを外します。
繰り返しになりますが、Japanistはshift-JISのエンコードファイルしか自動登録してくれない為です。

コメントや、自動変換、置き換え候補については移動できません。
ただし、ここで作るファイルはテキストです。
ただタブで区切られただけの文字列は、Excelを使って箱形編集することも簡単に出来ますので
抽出後のデータ作りの参考として、わたしは残しました。
面倒な方は、単語コメントは出力しない。で。

◆品詞の名称を置き換える。

ATOKJapanistでは、品詞登録に大きな差があります。
ATOKでは登録語に、どんな読み、どんな品詞をあてても問題なく登録できましたが
Japanistは文法チェックがはいるため、登録時にエラーを吐くことがあります。
ですので、読みと言葉が一致しない顔文字やタグなどの短縮語は、すべて(接続なし)などの活用形のない定義を付けた方が無難です。
また、ギャル語のような本則とあわない小文字ひらがなの羅列は、言葉によっては登録時にエラーがでることもあります。
固有名詞のカテゴリーもかなり違います。

それではJapanistの品詞定義をみてみましょう。以下、画像が並びます。
f:id:erika4480:20120626162511g:image:medium
f:id:erika4480:20120626162510g:image:medium
f:id:erika4480:20120626162509g:image:medium
f:id:erika4480:20120626162508g:image:medium

画像を参考にしながら、品詞の定義をエディタで置換すれば簡単ではないかしら……
助詞・助動詞の定義がどうしてないのかは、不思議。
わたしとしては、形容動詞のタリ活用がないのもキツかったかな。
でも数が多くはありませんので、そこは辞書機能で補っていきます。

ATOKで辞書をいい加減に作っていた人は、泣きを見そうですねぇ。
わたしも、動詞と形容詞の活用形を一部作り直しました。二日掛けて、4000語くらい(笑)
そうして、できたデータをJapanist辞書ツールキットから登録します。
ツール→抽出ファイルから単語を登録で、丁寧に品詞ごと行います。
まとめてしまわないのは、エラーを直すときに小さいファイルの方が楽だから(笑)

そして移行へ

できました!
f:id:erika4480:20120626162505g:image:medium

おや、辞書に異体字がありますね。古典語彙も! これはなんとプレインストール。素晴らしい。
俳句の季語、落語辞典、英国ファンタジー辞典などは、配布辞書でいただきましたよ。
よく使う江戸言葉などは、ユーザー辞書で補っていきます。

いずれ時間のあるときに、変体かなを何とかしようと思っています。では、本日はこれまで。