あらゆるWebページをルー大柴っぽくする変換エンジン

昨年見たBlogの中で一番笑わせていただいたのはルー大柴さんのBlogだったりします。そのクドいカタカナ語の言い回しに魅了された方も多いのではないでしょうか。


そんな中、昨年末にルー語変換というテキスト変換エンジンを作った方がいらっしゃるようです。

ためしに夏目漱石の『こころ』をルー語変換してみました。

  • 原文

私(わたくし)はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。これは世間を憚(はば)かる遠慮というよりも、その方が私にとって自然だからである。私はその人の記憶を呼び起すごとに、すぐ「先生」といいたくなる。筆を執(と)っても心持は同じ事である。よそよそしい頭文字(かしらもじ)などはとても使う気にならない。

  • ルー語翻訳

私(わたくし)はその人を常にティーチャーと呼んでいた。だからここでもただティーチャーとライトゥするだけで本名は打ち明けない。これは世間を憚(はば)かる遠慮というよりも、その方が私にとってネイチュアだからである。私はその人のメモリーを呼び起すごとに、すぐ「ティーチャー」といいたくなる。筆を執(と)っても心持は同じ事である。よそよそしい頭文字(かしらもじ)などはとてもユースする気にならない。

・・・ティーチャー笑


開発者の方がどんなページもルー大柴ナイズというエントリーでこのシステムをどのように開発したかを書いてます。

このようなテキスト変換系のシステムを作る際には、どのようにして変換用辞書を用意するがポイントになるのですが

  • 形態素解析MeCab でいいよね
  • 単語の和英は、Excite みたいなネットを介すやつだと遅いので、フリーの英和辞書を探す。EDICT project というのを発見。Perl のインターフェースを書いてみる。こういう再配布可能な辞書データを利用した統一的なインターフェースのモジュールってあってもよさそうだけどなあ
  • 英語のカタカナ読みは、文章読み上げエンジンの Bilingual Emacspeak Project の日本語風モード辞書が使えそうなので Lingua::JA::Japaninglish というのを書いてみた

と、Web上のリソースを使って辞書を動的に生成してるのが実にスマートな感じがします。サービスそのものも面白いのですが、その作り方のセンスといったところに感心してしまいました。
(もしかして、こういったテキスト変換系システムを作るときには常識だったり?)