フレーズ置換と連続置換

Pocket

Pinconvに組み込もうと思っている機能について。

1. フレーズ置換

特許文書には似たような言い回しが繰り返し出てくる。たとえば請求項で「如权利要求1所述的方法」と来たら「請求項1に記載の方法」と訳出するのだが、これが「如权利要求2所述的方法」であっても「如权利要求8所述的装置」であっても訳文はほぼ同じで項番や特許請求の対象部分が異なるだけだ。つまり「如权利要求A所述的B」を「請求項Aに記載のB」にする作業の繰り返しである。

これを正規表現を使った置換で処理するとすれば次のように書けば良い(あくまで一例)。

如权利要求([0-90-9]+)所述的([^n,。;:]+) → 請求項1に記載の2

テキストエディタで「すべて置換」などを実行すれば、「如权利要求A所述的B」および一部が異なるだけの類似文字列が「請求項Aに記載のB」などにきちんと変換される。すばらしい。ちまちま手入力したり、コピペしたりする手間を考えるとずいぶん楽だ。

だが上掲の正規表現を毎回入力するのは面倒だ。こういう置換の組み合わせをファイルにまとめておいてコピペしたり、IMEに登録したりするといった対処方法も考えられるが、組み合わせを覚えるのも管理するのも面倒だ。嗚呼、もう何もかも面倒だ。うんざりだ。もう仕事なんかやめて旅に出よう。そういう気分になること請け合いである。

だからタブ区切りファイルにこういう置換の組み合わせをどっさり記録しておいて1、それを読み込ませてまとめて置換する機能を作る(これをフレーズ置換と呼ぶことにした)。似たようなツールはこれまでにも作ったことがあるし、世の中にもたくさん存在するが、Pinconvの通常の変換やGhostなんかと組み合わせることができれば、かなり便利なものになると思う。ということで次の連続置換も実装したい。

2. 連続置換

フレーズ置換の機能が完成し、「如权利要求1所述的设备」を無事変換できるようになったと仮定する。「請求項1に記載の设备」と変換されるので、Pinconvの「中日.dat」を使ってさらに変換を行えば、下線部の簡体字が日本の漢字に変換され、「請求項1に記載の設備」となる。すばらしい。わずか2ステップで訳文のできあがりである。

だが、この2ステップを毎回繰り返すのも馬鹿みたいである。人生において地道な積み重ねは大切だが、単調で機械的な作業をいくらこなしたところでそれほど有意義な成果はあがらない。私の友人ドン・コルレオーネの言葉だ。

正規表現を記録したファイルを使って「フレーズ置換」を行ったら、続けて「中日.dat」を使って通常の変換を行うというフローをシステムに記憶させ、次からは1クリックで実行できると便利だ。この処理を連続置換と呼ぼう2。実現すれば、作業の効率が1割くらい上がりそうだ。1割よぶんに仕事をすれば、ずいぶん収入がアップすることだろう。国民の模範たる私が納税することで国庫も潤うことだろう。

ということでこの2つの実装に取りかかる。

  1. 置換用サイドバーからこうした組み合わせを保存できるようにすれば便利かもしれない。 []
  2. これができればリクエストいただいている簡体字から声調付きピンインへの直接変換も実現できる。 []

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください