少し前のことになるが、Googleドキュメントに日本語や中国語のOCR機能が追加された。PDFや画像ファイルをアップロードする際、変換オプションで「PDF や画像ファイルからテキストを Google ドキュメントのドキュメントに変換する」のチェックを入れると、画像内の日本語や中国語の文字列を認識してテキストにしてくれる。1
たいへん便利な機能だが、果たして認識精度はどんなものなのだろうか。今回はこちらのPDFファイルを対象にOCRの精度を試してみた。ふだん仕事で相手をすることが多い中国の特許文書である。1ページ目の発明の名称と要約部分を見てみよう。
GoogleドキュメントのOCRの認識結果
[54] 发明名称 用于光束扫描器的位相板
[57] 摘要
一种用于光束扫描器的位相板, 包括含有一对 互补的塔尔波特位相编码结构透光的正位相板和负 位相板的位相板。 正负位相板平行并列置放, 两 者之间有间距, 相对它们的中心轴线可以相对平行 移动。 正负位相板相对的表面上分别带有周期重 复的正负二次位相函数分布的 s21条正负栅线。 具有用工元光学技术容易制造, 用于光学扫描器 上, 性能稳定可靠, 功耗小, 光束扫描效率高, 信 噪比高的特点。
正しく認識できなかったのは、黄色背景で明示した大なりイコールの「⩾」と漢数字の「二」だけである。原文の改行部分に半角スペースが挿入されているのとカンマが半角になっているのを修正する必要があるが、実に優秀だ。ちなみに私がいつも仕事に使っているOCRソフトはe.Typistのv.11だが、同じPDFで試してみたところ、漢数字の「二」は正しく認識したものの大なりイコールは正しく認識することができず、[54]と[57]の括弧もうまく処理できなかった。この名称と要約に限って言えば認識精度に大きな開きはない。 請求項や明細書まで含めると、Googleは丸ごと1ページ認識できてないところやうまく認識できていないところが結構ある。このあたりは今後の改善に期待したい。
e.Typistは専用ソフトだけあって操作体系がこなれているし、処理も高速である。だが、Googleはなんといっても無料である。専用ソフトがインストールされていない出先の環境などで作業する際など重宝するだろう。ぜひ繁体字中国語にも対応していただきたい。
- なお、アップロードの際は上掲の画像のように「アップロード」ボタンを押し、メニューの「基本」を選択して表示されるページでドキュメントの言語を選択する。そうしないと正しくOCR処理をしてくれない。 [↩]
数ヶ月前のバージョンアップでgoogle driveのOCR機能がなくなっていました。
非常に有用だったので、がっかりですね。
コメントありがとうございます(^^)
OCR機能、なくなってしまったのですね。
出先などでちょっと使いたいときに便利だと思っていたのに残念です。
中国語対応のオンラインOCRサービスもいくつかありますが、使い勝手はどうなのでしょうか。
近日中に試してみたいと思います。
http://www.onlineocr.net/
http://chongdata.com/ocr/