以前、パワーポイントで作成したファイルからテキストを抽出する方法として、PDFに変換してから「すべて選択」→「コピー」する方法を紹介したが、久しぶりにこの方法を試してみたら、Adobe Readerでうまくコピーを行うことができなくなっていた。以前は「すべて選択」で全ページのテキストを選択できたのだが、私が使っているバージョンのAdobe Reader Xでは閲覧中のページのテキストしか選択できない。中国語のファイルなのでテキスト形式で保存すると文字化けするし、PDFからテキストを抽出するツールでも文字化けする。げんなり。
しばらく電脳の前で途方に暮れていたのだが、Google ドキュメントにPPTファイルをアップロードしてからテキスト形式で保存し直せばうまくいくかもしれない、と思いついた。
で、実際にやってみたところスムーズにテキストを抽出することができた。手順は「ファイルをアップロード」→「開く」→「形式を選択してダウンロード」で「テキストを選択」するだけである。出力されるテキストファイルの文字コードはUTF-8で中国語も文字化けしない。テキストボックスが多用された割と複雑なファイルでもテキストはきちんと抽出されていた。大満足。