[Python] GUIの翼を手に入れる
今日のPython勉強日記のテーマは「GUI」です。 前回、PDFをテキスト化するプログラムを作成しましたが、ファイル名を毎回手入力する必要があり、使い勝手がイマイチでした。普段使いできるように、以下のようなユーザーイン...
今日のPython勉強日記のテーマは「GUI」です。 前回、PDFをテキスト化するプログラムを作成しましたが、ファイル名を毎回手入力する必要があり、使い勝手がイマイチでした。普段使いできるように、以下のようなユーザーイン...
今日は、PyMuPDFというライブラリを利用し、PDFファイルからテキストを抽出します。 PyMuPDFはUnicodeに対応しているので、中国語や日本語の含まれるファイルも問題なく扱うことができます。なお、PyMuPD...
Python勉強日記。今日はXLIFFファイルから原文、訳文を取り出してみたいと思います。XLIFFは翻訳メモリのTrados、Phraseで採用されているファイルフォーマットです。 XML形式ですのでテキストエディタで...
中国語の文字列を単語単位に分割するためのライブラリ guoba を公開します。 ダウンロード:guoba 1.07(ZIPファイル:3.65MB) 動作環境:PHP7.3.25にて動作確認。動作にはライブラリimdrが必...
ある漢字が簡体字なのか繁体字なのか日本の漢字なのかを判定する関数が欲しかったので作成してみました。 ダウンロード:kcheck 0.1(ZIPファイル:9KB) 使用例 require_once 'kcheck...
中国語や日本語の情報に対してコンピューターで何らかの処理、たとえば統計的な処理、要約、キーワード抽出などを行いたいと思った場合、まずは文章を単語単位に分割する必要がある。欧米の言語と違い、中国語などは単語間にスペース(区...