Programming | karak

[Python] GUIの翼を手に入れる

Posted on 2023/05/04 by ctrans / 0件のコメント

今日のPython勉強日記のテーマは「GUI」です。前回、PDFをテキスト化するプログラムを作成しましたが、ファイル名を毎回手入力する必要があり、使い勝手がイマイチでした。普段使いできるように、以下のようなユーザーイン...

Posted on 2023/04/30 by ctrans / 0件のコメント

今日は、PyMuPDFというライブラリを利用し、PDFファイルからテキストを抽出します。 PyMuPDFはUnicodeに対応しているので、中国語や日本語の含まれるファイルも問題なく扱うことができます。なお、PyMuPD...

Posted on 2023/03/30 by ctrans / 0件のコメント

Python勉強日記。今日はXLIFFファイルから原文、訳文を取り出してみたいと思います。XLIFFは翻訳メモリのTrados、Phraseで採用されているファイルフォーマットです。 XML形式ですのでテキストエディタで...

Posted on 2021/10/12 by ctrans / 1件のコメント

中国語の文字列を単語単位に分割するためのライブラリ guoba を公開します。ダウンロード：guoba 1.07（ZIPファイル：3.65MB）動作環境：PHP7.3.25にて動作確認。動作にはライブラリimdrが必...

Posted on 2021/10/02 by ctrans / 0件のコメント

ある漢字が簡体字なのか繁体字なのか日本の漢字なのかを判定する関数が欲しかったので作成してみました。ダウンロード：kcheck 0.1（ZIPファイル：9KB）使用例 require_once 'kcheck...

Posted on 2021/09/19 by ctrans / 2件のコメント

中国語や日本語の情報に対してコンピューターで何らかの処理、たとえば統計的な処理、要約、キーワード抽出などを行いたいと思った場合、まずは文章を単語単位に分割する必要がある。欧米の言語と違い、中国語などは単語間にスペース（区...