先日少し書いたように対訳データベースを作ろうと準備作業を進めているのですが、中国語のテキストを単語単位に分割するにあたって、やはり人名や会社名といったデータベースに登録されていない未登録語の認識がネックになるため、そのへんの資料をゴソゴソ漁っております。
手法は中文人名自动识别的一种有效方法あたりが参考になります。機械学習とかカッコイイですが、そっちに足を踏み入れると何も進まなくなりそうなのでいったん脇に。
それで、適当な人名データベースとかないかな、と検索していたら、「中国姓氏辞典」のPDFが落ちておりました(こら)。探している資料ではありませんが、これが読み物としてなかなか面白い。中国の姓とその歴史がまとめられていて、「この姓は女真なんだ」とかいろいろ発見があります。お好きな方はぜひ。