2021-08-27 10:08:31
テキストファイルをUT8のみで処理する方法
漢字名称が多数入ったUTF8形式のテキストファイルに対し、 よみがなを取得してから再度テキストに出力する、というものを作りたいです。 ところが、UTF8形式のテキストを読み込んでそのまま処理をかけると 文字化けしてしまうようなので、よみがながめちゃくちゃに出力されてしまいます。 これはUTF8から一度シフトJIS変換をすることで回避できたのですが、 異体字など難しい名前や地名が多数あり、目視で確認できるレベルの分量ではないため、 できたら文字コードの変換は避けたいところでもあります。 (よみがな取得前の漢字とセットで動かしたいので...) なでしこで、UTF8のテキストを文字コード変換なしにて 読み書きをする方法はあったりしますでしょうか? 参考までに、以下のような記述になっています。 -------------- 「.txt」のファイル選択。 それを毎行読んで反復。 「UTF-8」から「SJIS」へ文字コード変換。 //変換しないと化けるため。 変換元はそれ。 変換元の漢字読み取得。 漢字ヨミはそれ。 //書き出し対象の部分をUTF8形式に変換していく。 変換元をUTF8変換。 変換元UTFはそれ。 漢字ヨミをUTF8変換。 漢字ヨミUTFはそれ。 「{改行}{変換元UTF}{>}{漢字ヨミUTF}」を「{デスクトップ}読み.txt」に追加保存。 終了する。 -------------- |