日本語プログラミング言語なでしこの公式掲示板

なでしこ1 質問

トップ 新規 検索

2021-08-27 10:08:31

テキストファイルをUT8のみで処理する方法

hara さん

漢字名称が多数入ったUTF8形式のテキストファイルに対し、
よみがなを取得してから再度テキストに出力する、というものを作りたいです。

ところが、UTF8形式のテキストを読み込んでそのまま処理をかけると
文字化けしてしまうようなので、よみがながめちゃくちゃに出力されてしまいます。

これはUTF8から一度シフトJIS変換をすることで回避できたのですが、
異体字など難しい名前や地名が多数あり、目視で確認できるレベルの分量ではないため、
できたら文字コードの変換は避けたいところでもあります。
(よみがな取得前の漢字とセットで動かしたいので...)

なでしこで、UTF8のテキストを文字コード変換なしにて
読み書きをする方法はあったりしますでしょうか?


参考までに、以下のような記述になっています。
--------------
「.txt」のファイル選択。
それを毎行読んで反復。
 「UTF-8」から「SJIS」へ文字コード変換。 //変換しないと化けるため。
 変換元はそれ。
 変換元の漢字読み取得。
 漢字ヨミはそれ。
 
 //書き出し対象の部分をUTF8形式に変換していく。
 変換元をUTF8変換。
 変換元UTFはそれ。
 漢字ヨミをUTF8変換。
 漢字ヨミUTFはそれ。

 「{改行}{変換元UTF}{>}{漢字ヨミUTF}」を「{デスクトップ}読み.txt」に追加保存。

終了する。
--------------

(編集パスワード送信)

親記事

この内容(No.1115)に返信

この内容(No.1115)をダウンロード

この内容(No.1115)のテキスト表示

子記事

1118 Re①:テキストファイルをUT8のみで処理する方法 (21-08-29)
1117 Re②:テキストファイルをUT8のみで処理する方法 (21-08-29)
1116 Re①:テキストファイルをUT8のみで処理する方法 (21-08-28)




www.eznavi.net