日本語プログラミング言語なでしこの公式掲示板

なでしこ の 掲示板

トップ 新規 検索

2019-11-08 15:06:01

Re③:htmlファイルデータをCSVデータにするプログラム

雪乃☆雫 さん

 UNOパパ さまの検索力がしゅごいです!w(゜o゜)w
 DLしてみました。ほんとに4000くらいあった!(*゜ロ゜)

 というわけで、こんな感じ?
#-----------------------------------------------
作業フォルダ=「data」
保存フォルダ=「csv」
保存フォルダのフォルダ作成。

ファイル一覧=作業フォルダのファイル列挙。  //ファイル列挙と反復で千でも四千でもっ
ファイル一覧を反復。
  対象の1文字左部分が数字か判定。  //全部数字じゃないファイルは違うっぽいので
  もし、そうならば、
    #---ファイルを開く----------
    対象を開く。データはそれ。
    
    #---データの加工(むりやりすぎ;)----------
    //休日部分の入れ子テーブルが邪魔なの
    データ=データの「<table border="0"><tr><td>」を空に置換。
    データ=データの「</table></td>」を空に置換。
    データ=データの「</b></font></td><td>」を空に置換。
    //colspan="4"を反映させてみたり。いるかな
    データを反復
     対象を「.*colspan="4".*</td><td」で正規表現マッチ。A=それ。
     A=Aの「</td><td」を「</td>」に置換。
     データ=データのAをA&「"","","",」に置換。

    #---TABLEを抜き出す----------
    データの「<table border="1" cellspacing="0" cellpadding="2"」から「</table>」まで範囲切り取る。
    表はそれ。表=表の改行を空に置換。
    
    #---CSV形式に整形----------
    表=表を「</tr>」で区切る。
    表=表の「<td>」を「"」に置換。
    表=表の「</td>」を「",」に置換。
    表=表の「<td」を「"<」に置換。
    表=表の「<br>」を「 」に置換。
    表=表のタグ削除。
    表=表の「&nbsp;」を空に置換。
    表=表の「  」を空に置換。
    
    #---保存----------
    保存ファイル=対象を「.csv」に拡張子変更。
    表を保存フォルダ&「/」&保存ファイルに保存。
    母艦のタイトルは回数。
終わる。
#-----------------------------------------------
 フォルダとかは環境に合わせて変えてね☆
 いきなり本当に4000とかやると、ベラボウに時間掛かるので、とりあえず2,3ファイルでお試しして、どんなもんだか確認してね。

(編集パスワード送信)

子記事

親記事 (No.766)
返信した記事(元) (No.770)

この内容(No.771)に返信

この内容(No.771)をダウンロード

この内容(No.771)のテキスト表示





www.eznavi.net