すべてのデータをSeesaa Blogからインポートし終わり、これを変換してインポートするのにある程度自動化しようとしている。やろうとしているのは、
- ALLOW COMMENTS: の値を1にセットする
- CONVERT BREAKS:が1のBODY:データについては、<pre>タグの中の改行以外の改行を<br/>に変換する。変換後、
- <br/>が2回続いた場合、</p><p>に変換する。
- 1回でも上記変換を行った場合、BODY:データの先頭に<p>最後に</p>を付与する
- <p>もしくは</p>の直後の<br/>は取る。
- 画像へのURLを変換する
- 画像へのリンクを取り去る
- 月毎のインポートファイルを1つにまとめる
である。
最初JScriptで処理しようかなと思ったけど、インポートデータはUTF-8であり、ファイル入出力のためのFIleSystemObjectがUTF-8対応していない。ADODB.Streamオブジェクトを使うとできるようだけれども、ウィルス駆除ソフトがスクリプトをウィルスだと誤認識してしまう可能性があるらしい。
C++も考えたけどutf-8ファイルの取扱いがややこしそう。興味のあるところなのだけれど、、。
WIndows7上でのファイル処理が簡単にできて文字コード変換も自在なものとなるとPowerShellがよさそうである。インストールもいらないしね。。
そういうわけでPowerShellで変換スクリプトを書き始めた。でもPowerShellほとんど知らないので相当時間が掛かりそうだ。。