Googleドライブの特定のフォルダに格納されているHTMLファイルの中に記載されているテーブルをスプレッドシートに書き込むスクリプト
どんな利用シーンがあるか分かりませんが、知恵袋で質問があったので作成してみた。なにかのツールが吐き出す結果のHTMLファイルにテーブルが含まれていて、その結果をシートにまとめたいという要望だと思う。
まったく同じようなシーンはあまり考えにくいが、何かの役に立つかもしれないので自分用のメモ代わりに残しておく。
6分越え対策やテーブルタグ(<tr>や<td>)内のデータ抽出などもふくめてエラー処理などかなり雑です、コメントで指摘してくれたら修正するかもしれません。
ソースコード
function myFunction() {
// HTMLファイルが格納されているフォルダ階層を配列形式で指定する。
// マイドライブ/AAA/BBB/ フォルダを指定するときは["AAA","BBB"]と指定する。
var srcFolder = getFolder( null,["GoogleAppsScript","dev","HTML内の表を抜き出す","未処理"]);
// HTMLファイルが格納されているフォルダ階層を配列形式で指定する。
var dstFolder = getFolder( null,["GoogleAppsScript","dev","HTML内の表を抜き出す","処理済み"]);
// スプレッドシートの指定は環境に合わせてください。
var sheet = SpreadsheetApp
.getActiveSpreadsheet()
.getSheetByName('シート1');
// スプレッドシートに書き込む二次元配列
var table = [];
// 一気に処理すると6分で終わらないので適当な回数で区切る。
// 数が多いときは時間主導のトリガで繰り返し実行するとよい。
var numberOfFiles = 50;
var htmlFiles = srcFolder.getFiles();
while (htmlFiles.hasNext()) {
// 指定したファイル数の処理が完了したら抜ける。
numberOfFiles--;
if( numberOfFiles < 0 ){
break;
}
var file = htmlFiles.next();
var text = file.getBlob().getDataAsString();
// ここからが必要なデータの取り出しとシートへの貼り込み
// <tr></tr>の抜き出して1行分を取り出す。
var rows = text.match(/<tr(?:\s.+?)?>.*?<\/tr\s*?>/gis);
for( var r=0; r<rows.length; r++ )
{
// 1行分の配列
var arrayCols = [];
// <th></th>もしくは<td></td>を抜き出す。
var cols = rows[r].match(/(<th(?:\s.+?)?>.*?<\/th\s*?>)|(<td(?:\s.+?)?>.*?<\/td\s*?>)/gis);
for( var c=0; c<cols.length; c++ )
{
// <th>,</th>,<td>,</td>を削除して配列に格納する
arrayCols.push( cols[c].replace(/^(<(td|th)(?:\s.+?)?>)|(<\/(td|th)\s*?>$)/ig,""));
}
// 1行分の配列を追加
table.push(arrayCols);
}
// 処理が完了したファイルは処理済みフォルダに移動
file.moveTo( dstFolder );
}
// ファイル移動と書き込みは同じ場所が理想
// 処理高速化を考えてファイル移動はループ内
// スプレッドシートへの書き込みはループの外に移動
sheet.getRange(sheet.getLastRow()+1,1,table.length,table[0].length).setValues(table);
}
/**
* 指定されたフォルダ取得する、フォルダがないときは新規に作成する。
*
* @param {Folder} parent 基準フォルダ、null指定時はルートフォルダ
* @param {string|Array of strings} name 取得・生成するフォルダ名
* string 指定時はnameを取得。生成する
* Array of strings 指定時は多階層フォルダを一括作成
* @param {bool} noCreate 作成は行わず既存のフォルダを取得するときにtrue
* 省略可能、省略時はfalseとして動作
* @return {Folder|undefined} 取得・生成したフォルダ
*/
function getFolder( parent, name, noCreate ) {
// 親フォルダが指定されなかった場合はルートフォルダを取得する。
if ( parent == null ){
var folder = DriveApp.getRootFolder();
}else{
var folder = parent;
}
// フォルダ名に配列が指定されていない場合は配列にする。
if( !Array.isArray( name ) ){
name = [name];
}
// noCreateが指定されていない場合はfalseにする。
if ( noCreate !== true ){
noCreate = false;
}
while( name.length > 0 ){
var newFolder = name.shift();
var childs = folder.getFoldersByName( newFolder );
if( childs.hasNext() ){
// フォルダが見つかった場合は最初のフォルダを採用
folder = childs.next();
} else {
if( noCreate ){
// noCreateの場合はnullを返す
return undefined;
}else{
// フォルダが見つからなかった場合はフォルダを作成
folder = folder.createFolder( newFolder );
}
}
}
return folder;
}
1つ目のHTMLファイル
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>ひこざるさん</title>
</head>
<body>
<a href="https://blog.hikozaru.com">ひこざるさんのブログ</a>
<table border="1">
<tr>
<th>XXX</th>
<th>YYY</th>
<th>zzz</th>
</tr>
<tr>
<td>111X</td>
<td>111Y</td>
<td>111Z</td>
</tr>
</table>
</body>
</html>
2つ目のHTMLファイル
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>ひこざるさん</title>
</head>
<body>
<a href="https://blog.hikozaru.com">ひこざるさんのブログ</a>
<table border="1">
<tr>
<th>XXX</th>
<th>YYY</th>
<th>zzz</th>
</tr>
<tr>
<td>222X</td>
<td>222Y</td>
<td>222Z</td>
</tr>
</table>
</body>
</html>
実行結果
0 件のコメント:
コメントを投稿
質問、要望、指摘など書いていただいてもよいですが、対応できるとは限りませんのでご了承ください。私に対するものも含め他の人を嫌な気分になるようなコメントは避けてください。