pdftohtmlでワンライナーxml変換

wget "https://www.mlit.go.jp/totikensangyo/const/content/001520358.pdf"
n=`pdfinfo 001520358.pdf | awk '/Pages/{print $2}'`
i=0; c=500; while [ $i -lt $n ]; do b=$i; i=$(($i+$c)); if [ $i -ge $n ]; then i=$n; fi; pdftohtml -f $(($b+1)) -l $i -xml 001520358.pdf data$1.xml; done