オンライン
smallpdf
1時間に2回無料で利用
セキュリティ関係ない書類であればこれでいいかも
オフライン
soft | text | table | xml |
---|---|---|---|
camelot | × | ◎ | × |
pdfplumber | 〇 | 〇 | × |
Poppler | 〇 | △ | 〇 |
tabula | × | 〇 | × |
PDFBOX | ◎ | × | × |
Apache Tika | 〇 | × | × |
Word | 〇 | △ | × |
JUSTPDF3 | 〇 | △ | × |
JUSTPDF4 | 〇 | 〇 | × |
PDFから文字を変換すると文字化けする場合はこちらを利用
camelot
pdfplumber
Poppler
Poppler : PDFのコマンドラインツール | PDF
- pdftohtml
- pdftotext
pdftohtmlでxmlで座標を抽出するとなんでもできるがグループ化するのが大変
tabula
ブラウザ用 tabula.technology
- 範囲をぎりぎりにしてると文字が漏れるようなので大きめに選択
- ページが多いとリピートで以降のページも選べるがときどき選択されないページがあるので一旦最終頁までスクロールしてから選択すると失敗しにくい。
※ ページ丸ごとや全ページする場合は下のコマンド用が失敗も少なくおすすめ
コマンド用 github.com
- TSVだとセル内に改行があるとずれるのでCSV保存してから加工するとよい。
- セルの中にきちんと文字の入っている表だと失敗は今のところない。
- セル外にオーバーしている文字は線の付近の文字は消える。結合しているようなセルは大丈夫。
- セル外にオーバーしているところがあると以降のセルがずれる。ページ単位
- 0.9.1以降は全角英数字は半角、カナは全角に変換される。古いバージョン0.9.0だと変換なくそのまま。
PDF tables extractor
Web DEMO
PDFBOX
テキスト化だけならこちらがおすすめ、コマンドのみプログラムは未使用
xdoc2txtを使っていたがテキスト化できないPDFも多かったのでこちらに移行
java -jar pdfbox-app-2.y.z.jar ExtractText [OPTIONS]
sortすると見た目通りに並ぶので使いやすい
tabulaだけだと文字が漏れてたりする場合があるので確認用にこちらのテキストと比較して文字漏れがないか確認している。
Apache Tika
java -jar tika-app-1.16.jar -g
Word
WordでPDFを開き、Excelにコピペ
JUSTPDF3
JUSTPDF3でWordに変換後、Excelにコピペ
JUSTPDF4
JUSTPDF4でExcelに変換
内部のテキスト利用、画像の場合はOCR
OCRの変換かなりよくなっています