オンライン

smallpdf

1時間に2回無料で利用

セキュリティ関係ない書類であればこれでいいかも

オフライン

soft	text	table	xml
camelot	×	◎	×
pdfplumber	〇	〇	×
Poppler	〇	△	〇
tabula	×	〇	×
PDFBOX	◎	×	×
Apache Tika	〇	×	×
Word	〇	△	×
JUSTPDF3	〇	△	×
JUSTPDF4	〇	〇	×

PDFから文字を変換すると文字化けする場合はこちらを利用

imabari.hateblo.jp

camelot

camelot-py.readthedocs.io

github.com

imabari.hateblo.jp

pdfplumber

github.com

qiita.com

Poppler

Poppler : PDFのコマンドラインツール | PDF

pdftohtml
pdftotext

pdftohtmlでxmlで座標を抽出するとなんでもできるがグループ化するのが大変

tabula

ブラウザ用 tabula.technology

範囲をぎりぎりにしてると文字が漏れるようなので大きめに選択
ページが多いとリピートで以降のページも選べるがときどき選択されないページがあるので一旦最終頁までスクロールしてから選択すると失敗しにくい。

※ ページ丸ごとや全ページする場合は下のコマンド用が失敗も少なくおすすめ

コマンド用 github.com

TSVだとセル内に改行があるとずれるのでCSV保存してから加工するとよい。
セルの中にきちんと文字の入っている表だと失敗は今のところない。
セル外にオーバーしている文字は線の付近の文字は消える。結合しているようなセルは大丈夫。
セル外にオーバーしているところがあると以降のセルがずれる。ページ単位
0.9.1以降は全角英数字は半角、カナは全角に変換される。古いバージョン0.9.0だと変換なくそのまま。

PDF tables extractor

github.com

Web DEMO

ronnywang.github.io

PDFBOX

テキスト化だけならこちらがおすすめ、コマンドのみプログラムは未使用

pdfbox.apache.org

xdoc2txtを使っていたがテキスト化できないPDFも多かったのでこちらに移行

java -jar pdfbox-app-2.y.z.jar ExtractText [OPTIONS] [Text file]

sortすると見た目通りに並ぶので使いやすい

tabulaだけだと文字が漏れてたりする場合があるので確認用にこちらのテキストと比較して文字漏れがないか確認している。

Apache Tika

Apache Tika – Apache Tika

java -jar tika-app-1.16.jar -g

Word

WordでPDFを開き、Excelにコピペ

JUSTPDF3

JUSTPDF3でWordに変換後、Excelにコピペ

PDFからExcelやテキストはOCRになって文字が変わる

JUSTPDF4

JUSTPDF4でExcelに変換

内部のテキスト利用、画像の場合はOCR

OCRの変換かなりよくなっています

メモ

PDFの表をテキスト変換

オンライン

smallpdf

オフライン

PDFから文字を変換すると文字化けする場合はこちらを利用

camelot

pdfplumber

Poppler

tabula

PDF tables extractor

PDFBOX

Apache Tika

Word

JUSTPDF3

JUSTPDF4