PDFの表をテキスト変換

オンライン

smallpdf

smallpdf.com

1時間に2回無料で利用

セキュリティ関係ない書類であればこれでいいかも

オフライン

soft text table xml
camelot × ×
pdfplumber ×
Poppler
tabula × ×
PDFBOX × ×
Apache Tika × ×
Word ×
JUSTPDF3 ×
JUSTPDF4 ×

PDFから文字を変換すると文字化けする場合はこちらを利用

imabari.hateblo.jp

camelot

camelot-py.readthedocs.io

github.com

imabari.hateblo.jp

imabari.hateblo.jp

pdfplumber

github.com

qiita.com

Poppler

Poppler : PDFのコマンドラインツール | PDF

  • pdftohtml
  • pdftotext

pdftohtmlでxmlで座標を抽出するとなんでもできるがグループ化するのが大変

tabula

ブラウザ用 tabula.technology

  • 範囲をぎりぎりにしてると文字が漏れるようなので大きめに選択
  • ページが多いとリピートで以降のページも選べるがときどき選択されないページがあるので一旦最終頁までスクロールしてから選択すると失敗しにくい。

※ ページ丸ごとや全ページする場合は下のコマンド用が失敗も少なくおすすめ

コマンド用 github.com

  • TSVだとセル内に改行があるとずれるのでCSV保存してから加工するとよい。
  • セルの中にきちんと文字の入っている表だと失敗は今のところない。
  • セル外にオーバーしている文字は線の付近の文字は消える。結合しているようなセルは大丈夫。
  • セル外にオーバーしているところがあると以降のセルがずれる。ページ単位
  • 0.9.1以降は全角英数字は半角、カナは全角に変換される。古いバージョン0.9.0だと変換なくそのまま。

PDF tables extractor

github.com

Web DEMO

ronnywang.github.io

PDFBOX

テキスト化だけならこちらがおすすめ、コマンドのみプログラムは未使用

pdfbox.apache.org

xdoc2txtを使っていたがテキスト化できないPDFも多かったのでこちらに移行

java -jar pdfbox-app-2.y.z.jar ExtractText [OPTIONS] [Text file]

sortすると見た目通りに並ぶので使いやすい

tabulaだけだと文字が漏れてたりする場合があるので確認用にこちらのテキストと比較して文字漏れがないか確認している。

Apache Tika

Apache Tika – Apache Tika

java -jar tika-app-1.16.jar -g

Word

WordでPDFを開き、Excelにコピペ

JUSTPDF3

JUSTPDF3でWordに変換後、Excelにコピペ

PDFからExcelやテキストはOCRになって文字が変わる

JUSTPDF4

JUSTPDF4でExcelに変換

内部のテキスト利用、画像の場合はOCR

OCRの変換かなりよくなっています