PDFの表をテキスト変換

tabula

ブラウザ用 tabula.technology

  • 範囲をぎりぎりにしてると文字が漏れるようなので大きめに選択
  • ページが多いとリピートで以降のページも選べるがときどき選択されないページがあるので一旦最終頁までスクロールしてから選択すると失敗しにくい。

※ ページ丸ごとや全ページする場合は下のコマンド用が失敗も少なくおすすめ

コマンド用 github.com

  • TSVだとセル内に改行があるとずれるのでCSV保存してから加工するとよい。
  • セルの中にきちんと文字の入っている表だと失敗は今のところない。
  • セル外にオーバーしている文字は線の付近の文字は消える。結合しているようなセルは大丈夫。
  • セル外にオーバーしているところがあると以降のセルがずれる。ページ単位
  • 0.9.1以降は全角英数字は半角、カナは全角に変換される。古いバージョン0.9.0だと変換なくそのまま。

PDFBOX

テキスト化だけならこちらがおすすめ

pdfbox.apache.org

xdoc2txtを使っていたがテキスト化できないPDFも多かったのでこちらに移行

java -jar pdfbox-app-2.y.z.jar ExtractText [OPTIONS] [Text file]

sortすると見た目通りに並ぶので使いやすい

tabulaだけだと文字が漏れてたりする場合があるので確認用にこちらのテキストと比較して文字漏れがないか確認している。

Apache Tika

Apache Tika – Apache Tika

java -jar tika-app-1.16.jar -g

Word

WordでPDFを開き、Excelにコピペ

JUSTPDF3

JUSTPDF3でWordに変換後、Excelにコピペ

PDFからExcelやテキストはOCRになって文字が変わる