Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド―
サポートページ:Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド―:|技術評論社
5-8_pdf\print_pdf_textboxes.pyのサンプルコードを試しているのですがテキストが取得できない
5-8_pdf\parse_pdf.pyで試すと
<LTPage(1) 0.000,0.000,841.920,595.320 rotate=0> <LTFigure(Xf4) 0.000,0.000,841.920,595.320 matrix=[1.00,0.00,0.00,1.00, (0.00,0.00)]> <LTChar 564.070,556.851,568.570,565.851 matrix=[1.00,0.00,0.00,1.00, (564.07,558.12)] font='ABCDEE+MS P明朝' adv=4.5 text='あ'> <LTChar 568.624,556.851,577.624,565.851 matrix=[1.00,0.00,0.00,1.00, (568.62,558.12)] font='ABCDEE+MS P明朝' adv=9.0 text='い'> <LTChar 577.624,556.851,586.624,565.851 matrix=[1.00,0.00,0.00,1.00, (577.62,558.12)] font='ABCDEE+MS P明朝' adv=9.0 text='う'> <LTChar 586.624,556.851,591.124,565.851 matrix=[1.00,0.00,0.00,1.00, (586.62,558.12)] font='ABCDEE+MS P明朝' adv=4.5 text='え'> <LTChar 591.178,556.851,600.178,565.851 matrix=[1.00,0.00,0.00,1.00, (591.18,558.12)] font='ABCDEE+MS P明朝' adv=9.0 text='お'>
LTFigureになっているとだめみたい
LTTextBoxHorizontalだと取得できる
LTFigureからLTTextBoxHorizontalに変換する方法ないのかな
pdf2txt.pyだとテキスト化されるのでPDFminer.sixでもできるみたい