PDF

pypdfium2

PDF

pypi.org speakerdeck.com

PDF

github.com

PDFテキスト変換全部入り

PDF

github.com pdfbox = tabula pdfminer = camelot なのでテキスト変換できてない場合はCSVも失敗

PDFの保護解除

PDF

stackoverflow.com !pip install pikepdf import pikepdf with pikepdf.open("data.pdf") as pdf: pdf.save("output.pdf")

PDFの康熙部首・CJK部首補助の文字化け変換

PDF

PDFで「見」や「高」などの文字が検索できなかったり、コピペすると似たような別の字に化けたりする問題(康熙部首・CJK部首補助の文字化け問題)について。この問題があるPDFから、問題のないPDFを生成するツールを作ってみました。https://t.co/BmrubCfhH5…

子宮頸がん予防接種調査の結果のPDFをCSV化

PDF

www.city.nagoya.jp oku.edu.mie-u.ac.jp togetter.com PDFをXMLに変換しTOP・LEFTで並び替えして抽出する 完成したCSVファイル drive.google.com Gist github.com PDF変換ソフトをインストール・ダウンロード !apt install poppler-utils !wget https://www…

愛媛県警公開交通取締りのPDFからスクレイピング

PDF

www.police.pref.ehime.jp 公開交通取締りのPDFからスクレイピング !pip install tabula-py import re import requests import datetime from bs4 import BeautifulSoup from urllib.parse import urljoin import pandas as pd from tabula import read_pdf …

PowerShellでキャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をワンライナーでTSV変換

qiita.com PowerShellでワンライナーでできるか試してみた PDFBOXだと改行されないので2行の処理がいらないのでpdftotextより簡単 標準出力がShift-JISなのでsjisにすると java -jar pdfbox-app-2.0.17.jar ExtractText -startPage 3 -sort -console -encodi…

宇和島市プレミアム付商品券が使えるお店をスクレイピング

PDF

!wget https://www.city.uwajima.ehime.jp/uploaded/attachment/24937.pdf -O list.pdf !wget https://www-eu.apache.org/dist/pdfbox/2.0.17/pdfbox-app-2.0.17.jar -O pdfbox-app.jar !java -jar pdfbox-app.jar ExtractText -startPage 2 -sort -encoding…

キャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をPDFをCSV変換4

PDF

Colaboratoryで公開 PDFダウンロードからTSV変換まで colab.research.google.com # -*- coding: utf-8 -*- import pandas as pd from tabula import read_pdf # ページ数入力 max_page = 6360 pages = f"3-{max_page}" df = read_pdf("kameiten_touroku_list…

キャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をPDFをCSV変換3

PDF

www.meti.go.jp セルが「縮小して全体を表示」に変更されたのかセル内に縮小表示されたのでtabulaで抽出できるようになりました github.com tabula-1.0.3-jar-with-dependencies.jarをダウンロード -Xmx1G オプションでメモリを増やせば動きました java -jar…

キャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をPDFをCSV変換2

PDF

imabari.hateblo.jp 正規表現での抽出を参考にColaboratoryで実行 !apt-get install openjdk-11-jre !curl -OL https://www-eu.apache.org/dist/pdfbox/2.0.16/pdfbox-app-2.0.16.jar !curl -OL https://cashless.go.jp/assets/doc/kameiten_touroku_list.pd…

キャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をPDFをCSV変換

PDF

imabari.hateblo.jp cashless.go.jp https://cashless.go.jp/assets/doc/kameiten_touroku_list.pdf smallpdfは時間がかかりすぎてエラー tabulaもエラー ※500ページごとにすればできました(文字が切れてる) camelotは変換中のまま現在進行中(3時間経過)…

camelotでPDFの表からEXCELにコマンド変換(CSV・XLSX)

PDF

Camelot: PDF Table Extraction for Humans — Camelot 0.8.2 documentation インストール Installation of dependencies — Camelot 0.8.2 documentation apt install python3-tk ghostscript pip install camelot-py[cv] # PATH追加 export PATH=$PATH:/home…

camelotでPDFの表からEXCELに変換(CSV・TSV・XLSX)

PDF

厚生労働省のブラック企業リストをTSV変換 imabari.hateblo.jp 前回tabulaのは失敗するのでcamelotで再挑戦 Camelot: PDF Table Extraction for Humans — Camelot 0.7.3 documentation 厚生労働省の長時間労働削減に向けた取り組みから www.mhlw.go.jp 労働…

GoogleフォームからPDF作成しメール送信

フォームから送信するとPDFを作成しフォルダに保存、指定したメールアドレスと入力した本人のアドレスにPDFが送信されます どうせならみかんボランティアが作らずに宇和島社協が作ればいいのに スプレッドシート共有しておけば役所の確認も楽だと思う。 スプ…

平成30年7月豪雨による被害状況等についてをテキスト化してみた

PDF

www.pref.ehime.jp https://www.pref.ehime.jp/h12200/documents/higaijokyo80.pdf PDFBOXでテキスト化 java -jar pdfbox-app.jar ExtractText -sort -encoding UTF-8 %1 区 分 市 町 名 死 亡 宇 和 島 市 西 予 市 大 洲 市 松 山 市 今 治 市 鬼 北 町 を…

平成30年7月豪雨による被害状況等についてのPDFをテキスト変換

PDF

平成30年7月豪雨災害に関する情報から https://www.pref.ehime.jp/h12200/h3007-gouu-saigai-oshirase.htmlwww.pref.ehime.jp 平成30年7月豪雨による被害状況等について(第??報)のPDFをダウンロードしテキスト化 JAVAをインストール PDFBOXをダウンロード …

PDFの表をテキスト変換

PDF

オンライン smallpdf smallpdf.com 1時間に2回無料で利用 セキュリティ関係ない書類であればこれでいいかも オフライン soft text table xml camelot × ◎ × pdfplumber 〇 〇 × Poppler 〇 △ 〇 tabula × 〇 × PDFBOX ◎ × × Apache Tika 〇 × × Word 〇 △ × …

PDFminer.sixでテキストが取得できない

PDF

Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド― サポートページ:Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド―:|技術評論社 5-8_pdf\print_pdf_textboxes.pyのサンプルコードを試してい…

厚生労働省のブラック企業リストをTSV変換

PDF

最新 imabari.hateblo.jp tabula a244.hateblo.jp tabulaでブラウザで範囲を指定してPDFからTSV変換できます。 tabula.technology コマンド用 github.com tabula-1.0.1-jar-with-dependencies.jarをダウンロードして java -jar .\tabula-1.0.1-jar-with-depe…

PDFからテキスト抽出

Apache PDFBox | A Java PDF LibraryApache PDFBox | Downloads pdfbox-app-1.8.9.jarをダウンロードApache PDFBox | Command-Line Tools java -jar pdfbox-app-1.8.9.jar ExtractText -encoding UTF-8 <inputfile></inputfile>