camelot・pdfminer.sixはテキスト抽出できない
tabulaはできた
pdftotextかpdfboxでテキスト抽出してから正規表現の方がよさそう
stop-covid19-kumamoto.netlify.com
!wget "https://www.pref.kumamoto.jp/common/UploadFileOutput.ashx?c_id=3&id=31611&sub_id=1&flid=227167" -O data.pdf !apt install poppler-utils poppler-data !pdftotext -layout data.pdf
import re with open("data.txt") as fr: text = fr.read() # テキスト確認 result = [] for line in text.splitlines(): s = line.strip() m = re.match("(検査件数|陽性|陰性).+\d$", s) if m: result.append(s.split()) result