熊本県の新型コロナウイルス感染症対策に係る状況のPDFをスクレイピング

camelot・pdfminer.sixはテキスト抽出できない

tabulaはできた

pdftotextかpdfboxでテキスト抽出してから正規表現の方がよさそう

www.pref.kumamoto.jp

stop-covid19-kumamoto.netlify.com

!wget "https://www.pref.kumamoto.jp/common/UploadFileOutput.ashx?c_id=3&id=31611&sub_id=1&flid=227167" -O data.pdf

!apt install poppler-utils poppler-data

!pdftotext -layout data.pdf
import re

with open("data.txt") as fr:
    text = fr.read()

# テキスト確認

result = []

for line in text.splitlines():

    s = line.strip()

    m = re.match("(検査件数|陽性|陰性).+\d$", s)

    if m:
        result.append(s.split())

result