兵庫県の患者情報のPDFをCSV変換

!wget "https://web.pref.hyogo.lg.jp/kk03/documents/corona-kanjajokyo0403.pdf" -O kanja.pdf

!apt install python3-tk ghostscript
!pip install camelot-py[cv]

import camelot

import pandas as pd

tables = camelot.read_pdf("kanja.pdf", pages="all", split_text=True, strip_text="\n", line_scale=40)

# ページごとのデータを結合
df_head = pd.concat([table.df for table in tables])

# 上２行を結合して列名に設定
df_head.columns = ["".join(i).strip() for i in df_head.head(2).fillna("").T.values]

# 上３行目から最後までをコピー
df_tmp = df_head.iloc[2:, :].copy()

# 番号が数字のみ抽出
df = df_tmp[df_tmp["番号"].astype(str).str.isdigit()].copy()

# CSVに保存
df.to_csv("kanja.csv", index=False)