新型コロナウイルスまとめサイトdata.jsonの作り方(前準備)

テーブル

  • 下記ソース種類からテキストを抽出し、Pandasを使ってこのテーブルを作成する
年月日 検査数 陽性数 陰性数 入院 退院 死亡 相談件数
2020-04-01
2020-04-02
2020-04-03
2020-04-04
2020-04-05

ソースの種類

Pythonの場合、下記ライブラリを使いテキストを抽出する

Webページ

PDF

  • Camelot(PDFからDataFrameに変換)
  • Pandas(データラングリング)

xlsx

  • Pandas(データラングリング)

CSV

  • Pandas(データラングリング)

画像

  • Tesseract OCROCR
  • Pyocr(OCR
  • Pandas(データラングリング)

インストール ※Ubuntuの場合

共通

pip install pandas

Webページ

pip install requests
pip install beautifulsoup4

PDF

apt install python3-tk ghostscript
pip install camelot-py[cv]
pip install jaconv

OCR

!add-apt-repository ppa:alex-p/tesseract-ocr -y
!apt update
!apt install tesseract-ocr
!apt install libtesseract-dev
!apt install tesseract-ocr-jpn  tesseract-ocr-jpn-vert
!apt install tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert
!apt install python3-pil
!pip install pyocr

つづき imabari.hateblo.jp