メモ

新型コロナウイルスまとめサイトdata.jsonの作り方（前準備）

covid-19

テーブル

下記ソース種類からテキストを抽出し、Pandasを使ってこのテーブルを作成する

年月日	検査数	陽性数	陰性数	入院	退院	死亡	相談件数
2020-04-01
2020-04-02
2020-04-03
2020-04-04
2020-04-05

ソースの種類

Pythonの場合、下記ライブラリを使いテキストを抽出する

Webページ

ファイルのURL抽出（CSV・xlsx・PDF・画像）
- Beautifulsoup4（スクレイピング）
テキスト・表
- Beautifulsoup4（スクレイピング）
表
- Pandas（スクレイピング）
Pandas（データラングリング）

PDF

Camelot（PDFからDataFrameに変換）
Pandas（データラングリング）

xlsx

Pandas（データラングリング）

CSV

Pandas（データラングリング）

画像

Tesseract OCR（OCR）
Pyocr（OCR）
Pandas（データラングリング）

インストール ※Ubuntuの場合

共通

pip install pandas

Webページ

pip install requests
pip install beautifulsoup4

PDF

apt install python3-tk ghostscript
pip install camelot-py[cv]
pip install jaconv

OCR

!add-apt-repository ppa:alex-p/tesseract-ocr -y
!apt update
!apt install tesseract-ocr
!apt install libtesseract-dev
!apt install tesseract-ocr-jpn  tesseract-ocr-jpn-vert
!apt install tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert
!apt install python3-pil
!pip install pyocr

つづき imabari.hateblo.jp