テーブル
- 下記ソース種類からテキストを抽出し、Pandasを使ってこのテーブルを作成する
年月日 | 検査数 | 陽性数 | 陰性数 | 入院 | 退院 | 死亡 | 相談件数 |
---|---|---|---|---|---|---|---|
2020-04-01 | |||||||
2020-04-02 | |||||||
2020-04-03 | |||||||
2020-04-04 | |||||||
2020-04-05 |
ソースの種類
Pythonの場合、下記ライブラリを使いテキストを抽出する
Webページ
- ファイルのURL抽出(CSV・xlsx・PDF・画像)
- Beautifulsoup4(スクレイピング)
- テキスト・表
- Beautifulsoup4(スクレイピング)
表
- Pandas(スクレイピング)
Pandas(データラングリング)
- Camelot(PDFからDataFrameに変換)
- Pandas(データラングリング)
xlsx
- Pandas(データラングリング)
CSV
- Pandas(データラングリング)
画像
インストール ※Ubuntuの場合
共通
pip install pandas
Webページ
pip install requests pip install beautifulsoup4
apt install python3-tk ghostscript pip install camelot-py[cv] pip install jaconv
OCR
!add-apt-repository ppa:alex-p/tesseract-ocr -y !apt update !apt install tesseract-ocr !apt install libtesseract-dev !apt install tesseract-ocr-jpn tesseract-ocr-jpn-vert !apt install tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert !apt install python3-pil !pip install pyocr