2020-03-18から1日間の記事一覧

熊本県の新型コロナウイルス感染症対策に係る状況のPDFをスクレイピング

camelot・pdfminer.sixはテキスト抽出できない tabulaはできた pdftotextかpdfboxでテキスト抽出してから正規表現の方がよさそう www.pref.kumamoto.jp stop-covid19-kumamoto.netlify.com !wget "https://www.pref.kumamoto.jp/common/UploadFileOutput.ash…

兵庫県の新型コロナウイルスに感染した患者の状況のExcelファイルをデータラングリング

# -*- coding: utf-8 -*- import datetime import json import re from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup url = "https://web.pref.hyogo.lg.jp/kk03/corona_kanjyajyokyo.html" headers = {…

兵庫県の新型コロナウイルス感染症の県内検査状況をスクレイピング

github.com pdfのスクレイピングのプログラムすごいな めちゃくちゃ勉強になった グラフ表示用のJavascriptのデータからスクレイピング import datetime import json import re import pandas as pd import requests from bs4 import BeautifulSoup def dump…