covid-19
github.com 症状がわからないので入院中を軽症・中等症に分類しています PDFの3ページ目にタイトルがあるかわからないのでタイトルがある場合で結合 apt install python3-tk ghostscript pip install camelot-py[cv] pip install pycurl pip install retry …
www.pref.toyama.jp !pip install jaconv !pip install pandas import datetime import json import pathlib import jaconv import pandas as pd df = pd.read_html( "http://www.pref.toyama.jp/cms_sec/1205/kj00021798.html", index_col=0, na_values="〃…
都道府県別一覧 github.com 都道府県別一覧data.json変換一覧 docs.google.com 新型コロナウイルス患者数オープンデータ(公式サイト、オープンデータサイト、対応状況) - Google スプレッドシート docs.google.com docs.google.com Python imabari.hateblo…
www.pref.yamanashi.jp このデータをデータラングリングする気にならない とりあえず日付と小計だけ変換 import datetime import re import jaconv import pandas as pd dt_now = datetime.datetime.now() def my_parser(s): dt_str = jaconv.z2h(s.strip(),…
github.com apt install python3-tk ghostscript pip install requests pip install beautifulsoup4 pip install camelot-py[cv] pip install pandas import datetime import json import re from urllib.parse import urljoin import pandas as pd import r…
imabari.hateblo.jp サンプル github.com Webページ(リンク先抽出) import requests from bs4 import BeautifulSoup import re import datetime from urllib.parse import urljoin # データのあるページのURL url = "http://example.jp" headers = { "User…
テーブル 下記ソース種類からテキストを抽出し、Pandasを使ってこのテーブルを作成する 年月日 検査数 陽性数 陰性数 入院 退院 死亡 相談件数 2020-04-01 2020-04-02 2020-04-03 2020-04-04 2020-04-05 ソースの種類 Pythonの場合、下記ライブラリを使いテ…
www.pref.tochigi.lg.jp github.com apt install python3-tk ghostscript pip install camelot-py[cv] pip install jaconv import requests from bs4 import BeautifulSoup import re import jaconv import datetime from urllib.parse import urljoin impor…
サンプルは富山県のオープンデータで作成しました opendata.pref.toyama.jp 出典:[コロナウィルス関連データ(陽性患者属性のみ)(CSV)]富山県ホームページ(当該ページのURL http://opendata.pref.toyama.jp/dataset/covid19/resource/f3cd8c90-bf77-4072-…
cio.go.jp www.code4japan.org 新型コロナウイルス感染症対策に関するオープンデータ項目定義書 そのまま使うには非常に使いにくい ファイルごと各項目がわかれている 普段使わない項目まで記載 ファイル数が多い アクセスするサイトが重いとダウンロードに…
github.com www.pref.ishikawa.lg.jp import datetime import re import jaconv import pandas as pd import requests from bs4 import BeautifulSoup # 和暦から西暦のdateに変換 def wareki2date(s): m = re.match(r"(昭和|平成|令和)(\d{1,2})年(\d{1,2})…
!wget "https://web.pref.hyogo.lg.jp/kk03/documents/corona-kanjajokyo0403.pdf" -O kanja.pdf !apt install python3-tk ghostscript !pip install camelot-py[cv] import camelot import pandas as pd tables = camelot.read_pdf("kanja.pdf", pages="all…
github.com import datetime import json import pandas as pd COUNTS_FILE = "toyama_counts.csv" PATIENTS_FILE = "toyama_patients.csv" def dumps_json(file_name, json_data): with open(file_name, "w") as fw: json.dump(json_data, fw, ensure_ascii…
import datetime import json import re import pandas as pd import requests from bs4 import BeautifulSoup def dumps_json(file_name, json_data): with open(file_name, "w") as fw: json.dump(json_data, fw, ensure_ascii=False, indent=2) url = "ht…
github.com import datetime import json import re from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup import camelot url = "https://www.pref.aichi.jp/site/covid19-aichi/kansensya-kensa.html" he…
hackmd.io
github.com
github.com PDFのURLのスクレイピングは省略してダウンロード PDFファイルをダウンロード wget https://www.pref.aichi.jp/uploaded/attachment/328890.pdf -O data.pdf !apt install python3-tk ghostscript !pip install camelot-py[cv] import datetime i…
新型コロナウィルスに感染した患者の状況 https://web.pref.hyogo.lg.jp/kk03/corona_kanjyajyokyo.html age.json(年代別合計) age_summary.json(日別年代合計)list clusters.json(日別クラスタ合計) clusters_summary.json(クラスタ別合計) patient…
pip install jaconv pip install pdfminer.six import re from typing import Dict, List, Union from urllib.parse import urljoin import jaconv import requests from bs4 import BeautifulSoup from pdfminer.converter import PDFPageAggregator from p…
※JAVAのインストールが必要 !pip install tabula-py import re from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup from tabula import read_pdf url = "https://web.pref.hyogo.lg.jp/kk03/200129.html"…
stop-covid19-hyogo.org colab.research.google.com
qiita.com officeforest.org script.google.com ライブラリからParserを追加 https://script.google.com/macros/s/AKfycby-SbnAWcB_P8h4y1cy4dx8hHHkCTYbONFnXiixYhuXnjhPFwbr/exec function myFunction() { // スクレイピング const html = UrlFetchApp.fet…
camelot・pdfminer.sixはテキスト抽出できない tabulaはできた pdftotextかpdfboxでテキスト抽出してから正規表現の方がよさそう www.pref.kumamoto.jp stop-covid19-kumamoto.netlify.com !wget "https://www.pref.kumamoto.jp/common/UploadFileOutput.ash…
# -*- coding: utf-8 -*- import datetime import json import re from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup url = "https://web.pref.hyogo.lg.jp/kk03/corona_kanjyajyokyo.html" headers = {…
github.com pdfのスクレイピングのプログラムすごいな めちゃくちゃ勉強になった グラフ表示用のJavascriptのデータからスクレイピング import datetime import json import re import pandas as pd import requests from bs4 import BeautifulSoup def dump…
北海道オープンデータポータル www.harp.lg.jp と同じ書式のCSVを作成 CSVからdata.jsonへ変換 qiita.com github.com スクレイピング import requests from bs4 import BeautifulSoup import jaconv import datetime import csv def daterange(_start, _end)…
こちらの方がよさそう imabari.hateblo.jp qiita.com !pip install jaconv import requests from bs4 import BeautifulSoup import jaconv import datetime def daterange(_start, _end): for n in range((_end - _start).days): yield _start + datetime.ti…
www.pref.ehime.jp import pandas as pd import re import datetime # 和暦から西暦のdateに変換 def wareki2date(s): m = re.match("(昭和|平成|令和)(\d{1,2})年(\d{1,2})月(\d{1,2})日", s) year = int(m.group(2)) month = int(m.group(3)) day = int(m.…
fukuno.jig.jp github.com 北海道 github.com qiita.com qiita.com 愛知 github.com 三重 github.com qiita.com 大阪 github.com 兵庫 github.com github.com 愛媛県 ehime-covid19.com github.com