大阪府における新型コロナウイルス感染症患者の発生状況のExcelファイルからデータラングリング

covid-19

import requests from bs4 import BeautifulSoup import re headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", } def get_link(): url = "http://www.pref.osaka.lg.jp/iryo/osakakansensho/corona.html…

2020-03-09

北海道の新型コロナウイルス感染症の道内の発生状況の表をスクレイピング

covid-19

www.pref.hokkaido.lg.jp import requests from bs4 import BeautifulSoup url = "http://www.pref.hokkaido.lg.jp/hf/kth/kak/hasseijoukyou.htm" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", } …

2020-03-09

大阪府における新型コロナウイルス感染症患者の発生状況のWordファイルから表をスクレイピング

covid-19

imabari.hateblo.jp 3/10からExcelファイルに変更されました感染症患者一覧表をスクレイピング No.1の重複をどうするかはわからない 3/11 h2→h3に変更されていたので修正 !pip install python-docx import requests from bs4 import BeautifulSoup import r…

2020-03-09

大阪府の新型コロナウイルス感染症患者のWordファイルから表をスクレイピング

covid-19

!pip install python-docx スクレイピング 3/11 h2→h3に変更されていたので修正 import requests from bs4 import BeautifulSoup import re headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", } def get…

2020-03-04

新型コロナウイルス感染症の現在の状況と厚生労働省の対応についてのPDFの作成時間を取得

covid-19

!apt install poppler-utils poppler-data import requests from bs4 import BeautifulSoup from urllib.parse import urljoin import os import re headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", }…

2020-03-04

covid-19 github

covid-19

都道府県 github.com github.com その他 github.com github.com github.com github.com github.com qiita.com github.com github.com github.com

2020-03-03

厚生労働省のPCR検査実施人数をスクレイピング

covid-19

抽出部分を変更 "・患者(.+?)例、無症状病原体保有者(.+?)例。\n・(.+?)時点までに疑似症サーベイランスおよび積極的疫学調査に基づき、PCR検査については、計(.+?)人の検査を実施。\n・上記患者のうち入院中または入院予定(.+?)名、退院(.+?)名、死亡(.+?)…

2020-03-01

新型コロナウイルス関連スクレイピングまとめ

covid-19

imabari.hateblo.jp imabari.hateblo.jp imabari.hateblo.jp imabari.hateblo.jp imabari.hateblo.jp imabari.hateblo.jp imabari.hateblo.jp imabari.hateblo.jp

2020-03-01

新型コロナウイルスに関連した患者の発生についてから最新の患者情報をスクレイピング

covid-19

最新情報から５件分取得記事内容と確認するため抽出前の情報も表示しています import requests from bs4 import BeautifulSoup import re impot time headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko",…

2020-02-29

cdcをGASでスクレイピング、スプレッドシートに保存

covid-19

www.cdc.gov スクレイピング 3/1 合計、死亡者の欄が追加されたので変更 3/3 また表示方法が変更されてtotal項目がなくなった(-_-;) 3/4 陽性のみになった function myFunction() { // スクレイピング var html = UrlFetchApp.fetch('https://www.cdc.gov/co…

2020-02-29

東洋経済オンライン「新型コロナウイルス国内感染の状況」用の厚生労働省データソースをスクレイピングで作成

covid-19

※現在は厚生労働省フォーマットが変更されているため対応していません各都道府県の新型コロナまとめサイトのdata.jsonの作り方 imabari.hateblo.jp imabari.hateblo.jp ソース toyokeizai.net github.com 手順 Githubの全データをウェブサイトにアップ「da…

2020-02-29

COVID-19可視化（東洋経済）

covid-19

note.com toyokeizai.net github.com

2020-02-27

PCR報告フォーム作成・抽出

covid-19

フォーム docs.google.com ＃回答スプレッドシート docs.google.com プログラム最新の情報を抽出 !pip install japanmap import pandas as pd import datetime # 回答スプレッドシートのCSVをダウンロード df_tmp = pd.read_csv( "https://docs.google.com…

2020-02-23

厚生労働省の新型コロナウイルス感染症の最新の現在の状況を取得

covid-19

pip install jaconv プログラム import requests from bs4 import BeautifulSoup import re from urllib.parse import urljoin headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", } def get_link(): url…

2020-02-21

Coronavirus disease (COVID-2019) situation reportsの最新情報をスクレイピング

covid-19

github.com 全体とエリア別を一緒にまとめにしました imabari.hateblo.jp imabari.hateblo.jp

2020-02-20

WHO の Coronavirus disease (COVID-2019) situation reportsのPDFから国別の表をスクレイピング

covid-19

こちらにまとめました imabari.hateblo.jp インストール !apt install ghostscript !pip install camelot-py[cv] ダウンロード !wget https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200219-sitrep-30-covid-19.pdf プログラム …

2020-02-20

WHO の Coronavirus disease (COVID-2019) situation reportsのPDFから最新の感染者数を取得２

covid-19

Pythonだけで作成できるように変更インストール pip install pdfminer.six pip install requests pip install beautifulsoup4 プログラム import datetime import os import re import urllib.parse import requests from bs4 import BeautifulSoup from pd…

2020-02-18

WHO の Coronavirus disease (COVID-2019) situation reportsのPDFから最新の感染者数を取得

covid-19

imabari.hateblo.jp Pythonだけで抽出できるように変更しました参考 oku.edu.mie-u.ac.jp 一番上の最新のPDFをダウンロード 8週目以降の1ページ右上部分から取得（座標指定） Colaboratory上で実行 2/13だけChinaのdeathsが取れない ※Colaboratory以外では…