2020-03-01から1ヶ月間の記事一覧

愛知県のクラスタをスクレイピング・JSON化

import datetime import json import re import pandas as pd import requests from bs4 import BeautifulSoup def dumps_json(file_name, json_data): with open(file_name, "w") as fw: json.dump(json_data, fw, ensure_ascii=False, indent=2) url = "ht…

愛知県の新型コロナ情報をスクレイピングしてdata.jsonを作成

github.com import datetime import json import re from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup import camelot url = "https://www.pref.aichi.jp/site/covid19-aichi/kansensya-kensa.html" he…

東京都 新型コロナ対策サイト」地域展開に向けて情報共有

hackmd.io

兵庫県の新型コロナウイルス感染症 対策サイト

github.com

愛知県の感染状況のPDFデータをCSVに変換

github.com PDFのURLのスクレイピングは省略してダウンロード PDFファイルをダウンロード wget https://www.pref.aichi.jp/uploaded/attachment/328890.pdf -O data.pdf !apt install python3-tk ghostscript !pip install camelot-py[cv] import datetime i…

jsonschema

app.quicktype.io import requests INSPECTIONS_SUMMARY_SCHEMA = { "$schema": "http://json-schema.org/draft-07/schema", "type": "object", "required": [ "data", "last_update" ], "properties": { "last_update": { "pattern": "^[0-9]{4}\/[0-9]{2}\…

兵庫県のデータ

新型コロナウィルスに感染した患者の状況 https://web.pref.hyogo.lg.jp/kk03/corona_kanjyajyokyo.html age.json(年代別合計) age_summary.json(日別年代合計)list clusters.json(日別クラスタ合計) clusters_summary.json(クラスタ別合計) patient…

兵庫県の圏域別受入可能病床数を取得(pdfminer)

pip install jaconv pip install pdfminer.six import re from typing import Dict, List, Union from urllib.parse import urljoin import jaconv import requests from bs4 import BeautifulSoup from pdfminer.converter import PDFPageAggregator from p…

兵庫県の圏域別受入可能病床数を取得

※JAVAのインストールが必要 !pip install tabula-py import re from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup from tabula import read_pdf url = "https://web.pref.hyogo.lg.jp/kk03/200129.html"…

兵庫県非公式 新型コロナウイルスまとめサイトのデータ確認

stop-covid19-hyogo.org colab.research.google.com

兵庫県の新型コロナウイルス感染症の県内検査状況からGASで簡易APIを作成

qiita.com officeforest.org script.google.com ライブラリからParserを追加 https://script.google.com/macros/s/AKfycby-SbnAWcB_P8h4y1cy4dx8hHHkCTYbONFnXiixYhuXnjhPFwbr/exec function myFunction() { // スクレイピング const html = UrlFetchApp.fet…

imabari.hateblo.jp 北海道 tech.moyashidaisuke.com tech.moyashidaisuke.com qiita.com qiita.com qiita.com qiita.com 兵庫 github.com qiita.com github.com qiita.com github.com

熊本県の新型コロナウイルス感染症対策に係る状況のPDFをスクレイピング

camelot・pdfminer.sixはテキスト抽出できない tabulaはできた pdftotextかpdfboxでテキスト抽出してから正規表現の方がよさそう www.pref.kumamoto.jp stop-covid19-kumamoto.netlify.com !wget "https://www.pref.kumamoto.jp/common/UploadFileOutput.ash…

兵庫県の新型コロナウイルスに感染した患者の状況のExcelファイルをデータラングリング

# -*- coding: utf-8 -*- import datetime import json import re from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup url = "https://web.pref.hyogo.lg.jp/kk03/corona_kanjyajyokyo.html" headers = {…

兵庫県の新型コロナウイルス感染症の県内検査状況をスクレイピング

github.com pdfのスクレイピングのプログラムすごいな めちゃくちゃ勉強になった グラフ表示用のJavascriptのデータからスクレイピング import datetime import json import re import pandas as pd import requests from bs4 import BeautifulSoup def dump…

三重県の新型コロナウイルス感染症検査実施件数をスクレイピング2

北海道オープンデータポータル www.harp.lg.jp と同じ書式のCSVを作成 CSVからdata.jsonへ変換 qiita.com github.com スクレイピング import requests from bs4 import BeautifulSoup import jaconv import datetime import csv def daterange(_start, _end)…

三重県の新型コロナウイルス感染症検査実施件数をスクレイピング

こちらの方がよさそう imabari.hateblo.jp qiita.com !pip install jaconv import requests from bs4 import BeautifulSoup import jaconv import datetime def daterange(_start, _end): for n in range((_end - _start).days): yield _start + datetime.ti…

愛媛県の新型コロナウイルス感染症に関する情報から検査結果をスクレイピング

www.pref.ehime.jp import pandas as pd import re import datetime # 和暦から西暦のdateに変換 def wareki2date(s): m = re.match("(昭和|平成|令和)(\d{1,2})年(\d{1,2})月(\d{1,2})日", s) year = int(m.group(2)) month = int(m.group(3)) day = int(m.…

地元の新型コロナウイルス対策サイトを作ろう

fukuno.jig.jp github.com 北海道 github.com qiita.com qiita.com 愛知 github.com 三重 github.com qiita.com 大阪 github.com 兵庫 github.com github.com 愛媛県 ehime-covid19.com github.com

大阪府における新型コロナウイルス感染症患者の発生状況のExcelファイルからデータラングリング

import requests from bs4 import BeautifulSoup import re headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", } def get_link(): url = "http://www.pref.osaka.lg.jp/iryo/osakakansensho/corona.html…

Microsoft Teams 日本語マニュアル、クイックガイド、ビデオ

blogs.windows.com

北海道の新型コロナウイルス感染症の道内の発生状況の表をスクレイピング

www.pref.hokkaido.lg.jp import requests from bs4 import BeautifulSoup url = "http://www.pref.hokkaido.lg.jp/hf/kth/kak/hasseijoukyou.htm" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", } …

大阪府における新型コロナウイルス感染症患者の発生状況のWordファイルから表をスクレイピング

imabari.hateblo.jp 3/10からExcelファイルに変更されました 感染症患者一覧表をスクレイピング No.1の重複をどうするかはわからない 3/11 h2→h3に変更されていたので修正 !pip install python-docx import requests from bs4 import BeautifulSoup import r…

大阪府の新型コロナウイルス感染症患者のWordファイルから表をスクレイピング

!pip install python-docx スクレイピング 3/11 h2→h3に変更されていたので修正 import requests from bs4 import BeautifulSoup import re headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", } def get…

https://employment.en-japan.com/engineerhub/entry/2019/06/21/103000

seleniumでスクレイピング(次のページ対応)

Colaboratoryを使ってください colab.research.google.com Seleniumのインストール !apt install chromium-chromedriver !cp /usr/lib/chromium-browser/chromedriver /usr/bin !pip install selenium import time from bs4 import BeautifulSoup from selen…

ぐるなびの店舗情報をスクレイピング

import json import requests from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko' } url = "https://r.gnavi.co.jp/j4h7ps5m0000/?_ga=2.212982868.1531592916.1583391069-…

新型コロナウイルス感染症の現在の状況と厚生労働省の対応についてのPDFの作成時間を取得

!apt install poppler-utils poppler-data import requests from bs4 import BeautifulSoup from urllib.parse import urljoin import os import re headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", }…

covid-19 github

都道府県 github.com github.com その他 github.com github.com github.com github.com github.com qiita.com github.com github.com github.com

厚生労働省のPCR検査実施人数をスクレイピング

抽出部分を変更 "・患者(.+?)例、無症状病原体保有者(.+?)例。\n・(.+?)時点までに疑似症サーベイランスおよび積極的疫学調査に基づき、PCR検査については、計(.+?)人の検査を実施。\n・上記患者のうち入院中または入院予定(.+?)名、退院(.+?)名、死亡(.+?)…