2020-03-01から1ヶ月間の記事一覧
import datetime import json import re import pandas as pd import requests from bs4 import BeautifulSoup def dumps_json(file_name, json_data): with open(file_name, "w") as fw: json.dump(json_data, fw, ensure_ascii=False, indent=2) url = "ht…
github.com import datetime import json import re from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup import camelot url = "https://www.pref.aichi.jp/site/covid19-aichi/kansensya-kensa.html" he…
hackmd.io
github.com
github.com PDFのURLのスクレイピングは省略してダウンロード PDFファイルをダウンロード wget https://www.pref.aichi.jp/uploaded/attachment/328890.pdf -O data.pdf !apt install python3-tk ghostscript !pip install camelot-py[cv] import datetime i…
app.quicktype.io import requests INSPECTIONS_SUMMARY_SCHEMA = { "$schema": "http://json-schema.org/draft-07/schema", "type": "object", "required": [ "data", "last_update" ], "properties": { "last_update": { "pattern": "^[0-9]{4}\/[0-9]{2}\…
新型コロナウィルスに感染した患者の状況 https://web.pref.hyogo.lg.jp/kk03/corona_kanjyajyokyo.html age.json(年代別合計) age_summary.json(日別年代合計)list clusters.json(日別クラスタ合計) clusters_summary.json(クラスタ別合計) patient…
pip install jaconv pip install pdfminer.six import re from typing import Dict, List, Union from urllib.parse import urljoin import jaconv import requests from bs4 import BeautifulSoup from pdfminer.converter import PDFPageAggregator from p…
※JAVAのインストールが必要 !pip install tabula-py import re from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup from tabula import read_pdf url = "https://web.pref.hyogo.lg.jp/kk03/200129.html"…
stop-covid19-hyogo.org colab.research.google.com
qiita.com officeforest.org script.google.com ライブラリからParserを追加 https://script.google.com/macros/s/AKfycby-SbnAWcB_P8h4y1cy4dx8hHHkCTYbONFnXiixYhuXnjhPFwbr/exec function myFunction() { // スクレイピング const html = UrlFetchApp.fet…
imabari.hateblo.jp 北海道 tech.moyashidaisuke.com tech.moyashidaisuke.com qiita.com qiita.com qiita.com qiita.com 兵庫 github.com qiita.com github.com qiita.com github.com
camelot・pdfminer.sixはテキスト抽出できない tabulaはできた pdftotextかpdfboxでテキスト抽出してから正規表現の方がよさそう www.pref.kumamoto.jp stop-covid19-kumamoto.netlify.com !wget "https://www.pref.kumamoto.jp/common/UploadFileOutput.ash…
# -*- coding: utf-8 -*- import datetime import json import re from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup url = "https://web.pref.hyogo.lg.jp/kk03/corona_kanjyajyokyo.html" headers = {…
github.com pdfのスクレイピングのプログラムすごいな めちゃくちゃ勉強になった グラフ表示用のJavascriptのデータからスクレイピング import datetime import json import re import pandas as pd import requests from bs4 import BeautifulSoup def dump…
北海道オープンデータポータル www.harp.lg.jp と同じ書式のCSVを作成 CSVからdata.jsonへ変換 qiita.com github.com スクレイピング import requests from bs4 import BeautifulSoup import jaconv import datetime import csv def daterange(_start, _end)…
こちらの方がよさそう imabari.hateblo.jp qiita.com !pip install jaconv import requests from bs4 import BeautifulSoup import jaconv import datetime def daterange(_start, _end): for n in range((_end - _start).days): yield _start + datetime.ti…
www.pref.ehime.jp import pandas as pd import re import datetime # 和暦から西暦のdateに変換 def wareki2date(s): m = re.match("(昭和|平成|令和)(\d{1,2})年(\d{1,2})月(\d{1,2})日", s) year = int(m.group(2)) month = int(m.group(3)) day = int(m.…
fukuno.jig.jp github.com 北海道 github.com qiita.com qiita.com 愛知 github.com 三重 github.com qiita.com 大阪 github.com 兵庫 github.com github.com 愛媛県 ehime-covid19.com github.com
import requests from bs4 import BeautifulSoup import re headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", } def get_link(): url = "http://www.pref.osaka.lg.jp/iryo/osakakansensho/corona.html…
blogs.windows.com
www.pref.hokkaido.lg.jp import requests from bs4 import BeautifulSoup url = "http://www.pref.hokkaido.lg.jp/hf/kth/kak/hasseijoukyou.htm" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", } …
imabari.hateblo.jp 3/10からExcelファイルに変更されました 感染症患者一覧表をスクレイピング No.1の重複をどうするかはわからない 3/11 h2→h3に変更されていたので修正 !pip install python-docx import requests from bs4 import BeautifulSoup import r…
!pip install python-docx スクレイピング 3/11 h2→h3に変更されていたので修正 import requests from bs4 import BeautifulSoup import re headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", } def get…
https://employment.en-japan.com/engineerhub/entry/2019/06/21/103000
Colaboratoryを使ってください colab.research.google.com Seleniumのインストール !apt install chromium-chromedriver !cp /usr/lib/chromium-browser/chromedriver /usr/bin !pip install selenium import time from bs4 import BeautifulSoup from selen…
import json import requests from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko' } url = "https://r.gnavi.co.jp/j4h7ps5m0000/?_ga=2.212982868.1531592916.1583391069-…
!apt install poppler-utils poppler-data import requests from bs4 import BeautifulSoup from urllib.parse import urljoin import os import re headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", }…
都道府県 github.com github.com その他 github.com github.com github.com github.com github.com qiita.com github.com github.com github.com
抽出部分を変更 "・患者(.+?)例、無症状病原体保有者(.+?)例。\n・(.+?)時点までに疑似症サーベイランスおよび積極的疫学調査に基づき、PCR検査については、計(.+?)人の検査を実施。\n・上記患者のうち入院中または入院予定(.+?)名、退院(.+?)名、死亡(.+?)…