2020-02-01から1ヶ月間の記事一覧

cdcをGASでスクレイピング、スプレッドシートに保存

www.cdc.gov スクレイピング 3/1 合計、死亡者の欄が追加されたので変更 3/3 また表示方法が変更されてtotal項目がなくなった(-_-;) 3/4 陽性のみになった function myFunction() { // スクレイピング var html = UrlFetchApp.fetch('https://www.cdc.gov/co…

東洋経済オンライン「新型コロナウイルス国内感染の状況」用の厚生労働省データソースをスクレイピングで作成

※現在は厚生労働省フォーマットが変更されているため対応していません 各都道府県の新型コロナまとめサイトのdata.jsonの作り方 imabari.hateblo.jp imabari.hateblo.jp ソース toyokeizai.net github.com 手順 Githubの全データをウェブサイトにアップ 「da…

COVID-19可視化(東洋経済)

note.com toyokeizai.net github.com

PCR報告フォーム作成・抽出

フォーム docs.google.com # 回答スプレッドシート docs.google.com プログラム 最新の情報を抽出 !pip install japanmap import pandas as pd import datetime # 回答スプレッドシートのCSVをダウンロード df_tmp = pd.read_csv( "https://docs.google.com…

少年向けコミック誌の印刷証明付き発行部数をデータラングリング

www.j-magazine.or.jp 一般社団法人日本雑誌協会より印刷部数公表をスクレイピング https://www.j-magazine.or.jp/user/printed/index/XX/YY XX:期間、YY:雑誌種類 少年向けコミック誌 https://www.j-magazine.or.jp/user/printed/index/XX/14 女性週刊誌 …

VSCode でリモートサーバにSSH 接続

dev.classmethod.jp code.visualstudio.com config # Read more about SSH config files: https://linux.die.net/man/5/ssh_config Host alias HostName imabari.local User imabari IdentityFile ~/.ssh/id_rsa

厚生労働省の新型コロナウイルス感染症の最新の現在の状況を取得

pip install jaconv プログラム import requests from bs4 import BeautifulSoup import re from urllib.parse import urljoin headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", } def get_link(): url…

Python教材

codezine.jp weblab.t.u-tokyo.ac.jp qiita.com

Coronavirus disease (COVID-2019) situation reportsの最新情報をスクレイピング

github.com 全体とエリア別を一緒にまとめにしました imabari.hateblo.jp imabari.hateblo.jp

WHO の Coronavirus disease (COVID-2019) situation reportsのPDFから国別の表をスクレイピング

こちらにまとめました imabari.hateblo.jp インストール !apt install ghostscript !pip install camelot-py[cv] ダウンロード !wget https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200219-sitrep-30-covid-19.pdf プログラム …

WHO の Coronavirus disease (COVID-2019) situation reportsのPDFから最新の感染者数を取得2

Pythonだけで作成できるように変更 インストール pip install pdfminer.six pip install requests pip install beautifulsoup4 プログラム import datetime import os import re import urllib.parse import requests from bs4 import BeautifulSoup from pd…

n8nをインストール

gihyo.jp sudo apt install -y nodejs npm sudo npm install -g --unsafe-perm n8n

WHO の Coronavirus disease (COVID-2019) situation reportsのPDFから最新の感染者数を取得

imabari.hateblo.jp Pythonだけで抽出できるように変更しました 参考 oku.edu.mie-u.ac.jp 一番上の最新のPDFをダウンロード 8週目以降の1ページ右上部分から取得(座標指定) Colaboratory上で実行 2/13だけChinaのdeathsが取れない ※Colaboratory以外では…

PHPスクレイピングRSS化

PerlをバージョンアップするとWeb::ScraperかXML::FeedPPが動かなくなったのでPHPでスクレイピング Perlは文字の設定?がわからなかったのでまだPHPの方が書きやすい simplehtmldom.sourceforge.io github.com

衆議院の質問主意書をスクレイピング

スクレイピング結果(無修正) drive.google.com 日付修正 行は0スタートでの位置 syugin147.csv 行 回・番号 内容 修正 267 7-120 末尾に提出がない 昭和二十五年四月六日 1207 75-27 末尾に提出がない 昭和五十年七月四日 1399 84-63 年が有になっている …

Pythonで漢数字の和暦を変換

def kanji2int(s): ksuji = str.maketrans('一二三四五六七八九〇元', '12345678901') m = re.match("(\d)?(十)?(\d)?", s.translate(ksuji)) t = m.groups() result = 0 if t[1] == "十": result = int("".join([m.group(1) if m.group(1) else "1", m.grou…

raspberry piにubuntuをインストール

gihyo.jp qiita.com sudo apt install avahi-daemon sudo systemctl enable avahi-daemon sudo systemctl start avahi-daemon ubuntu@ubuntu.local # ロケールとキーボードとリポジトリの設定 sudo locale-gen ja_JP.UTF-8 sudo dpkg-reconfigure -f noninte…

質問主意書スクレイピング

business.nikkei.com qiita.com comemo.nikkei.com 衆議院 できてない 日付抽出(和暦・漢数字) 提出者抽出 import time from urllib.parse import urljoin import requests from bs4 import BeautifulSoup from tqdm import tqdm_notebook headers = { "Us…

iPhoneのショートカットで玉川ダムの貯水率をスクレイピングとテキスト読み上げ

2021/04/18現在利用できません Webページ「http://i.river.go.jp/_-p01-_/p/ktm1801070/?mtm=10&swd=&prf=3801&twn=3801202&rvr=&den=0972900700006」の内容を取得 内容をテキストに変換 テキストから「貯水率.+%」の行を抽出 不要部分「(対利水容量):」を「…

edgeの翻訳結果

やり直し The new coronavirus infection is not currently a condition in which an epidemic is recognized in Japan. As well as measures against colds and seasonal influenza, it is very important for the public to implement cough etiquette and…

後で見る

www.atmarkit.co.jp qiita.com qiita.com

ヤマザキ 春のパンまつりの表をスクレイピング

こちらの表をスクレイピング www.yamazakipan.co.jp https://gameboku.com/archives/20200202.html 価格 drive.google.com 価格はスクレイピングでまだ集めれるが名寄せがむずかしい プログラム import pandas as pd dfs = pd.read_html("https://www.yamaza…

あとで読む

toranoana-lab.hatenablog.com tetsutalow.hateblo.jp qiita.com

今治市オープンデータ一の市民所得から愛媛県内市町別総生産・市町民所得をコロプレス図化

import pandas as pd ehime_names = { 38201: "松山市", 38202: "今治市", 38203: "宇和島市", 38204: "八幡浜市", 38205: "新居浜市", 38206: "西条市", 38207: "大洲市", 38210: "伊予市", 38213: "四国中央市", 38214: "西予市", 38215: "東温市", 38356:…