2020-01-01から1年間の記事一覧

PDF

https://www.datalogics.com/products/pdf-tools/pdf-alchemist/

データサイエンス100本ノック(構造化データ加⼯編)

digitalpr.jp

山梨県の患者情報をスクレイピング

data.jsonまで作成 github.com import copy import datetime import json import pathlib import re import jaconv import requests from bs4 import BeautifulSoup def get_title(tag): if tag.name == "h2": if tag.get_text(strip=True) == "新型コロナウ…

認知テスト

overpass.dokkoisho.com

ColaboratoryでIMIコンポーネントツールの実行

!apt install jq !npm i -g npm to update !npm install https://info.gbiz.go.jp/tools/imi_tools/resource/imi-enrichment-address/imi-enrichment-address-2.0.0.tgz %%writefile index.js const enrichment = require("imi-enrichment-address") enrichm…

PythonでIMIコンポーネントツールの住所変換コンポーネントで変換

info.gbiz.go.jp インストール imabari.hateblo.jp こちらの住所を変換 www.oideya.gr.jp import json import pandas as pd import requests url = "http://localhost:8080" headers = {"Content-Type": "application/json"} base = {"@type": "場所型", "住…

IMIコンポーネントツール

info.gbiz.go.jp blog.geolonia.com github.com sudo apt install nodejs npm mkdir imi-enrichment-address cd imi-enrichment-address npm install https://info.gbiz.go.jp/tools/imi_tools/resource/imi-enrichment-address/imi-enrichment-address-2.0.…

富山県ステータス

import re import datetime import pathlib import pandas as pd import requests from bs4 import BeautifulSoup import jaconv def zen2han(s): result = float(jaconv.z2h(s.rstrip("人"), digit=True, ascii=True)) return result def str2date(s): y = …

Github dispatch

import json import requests url = "https://api.github.com/repos/imabari/kumamoto-covid19/dispatches" headers = {"Authorization": "token xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx", "Content-Type": "application/json"} json_data = json.dumps({…

セル結合

web-breeze.net

一橋大学 #経済学のための実践的データ分析

speakerdeck.com speakerdeck.com

INIAD Syllabusのスクレイピング

import requests from bs4 import BeautifulSoup url = "https://g-sys.toyo.ac.jp/syllabus/result" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", } payload = { "year": "2020", "course": "0", …

新型コロナウイルス可視化

qiita.com qiita.com qiita.com qiita.com qiita.com qiita.com

新型コロナウイルスの表をtesseractでスクレイピング

binary-star.net code-graffiti.com blog.machine-powers.net qiita.com ni4muraano.hatenablog.com 京都府 www.pref.kyoto.jp 愛知県 www.pref.aichi.jp 最後のその他の陽性者の状況の表だけが順番がずれるので取れない テスト 日付 京都 愛知 5/10 ○ ○ 5/1…

前処理

qiita.com

youtu.be

Googleデータポータル

qiita.com

GitHub Actions で手動トリガーのワークフローを作る

qiita.com github.com personal access token Settings / Developer settings / Personal access tokens public_repo をチェック workflows on: repository_dispatch: types: [on-demand-test] schedule: - cron: '0 12 * * *' command curl --request POST …

PDF変換・住所

github.com qiita.com qiita.com

オンライン診療対応医療機関のPDFをCSVに変換

www.mhlw.go.jp import requests from bs4 import BeautifulSoup from urllib.parse import urljoin import camelot import pandas as pd url = "https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/kenkou_iryou/iryou/rinsyo/index_00014.html" headers = …

feed43でオンライン診療対応医療機関リストの情報更新をRSS

オンライン診療対応医療機関リストの情報更新をRSSなし、Googleスプレッドシートだけで確認できるようにしてみた dev.classmethod.jp Global Search Pattern (optional)を使えばいい <ul class="m-listLink--hCol2">{%}</ul> <li><a href="{%}">{%}</a></li> 北海道・東北・関東地方 feed43.com 中部・近畿地方 feed43.com …

新型コロナウイルスまとめサイトdata.json(集計方法)

サンプル富山県 github.com 欠損日付を0で補間 # IndexはDatetimeIndex df.asfreq("D", fill_value=0) pandas.pydata.org import pandas as pd import matplotlib.pyplot as plt import japanize_matplotlib # 設定 COUNTS_FILE = "toyama_counts.csv" PATIE…

富山県のコロナ情報をオープンデータに変換

Chrome・Firefox・最新のEdgeで実行 こちらにアクセス github.com 1.ボタンをクリック 2.メニューの「ランタイム」-「すべてのセルを実行」の順にクリック 3.このまま実行をクリック 4.ダウンロード画面が表示されるのでダウンロード

栃木県

github.com covid19-tochigi.herokuapp.com

宮崎県

github.com 症状がわからないので入院中を軽症・中等症に分類しています PDFの3ページ目にタイトルがあるかわからないのでタイトルがある場合で結合 apt install python3-tk ghostscript pip install camelot-py[cv] pip install pycurl pip install retry …

富山県の新型コロナウイルス感染症の県内の患者等発生状況をスクレイピング・データラングリング

www.pref.toyama.jp !pip install jaconv !pip install pandas import datetime import json import pathlib import jaconv import pandas as pd df = pd.read_html( "http://www.pref.toyama.jp/cms_sec/1205/kj00021798.html", index_col=0, na_values="〃…

新型コロナウイルスデータ変換まとめ

都道府県別一覧 github.com 都道府県別一覧data.json変換一覧 docs.google.com 新型コロナウイルス患者数オープンデータ(公式サイト、オープンデータサイト、対応状況) - Google スプレッドシート docs.google.com docs.google.com Python imabari.hateblo…

山梨県

www.pref.yamanashi.jp このデータをデータラングリングする気にならない とりあえず日付と小計だけ変換 import datetime import re import jaconv import pandas as pd dt_now = datetime.datetime.now() def my_parser(s): dt_str = jaconv.z2h(s.strip(),…

埼玉県の感染確認状況や関連情報よりdata.jsonを作成

github.com apt install python3-tk ghostscript pip install requests pip install beautifulsoup4 pip install camelot-py[cv] pip install pandas import datetime import json import re from urllib.parse import urljoin import pandas as pd import r…

新型コロナウイルスまとめサイトdata.jsonの作り方(テキストマイニング)

imabari.hateblo.jp サンプル github.com Webページ(リンク先抽出) import requests from bs4 import BeautifulSoup import re import datetime from urllib.parse import urljoin # データのあるページのURL url = "http://example.jp" headers = { "User…