PDF

https://www.datalogics.com/products/pdf-tools/pdf-alchemist/

2020-06-15

データサイエンス100本ノック（構造化データ加⼯編）

digitalpr.jp

2020-06-11

山梨県の患者情報をスクレイピング

data.jsonまで作成 github.com import copy import datetime import json import pathlib import re import jaconv import requests from bs4 import BeautifulSoup def get_title(tag): if tag.name == "h2": if tag.get_text(strip=True) == "新型コロナウ…

2020-06-08

認知テスト

overpass.dokkoisho.com

2020-06-04

ColaboratoryでIMIコンポーネントツールの実行

!apt install jq !npm i -g npm to update !npm install https://info.gbiz.go.jp/tools/imi_tools/resource/imi-enrichment-address/imi-enrichment-address-2.0.0.tgz %%writefile index.js const enrichment = require("imi-enrichment-address") enrichm…

2020-05-30

PythonでIMIコンポーネントツールの住所変換コンポーネントで変換

info.gbiz.go.jp インストール imabari.hateblo.jp こちらの住所を変換 www.oideya.gr.jp import json import pandas as pd import requests url = "http://localhost:8080" headers = {"Content-Type": "application/json"} base = {"@type": "場所型", "住…

2020-05-29

IMIコンポーネントツール

info.gbiz.go.jp blog.geolonia.com github.com sudo apt install nodejs npm mkdir imi-enrichment-address cd imi-enrichment-address npm install https://info.gbiz.go.jp/tools/imi_tools/resource/imi-enrichment-address/imi-enrichment-address-2.0.…

2020-05-24

富山県ステータス

import re import datetime import pathlib import pandas as pd import requests from bs4 import BeautifulSoup import jaconv def zen2han(s): result = float(jaconv.z2h(s.rstrip("人"), digit=True, ascii=True)) return result def str2date(s): y = …

2020-05-22

Github dispatch

import json import requests url = "https://api.github.com/repos/imabari/kumamoto-covid19/dispatches" headers = {"Authorization": "token xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx", "Content-Type": "application/json"} json_data = json.dumps({…

2020-05-21

セル結合

web-breeze.net

2020-05-16

一橋大学 #経済学のための実践的データ分析

speakerdeck.com speakerdeck.com

2020-05-15

INIAD Syllabusのスクレイピング

import requests from bs4 import BeautifulSoup url = "https://g-sys.toyo.ac.jp/syllabus/result" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", } payload = { "year": "2020", "course": "0", …

2020-05-11

新型コロナウイルス可視化

qiita.com qiita.com qiita.com qiita.com qiita.com qiita.com

2020-05-11

新型コロナウイルスの表をtesseractでスクレイピング

binary-star.net code-graffiti.com blog.machine-powers.net qiita.com ni4muraano.hatenablog.com 京都府 www.pref.kyoto.jp 愛知県 www.pref.aichi.jp 最後のその他の陽性者の状況の表だけが順番がずれるので取れないテスト日付京都愛知 5/10 ○ ○ 5/1…

2020-05-11

前処理

qiita.com

2020-05-09

■

youtu.be

2020-05-08

Googleデータポータル

qiita.com

2020-05-04

GitHub Actions で手動トリガーのワークフローを作る

qiita.com github.com personal access token Settings / Developer settings / Personal access tokens public_repo をチェック workflows on: repository_dispatch: types: [on-demand-test] schedule: - cron: '0 12 * * *' command curl --request POST …

2020-05-03

PDF変換・住所

github.com qiita.com qiita.com

2020-05-02

オンライン診療対応医療機関のPDFをCSVに変換

www.mhlw.go.jp import requests from bs4 import BeautifulSoup from urllib.parse import urljoin import camelot import pandas as pd url = "https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/kenkou_iryou/iryou/rinsyo/index_00014.html" headers = …

2020-05-01

feed43でオンライン診療対応医療機関リストの情報更新をRSS

オンライン診療対応医療機関リストの情報更新をRSSなし、Googleスプレッドシートだけで確認できるようにしてみた dev.classmethod.jp Global Search Pattern (optional)を使えばいい <ul class="m-listLink--hCol2">{%}</ul> <li><a href="{%}">{%}</a></li> 北海道・東北・関東地方 feed43.com 中部・近畿地方 feed43.com …

2020-04-27

新型コロナウイルスまとめサイトdata.json（集計方法）

サンプル富山県 github.com 欠損日付を0で補間 # IndexはDatetimeIndex df.asfreq("D", fill_value=0) pandas.pydata.org import pandas as pd import matplotlib.pyplot as plt import japanize_matplotlib # 設定 COUNTS_FILE = "toyama_counts.csv" PATIE…

2020-04-26

富山県のコロナ情報をオープンデータに変換

Chrome・Firefox・最新のEdgeで実行こちらにアクセス github.com 1.ボタンをクリック 2.メニューの「ランタイム」－「すべてのセルを実行」の順にクリック 3.このまま実行をクリック 4.ダウンロード画面が表示されるのでダウンロード

2020-04-23

栃木県

github.com covid19-tochigi.herokuapp.com

2020-04-16

宮崎県

covid-19

github.com 症状がわからないので入院中を軽症・中等症に分類しています PDFの３ページ目にタイトルがあるかわからないのでタイトルがある場合で結合 apt install python3-tk ghostscript pip install camelot-py[cv] pip install pycurl pip install retry …

2020-04-15

富山県の新型コロナウイルス感染症の県内の患者等発生状況をスクレイピング・データラングリング

covid-19

www.pref.toyama.jp !pip install jaconv !pip install pandas import datetime import json import pathlib import jaconv import pandas as pd df = pd.read_html( "http://www.pref.toyama.jp/cms_sec/1205/kj00021798.html", index_col=0, na_values="〃…

2020-04-14

新型コロナウイルスデータ変換まとめ

covid-19

都道府県別一覧 github.com 都道府県別一覧data.json変換一覧 docs.google.com 新型コロナウイルス患者数オープンデータ（公式サイト、オープンデータサイト、対応状況） - Google スプレッドシート docs.google.com docs.google.com Python imabari.hateblo…

2020-04-13

山梨県

covid-19

www.pref.yamanashi.jp このデータをデータラングリングする気にならないとりあえず日付と小計だけ変換 import datetime import re import jaconv import pandas as pd dt_now = datetime.datetime.now() def my_parser(s): dt_str = jaconv.z2h(s.strip(),…

2020-04-13

埼玉県の感染確認状況や関連情報よりdata.jsonを作成

covid-19

github.com apt install python3-tk ghostscript pip install requests pip install beautifulsoup4 pip install camelot-py[cv] pip install pandas import datetime import json import re from urllib.parse import urljoin import pandas as pd import r…

2020-04-09

新型コロナウイルスまとめサイトdata.jsonの作り方（テキストマイニング）

covid-19

imabari.hateblo.jp サンプル github.com Webページ（リンク先抽出） import requests from bs4 import BeautifulSoup import re import datetime from urllib.parse import urljoin # データのあるページのURL url = "http://example.jp" headers = { "User…

メモ

2020-01-01から1年間の記事一覧

PDF

データサイエンス100本ノック（構造化データ加⼯編）

山梨県の患者情報をスクレイピング

認知テスト

ColaboratoryでIMIコンポーネントツールの実行

PythonでIMIコンポーネントツールの住所変換コンポーネントで変換

IMIコンポーネントツール

富山県ステータス

Github dispatch

セル結合

一橋大学 #経済学のための実践的データ分析

INIAD Syllabusのスクレイピング

新型コロナウイルス可視化

新型コロナウイルスの表をtesseractでスクレイピング

前処理

■

Googleデータポータル

GitHub Actions で手動トリガーのワークフローを作る

PDF変換・住所

オンライン診療対応医療機関のPDFをCSVに変換

feed43でオンライン診療対応医療機関リストの情報更新をRSS

新型コロナウイルスまとめサイトdata.json（集計方法）

富山県のコロナ情報をオープンデータに変換

栃木県

宮崎県

富山県の新型コロナウイルス感染症の県内の患者等発生状況をスクレイピング・データラングリング

新型コロナウイルスデータ変換まとめ

山梨県

埼玉県の感染確認状況や関連情報よりdata.jsonを作成

新型コロナウイルスまとめサイトdata.jsonの作り方（テキストマイニング）