2020-11-01から1ヶ月間の記事一覧

京都府の発生状況のPDFをスクレイピング

!apt install ghostscript !pip install camelot-py[cv] import re from urllib.parse import urljoin import datetime import camelot import pandas as pd import requests from bs4 import BeautifulSoup # 月日をdatetimeに変換 def days2date(s): y = d…

ライブ配信

rocketnews24.com services.google.com https://forjapan.withgoogle.com/static/pdf/YouTube_Live.pdf

埼玉県のコロナを標準出力に出力

import sys import camelot import pandas as pd tables = camelot.read_pdf( "http://www.pref.saitama.lg.jp/a0001/news/page/2020/documents/021125-0902.pdf", pages="all", strip_text=" \n", ) dfs = [table.df.T.iloc[2:] for table in tables] df = …

千葉県の新型コロナウイルス感染症患者等の県内発生状況についてのPDFをデータラングリング

pdfplumberでfilterでフッターのページ数をのけた ページによって列の誤認識?空白文字が入るので列を削除 import datetime import pathlib import re from urllib.parse import urljoin import pandas as pd import pdfplumber import requests from bs4 im…

愛媛県のコロナ感染者の概要の表を作成

import datetime import pathlib import re from urllib.parse import urljoin import pandas as pd import pdfplumber import requests from bs4 import BeautifulSoup def fetch_file(url, dir="."): r = requests.get(url) r.raise_for_status() p = path…

コロナ感染経路を可視化

github.com oxon.hatenablog.com

ベルマークの今治市内のPTA番号

ネットショッピング前にちょい寄りするだけ。 各ショップのポイントとは別に、支援ができます。 www.webbellmark.jp PTA番号 学校名 1 3800008 今治幼稚園 2 3808678 今治精華幼稚園 3 3800007 立花幼稚園 4 3804584 はしはまこがく認定こども園 5 3804339 …