2020-01-01から1年間の記事一覧
csv変換時に小数点がおかしくなるので float_format="%.1f" で小数点一桁にするが、文字列扱いになるため quoting=csv.QUOTE_MINIMAL でダブルクォーテーションを外す import csv import datetime import pandas as pd def df_conv(df, col_name, col_1="人…
qiita.com 愛媛県の不審者マップ https://imabari.github.io/fushinsha_map/ import pathlib import pandas as pd import requests import folium GEO_URL = "https://raw.githubusercontent.com/geolonia/japanese-addresses/master/data/latest.csv" def f…
import tweepy import time consumer_key = '' consumer_secret = '' access_token = '' access_token_secret = '' auth = tweepy.OAuthHandler(consumer_key, consumer_secret) auth.set_access_token(access_token, access_token_secret) api = tweepy.API…
OCR SpaceのFree OCR APIを使って愛知県の検査陽性者の状況をスクレイピングする ocr.space keyはENVのOCR_SPACE_APIに入れる import os import re from urllib.parse import urljoin import requests from bs4 import BeautifulSoup ocr_api_key = os.envir…
www.kaggle.com
# -*- coding: utf-8 -*- import datetime import pathlib import re from urllib.parse import urljoin import jaconv import pandas as pd import requests from bs4 import BeautifulSoup JST = datetime.timezone(datetime.timedelta(hours=+9)) dt_now …
import datetime import re import pandas as pd JST = datetime.timezone(datetime.timedelta(hours=+9)) dt_now = datetime.datetime.now(JST) title = [ "PCR検査 行政検査件数", "PCR検査 民間検査件数", "PCR検査 実施数", "PCR検査 陽性者数", "PCR検…
import datetime import pathlib import re import pandas as pd def str2date(s): y = datetime.date.today().year m, d = map(int, re.findall("\d{1,2}", s.split("~")[-1].strip())) return pd.Timestamp(y, m, d) df = pd.read_html("https://www.pref…
下記はPDFからテキスト読み取れない 画像? 2020-07-26 https://www.pref.aichi.jp/uploaded/attachment/341590.pdf 2020-07-30 https://www.pref.aichi.jp/uploaded/attachment/342171.pdf コード import datetime import re import time from urllib.parse…
http://ichiilab.weebly.com/uploads/1/0/9/1/109128265/up_python_obsdataanalysis_2017_jpn.pdf
qiita.com
import pandas as pd import requests from bs4 import BeautifulSoup url = "https://www.pref.ehime.jp/h25300/4793/shokuchuudoku/hassei.html" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko" } r…
CJK部首/康熙部首の範囲外の「戶黑」は追加 8/3 23:50 複数該当する部首を一部除外していましたので分解して追加しました tbl = str.maketrans( "⺃⺅⺉⺋⺎⺏⺐⺒⺓⺔⺖⺘⺙⺛⺟⺠⺡⺢⺣⺦⺨⺫⺬⺭⺱⺲⺹⺾⻁⻂⻃⻄⻍⻏⻑⻒⻖⻘⻟⻤⻨⻩⻫⻭⻯⻲⼀⼁⼂⼃⼄…
ja.wikipedia.org github.com https://www.adobe.com/content/dam/acom/en/devnet/font/pdfs/5078.Adobe-Japan1-6.pdf !wget https://github.com/pdfminer/pdfminer.six/archive/develop.zip !unzip develop.zip !cd pdfminer.six-develop/ cid2code_Adobe_J…
docs.google.com import copy import re import pandas as pd def checkdigit(n): c = copy.deepcopy(n) t = 0 for i in range(2, 7): c, m = divmod(c, 10) t += i * m result = (n * 10) + ((11 - (t % 11)) % 10) return result # 全国地方公共団体コード…
import datetime import re import jaconv import requests from bs4 import BeautifulSoup from feedgen.feed import FeedGenerator url = "https://www.police.pref.ehime.jp/sokuho/sokuho.htm" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0…
qiita.com qiita.com
zakopilo.hatenablog.jp
livreparaviver.hateblo.jp
iss.ndl.go.jp
www.watto.nagoya for i in range(1000): s = f"{i:03}" if int(s[0]) * int(s[1:]) == int(s[:-1]) * int(s[-1]): if "0" not in s: # ゾロ目 # if not all(s[0] == j for j in s): print(s)
imabari.hateblo.jp camelotが動かないので github.com pip install pdfminer.six==20200517 import datetime import pathlib import re import time from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup …
qiita.com qiita.com github.com
rireki.area-hinan.au.com !pip install feedgen import datetime import re import requests from bs4 import BeautifulSoup from feedgen.feed import FeedGenerator def get_mail(link): r = requests.get(link) r.raise_for_status() soup = BeautifulSo…
import tweepy # 先ほど取得した各種キーを代入する CK = "" CS = "" AT = "" AS = "" # Twitterオブジェクトの生成 auth = tweepy.OAuthHandler(CK, CS) auth.set_access_token(AT, AS) api = tweepy.API(auth) for status in api.user_timeline("imabari_b…
実践/現場のPythonスクレイピング流儀 - Qiita
※ Excelがインストールされていないと動きません それぞれ「xlsx2pdf.bat」「xlsx2pdf.ps1」をファイルに保存 xlsxファイルをxlsx2pdf.batにドラッグ&ドロップするとpdfファイルが作成されます xlsx2pdf.bat powershell -NoProfile -ExecutionPolicy Unrest…
fukuno.jig.jp www.wbgt.env.go.jp import datetime import pandas as pd import matplotlib.pyplot as plt point = 73076 df_tmp = pd.read_csv(f"https://www.wbgt.env.go.jp/prev15WG/dl/yohou_{point}.csv").T dt_now = datetime.datetime.strptime(df_t…
fukuno.jig.jp これだとスクレイピングが簡単でいいな import io import requests from bs4 import BeautifulSoup import pandas as pd url = "https://code4sabae.github.io/csv-table/" r = requests.get(url) r.raise_for_status() soup = BeautifulSoup(…
※ Excelがインストールされていないと動きません それぞれ「xlsx2csv.bat」「xlsx2csv.ps1」をファイルに保存 xlsxファイルをxlsx2csv.batにドラッグ&ドロップするとcsvファイルが作成されます xlsx2csv.bat powershell -NoProfile -ExecutionPolicy Unrest…