e-statの平成30年1~12月犯罪統計をPandasでデータラングリング

exploratory.io import pandas as pd df1 = pd.read_excel( "https://www.e-stat.go.jp/stat-search/file-download?statInfId=000031797656&fileKind=0", sheet_name=1, header=None, ) df1.head(10) df2 = df1.loc[df1.notnull().sum(axis=1) > 2, df1.notn…

Python整形オンライン

https://black.now.sh/ https://yapf.now.sh/

e-Statの趣味・娯楽の種類別行動者率をデータラングリング

www.e-stat.go.jp exploratory.io import pandas as pd df1 = pd.read_excel( "https://www.e-stat.go.jp/stat-search/file-download?statInfId=000031577984&fileKind=0", header=None, ) df1.to_csv("data.tsv", sep="\t") # 行カウント確認 df1.notnull()…

Pandasでデータラングリングでよく使うもの

github.com import pandas as pd df1 = pd.read_excel("URL", sheet_name=0, header=None) # Excelないとき df1.to_csv("data.tsv", sep="\t") # 行カウント確認 df1.notnull().sum(axis=0) # 列カウント確認 df1.notnull().sum(axis=1) # テキスト埋め df1.…

Pandasでe-Statの年齢・男女別人口推移データ

EDA Salon 第6回 - 日本の統計データ(e-Stat)のデータラングリング大会 EDA Salon 第6回 - 日本の統計データ(e-Stat)のデータラングリング大会 年齢・男女別人口推移データ(難易度:普通) www.e-stat.go.jp exploratory.io exploratory.io 相違 Pandasで解…

Pythonでe-Statから男女別学校数を検索、統計表情報取得、統計データ取得

import io import time import pandas as pd import requests key = "" # 統計表情報取得 def get_list_csv(word): params = { "appId" : key, "lang": "J" , } params["searchWord"] = word r = requests.get( "https://api.e-stat.go.jp/rest/3.0/app/getS…

Pythonでe-StatのAPIデータを取得、グラフ作成

事前準備 www.e-stat.go.jp dekiru.net API https://www.e-stat.go.jp/api/sites/default/files/uploads/2019/07/API-specVer3.0.pdf https://www.e-stat.go.jp/api/sample/testform3-0/ APIの登録しアプリケーションID(appId)を取得する APIのアイコンの…

勉強する

lms.gacco.org lms.gacco.org

キャッシュカード再発行

某銀行のキャッシュカードが見つからないので電話で再発行した直後に見つかったorz それも電話中に見つかったのでキャンセルできないか聞いたらもうだめだった 再発行手数料1100円(T-T)

整然データとは何か

ci.nii.ac.jp https://www.jstage.jst.go.jp/article/jkg/67/9/67_448/_pdf/-char/ja

e-Statの男女別学校数から男のみ・女のみの学校をスクレイピング・グラフ作成

imabari.hateblo.jp 前回のRによるデータクリーニング実践――政府統計からのグラフ作成を例として を参考にしたのでクリーニング方法も今回は変更 せっかくなのでe-Statにあるデータ全部(1957年は課程ごとのため除外)をスクレイピングしてグラフ作成しまし…

Pandasで成人喫煙率(JT全国喫煙者率調査)の表からグラフ作成

www.health-net.or.jp スクレイピング・前処理 import pandas as pd # 表を取得 dfs = pd.read_html("http://www.health-net.or.jp/tobacco/product/pd090000.html", header=0) df = dfs[0] # 列名確認 df.columns # 列名置換 df.rename(columns={'Unnamed: …

スプレッドシートでテーブル抽出・グラフ作成

blog.goo.ne.jp blog.goo.ne.jp スプレッドシートでテーブル抽出 スプレッドシートでもできそうなので作ってみた dekiru.net スプレッドシート docs.google.com 赤色は手入力 黄色は関数入力 変更内容 1/9 西暦・性別の手入力部分をARRAYFORMULAで作成 1/9 …

気象庁の過去天気をダウンロードし集計

qiita.com 過去天気ダウンロード www.data.jma.go.jp 今治の天気概要はないため松山の天気概要を取得 日付に曜日を表示にチェックを入れて曜日を追加 プログラム 天気概要から天気情報を分解、天気ごとにカテゴリ変数に変換し集計する import pandas as pd i…

Rによるデータクリーニング実践をPython(Pandas)でやってみた

Pandasでは不要な処理も多いため別途作成しました imabari.hateblo.jp 参考 id.fnshr.info Rによるデータクリーニング実践をPython(Pandas)でやってみた !pip install japanize_matplotlib スクレイピング www.e-stat.go.jp 「男女別学校数 -後期課程」で…

Rによるデータクリーニング実践

id.fnshr.info qiita.com www.stat.go.jp

Pythonでテキスト読み上げ(Windows10)

orebibou.com Powershellから.NETのSpeechSynthesizerを利用してテキスト読み上げ speech.ps1をファイルに保存 PythonからPowershellにテキストを送りテキスト読み上げ speech.ps1 Param( [String]$Arg1= "テキストがありません" ) Add-Type -AssemblyName S…

小田急バスの位置情報をスクレイピング

qiita.com import datetime import requests from bs4 import BeautifulSoup # timedeltaを%H:%Mに変換 def time_str(t): return ':'.join(str(t).split(':')[:2]) if __name__ == "__main__": 出発 = "" 到着 = "" url = f"https://odakyu.bus-navigation.j…

Excel×Python最速仕事術

Excel×Python最速仕事術作者:金宏 和實出版社/メーカー: 日経BP発売日: 2019/11/22メディア: 単行本 ec.nikkeibp.co.jp 内容は初心者向け Pythonだと保存すると書式がくずれたような? 他人に使ってもらう場合はPowershellの方がいい imabari.hateblo.jp ima…

新幹線の空席情報をスクレイピング

rfushimi.hatenablog.jp Cookieいらなかった スクレイピングをbeautifulsoupに変更 ループはなし import datetime import os import time import requests from bs4 import BeautifulSoup def say(text): print(text) os.system( rf'powershell -NoProfile -…

第25回シクロクロス全日本選手権大会 内子大会の順位・ラップタイムをグラフ化

全日本シクロクロスエリートのラップタイムデータを集計してみました。 pic.twitter.com/lfxSh9mICz— ストライピーなザイコー (@Zaikou) 2019年12月17日 第25回シクロクロス全日本選手権大会 内子大会の順位・ラップタイムをグラフ化したんだけど微妙に違う …

pdfminerでテキストを座標で抽出しCSVに保存

Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド-作者:加藤 耕太出版社/メーカー: 技術評論社発売日: 2019/08/03メディア: Kindle版 PDFスクレイピングよりテキストのみだったので座標とページ数を追加しCSVに保存…

ランナー分析

import pandas as pd import matplotlib.pyplot as plt import japanize_matplotlib # 解像度 import matplotlib as mpl mpl.rcParams['figure.dpi'] = 200 dfs = pd.read_html("https://www.pref.ehime.jp/h14150/malaysiabadminton/seika_runner.html") df…

JFLランキング作成

JFL

imabari.hateblo.jp 新たに作成 crosstabに変更 lambdaに変更 import pandas as pd import numpy as np # 行数 pd.set_option("display.max_columns", None) # データ取得 # 試合結果を取得 url = "http://www.jfl.or.jp/jfl-pc/view/s.php?a=1411&f=2019A00…

名古屋市のデータ解析練習

oku.edu.mie-u.ac.jp twilog.org Pandasで試してみたけど後半はやり方がわからない こんなのができるようになりたい import pandas as pd import matplotlib.pyplot as plt import japanize_matplotlib df = pd.read_csv("Nagoya-HPVV-data.csv", index_col=…

子宮頸がん予防接種調査の結果のPDFをCSV化

PDF

www.city.nagoya.jp oku.edu.mie-u.ac.jp togetter.com PDFをXMLに変換しTOP・LEFTで並び替えして抽出する 完成したCSVファイル drive.google.com Gist github.com PDF変換ソフトをインストール・ダウンロード !apt install poppler-utils !wget https://www…

空き室状況をCSVに変換

シクロの家の空き室状況がわかりにくかったのでCSVに変換 import calendar import datetime import re import pandas as pd import requests from bs4 import BeautifulSoup # スクレイピング def scraping(): url = "http://www.cyclonoie.com/availability…

うるう年の"2月29日"の文字列をdatetimeに変換

月日だけの"2月29日"の文字列からdatetimeに変換すると1900-02-29になり うるう年ではないためエラーが発生 直近のうるう年まで進める import calendar import datetime import re s = "2月29日" today = datetime.date.today() try: dt = datetime.datetime…

台ダムの貯水率をGoogle Apps ScriptからIFTTTにWebhookでPOST

// IFTTTにWebHookをPOSTする function sendIFTTTWebHook(endpoint, values) { var message = { "value1": values[0], "value2": values[1], "value3": "", }; var options = { "method": "POST", "headers": { "Content-Type": "application/json" }, "payl…

Produce 101 Japan練習生のランキングチャート作成

qiita.com スクレイピング import requests from bs4 import BeautifulSoup import time url = "https://produce101.jp/rank/" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko" } 週リストを作成 r = r…