2020-01-01から1ヶ月間の記事一覧

最近ノートパソコンが壊れっぱなし

Windows8がプリインストールで入ってたのをWindows10にアップデートしたノートパソコンがだいたい調子悪い 数台SSDに入れ替えてOS入れ直した あとキーボードが2・3個入力したら反応しないずっと押していたら反応する 電源スイッチが反応しないのがあったり…

大黒天物産の店舗をスクレイピング・集計・グラフ化・foliumで地図にプロット

dev.classmethod.jp imabari.hateblo.jp import pandas as pd # スクレイピング df = pd.read_csv( "http://www.dkt-s.com/common/data/data_convert.php?name=d_store", sep="\t", index_col=0, ) # ブランド仕分け df["ブランド"] = df["店舗名"].str.extr…

後で見る

zawasite.com zawasite.com zawasite.com

Excelをデーターラングリングスピード比較(openpyxl・xlrd・Pandas)

xlrdが一番速い、openpyxlでセルはちゃんと動いているのか心配になるぐらい遅い ws.valuesとiter_colsとiter_rowsはあまりかわらない 列が2列だけだと思ってiter_colsを2つにすると約倍遅い、全体を取る方がいい xlrd < ws.values = iter_cols = iter_rows …

PythonによるWebスクレイピング + Amazon Quicksightで大黒天物産ダッシュボードを作るのスクレイピング

dev.classmethod.jp qiita.com 店舗一覧スクレイピングしなくてもここにアクセスすれば店舗情報・緯度経度もTSVで取得できる http://www.dkt-s.com/common/data/data_convert.php?name=d_store wget "http://www.dkt-s.com/common/data/data_convert.php?nam…

愛媛県の県コード及び市区町村コードを取得

ehime_names = { 38: "愛媛県", 38201: "松山市", 38202: "今治市", 38203: "宇和島市", 38204: "八幡浜市", 38205: "新居浜市", 38206: "西条市", 38207: "大洲市", 38210: "伊予市", 38213: "四国中央市", 38214: "西予市", 38215: "東温市", 38356: "上島…

平均寿命の箱ひげ図をPandasでデータラングリング2

imabari.hateblo.jp 別のExcelファイルからデータラングリングしてみた 確かに都道府県が入っているから楽でした !wget "https://www.e-stat.go.jp/stat-search/file-download?statInfId=000031693271&fileKind=0" -O data.xlsx import pandas as pd data = …

がん罹患数・率都道府県一覧基本集計表をjapanmapでコロプレス図作成

oku.edu.mie-u.ac.jp 速報じゃなく報告になっていたので作成 平成28年報告 [8MB] https://www.mhlw.go.jp/content/10900000/000553552.pdf e-statで公開 www.e-stat.go.jp 都道府県一覧-罹患数・率-全部位 C00-C96 https://www.e-stat.go.jp/stat-search/f…

Pandasでセンター試験の男女の都道府県別平均寿命の散布図作成

blog.goo.ne.jp oku.edu.mie-u.ac.jp ダウンロード !wget "https://www.mhlw.go.jp/toukei/saikin/hw/life/tdfk15/dl/tdfk15-09.xls" -O data.xls プログラム import pandas as pd dfs = [] for i, sex in zip([1, 2], ["男", "女"]): df1_tmp = pd.read_exc…

pandasでDataFrameから行をSeriesとして抽出した場合、暗黙の型変換が実行される

linus-mk.hatenablog.com 散布図に数字を入れようとしたらfloatになるので不思議だった import numpy as np import matplotlib.pyplot as plt df = pd.DataFrame(np.arange(12).reshape(4, 3)) # df[0] = df[0].astype(float) # df[1] = df[1].astype(float)…

平均寿命の箱ひげ図をPandasでデータラングリング

ameblo.jp 箱ひげ図の書き方がわからなかったので参考にさせていただきました。 blog.goo.ne.jp blog.goo.ne.jp CSV drive.google.com プログラム 散布図が合わない => 都道府県で散布図を描くと同じになりました 特別区は都道府県と市郡の重複を抽出して、…

あとで見る

blog.goo.ne.jp qiita.com またあとで帰ってやってみる それにしてもRの人たちはすごいなほんとうに勉強になる。

国土数値情報の行政区域データをfoliumで使うgeojsonに変換する

参考 オープンデータを入手してQGISで開いてみよう! from Masaharu Ohashi www.slideshare.net qiita.com www.mk-mode.com 準備 区域データダウンロード nlftp.mlit.go.jp QGIS 結合する場合は属性テーブルは同じデータにしておかないと消える 文字化け レ…

PandasでExcelのシートの比較し変更箇所を赤でマーキング

teratail.com pandas.pydata.org pandas.pydata.org 2つのExcelファイルをD&Dすると変更箇所列のみ抽出し変更部分を赤でマーキング import argparse import openpyxl import pandas as pd def cmd(files): df1 = pd.read_excel(files[0], header=0, index_c…

愛媛県のオープンデータから交通事故発生状況〔市町別〕のグラフとfoliumでコロプレス図作成

www.pref.ehime.jp python-visualization.github.io github.com データ抽出 import pandas as pd df1 = pd.read_excel("https://www.pref.ehime.jp/opendata-catalog/dataset/dataland-275/resource/6743/237.xlsx", header=None, index_col=None) # テキス…

愛媛県感染症情報センターのインフルエンザ患者数をグラフ化

import datetime import re import pandas as pd import requests from bs4 import BeautifulSoup import matplotlib.pyplot as plt import seaborn as sns sns.set() import japanize_matplotlib r = requests.get("https://www.pref.ehime.jp/h25115/kanjy…

e-statの平成30年1~12月犯罪統計をPandasでデータラングリング

exploratory.io import pandas as pd df1 = pd.read_excel( "https://www.e-stat.go.jp/stat-search/file-download?statInfId=000031797656&fileKind=0", sheet_name=1, header=None, ) df1.head(10) df2 = df1.loc[df1.notnull().sum(axis=1) > 3, df1.notn…

Python整形オンライン

https://black.now.sh/ https://yapf.now.sh/

e-Statの趣味・娯楽の種類別行動者率をデータラングリング

www.e-stat.go.jp exploratory.io import pandas as pd df1 = pd.read_excel( "https://www.e-stat.go.jp/stat-search/file-download?statInfId=000031577984&fileKind=0", header=None, ) df1.to_csv("data.tsv", sep="\t") # 行カウント確認 df1.notnull()…

Pandasでデータラングリングでよく使うもの

github.com jakevdp.github.io import pandas as pd df1 = pd.read_excel("URL", sheet_name=0, header=None) # Excelないとき df1.to_csv("data.tsv", sep="\t") # 行カウント確認 df1.notnull().sum(axis=0) # 列カウント確認 df1.notnull().sum(axis=1) #…

Pandasでe-Statの年齢・男女別人口推移データ

EDA Salon 第6回 - 日本の統計データ(e-Stat)のデータラングリング大会 EDA Salon 第6回 - 日本の統計データ(e-Stat)のデータラングリング大会 年齢・男女別人口推移データ(難易度:普通) www.e-stat.go.jp exploratory.io exploratory.io 相違 Pandasで解…

Pythonでe-Statから男女別学校数を検索、統計表情報取得、統計データ取得

import io import time import pandas as pd import requests key = "" # 統計表情報取得 def get_list_csv(word): params = { "appId" : key, "lang": "J" , } params["searchWord"] = word r = requests.get( "https://api.e-stat.go.jp/rest/3.0/app/getS…

Pythonでe-StatのAPIデータを取得、グラフ作成

事前準備 www.e-stat.go.jp dekiru.net API https://www.e-stat.go.jp/api/sites/default/files/uploads/2019/07/API-specVer3.0.pdf https://www.e-stat.go.jp/api/sample/testform3-0/ APIの登録しアプリケーションID(appId)を取得する APIのアイコンの…

勉強する

lms.gacco.org lms.gacco.org

キャッシュカード再発行

某銀行のキャッシュカードが見つからないので電話で再発行した直後に見つかったorz それも電話中に見つかったのでキャンセルできないか聞いたらもうだめだった 再発行手数料1100円(T-T)

整然データとは何か

ci.nii.ac.jp https://www.jstage.jst.go.jp/article/jkg/67/9/67_448/_pdf/-char/ja

e-Statの男女別学校数から男のみ・女のみの学校をスクレイピング・グラフ作成

imabari.hateblo.jp 前回のRによるデータクリーニング実践――政府統計からのグラフ作成を例として を参考にしたのでクリーニング方法も今回は変更 せっかくなのでe-Statにあるデータ全部(1957年は課程ごとのため除外)をスクレイピングしてグラフ作成しまし…

Pandasで成人喫煙率(JT全国喫煙者率調査)の表からグラフ作成

www.health-net.or.jp スクレイピング・前処理 import pandas as pd # 表を取得 dfs = pd.read_html("http://www.health-net.or.jp/tobacco/product/pd090000.html", header=0) df = dfs[0] # 列名確認 df.columns # 列名置換 df.rename(columns={'Unnamed: …

スプレッドシートでテーブル抽出・グラフ作成

blog.goo.ne.jp blog.goo.ne.jp スプレッドシートでテーブル抽出 スプレッドシートでもできそうなので作ってみた dekiru.net スプレッドシート docs.google.com 赤色は手入力 黄色は関数入力 変更内容 1/9 西暦・性別の手入力部分をARRAYFORMULAで作成 1/9 …

気象庁の過去天気をダウンロードし集計

qiita.com 過去天気ダウンロード www.data.jma.go.jp 今治の天気概要はないため松山の天気概要を取得 日付に曜日を表示にチェックを入れて曜日を追加 プログラム 天気概要から天気情報を分解、天気ごとにカテゴリ変数に変換し集計する import pandas as pd i…