Pandasで連番値をカウント

https://qiita.com/Masutani/items/3cea640da7d1f5f58af1 https://ja.stackoverflow.com/questions/69962/pandas%E3%81%A7-%E9%A3%9B%E3%81%B3%E9%A3%9B%E3%81%B3%E3%81%AE%E5%88%97%E7%95%AA%E5%8F%B7%E3%82%92%E9%80%A3%E7%95%AA%E3%81%AB%E3%81%97%E3%81%…

1~9の4つの組合せの四則計算

0を除いた組合せ import itertools seq = range(1, 10) # 組合せ data = list(itertools.combinations(seq, 4)) print(len(data)) # 126 import itertools def test_eval(s): try: r = eval(s) except ZeroDivisionError: r = None if r == 10: print(s) ret…

愛媛県内の状況のPDFから検査陽性者の状況をスクレイピング3

shellで作ってみた wget https://www-eu.apache.org/dist/pdfbox/2.0.21/pdfbox-app-2.0.21.jar -O pdfbox-app.jar wget https://www.pref.ehime.jp/h25500/kansen/documents/kennai_link.pdf -O kennnai_link.pdf java -jar pdfbox-app.jar ExtractText -so…

0~9の4つの組合せ

https://t.co/Fx4ExylUeG210通りを見てみたい人がいるかもしれないので列挙だけはしてみた。 pic.twitter.com/sPvGEFspni— 上原 哲太郎/Tetsu. Uehara (@tetsutalow) 2020年9月17日 import itertools seq = range(10) result = ["".join(map(str, i)) for i …

愛媛県内の状況のPDFから検査陽性者の状況をスクレイピング2

PDFをテキスト化して抽出する方が簡単だったorz imabari.hateblo.jp import pathlib import re import pdfbox import requests url = "https://www.pref.ehime.jp/h25500/kansen/documents/kennai_link.pdf" r = requests.get(url) r.raise_for_status() p =…

最近買った本

現場で使える!pandasデータ前処理入門 機械学習・データサイエンスで役立つ前処理手法 [ 株式会社ロンバート ]価格: 4180 円楽天で詳細を見る 【POD】GitHub Actions 実践入門 (技術の泉シリーズ(NextPublishing)) [ 宮田 淳平 ]価格: 2200 円楽天で詳…

tabula-java compile

https://github.com/tabulapdf/tabula-java sudo apt install maven git clone https://github.com/tabulapdf/tabula-java cd tabula-java mvn clean compile assembly:single

git

techracho.bpsinc.jp

長野県のコロナウイルス感染症の状況をPDFからスクレイピング

!apt install python3-tk ghostscript !pip install camelot-py[cv] !pip install jaconv import datetime import pathlib import re from urllib.parse import urljoin import camelot import jaconv import requests from bs4 import BeautifulSoup def fe…

愛媛県内の状況のPDFから検査陽性者の状況をスクレイピング

!apt install python3-tk ghostscript !pip install camelot-py[cv] !pip install jaconv import datetime import re import pathlib import camelot import jaconv import requests def fetch_file(url, dir="."): r = requests.get(url) r.raise_for_statu…

PythonからPostでスプレッドシートにデータ追加

スプレッドシート ウェブアプリケーションとして導入 function doPost(e) { var ss = SpreadsheetApp.getActiveSpreadsheet(); var sheet = ss.getSheetByName('シート1'); var PostData = JSON.parse(e.postData.contents); // 行の最後に値を追加 sheet.ap…

愛知県の検査陽性者の状況のjpegからOCRでスクレイピング(表抽出・縦線除去)

!add-apt-repository ppa:alex-p/tesseract-ocr -y !apt update !apt install tesseract-ocr !apt install libtesseract-dev !tesseract -v !apt install tesseract-ocr-jpn tesseract-ocr-jpn-vert !apt install tesseract-ocr-script-jpan tesseract-ocr-s…

note.com

speakerdeck.com

マイナンバーカード交付状況のExcelファイルをデータラングリング

csv変換時に小数点がおかしくなるので float_format="%.1f" で小数点一桁にするが、文字列扱いになるため quoting=csv.QUOTE_MINIMAL でダブルクォーテーションを外す import csv import datetime import pandas as pd def df_conv(df, col_name, col_1="人…

不審者マップ

qiita.com 愛媛県の不審者マップ https://imabari.github.io/fushinsha_map/ import pathlib import pandas as pd import requests import folium GEO_URL = "https://raw.githubusercontent.com/geolonia/japanese-addresses/master/data/latest.csv" def f…

Twitterフォロー外し

import tweepy import time consumer_key = '' consumer_secret = '' access_token = '' access_token_secret = '' auth = tweepy.OAuthHandler(consumer_key, consumer_secret) auth.set_access_token(access_token, access_token_secret) api = tweepy.API…

OCR Spaceで愛知県の検査陽性者の状況をスクレイピング

OCR SpaceのFree OCR APIを使って愛知県の検査陽性者の状況をスクレイピングする ocr.space keyはENVのOCR_SPACE_APIに入れる import os import re from urllib.parse import urljoin import requests from bs4 import BeautifulSoup ocr_api_key = os.envir…

www.kaggle.com

新潟県のコロナウイルス

# -*- coding: utf-8 -*- import datetime import pathlib import re from urllib.parse import urljoin import jaconv import pandas as pd import requests from bs4 import BeautifulSoup JST = datetime.timezone(datetime.timedelta(hours=+9)) dt_now …

岩手県 コロナ情報検 検査件数・検査の陽性率を作成

import datetime import re import pandas as pd JST = datetime.timezone(datetime.timedelta(hours=+9)) dt_now = datetime.datetime.now(JST) title = [ "PCR検査 行政検査件数", "PCR検査 民間検査件数", "PCR検査 実施数", "PCR検査 陽性者数", "PCR検…

愛知県内の感染者・検査件数

import datetime import pathlib import re import pandas as pd def str2date(s): y = datetime.date.today().year m, d = map(int, re.findall("\d{1,2}", s.split("~")[-1].strip())) return pd.Timestamp(y, m, d) df = pd.read_html("https://www.pref…

愛知県の新型コロナウイルス感染症患者の発生について(日報)をスクレイピング

下記はPDFからテキスト読み取れない 画像? 2020-07-26 https://www.pref.aichi.jp/uploaded/attachment/341590.pdf 2020-07-30 https://www.pref.aichi.jp/uploaded/attachment/342171.pdf コード import datetime import re import time from urllib.parse…

Pythonを利用したデータ解析入門

http://ichiilab.weebly.com/uploads/1/0/9/1/109128265/up_python_obsdataanalysis_2017_jpn.pdf

PDFファイルにページ番号を追加する方法

qiita.com

愛媛県の食中毒の発生情報をスクレイピング

import pandas as pd import requests from bs4 import BeautifulSoup url = "https://www.pref.ehime.jp/h25300/4793/shokuchuudoku/hassei.html" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko" } r…

PythonでCJK部首/康熙部首を置換

CJK部首/康熙部首の範囲外の「戶黑」は追加 8/3 23:50 複数該当する部首を一部除外していましたので分解して追加しました tbl = str.maketrans( "⺃⺅⺉⺋⺎⺏⺐⺒⺓⺔⺖⺘⺙⺛⺟⺠⺡⺢⺣⺦⺨⺫⺬⺭⺱⺲⺹⺾⻁⻂⻃⻄⻍⻏⻑⻒⻖⻘⻟⻤⻨⻩⻫⻭⻯⻲⼀⼁⼂⼃⼄…

PDF cmap

ja.wikipedia.org github.com https://www.adobe.com/content/dam/acom/en/devnet/font/pdfs/5078.Adobe-Japan1-6.pdf !wget https://github.com/pdfminer/pdfminer.six/archive/develop.zip !unzip develop.zip !cd pdfminer.six-develop/ cid2code_Adobe_J…

全国地方公共団体コードに郵便番号データの住所から郡名を追加

docs.google.com import copy import re import pandas as pd def checkdigit(n): c = copy.deepcopy(n) t = 0 for i in range(2, 7): c, m = divmod(c, 10) t += i * m result = (n * 10) + ((11 - (t % 11)) % 10) return result # 全国地方公共団体コード…

愛媛県警の事件事故速報をRSS化

import datetime import re import jaconv import requests from bs4 import BeautifulSoup from feedgen.feed import FeedGenerator url = "https://www.police.pref.ehime.jp/sokuho/sokuho.htm" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0…