2021-04-01から1ヶ月間の記事一覧

rust

docs.microsoft.com

tsukuba-kdbのcsv0.pyの内容

github.com import csv import json output = [] headline = "" with open("kdb_202104042.csv", encoding="utf-8") as fp: reader = csv.reader(fp) for line in reader: # B列削除 line.pop(1) # M-Q列削除 for i in range(5): line.pop(11) isEmpty = Fal…

千葉県の新型コロナウイルス感染症(変異株)患者等の発生状況をCSV変換

www.pref.chiba.lg.jp xlsxファイル https://docs.google.com/spreadsheets/d/e/2PACX-1vR-bY3elqTA7sEThEP4GOOuOaLtE0VReY8-KeE25eFkHIGhR_x9tQFdirliUWVhHfPN6RPB4oT5kNAw/pub?output=xlsx import requests from bs4 import BeautifulSoup from urllib.par…

兵庫県の新型コロナウイルスに感染した患者の状況をデータラングリング

web.pref.hyogo.lg.jp 重複除去 最新のファイルはスクレイピングで取得 import pathlib import re from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup def fetch_soup(url, parser="html.parser"): r = r…

「頭のいい人」とそうでもない人の決定的な差

toyokeizai.net

PDFにフォント埋め込みがないとpdfminerだとテキスト抽出できない

介護給付費単位数等サービスコード表 https://www.city.okegawa.lg.jp/material/files/group/23/code_mittuchaku.pdf をPDFからCSVに変換しようと試していたらpdfminerでテキスト抽出できない pdfminerのときからテキストが抽出できないのでcamelotもだめ Tr…