2021-01-01から1ヶ月間の記事一覧

PDFの康熙部首・CJK部首補助の文字化け変換

PDF

PDFで「見」や「高」などの文字が検索できなかったり、コピペすると似たような別の字に化けたりする問題(康熙部首・CJK部首補助の文字化け問題)について。この問題があるPDFから、問題のないPDFを生成するツールを作ってみました。https://t.co/BmrubCfhH5…

気象庁の気象警報をスクレイピング

code4sabae.github.io import pathlib import time from urllib.parse import urljoin import requests from bs4 import BeautifulSoup from tqdm.notebook import tqdm pref_code = { "01": "北海道", "02": "青森県", "03": "岩手県", "04": "宮城県", "05…

paddleocr

www.paddlepaddle.org.cn github.com pypi.org zenn.dev OK NG メモリクラッシュ !python -m pip install "paddlepaddle==2.0.0rc1" -i https://mirror.baidu.com/pypi/simple !pip install "paddleocr>=2.0.1" 再起動 from paddleocr import PaddleOCR,draw…

kintone

kintone.cybozu.co.jp

文字校正・編集のポイント 2020

dtptransit.design

愛知県の市町村別人口データのjson作成

import datetime import re from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup url = "https://www.pref.aichi.jp/toukei/" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/…

愛知県のコロナ

下記の住居地は県外で処理 住居地 カウント 岐阜県 23 東京都 18 尾張地方 11 三重県 11 三河地方 5 神奈川県 3 静岡県 3 兵庫県 2 千葉県 2 中国武漢市 2 福岡県 2 京都府 2 大阪府 2 福井県 1 滋賀県 1 土岐市 1 可児市 1 一宮保健所管内 1 不定 1 愛媛県 …

愛知県内の発生事例のPDFをCSVに変換

camelotはすごく遅いのでpdfplumberに変更しています 5185と5206とが入れ替わってたのでソートで並び替え 12/30から未満が未満代になっている文字の重なりでcamelotは「代」を結合、pdfplumberは「代」を除去されている pip install pdfplumber github.com i…