2021-01-01から1ヶ月間の記事一覧
PDFで「見」や「高」などの文字が検索できなかったり、コピペすると似たような別の字に化けたりする問題(康熙部首・CJK部首補助の文字化け問題)について。この問題があるPDFから、問題のないPDFを生成するツールを作ってみました。https://t.co/BmrubCfhH5…
code4sabae.github.io import pathlib import time from urllib.parse import urljoin import requests from bs4 import BeautifulSoup from tqdm.notebook import tqdm pref_code = { "01": "北海道", "02": "青森県", "03": "岩手県", "04": "宮城県", "05…
www.paddlepaddle.org.cn github.com pypi.org zenn.dev OK NG メモリクラッシュ !python -m pip install "paddlepaddle==2.0.0rc1" -i https://mirror.baidu.com/pypi/simple !pip install "paddleocr>=2.0.1" 再起動 from paddleocr import PaddleOCR,draw…
kintone.cybozu.co.jp
dtptransit.design
import datetime import re from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup url = "https://www.pref.aichi.jp/toukei/" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/…
下記の住居地は県外で処理 住居地 カウント 岐阜県 23 東京都 18 尾張地方 11 三重県 11 三河地方 5 神奈川県 3 静岡県 3 兵庫県 2 千葉県 2 中国武漢市 2 福岡県 2 京都府 2 大阪府 2 福井県 1 滋賀県 1 土岐市 1 可児市 1 一宮保健所管内 1 不定 1 愛媛県 …
camelotはすごく遅いのでpdfplumberに変更しています 5185と5206とが入れ替わってたのでソートで並び替え 12/30から未満が未満代になっている文字の重なりでcamelotは「代」を結合、pdfplumberは「代」を除去されている pip install pdfplumber github.com i…