2022-11-01から1ヶ月間の記事一覧

救急病院202211

import datetime import pathlib from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup base_url = "http://www.qq.pref.ehime.jp/qq38/WP0805/RP080501BL" payload = { "_blockCd": "", "forward_next": "…

救急病院ツイート用

import datetime import os import re import time from urllib.parse import urljoin import requests import tweepy from bs4 import BeautifulSoup consumer_key = os.environ["CONSUMER_KEY"] consumer_secret = os.environ["CONSUMER_SECRET"] access_t…

pdftohtmlでワンライナーxml変換

wget "https://www.mlit.go.jp/totikensangyo/const/content/001520358.pdf" n=`pdfinfo 001520358.pdf | awk '/Pages/{print $2}'` i=0; c=500; while [ $i -lt $n ]; do b=$i; i=$(($i+$c)); if [ $i -ge $n ]; then i=$n; fi; pdftohtml -f $(($b+1)) -l …

TEI XML

yuranhiko.hatenablog.com blog.imind.jp orangain.hatenablog.com lxml.de from lxml import etree import pathlib parser = etree.XMLParser(recover=True) tree = etree.parse(p, parser) root = tree.getroot() # 名前空間マッピング確認 root.nsmap # …

pipx pdm

pypa.github.io zenn.dev zenn.dev qiita.com sudo apt install pipx pipx ensurepath pipx install pdm pdm config --global install.cache True mkdir jupyter cd jupyter pdm init pdm add jupyterlab jupyterlab-language-pack-ja-JP pdm add pandas ope…

文字起し

internet.watch.impress.co.jp dev.classmethod.jp github.com

シェイクスピアのTEI_XMLコーパス

digitalnagasaki.hatenablog.com github.com

漱石書簡から人物登場頻度と地名登場頻度

curl -O 'https://www.dhii.jp/dh/tei/soseki_letter_19000908.xml' curl -O 'https://www.dhii.jp/dh/tei/soseki_letter_19001008.xml' curl -O 'https://www.dhii.jp/dh/tei/soseki_letter_19001022.xml' import pathlib from lxml import etree ns = {"te…

現代日本語訳仏典の人名と地名の登場回数

www.dhii.jp !curl -O "https://21dzk.l.u-tokyo.ac.jp/SAT2018/JT0353b.xml" !curl -O "https://21dzk.l.u-tokyo.ac.jp/SAT2018/JT2046b.xml" !curl -O "https://21dzk.l.u-tokyo.ac.jp/SAT2018/JT2047b.xml" !curl -O "https://21dzk.l.u-tokyo.ac.jp/SAT2…

TEI/XMLファイルから抜き出した地理情報を地図上にマッピング(lxmlで抽出)

digitalnagasaki.hatenablog.com curl -O "https://www.dhii.jp/dh/tei/soseki_letter_19000908.xml" curl -O "https://www.dhii.jp/dh/tei/soseki_letter_19001008.xml" curl -O "https://www.dhii.jp/dh/tei/soseki_letter_19001022.xml" import pathlib i…