2022-01-01から1年間の記事一覧

XPATHの親指定

qiita.com "//a[span/span[contains(text(), '次へ')]]" "//a[span[span[contains(text(), '次へ')]]]" "//a/span/span[contains(text(), '次へ')]/../.." "//a/span/span[contains(text(), '次へ')]/parent::*/parent::*" "//a/span/span[contains(text(), …

golang

wget https://go.dev/dl/go1.19.4.linux-amd64.tar.gz sudo tar -C /usr/local -xzf go1.19.4.linux-amd64.tar.gz echo 'export PATH=$PATH:/usr/local/go/bin' >> $HOME/.profile echo 'export PATH="$HOME/go/bin:$PATH"' >> $HOME/.profile # 設定の再読…

awk print サンプル

区切らず出力したい場合はそれでいいと思います。awkのprint文でカンマ区切りした所は、awkの特殊変数OFSで区切って出力します。OFSのデフォルトはスペースなので、OFSを変更すると区切り文字が変更出来ますね。— ぱぴろんちゃん (@papiron) 2022年12月13日 …

twty

wget https://go.dev/dl/go1.19.4.linux-amd64.tar.gz sudo tar -C /usr/local -xzf go1.19.4.linux-amd64.tar.gz echo 'export PATH=$PATH:/usr/local/go/bin' >> $HOME/.profile 設定の再読み込み source $HOME/.profile go install github.com/mattn/twty…

救急病院のページを取得(csrf)

curl -c cookie01.txt -s -L -X GET "https://www.qq.pref.ehime.jp/qq38/WP0805/RP080501BL" | hxnormalize -x > qq.html CSRF=$(cat qq.html | hxselect 'input[name="_csrf"]::attr(value)' | cut -d= -f2 | tr -d '"') URL=$(cat qq.html | hxselect 'fo…

ワンライナーで玉川ダムの貯水率をCSVに変換

なるほど、ツイートするためのデータとしては最新行だけで良いんですね。一応awkで日付を保管してCSVにするやり方の例です。 pic.twitter.com/KFApx0R4yL— ぱぴろんちゃん (@papiron) 2022年12月9日 apt install libxml2-utils apt install html-xml-utils a…

自動車のリコール・不具合情報

import time import urllib.parse import pandas as pd import requests from bs4 import BeautifulSoup def fetch_soup(url, parser="html.parser"): r = requests.get(url, headers=headers) r.raise_for_status() soup = BeautifulSoup(r.content, parser…

近鉄

import pickle import backoff import requests from bs4 import BeautifulSoup url = "https://www.kintetsu.jp/unkou/unkou.html" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko" } p = pathlib.Pat…

android機種変更

Googleアカウントのパスワード確認(旧端末だと再設定可能かも) LINEのメッセージをバックアップ LINEのメールアドレスを設定 LINEのパスワード確認 +メッセージのバックアップ dアカウントのIDとパスワード確認 dアプリ関係はつかわない milktea.skr.jp…

救急病院202211

import datetime import pathlib from urllib.parse import urljoin import pandas as pd import requests from bs4 import BeautifulSoup base_url = "http://www.qq.pref.ehime.jp/qq38/WP0805/RP080501BL" payload = { "_blockCd": "", "forward_next": "…

救急病院ツイート用

import datetime import os import re import time from urllib.parse import urljoin import requests import tweepy from bs4 import BeautifulSoup consumer_key = os.environ["CONSUMER_KEY"] consumer_secret = os.environ["CONSUMER_SECRET"] access_t…

pdftohtmlでワンライナーxml変換

wget "https://www.mlit.go.jp/totikensangyo/const/content/001520358.pdf" n=`pdfinfo 001520358.pdf | awk '/Pages/{print $2}'` i=0; c=500; while [ $i -lt $n ]; do b=$i; i=$(($i+$c)); if [ $i -ge $n ]; then i=$n; fi; pdftohtml -f $(($b+1)) -l …

TEI XML

yuranhiko.hatenablog.com blog.imind.jp orangain.hatenablog.com lxml.de from lxml import etree import pathlib parser = etree.XMLParser(recover=True) tree = etree.parse(p, parser) root = tree.getroot() # 名前空間マッピング確認 root.nsmap # …

pipx pdm

pypa.github.io zenn.dev zenn.dev qiita.com sudo apt install pipx pipx ensurepath pipx install pdm pdm config --global install.cache True mkdir jupyter cd jupyter pdm init pdm add jupyterlab jupyterlab-language-pack-ja-JP pdm add pandas ope…

文字起し

internet.watch.impress.co.jp dev.classmethod.jp github.com

シェイクスピアのTEI_XMLコーパス

digitalnagasaki.hatenablog.com github.com

漱石書簡から人物登場頻度と地名登場頻度

curl -O 'https://www.dhii.jp/dh/tei/soseki_letter_19000908.xml' curl -O 'https://www.dhii.jp/dh/tei/soseki_letter_19001008.xml' curl -O 'https://www.dhii.jp/dh/tei/soseki_letter_19001022.xml' import pathlib from lxml import etree ns = {"te…

現代日本語訳仏典の人名と地名の登場回数

www.dhii.jp !curl -O "https://21dzk.l.u-tokyo.ac.jp/SAT2018/JT0353b.xml" !curl -O "https://21dzk.l.u-tokyo.ac.jp/SAT2018/JT2046b.xml" !curl -O "https://21dzk.l.u-tokyo.ac.jp/SAT2018/JT2047b.xml" !curl -O "https://21dzk.l.u-tokyo.ac.jp/SAT2…

TEI/XMLファイルから抜き出した地理情報を地図上にマッピング(lxmlで抽出)

digitalnagasaki.hatenablog.com curl -O "https://www.dhii.jp/dh/tei/soseki_letter_19000908.xml" curl -O "https://www.dhii.jp/dh/tei/soseki_letter_19001008.xml" curl -O "https://www.dhii.jp/dh/tei/soseki_letter_19001022.xml" import pathlib i…

IIJ Machinist

machinist.iij.jp

前処理

www.eureka-moments-blog.com

Galaxy プリインストール アンインストール

github.com technastic.com www.fonearena.com adb shell pm list packages | cut -d: -f2 | grep xxxxx > list.txt # au galaxy adb shell pm uninstall -k --user 0 com.kddi.android.au_wifi_connect2 adb shell pm uninstall -k --user 0 jp.netstar.fam…

日付変換ワンライナー

wget https://www.tepco.co.jp/forecast/html/images/juyo-s1-j.csv?$(TZ=JST-9 date +%s%N | cut -b 1-13) -O juyo-s1-j.csv

某サイトの買取金額のスクレイピング対策の金額をスクレイピング

買取金額表示用の数字画像を取得 OCRで画像から数字に変換 切り抜き位置から数字番号取得 数字に変換 CSSからのパースはじめてした pypi.org teratail.com teratail.com pip install easyocr pip install cssutils import pathlib from urllib.parse import …

ワンライナーでテーブルをCSVに変換

4列目以降をCSVにする雑なワンライナーです、、、 pic.twitter.com/xJoilFDsae— ぱぴろんちゃん (@papiron) 2022年8月8日 papiro.hatenablog.jp curl -s "https://www.bleague.jp/stats/?tab=1&year=2021" \ | nkf -Wwd \ | xmllint --html --xpath '//table…

各医療機関内の病床の確保状況をシェルで変換

Pythonで作られたようですね。データ解析はないですが、ダウンロードして日付順に連結するまでをシェルスクリプトで雑に書いてみました、、ファイル名が日付順になっていないのは、URLリストを作ってその順にデータ連結することで対応してます。 pic.twitter…

ワンライナーでMLSから楽天モバイルのみのCSV作成

www.web-dev-qa-db-ja.com curl -s https://location.services.mozilla.com/downloads \ | xmllint --html --xpath 'string(/html/body/div/section/ul/li[1]/a/@href)' - \ | xargs -n 1 curl -s \ | gzip -d \ | awk 'BEGIN{FS=","} $1 == "LTE" && $2 == …

ワンライナーでMLSから楽天モバイルのみのCSV作成

メモ:ワンライナーで投げたほうがMLS元データ処理するときでかい一時ファイル作らなくて便利wget https://t.co/7m4Wm3TA3F$(date +%Y-%m-%d)T000000.csv.gz -O - | gzip -d | grep 'LTE,440,11,' > mls_44011.csv— JS2HGW@楽天開局マップ(岐阜県) (@JS2H…

楽天モバイル基地局アプリ

注意事項 ※新規登録または内容変更したら履歴に登録お願いします メイン画面 マップ画面 ダッシュボード画面 リスト画面 登録手順 基地局入力画面1 基地局入力画面2 基地局追加または現在地から基地局入力画面へ 基地局情報を入力 位置情報は地図より調整…

The Missing Semester of Your CS Education

missing-semester-jp.github.io