2020-09-01から1ヶ月間の記事一覧
curl -s 'https://opendata.pref.aomori.lg.jp/dataset/1531.html' | xmllint --html --xpath '//div[@class="resources"]/div[@class="resource"]/div[@class="info"]/div[contains(@class, "name") and contains(@class, "format-csv") and contains(text(…
import csv import re from bs4 import BeautifulSoup import requests url = "https://www.pref.kumamoto.jp/kiji_22038.html" r = requests.get(url) r.raise_for_status() soup = BeautifulSoup(r.content, "html.parser") tags = soup.find("h3", text=r…
https://qiita.com/Masutani/items/3cea640da7d1f5f58af1 https://ja.stackoverflow.com/questions/69962/pandas%E3%81%A7-%E9%A3%9B%E3%81%B3%E9%A3%9B%E3%81%B3%E3%81%AE%E5%88%97%E7%95%AA%E5%8F%B7%E3%82%92%E9%80%A3%E7%95%AA%E3%81%AB%E3%81%97%E3%81%…
0を除いた組合せ import itertools seq = range(1, 10) # 組合せ data = list(itertools.combinations(seq, 4)) print(len(data)) # 126 import itertools def test_eval(s): try: r = eval(s) except ZeroDivisionError: r = None if r == 10: print(s) ret…
shellで作ってみた wget https://www-eu.apache.org/dist/pdfbox/2.0.21/pdfbox-app-2.0.21.jar -O pdfbox-app.jar wget https://www.pref.ehime.jp/h25500/kansen/documents/kennai_link.pdf -O kennnai_link.pdf java -jar pdfbox-app.jar ExtractText -so…
https://t.co/Fx4ExylUeG210通りを見てみたい人がいるかもしれないので列挙だけはしてみた。 pic.twitter.com/sPvGEFspni— 上原 哲太郎/Tetsu. Uehara (@tetsutalow) 2020年9月17日 import itertools seq = range(10) result = ["".join(map(str, i)) for i …
PDFをテキスト化して抽出する方が簡単だったorz imabari.hateblo.jp import pathlib import re import pdfbox import requests url = "https://www.pref.ehime.jp/h25500/kansen/documents/kennai_link.pdf" r = requests.get(url) r.raise_for_status() p =…
現場で使える!pandasデータ前処理入門 機械学習・データサイエンスで役立つ前処理手法 [ 株式会社ロンバート ]価格: 4180 円楽天で詳細を見る 【POD】GitHub Actions 実践入門 (技術の泉シリーズ(NextPublishing)) [ 宮田 淳平 ]価格: 2200 円楽天で詳…
https://github.com/tabulapdf/tabula-java sudo apt install maven git clone https://github.com/tabulapdf/tabula-java cd tabula-java mvn clean compile assembly:single
techracho.bpsinc.jp
!apt install python3-tk ghostscript !pip install camelot-py[cv] !pip install jaconv import datetime import pathlib import re from urllib.parse import urljoin import camelot import jaconv import requests from bs4 import BeautifulSoup def fe…
!apt install python3-tk ghostscript !pip install camelot-py[cv] !pip install jaconv import datetime import re import pathlib import camelot import jaconv import requests def fetch_file(url, dir="."): r = requests.get(url) r.raise_for_statu…
スプレッドシート ウェブアプリケーションとして導入 実行:自分 アクセスできるユーザー:全員 function doPost(e) { var ss = SpreadsheetApp.getActiveSpreadsheet(); var sheet = ss.getSheetByName('シート1'); var PostData = JSON.parse(e.postData.c…
!add-apt-repository ppa:alex-p/tesseract-ocr -y !apt update !apt install tesseract-ocr !apt install libtesseract-dev !tesseract -v !apt install tesseract-ocr-jpn tesseract-ocr-jpn-vert !apt install tesseract-ocr-script-jpan tesseract-ocr-s…