2020-11-01から1ヶ月間の記事一覧
!apt install ghostscript !pip install camelot-py[cv] import re from urllib.parse import urljoin import datetime import camelot import pandas as pd import requests from bs4 import BeautifulSoup # 月日をdatetimeに変換 def days2date(s): y = d…
rocketnews24.com services.google.com https://forjapan.withgoogle.com/static/pdf/YouTube_Live.pdf
import sys import camelot import pandas as pd tables = camelot.read_pdf( "http://www.pref.saitama.lg.jp/a0001/news/page/2020/documents/021125-0902.pdf", pages="all", strip_text=" \n", ) dfs = [table.df.T.iloc[2:] for table in tables] df = …
pdfplumberでfilterでフッターのページ数をのけた ページによって列の誤認識?空白文字が入るので列を削除 import datetime import pathlib import re from urllib.parse import urljoin import pandas as pd import pdfplumber import requests from bs4 im…
import datetime import pathlib import re from urllib.parse import urljoin import pandas as pd import pdfplumber import requests from bs4 import BeautifulSoup def fetch_file(url, dir="."): r = requests.get(url) r.raise_for_status() p = path…
github.com oxon.hatenablog.com
ネットショッピング前にちょい寄りするだけ。 各ショップのポイントとは別に、支援ができます。 www.webbellmark.jp PTA番号 学校名 1 3800008 今治幼稚園 2 3808678 今治精華幼稚園 3 3800007 立花幼稚園 4 3804584 はしはまこがく認定こども園 5 3804339 …