uipath

できるUiPath 実践RPA作者: 清水理史,できるシリーズ編集部出版社/メーカー: インプレス発売日: 2019/02/07メディア: 単行本(ソフトカバー)この商品を含むブログを見る できるUiPath 実践RPA [ 清水 理史 ]ジャンル: 本・雑誌・コミック > PC・システム開…

i.river.go.jpからダムの貯水率を取得する

import re import requests from bs4 import BeautifulSoup dam_name = '早明浦ダム' url = 'http://i.river.go.jp/_-p01-_/p/ktm1801070/?mtm=10&swd=&prf=3601&twn=3601208&rvr=&den=2255200700004' # dam_name = '玉川ダム' # url = 'http://i.river.go.j…

ひとりslack

slackに移行

Pythonを使ってWebページから情報を取得する

kzmmtmt.pgw.jp Pythonで作ってみた import requests from bs4 import BeautifulSoup url = 'http://www.nogizaka46.com/' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko' } media = {'tv': 'テレビ',…

Python でスクレイピングした情報を Slack に通知

qiita.com qiita.com

スクレイピングのおけるCSSセレクタ基本

サンプル <div class="class" id="id"> <h1>タイトル</h1> <h2>サブタイトル</h2> <p value="abc">テスト</p> <p value="abc def">テスト</p> <p value="abc-def">テスト</p> <ul> <li>1</li> <li>2</li> <li>3</li> </ul> </div> 基本 書式 説明 サンプル * すべての要素 * 要素名 要素名の要素 div .クラス名 id属性をつけた要素 div.class #id名 id属性をつけた要素 div#id セレクタ同士の関係 書式 説明 サンプ…

保守性・可読性の高いPythonコードを実装するためにはどうすればよいか

jumpyoshim.hatenablog.com

excelの結合セルで縦結合のみ表示

from openpyxl import load_workbook wb = load_workbook(filename='XXXXXX.xlsx') for sheet in wb.sheetnames: print('-' * 20) print(sheet) ws = wb[sheet] for i in ws.merged_cells.ranges: if i.min_row != i.max_row: print(i)

seaborn

qiita.com qiita.com

Minecraft Nitendo Switch版

久しぶりに攻略本買った Minecraft Nintendo Switch版ジャンル: ソフトショップ: 楽天ブックス価格: 3,542円 Minecraft (マインクラフト) - Switch出版社/メーカー: 日本マイクロソフト発売日: 2018/06/21メディア: Video Gameこの商品を含むブログ (1件) を…

Pythonスクレイピングの基本と実践 データサイエンティストのためのWebデータ収集術

スクレイピングの基本を勉強するにはいいかも 今まで見た本の中で説明が長いのと表になっていないので見づらい book.impress.co.jp Pythonスクレイピングの基本と実践 データサイエンティストのためのWebデータ収集術 (impress top gear) [ Seppe vanden B…

camelotでPDFの表からEXCELにコマンド変換(CSV・XSML)

PDF

Camelot: PDF Table Extraction for Humans — Camelot 0.7.1 documentation インストール Installation of dependencies — Camelot 0.7.1 documentation apt install python3-tk ghostscript pip install camelot-py[cv] # PATH追加 export PATH=$PATH:/home…

camelotでPDFの表からEXCELに変換(CSV・TSV・XSML)

PDF

厚生労働省のブラック企業リストをTSV変換 imabari.hateblo.jp 前回tabulaのは失敗するのでcamelotで再挑戦 Camelot: PDF Table Extraction for Humans — Camelot 0.7.1 documentation 厚生労働省の長時間労働削減に向けた取り組みから www.mhlw.go.jp 労働…

GIS

Map

www.gis-py.com

愛媛県のインフルエンザ患者報告数をスクレイピング

colspanがめんどくさいので直取り import requests from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko' } def get_table(url): r = requests.get(url, headers=headers) if…

今治市の歯科医院を探す

import csv import time from urllib.parse import parse_qs, urljoin, urlparse import requests from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko' } def scraping(url)…

Poetry

[http://kk6.hateblo.jp/entry/2018/12/17/Pipenv%E3%81%8B%E3%82%89_Poetry%E3%81%B8%E3%81%AE%E4%B9%97%E3%82%8A%E6%8F%9B%E3%81%88:embed:cite] kk6.hateblo.jp

Kdenlive

動画編集 eng-blog.iij.ad.jp

スクレイピング対策

ヘッドレスChromeでJavaScriptを有効にする teratail.com スクレイピング https://gather-tech.info/news/2017/08/14/Gather59.html ヘッドレスChromeからのアクセスを検出する方法について。User Agentによる判定、プラグインの有無による判定、画像読み込…

Chromebook C223Nのアプリ関連

海外版のレッドから日本版になってやっと帰ってきた 症状は電源不良みたい、最初起動したまま一度も電源落ちなかったし imabari.hateblo.jp imabari.hateblo.jp Androidアプリ Video & TV SideView 初期設定画面の分割画面を解除はchromebookを最新版にして…

Ubuntu Serverにfirefox headless

Headless wget https://github.com/mozilla/geckodriver/releases/download/v0.23.0/geckodriver-v0.23.0-linux64.tar.gz tar -zxvf geckodriver-v0.23.0-linux64.tar.gz sudo chmod +x geckodriver sudo mv geckodriver /usr/local/bin sudo apt install fi…

pandasで2018年の投手貢献度を計算

qiita.com pandasで計算 import pandas as pd url = 'https://baseball-data.com/stats/pitcher-all/era-1.html' dfs = pd.read_html(url, index_col=0) league = pd.DataFrame({ 'チーム': [ '広島', '阪神', 'DeNA', '巨人', '中日', 'ヤクルト', 'ソフト…

Pythonスクレイピングのフローチャート

requests-htmlを使えば複雑な操作以外はスクレイピング可能 タグが閉じていない場合はrequests-htmlだとスクレイピングできない。 上記の場合はbeautifulsoupでパーサーをhtml5libにしておくとタグ補完してくれるので可能 pyppetterの代わりにseleniumでもよ…

slenium・pypetterで全体のスクリーンショットを保存

blog.amedama.jp Selenium from selenium import webdriver options = webdriver.ChromeOptions() options.headless = True driver = webdriver.Chrome(chrome_options=options) url = 'https://www.amazon.co.jp/' driver.get(url) w = driver.execute_scri…

Dアニメストアをスクレイピングし、人気アニメランキング作ってみた

qiita.com requests-htmlで作成してみようと思ったらスクロールの仕方がわからなかったのでrequest見てたらJSONだったので JSON抽出、dataframeで結合、ランキングに変更 import json import time import pandas as pd import requests # タイトルの50音順リ…

NodeRED

qiita.com

Pythonでスクレイピングまとめ

いまからスクレイピングをはじめるならrequests-htmlがおすすめ Requests-HTML: HTML Parsing for Humans (writing Python 3)! — requests-HTML v0.3.4 documentation imabari.hateblo.jp imabari.hateblo.jp imabari.hateblo.jp imabari.hateblo.jp imabari…

Pythonでスクレイピング時にJavaScriptが必要か調べる

requests-htmlをインストール pip install requests-html 使い方 下のプログラムにURLとCSSまたはXPATHを入力 実行 結果 01_base.htmlと02_java.htmlのファイル作成 通常 XX件 見つかりました 該当タグ表示 ※beautifulsoup, scrapyでスクレイピングできます …

リンク

qiita.com qiita.com qiita.com qiita.com brainpicture.biz

seleniumとpyppeteerでブラウザ操作

Selenium from selenium import webdriver driver = webdriver.Firefox() url = 'https://www.yahoo.co.jp/' driver.get("https://tool-taro.com/wget/") elem = driver.find_element_by_name("value") elem.clear() elem.send_keys(url) elem = driver.find…