2018-12-01から1ヶ月間の記事一覧

GIS

Map

www.gis-py.com

愛媛県のインフルエンザ患者報告数をスクレイピング

colspanがめんどくさいので直取り import requests from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko' } def get_table(url): r = requests.get(url, headers=headers) if…

今治市の歯科医院を探す

import csv import time from urllib.parse import parse_qs, urljoin, urlparse import requests from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko' } def scraping(url)…

Poetry

[http://kk6.hateblo.jp/entry/2018/12/17/Pipenv%E3%81%8B%E3%82%89_Poetry%E3%81%B8%E3%81%AE%E4%B9%97%E3%82%8A%E6%8F%9B%E3%81%88:embed:cite] kk6.hateblo.jp

Kdenlive

動画編集 eng-blog.iij.ad.jp

スクレイピング対策

ヘッドレスChromeでJavaScriptを有効にする teratail.com スクレイピング https://gather-tech.info/news/2017/08/14/Gather59.html ヘッドレスChromeからのアクセスを検出する方法について。User Agentによる判定、プラグインの有無による判定、画像読み込…

Chromebook C223Nのアプリ関連

海外版のレッドから日本版になってやっと帰ってきた 症状は電源不良みたい、最初起動したまま一度も電源落ちなかったし imabari.hateblo.jp imabari.hateblo.jp Androidアプリ Video & TV SideView 初期設定画面の分割画面を解除はchromebookを最新版にして…

Ubuntu Serverにfirefox headless

Headless wget https://github.com/mozilla/geckodriver/releases/download/v0.23.0/geckodriver-v0.23.0-linux64.tar.gz tar -zxvf geckodriver-v0.23.0-linux64.tar.gz sudo chmod +x geckodriver sudo mv geckodriver /usr/local/bin sudo apt install fi…

pandasで2018年の投手貢献度を計算

qiita.com pandasで計算 import pandas as pd url = 'https://baseball-data.com/stats/pitcher-all/era-1.html' dfs = pd.read_html(url, index_col=0) league = pd.DataFrame({ 'チーム': [ '広島', '阪神', 'DeNA', '巨人', '中日', 'ヤクルト', 'ソフト…

Pythonスクレイピングのフローチャート

requests-htmlを使えば複雑な操作以外はスクレイピング可能 タグが閉じていない場合はrequests-htmlだとスクレイピングできない。 上記の場合はbeautifulsoupでパーサーをhtml5libにしておくとタグ補完してくれるので可能 pyppetterの代わりにseleniumでもよ…

slenium・pypetterで全体のスクリーンショットを保存

blog.amedama.jp Selenium from selenium import webdriver options = webdriver.ChromeOptions() options.headless = True driver = webdriver.Chrome(chrome_options=options) url = 'https://www.amazon.co.jp/' driver.get(url) w = driver.execute_scri…

Dアニメストアをスクレイピングし、人気アニメランキング作ってみた

qiita.com requests-htmlで作成してみようと思ったらスクロールの仕方がわからなかったのでrequest見てたらJSONだったので JSON抽出、dataframeで結合、ランキングに変更 import json import time import pandas as pd import requests # タイトルの50音順リ…

NodeRED

qiita.com

Pythonでスクレイピングまとめ

いまからスクレイピングをはじめるならrequests-htmlがおすすめ Requests-HTML: HTML Parsing for Humans (writing Python 3)! — requests-HTML v0.3.4 documentation imabari.hateblo.jp imabari.hateblo.jp imabari.hateblo.jp imabari.hateblo.jp imabari…

Pythonでスクレイピング時にJavaScriptが必要か調べる

requests-htmlをインストール pip install requests-html 使い方 下のプログラムにURLとCSSまたはXPATHを入力 実行 結果 01_base.htmlと02_java.htmlのファイル作成 通常 XX件 見つかりました 該当タグ表示 ※beautifulsoup, scrapyでスクレイピングできます …

リンク

qiita.com qiita.com qiita.com qiita.com brainpicture.biz

seleniumとpyppeteerでブラウザ操作

Selenium from selenium import webdriver driver = webdriver.Firefox() url = 'https://www.yahoo.co.jp/' driver.get("https://tool-taro.com/wget/") elem = driver.find_element_by_name("value") elem.clear() elem.send_keys(url) elem = driver.find…

Beautifulsoupでrowspan・colspanにデータ挿入

import csv import requests from bs4 import BeautifulSoup url = 'https://www.pref.ehime.jp/h25115/kanjyo/topics/influ1819/tb_flu1819.html' # セルコピー True:空白、False:コピー flag = False headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT …

Chrome book C223Nが起動不能、交換

imabari.hateblo.jp Chrome book早速届いて起動したのですが電源ボタンを2・3回押してやっと起動 そのあとアップデートがかかり再起動 次はメールアドレスを入れるところで入力不能で再起動 メールアドレスはとおり、ログインできたのでアカウントを変えよ…

Scrapyでサイトマップからスクレイピング

スパイダー — Scrapy 1.2.2 ドキュメント # -*- coding: utf-8 -*- from scrapy.spiders import SitemapSpider class MySpider(SitemapSpider): name = 'wired_sitemap' # XMLサイトマップのURLのリスト。 # robots.txtのURLを指定すると、Sitemapディレクテ…