スクレイピング

pythonスクレイピング関連記事

adventar.org qiita.com vaaaaaanquish.hatenablog.com orangain.hatenablog.com qiita.com qiita.com blog.mursts.jp www.yoheim.net qiita.com dev.classmethod.jp dev.classmethod.jp www.mediaplex.co.jp kiito.hatenablog.com kiito.hatenablog.com

Pythonで総選挙データのスクレイピング

データのスクレイピング AKB48総選挙データのスクレイピング import csv from urllib.request import urlopen from bs4 import BeautifulSoup url = 'http://www.akb48.co.jp/sousenkyo_45th/result.php' html = urlopen(url).read() soup = BeautifulSoup(h…

Python3 Webスクレイピングの実践入門

imabari.hateblo.jp qiita.com 「Python Webスクレイピング 実践入門」の 「1時間ごとに日本経済新聞にアクセスを行いその時の日経平均株価をcsvに記録する」を 定時実行を「apscheduler」に「select_one」でCSSセレクタで取得に変更しました 基本 imabari.h…

蒼社川の水位をスクレイピング

import datetime import requests from bs4 import BeautifulSoup def scraping(): url = 'http://183.176.244.72/cgi/050_HQ_100_03.cgi?GID=050_HQ_100&UI=U777&SI=00000&DT=000000000000&DBDT=0000000000&MNU=1&DTO=-1&DN=0972900400025&KTM=3&GHK=3&YSK=…

PythonでRSSの新着チェック(feedparser/sqlite3)

rss_cron.pyを実行すると5分おきにrss_print.pyが実行される。 rss_cron.py from apscheduler.schedulers.blocking import BlockingScheduler import os sched = BlockingScheduler() @sched.scheduled_job('interval', minutes=5) def timed_job(): os.syst…

今治市の避難準備情報、避難勧告、避難指示情報と避難所情報をスクレイピング

import datetime import re from urllib.parse import urljoin from urllib.request import urlopen from bs4 import BeautifulSoup def get_refuge(url): html = urlopen(url).read() soup = BeautifulSoup(html, 'html.parser') title = soup.select_one('…

玉川ダムの貯水率をスクレイピング

from urllib.request import urlopen from bs4 import BeautifulSoup import datetime import csv # GRP = USR004:玉川ダム、USR005:台ダム grp = 'USR004' # KTM = 1:1時間毎、2:30分毎、3:10分毎 ktm = 1 # 現在の時刻の5分前を取得 now = datetime.datet…

WindowsでHeadless Chromeでスクレイピング

qiita.com sites.google.com オプション入れてるけどバージョン59だと画面が表示される60で直るみたい # --- coding: utf-8 --- """ えひめ医療情報ネットの今治市地区の当番医案内から医療機関のリストを取得 """ import csv import re from selenium impor…

Cloud9でPython3・Beautifulsoup4・Selenium・Phantomjsでスクレイピング

c9.io git clone https://xxx@bitbucket.org/xxx/imabari119.git cd imabari119 echo "# My project's README" >> README.md git add README.md git commit -m "Initial commit" git push -u origin master Python3設定 Edit-Code Formatting-Open Language …

Dockerインストール・Splashインストール

qiita.com https://docs.docker.com/engine/installation/linux/ubuntulinux/docs.docker.com sudo apt-get update sudo apt-get install apt-transport-https ca-certificates sudo apt-key adv \ --keyserver hkp://ha.pool.sks-keyservers.net:80 \ --rec…

早明浦ダムの貯水率をスクレイピング

qiita.com d.hatena.ne.jp from urllib.request import urlopen from bs4 import BeautifulSoup base = 'http://www1.river.go.jp' resp = urlopen(base + '/cgi-bin/DspDamData.exe?ID=1368080700010&KIND=3').read() temp = BeautifulSoup(resp, 'html5lib…

netkeibaのスクレイピング2

また新しいお題がでていたので ja.stackoverflow.com ja.stackoverflow.com from urllib.request import urlopen from bs4 import BeautifulSoup import csv url = 'http://race.netkeiba.com/?pid=race&id=c201605050211&mode=shutuba' html = urlopen(url)…

Pythonでスクレイピング 基本

imabari.hateblo.jp Beautiful Soup Documentation — Beautiful Soup 4.4.0 documentation ウェブページをHTMLで保存し、サーバーへのアクセス回数を減らす 初回アクセス時にHTMLファイルを保存 from urllib.request import urlopen from bs4 import Beautif…

Scrapy

Scrapy Tutorial — Scrapy 1.3.0 documentation Scrapy 1.2 ドキュメント — Scrapy 1.2.2 ドキュメント data.gunosy.io speakerdeck.com # インストール pip install scrapy conda install -c conda-forge scrapy=1.3.0 # プロジェクト作成 scrapy startproj…

netkeibaのスクレイピング

okwave.jp Python3ならできるんだけどPython2ではCSV保存のところでエラーがでてわからない from urllib.request import urlopen from bs4 import BeautifulSoup import csv base_url = 'http://db.netkeiba.com/?pid=jockey_detail&id=00663&page={0}' data…

Google Apps Scriptでスクレイピング

qiita.com Easy data scraping with Google Apps Script in 5 minutes ~ kutil.org スクリプト作成 Googleドライブから「新規作成」-「その他」-「Google Apps Script」からスクリプト作成 ※「Google Apps Script」がない場合は「新規作成」-「その他」-…

アイドルマスターのカレンダーをスクレイピング

gomao9.github.io qiita.com を参考にPythonでスクレイピングのところだけやってみた select_oneはCSSセレクタ指定できるのでいつもよりシンプルでわかりやすかった。 いつもの書き方もコメントにして書いてます。 from urllib.request import urlopen from …

Perl Web::Scraper スクレイピング・RSS作成 ひながた

#!/usr/bin/perl use strict; use warnings; use Web::Scraper; use URI; use utf8; use HTTP::Date; use XML::TreePP; use XML::FeedPP; # URL my $uri = 'アドレス'; # RSS作成 my $feed = XML::FeedPP::RSS->new(); my $now = time(); # RSSの内容 $feed-…

PerlのWeb::Scraperでスクレイピング&RSS化

#!/usr/bin/perl use strict; use warnings; use Web::Scraper; use URI; # use YAML; use XML::TreePP; use XML::FeedPP; my $uri = 'https://www.police.pref.ehime.jp/sokuho/sokuho.htm'; my $scraper = scraper { process '#main2 > tbody > tr:nth-chi…

Perlでスクレイピング Web::Scraper

Web::Scraper - search.cpan.org use Web::Scraper; - 今日のCPANモジュール(跡地) Web Scraper Shibuya.pm tech talk #8 from Tatsuhiko Miyagawa www.slideshare.net sudo apt-get install libweb-scraper-perl sudo apt-get install libxml-treepp-perl…

Beautifulsoupのパーサーを'html.parser'から'html5lib'へ変更

この間からスクレイピングができなかったりおかしいなと思ってたら'html.parser'のタグ補完が原因でした。 import urllib.request from bs4 import BeautifulSoup url = "http://www.police.pref.ehime.jp/sokuho/sokuho.htm" html = urllib.request.urlopen…

Python+Selenium+Phantom.js+Beautifulsoupでスクレイピング

zipsan.hatenablog.jpseleniumをインストール pip3 install seleniumphantomjsをダウンロード http://phantomjs.org/ WindowsのPATHを通しておくwww.qq.pref.ehime.jp Selenium IDEをFirefoxにインストールしてアクセス方法を記録 python2にエクスポート エ…

スクレイピング関連

qiita.comqiita.comtokyoscrapper.connpass.comdev.classmethod.jpBeautiful Soup http://kondou.com/BS4/qiita.com qiita.comzipsan.hatenablog.jp PyQuery qiita.com Selenium qiita.com blog.trident-qa.comqiita.com XpathとCSSpathのテストChromeのCons…

kimonoからRSS作成(概要含む)

http://ja.blog.blikk.co/%E3%80%8C%E3%82%B5%E3%82%AF%E3%83%83%E3%81%A8web%E3%83%9A%E3%83%BC%E3%82%B8%E3%81%8B%E3%82%89%E3%83%87%E3%83%BC%E3%82%BF%E5%8F%96%E3%82%8A%E3%81%9F%E3%81%84%E3%80%8D%E3%81%9D%E3%82%93%E3%81%AA/ja.blog.blikk.co1.リン…

kimonoの項目追加・フィルタ

kimono Java Script function transform(data) { function additem(user) { user.XXXXXXX = 追加項目; return user; } for (var collection in data.results) { data.results[collection] = data.results[collection].map(additem); } return data; } XXXXXX…

kimonoでスクレイピング

Kimono : Turn websites into structured APIs from your browser in seconds kimonoで今治の不審者情報をJSON化改行と全角数字を整形 import json import urllib.request import unicodedata results = json.loads(urllib.request.urlopen("https://www.kim…

Pythonでスクレイピング4(抽出)

愛媛新聞ONLINEから今治の記事のリンクを取得 import urllib.request from bs4 import BeautifulSoup from urllib.parse import urljoin def imabari_find( url ): html = urllib.request.urlopen(url).read() soup = BeautifulSoup(html, from_encoding='cp…

Pythonでスクレイピング3(日付の変換)

今治市役所お知らせの取得(日付の変換) import datetime from bs4 import BeautifulSoup from urllib.request import urlopen from urllib.parse import urljoin def date_conv(hiduke): return str(datetime.date(hiduke.year, hiduke.month, hiduke.day)…

Pythonでスクレイピング2(相対アドレスの変換)

今治イベント情報を取得(相対アドレスの変換) import urllib.request from bs4 import BeautifulSoup from urllib.parse import urljoin url = "http://www.city.imabari.ehime.jp/event/" html = urllib.request.urlopen(url).read() soup = BeautifulSou…