pythonスクレイピング関連記事

adventar.org qiita.com vaaaaaanquish.hatenablog.com orangain.hatenablog.com qiita.com qiita.com blog.mursts.jp www.yoheim.net qiita.com dev.classmethod.jp dev.classmethod.jp www.mediaplex.co.jp kiito.hatenablog.com kiito.hatenablog.com

Pythonで総選挙データのスクレイピング

データのスクレイピング AKB48総選挙データのスクレイピング import csv from urllib.request import urlopen from bs4 import BeautifulSoup url = 'http://www.akb48.co.jp/sousenkyo_45th/result.php' html = urlopen(url).read() soup = BeautifulSoup(h…

Pythonのマルチスレッドで同じものを含む順列

import concurrent.futures def permutations(head, rest): if len(rest) == 0: return [head] else: res = [] # set(集合)型で重複を削除、ソート data = sorted(set(rest)) for i in data: #配列の複製 restx = rest[:] #指定データ削除 restx.remove(i)…

mineoのパケットギフトに変換

パケットギフト自動取得したい driver.find_element_by_name("nablarch_form1_1").click() ここでエラー、一回だけログイン通ったけど次から通らない エラー後コマンドで打つとログイン通るんだけどなんで? from selenium import webdriver from selenium.w…

Python3 Webスクレイピングの実践入門

qiita.com 「Python Webスクレイピング 実践入門」の 「1時間ごとに日本経済新聞にアクセスを行いその時の日経平均株価をcsvに記録する」を 定時実行を「apscheduler」に「select_one」でCSSセレクタで取得に変更しました 基本 imabari.hateblo.jp Beautiful…

Pythonログ

speakerdeck.com

蒼社川の水位をスクレイピング

import datetime import requests from bs4 import BeautifulSoup def scraping(): url = 'http://183.176.244.72/cgi/050_HQ_100_03.cgi?GID=050_HQ_100&UI=U777&SI=00000&DT=000000000000&DBDT=0000000000&MNU=1&DTO=-1&DN=0972900400025&KTM=3&GHK=3&YSK=…

PythonでRSSの新着チェック(feedparser/sqlite3)

rss_cron.pyを実行すると5分おきにrss_print.pyが実行される。 rss_cron.py from apscheduler.schedulers.blocking import BlockingScheduler import os sched = BlockingScheduler() @sched.scheduled_job('interval', minutes=5) def timed_job(): os.syst…

ウイルスバスター クラウドの Windows 10 Fall Creators Updateでブルースクリーン

ウイルスバスター クラウドの Windows 10 Fall Creators Update (RS3) の対応状況について | サポート Q&A:トレンドマイクロ ウイルスバスター クラウドが入っている状態でKB4043961をインストールするとpage_fault_in_nonpaged_areaでブルースクリーン KB4…

ubuntuのPDFBOXでPNG変換するとファイルサイズが大きい

PDFファイル http://www.city.imabari.ehime.jp/kouhou/koho/201710/kyukyu.pdf PDFのサイズは927,664バイト PDFBOX http://ftp.kddilabs.jp/infosystems/apache/pdfbox/2.0.7/pdfbox-app-2.0.7.jar 最新の2.07 コマンド # PNG java -jar pdfbox.jar PDFToIm…

Twitterでマルチメディア投稿

import datetime import os import shlex import subprocess import requests import twitter # 今月 now = datetime.datetime.now() # 来月 # now = datetime.datetime.now() + datetime.timedelta(days=28) # URL作成 url = 'http://www.city.imabari.ehim…

Raspbian stretchにphantomjsをインストール

makezine.jp # ユーザー追加・pi削除 sudo /usr/sbin/useradd --groups sudo -m username sudo passwd username sudo passwd root sudo passwd --lock pi # phantomjsをインストール wget https://github.com/piksel/phantomjs-raspberrypi/releases/downloa…

カスペルスキー セキュリティ 2018

https://support.kaspersky.co.jp/12605?cid=dl_klsupport 最新のカスペルスキー セキュリティ 2018 に含まれる各プログラムのダウンロード提供及びライセンスの販売は、2017年10月12日10:00頃の開始を予定しています。

Tomarigi(校正・推敲支援ツール)のインストール

Tomarigi http://www.pawel.jp/outline_of_tools/tomarigi/ ダウンロード http://www.pawel.jp/download/tomarigi/ MeCab http://taku910.github.io/mecab/#download ダウンロード https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7UDg1QnF5WHJ…

Cloud9にPython3.6をインストール

sudo add-apt-repository ppa:jonathonf/python-3.6 sudo apt-get update sudo apt-get install python3.6 wget https://bootstrap.pypa.io/ez_setup.py sudo -H python3.6 ez_setup.py wget https://bootstrap.pypa.io/get-pip.py sudo -H python3.6 get-pi…

Heroku

フリー 無料アカウントは550時間 アドオンを使えないので定時実行、スリープ等できない。 APSchedulerで定時実行できるがバックグラウンドで常時動いているので時間がなくなる。 クレジットカードを登録すると 450時間プラスで合計1000時間利用可能 アドオン…

HerokuでChrome Headlessでスクレイピング

git init git add . git commit -m "my first commit" heroku create xxxxx git push heroku master Chromeとchromedriverをbuildpacksに追加 heroku buildpacks:set https://github.com/heroku/heroku-buildpack-chromedriver.git heroku buildpacks:set ht…

Ubuntu設定からHerokuでPythonのTwitter Bot作成

# heroku cli インストール sudo add-apt-repository "deb https://cli-assets.heroku.com/branches/stable/apt ./" curl -L https://cli-assets.heroku.com/apt/release.key | sudo apt-key add - sudo apt update sudo apt install heroku # python3.6イン…

Githubでアカウント作りました

github.com

bottleとfeedgeneratorでRSSを作成

sudo -H pip3 install bottle sudo -H pip3 install feedgenerator sudo -H pip3 install pytz import datetime import pytz import os import re from urllib.parse import urljoin from urllib.request import urlopen from bs4 import BeautifulSoup impo…

feedgeneratorでRSS生成

import feedgenerator feed = feedgenerator.Rss201rev2Feed( title="Poynter E-Media Tidbits", link="http://www.poynter.org/column.asp?id=31", description= "A group Weblog by the sharpest minds in online media/journalism/publishing.", language…

今治市の避難準備情報、避難勧告、避難指示情報と避難所情報をスクレイピング

import datetime import re from urllib.parse import urljoin from urllib.request import urlopen from bs4 import BeautifulSoup def get_refuge(url): html = urlopen(url).read() soup = BeautifulSoup(html, 'html.parser') title = soup.select_one('…

玉川ダムの貯水率をスクレイピング

from urllib.request import urlopen from bs4 import BeautifulSoup import datetime import csv # GRP = USR004:玉川ダム、USR005:台ダム grp = 'USR004' # KTM = 1:1時間毎、2:30分毎、3:10分毎 ktm = 1 # 現在の時刻の5分前を取得 now = datetime.datet…

PDFの表をテキスト変換

tabula ブラウザ用 tabula.technology 範囲をぎりぎりにしてると文字が漏れるようなので大きめに選択 ページが多いとリピートで以降のページも選べるがときどき選択されないページがあるので一旦最終頁までスクロールしてから選択すると失敗しにくい。 ※ ペ…

PDFminer.sixでテキストが取得できない

Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド― サポートページ:Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド―:|技術評論社 5-8_pdf\print_pdf_textboxes.pyのサンプルコードを試してい…

厚生労働省のブラック企業リストをTSV変換

a244.hateblo.jp tabulaでブラウザで範囲を指定してPDFからTSV変換できます。 tabula.technology コマンド用 github.com tabula-1.0.1-jar-with-dependencies.jarをダウンロードして java -jar .\tabula-1.0.1-jar-with-dependencies.jar -o 170510-01.csv -…

スプラトゥーン2

imabari.hateblo.jp 7/21 バッグとコントローラーは届いた 7/22 本体が届くみたい www.nintendo.co.jp アカウントは作成済みだけどSwitchがないので先に進めない www.ikaclo.jp 有線LANも購入済み ロジテック 有線LANアダプタ Nintendo Switch 動作確認済 US…

auの新プラン

www.au.com auの新プランって割引した金額から1000円引きが適正価格だよな ランクが来たら通知確認があって次まで使えるならいいけど入る価値ないよな。 アップグレードプログラムEXの設定みると機種代金の半額以下が仕入れ価格で +1万円払って2年と2ヵ月後…

ルンバ購入

iRobot Roomba 自動掃除機 ルンバ 870 ピューターグレー 【日本仕様正規品】 + 専用ダストカットフィルター 2個付メディア: セット買いこの商品を含むブログを見る

レオマワールド

www.newreomaworld.com 移動 JR 大人 小人 合計 今治 8,870 5,380 14,250 http://www.jr-shikoku.co.jp/03_news/press/2017%2006%2019.pdf ※平成29年7月22日(土) ~ 平成29年8月31日(木) 大人 小人 合計 今治 4,780 2,380 7,160 レンタカー rent.toyota.co…