pandas

Python pandas

qiita.com news.mynavi.jp amalog.hateblo.jp pandas: powerful Python data analysis toolkit — pandas 0.23.0 documentation www.atmarkit.co.jp www.atmarkit.co.jp www.atmarkit.co.jp # 型確認 df.dtypes # 欠損値のカウント df.isnull().sum() # 欠損…

2018-04-19

石手川ダムのリアルタイムダム諸量一覧表でpandas練習

Program Python pandas

imabari.hateblo.jp !pip install lxml import pandas as pd import requests from urllib.parse import urljoin from bs4 import BeautifulSoup # 石手川ダムのリアルタイムダム諸量一覧表 url = 'http://www1.river.go.jp/cgi-bin/DspDamData.exe?ID=13680…

2018-04-17

FC今治の順位をスクレイピング

Python pandas JFL

import datetime import requests from bs4 import BeautifulSoup url = 'http://www.jfl.or.jp/jfl-pc/view/s.php?a=1277' r = requests.get(url) if r.status_code == requests.codes.ok: soup = BeautifulSoup(r.content, 'html.parser') update_str = so…

2018-04-16

Colaboratoryでスクレイピング

スクレイピング Program Python pandas

2021/04/18現在利用できません news.mynavi.jp https://colab.research.google.com/ import pandas as pd import requests from bs4 import BeautifulSoup url = 'http://www.river.go.jp/kawabou/ipDamGaikyo.do?init=init&areaCd=88&prefCd=3801&townCd=&g…

2018-04-03

愛媛県動物愛護センターから迷い犬猫情報を取得しTwitterに投稿

スクレイピング Program Python

import tempfile from urllib.parse import urljoin import requests import twitter from bs4 import BeautifulSoup # 迷い犬猫情報にアクセスし、HTMLを取得する url = 'http://www.pref.ehime.jp/h25123/4415/mayoi.html' r = requests.get(url) # エラー…

2018-03-01

herokuでtwitter botを定時実行

スクレイピング Program Python

pipenv install python-twitter pipenv install html5lib pipenv install beautifulsoup4 pipenv install apscheduler pipenv install requests pipenv run pip freeze > requirements.txt echo "python-3.6.7" > runtime.txt echo "clock: python clock.py"…

2018-02-07

Pythonでselenium headless（Firefox・Chrome）

スクレイピング Program Python

Firefox github.com sudo cp geckodriver /usr/local/bin from selenium import webdriver from selenium.webdriver.firefox.options import Options from bs4 import BeautifulSoup options = Options() options.headless = True driver = webdriver.Firefo…

2018-02-02

herokuでheaderless chromeでConnectionResetError 104

スクレイピング Program Python

3日に1回ぐらいエラーで失敗しているので Traceback (most recent call last): File "today-hospital.py", line 17, in <module> driver = webdriver.Chrome(chrome_options=options) desired_capabilities=desired_capabilities) File "/app/.heroku/python/lib/pyt</module>…

2017-12-22

インフルエンザによる学級閉鎖等の状況

スクレイピング Program Python

import requests from bs4 import BeautifulSoup url = 'http://www.city.imabari.ehime.jp/gakukyou/info_influenza/' r = requests.get(url) # エラーがないか確認する if r.status_code == requests.codes.ok: soup = BeautifulSoup(r.content, 'html.par…

2017-11-22

pythonスクレイピング関連記事

スクレイピング Program Python

adventar.org qiita.com vaaaaaanquish.hatenablog.com orangain.hatenablog.com qiita.com qiita.com blog.mursts.jp www.yoheim.net qiita.com dev.classmethod.jp dev.classmethod.jp www.mediaplex.co.jp kiito.hatenablog.com kiito.hatenablog.com

2017-11-15

Pythonで総選挙データのスクレイピング

スクレイピング Program Python

データのスクレイピング AKB48総選挙データのスクレイピング import csv from urllib.request import urlopen from bs4 import BeautifulSoup url = 'http://www.akb48.co.jp/sousenkyo_45th/result.php' html = urlopen(url).read() soup = BeautifulSoup(h…

2017-11-13

Pythonのマルチスレッドで同じものを含む順列

Program Python

import concurrent.futures def permutations(head, rest): if len(rest) == 0: return [head] else: res = [] # set（集合）型で重複を削除、ソート data = sorted(set(rest)) for i in data: #配列の複製 restx = rest[:] #指定データ削除 restx.remove(i)…

2017-11-07

Python3 Webスクレイピングの実践入門

スクレイピング Python

imabari.hateblo.jp qiita.com 「Python Webスクレイピング実践入門」の「1時間ごとに日本経済新聞にアクセスを行いその時の日経平均株価をcsvに記録する」を定時実行を「apscheduler」に「select_one」でCSSセレクタで取得に変更しました基本 imabari.h…

2017-10-26

蒼社川の水位をスクレイピング

スクレイピング Program Python

import datetime import requests from bs4 import BeautifulSoup def scraping(): url = 'http://183.176.244.72/cgi/050_HQ_100_03.cgi?GID=050_HQ_100&UI=U777&SI=00000&DT=000000000000&DBDT=0000000000&MNU=1&DTO=-1&DN=0972900400025&KTM=3&GHK=3&YSK=…

2017-10-26

PythonでRSSの新着チェック（feedparser/sqlite3）

スクレイピング Program Python RSS

rss_cron.pyを実行すると5分おきにrss_print.pyが実行される。 rss_cron.py from apscheduler.schedulers.blocking import BlockingScheduler import os sched = BlockingScheduler() @sched.scheduled_job('interval', minutes=5) def timed_job(): os.syst…

2017-09-25

feedgeneratorでRSS生成

Python RSS わからん Windows

import feedgenerator feed = feedgenerator.Rss201rev2Feed( title="Poynter E-Media Tidbits", link="http://www.poynter.org/column.asp?id=31", description= "A group Weblog by the sharpest minds in online media/journalism/publishing.", language…

2017-09-22

今治市の避難準備情報、避難勧告、避難指示情報と避難所情報をスクレイピング

スクレイピング Program Python

import datetime import re from urllib.parse import urljoin from urllib.request import urlopen from bs4 import BeautifulSoup def get_refuge(url): html = urlopen(url).read() soup = BeautifulSoup(html, 'html.parser') title = soup.select_one('…

2017-09-11

玉川ダムの貯水率をスクレイピング

スクレイピング Program Python

2021/04/18現在利用できません from urllib.request import urlopen from bs4 import BeautifulSoup import datetime import csv # GRP = USR004:玉川ダム、USR005:台ダム grp = 'USR004' # KTM = 1:１時間毎、2:30分毎、3:10分毎 ktm = 1 # 現在の時刻の8分…

2017-06-11

WindowsでHeadless Chromeでスクレイピング

スクレイピング Python Program

qiita.com sites.google.com オプション入れてるけどバージョン59だと画面が表示される60で直るみたい # --- coding: utf-8 --- """ えひめ医療情報ネットの今治市地区の当番医案内から医療機関のリストを取得 """ import csv import re from selenium impor…

2017-05-26

Cloud9でPython3・Beautifulsoup4・Selenium・Phantomjsでスクレイピング

Python スクレイピング

c9.io git clone https://xxx@bitbucket.org/xxx/imabari119.git cd imabari119 echo "# My project's README" >> README.md git add README.md git commit -m "Initial commit" git push -u origin master Python3設定 Edit-Code Formatting-Open Language …

2017-01-09

Dockerインストール・Splashインストール

Python スクレイピング

qiita.com https://docs.docker.com/engine/installation/linux/ubuntulinux/docs.docker.com sudo apt-get update sudo apt-get install apt-transport-https ca-certificates sudo apt-key adv \ --keyserver hkp://ha.pool.sks-keyservers.net:80 \ --rec…

2017-01-07

Pycharmをインストール

Python Ubuntu

インストール sudo add-apt-repository ppa:ubuntu-desktop/ubuntu-make sudo apt-get update && sudo apt-get install ubuntu-make umake ide pycharm アップデート umake ide pycharm -r && umake ide pycharm umakeはアップデートないので消してからイン…

2016-12-20

早明浦ダムの貯水率をスクレイピング

スクレイピング Python

qiita.com d.hatena.ne.jp from urllib.request import urlopen from bs4 import BeautifulSoup base = 'http://www1.river.go.jp' resp = urlopen(base + '/cgi-bin/DspDamData.exe?ID=1368080700010&KIND=3').read() temp = BeautifulSoup(resp, 'html5lib…

2016-11-23

netkeibaのスクレイピング２

Python スクレイピング問題

また新しいお題がでていたので ja.stackoverflow.com ja.stackoverflow.com from urllib.request import urlopen from bs4 import BeautifulSoup import csv url = 'http://race.netkeiba.com/?pid=race&id=c201605050211&mode=shutuba' html = urlopen(url)…

2016-10-06

Pythonの入門書としても使える『言語処理のためのプログラミング入門』

Python

statsbeginner.hatenablog.com

2016-09-23

判断推理の集団お見合いの問題

問題 Python

d.hatena.ne.jp Ａ～Ｆの男性6人と，Ｐ～Ｕの女性6人が集団でお見合いをした。終了時に各人は気に入った相手を1人ずつ選び，それについて次のア～カのことがわかっている。このとき，Ａを選んだ女性がいたとすると，その女性として確実なのは誰か。ア. 誰…

2016-09-08

同じものを含む順列（ジェネレーター）

Python Program

def permutations(data, result=[]): if not data: yield result else: for i in set(data): temp = data[:] temp.remove(i) yield from permutations(temp, result + [i]) if __name__ == '__main__': for i in permutations([1, 1, 1, 2, 2, 3]): print(i)…

2016-09-07

千円札、五百円、百円硬貨を使って3000円を支払う方法は何通りあるか

問題 Python

detail.chiebukuro.yahoo.co.jp d.hatena.ne.jp 順列（再帰） def perm(head, money): coin = [100, 500, 1000] if money == 0: return [head] else: res = [] for i in coin: if money - i < 0: break headx = head + [i] res += perm(headx, money - i) re…

2016-08-20

Pythonでスクレイピング　基本

Python スクレイピング

imabari.hateblo.jp Beautiful Soup Documentation — Beautiful Soup 4.4.0 documentation ウェブページをHTMLで保存し、サーバーへのアクセス回数を減らす初回アクセス時にHTMLファイルを保存 from urllib.request import urlopen from bs4 import Beautif…

2016-08-18

Scrapy

スクレイピング Python

Scrapy Tutorial — Scrapy 1.3.0 documentation Scrapy 1.2 ドキュメント — Scrapy 1.2.2 ドキュメント data.gunosy.io speakerdeck.com # インストール pip install scrapy conda install -c conda-forge scrapy=1.3.0 # プロジェクト作成 scrapy startproj…