2018-08-01から1ヶ月間の記事一覧

node

nodeをインストール curl -L git.io/nodebrew | perl - setup echo 'export PATH=$HOME/.nodebrew/current/bin:$PATH' >> ~/.profile source ~/.profile nodebrew nodebrew install-binary v8.12.0 nodebrew use v8.12.0 node --version mkdir workspace cd …

フィード(RSS)を取得・検出

https://berss.com/feed/Find.aspx

Google Apps ScriptでJson Feedを取得

function myFunction() { var sheet = SpreadsheetApp.getActiveSpreadsheet().getSheetByName('西予市'); sheet.clear(); var row = 1; //新着 var url = 'http://www.city.seiyo.ehime.jp/index.update.json'; //緊急情報 //var url = 'https://www.city.s…

puppeteerでリンク全部取得

qiita.com const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto('https://www.yahoo.co.jp/'); const hrefs = await page.$$eval('a', hrefs => hre…

puppetterで日経平均をスクレイピング

github.com qiita.com const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto('http://www.nikkei.com/markets/kabu/'); var data = await page.$eval…

スマートコンセントとRaspberry Pi

蒼社川の監視モード 【28倍ポイント最大】TP-Link WiFi スマートプラグ 遠隔操作 直差しコンセント Echo シリーズ Googleホーム対応 音声コントロール コンパクト ハブ不要 3年保証 HS105ジャンル: その他ショップ: TP-Linkダイレクト 楽天市場店価格: 3,900…

json feed

import requests import json url = 'http://www.city.seiyo.ehime.jp/kinkyu/index.update.json' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko' } r = requests.get(url, headers=headers) data = r…

Beautifulsoupでスクレイピング

Beautifulsoupの方がひとつのファイルですむのでやっぱり楽 import datetime import os import re import string import time from urllib.parse import urljoin import requests from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Wi…

Scrapyでスクレイピング

普段Beautifulsoupしか使ってないのでScrapyで作成してみた github.com をベースに作成しました。 note.nkmk.me https://doc.scrapy.org/en/latest/topics/commands.html # インストール pip install scrapy # プロジェクト作成 scrapy startproject cheerup…

ボランティア動向 直近7日間の集計のグラフ

https://docs.google.com/spreadsheets/d/e/2PACX-1vStDz-dB8i7W6m0GEYup_DQ76CHXaPRgalKpkIP0hNZ_Q5eMVUvc3lKi1lC5VFeKeTFqh6s1yHmP3vj/pubchart?oid=1377073713&format=interactive 表を取得 C1 =IMPORTHTML("https://ehimesvc.jp/?p=70","table",1) 何週…

Microsoft Flow 西日本豪雨を市町村別に振り分けるJSON

{ "$schema": "https://schema.management.azure.com/schemas/2015-01-01/deploymentTemplate.json#", "contentVersion": "1.0.0.0", "parameters": { "logicAppName": { "type": "String", "metadata": { "description": "Name of the logic app." } }, "lo…

平成30年7月豪雨による被害状況等についてをテキスト化してみた

PDF

www.pref.ehime.jp https://www.pref.ehime.jp/h12200/documents/higaijokyo80.pdf PDFBOXでテキスト化 java -jar pdfbox-app.jar ExtractText -sort -encoding UTF-8 %1 区 分 市 町 名 死 亡 宇 和 島 市 西 予 市 大 洲 市 松 山 市 今 治 市 鬼 北 町 を…

玉川ダム・蒼社川(水位)・テレメーター(雨量)

2021/04/18現在利用できません i.river.go.jpから正規表現で抽出 Twitterの文字数多くなったのでぎりぎりいけそう import re import time import requests import twitter from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows N…

自動化

Micorosoft Flow flow.microsoft.com docs.microsoft.com 無料と有料があり無料でも使用回数減らせば使える。 データーを加工できるので便利 Yahoo Pipesみたいな感じ 無料だと15分毎、750回まで実行可能。1時間毎×24時間×31日=744あと残り6回 資…

スクレイピングツール

Googleスプレッドシート いつ更新されるかタイミングがわからない。 表・グラフにするならすごく便利(IMPORTHTML・IMPORTDATA) GASでほぼ定時実行※、Twitter投稿、メール、RSS化できるので連携すると便利 ※00分等きっちりした時間実行はできないが45分ぐら…

Microsoft FlowでTwitterを振り分け

画像 https://drive.google.com/open?id=1dfdZSntDgrkf0bljRvqeNIoBZSL5SlDv 新しいツイートが投稿されたら 検索テキスト -RT #西日本豪雨 #愛媛県 日時をUTCからJSTに変換 convertTimeZone(triggerBody()?['CreatedAtIso'],'UTC','Tokyo Standard Time','yy…

スプレッドシートでスクレイピング

IMPORTXML IMPORTXML(URL, XPath クエリ) XML、HTML、CSV、TSV、RSS フィード、Atom XML フィードなど、さまざまな種類の構造化データからデータをインポートします。 IMPORTXML - ドキュメント エディタ ヘルプ IMPORTXMLサンプル docs.google.com IMPORTHT…

ボランティア数集計

!pip install lxml !pip install seaborn !apt install fonts-ipafont-gothic !rm /content/.cache/matplotlib/fontList.json import pandas as pd url = 'https://ehimesvc.jp/?p=70' dfs = pd.read_html(url, index_col=0, na_values=['活動中止', '終了',…

GASでスクレイピングの結果を別シートの最終行に追加

function myFunction() { var spreadsheet = SpreadsheetApp.getActive(); // コピー元のシート spreadsheet.setActiveSheet(spreadsheet.getSheetByName('一覧'), true); // スクレイピングのERROR対策に90秒待機 Utilities.sleep(90000); // スクレイピン…

避難所

import datetime import re import time from urllib.parse import urljoin import string import requests from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko' } city_nam…

ふるさとチョイス災害支援をスクレイピング

import io import csv import requests import time import datetime from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko' } data = """hisaichi,dairi,url 愛媛県,,https:/…

平成30年7月豪雨による被害状況等についてのPDFをテキスト変換

PDF

平成30年7月豪雨災害に関する情報から https://www.pref.ehime.jp/h12200/h3007-gouu-saigai-oshirase.htmlwww.pref.ehime.jp 平成30年7月豪雨による被害状況等について(第??報)のPDFをダウンロードしテキスト化 JAVAをインストール PDFBOXをダウンロード …