食べログスクレイピング

Pythonクローリング&スクレイピング[増補改訂版] ―データ収集・解析のための実践開発ガイドーに 食べログのスクレイピングの記事が載ってる gihyo.jp サンプルコードもあるのでch06と6-7 定期的にスクレイピングするならscrapyでしたほうがよさそう。

食べログ3.8

konkon3249.hatenablog.com clean-copy-of-onenote.hatenablog.com 食べログEDA · GitHub rebalance.png · GitHub

ぷららをIPoEに変更

モデムもpppoeを切断しないといけないので入力している場合は 接続先ユーザー名の最後に一文字追加して接続できないようにしておく www.iodata.jp

食べログスクレイピング2

抽出数が違うせいかグラフ違う import pandas as pd import numpy as np df = pd.DataFrame(result) df.describe() df_osaka = df[df["pref"] == "osaka"] df_osaka.describe() df_tokyo = df[df["pref"] == "tokyo"] df_tokyo.describe() import matplotlib…

今日の救急病院をツイート

# --- coding: utf-8 --- import datetime import re from urllib.parse import urljoin import requests import twitter from bs4 import BeautifulSoup def scraping(html): soup = BeautifulSoup(html, "html.parser") # スクレイピング tables = soup.fi…

食べログスクレイピング

import time import requests from bs4 import BeautifulSoup from tqdm import tqdm_notebook pref_list = [ "hokkaido", "aomori", "iwate", "miyagi", "akita", "yamagata", "fukushima", "ibaraki", "tochigi", "gunma", "saitama", "chiba", "tokyo", "…

ツール

Octoparse https://www.octoparse.jp/ Scrapestorm https://www.scrapestorm.com/

建設業許可番号から会社情報取得しJSON保存

import json import requests from bs4 import BeautifulSoup def get_title(table, css): # 許可業種 result = [i.get_text(strip=True) for i in table.select(f"tbody > tr{css} > td")] return result def get_data(table, css): result = [] for i in t…

PowerShellのExcelベース

if ( $args -eq $null ) { Write-Error '引数がありません' } if (Test-Path $args[0]) { $excel = New-Object -ComObject Excel.Application $excel.Visible = $false try { $book = $excel.Workbooks.Open($args[0]) $sheet = $book.Sheets('Sheet1') # シ…

PowerShellでExcelから指定範囲をタブ区切りでクリップボード・TSVへ書き出し

$excel = New-Object -ComObject Excel.Application $excel.Visible = $false $book = $excel.Workbooks.Open($args[0]) $sheet = $book.Sheets('Sheet1') $data = @() # 全範囲 $sheet.UsedRange.Rows | ForEach-Object { $row = @($_.Columns).Text; $data…

後でみる

qiita.com qiita.com

Powershell抽出

# 全体 Get-Content ファイル名 | Select-String -Pattern "検索" | %{$_.Matches.Value} # 全体とマッチ Get-Content ファイル名 | Select-String -Pattern "検索" | %{$_.Matches.Groups.Value} # マッチのみ Get-Content ファイル名 | Select-String -Pat…

Windows10のロケールをUTF-8に変更する

「コントロールパネル」-「時計と地域」を選択 「地域」を選択 「管理」-「システムロケールの変更」を選択 「ベータ:ワイルドワイド言語サポートでUnicode UTF-8を使用」にチェック 古いソフトは起動時にエラーで動かなかった

PowerShellでExcelの指定シートのセルを取得2

範囲の場合はタブ結合 # シート名 $name = 'Sheet1' # 抽出セル $cell = @('A1:D2', 'A1:D1', 'A2', 'B2', 'C2', 'D2') # 抽出データリスト $data = @() # 拡張子変更 $newtext = $args[0] -replace '\.xlsx$', '.txt' $excel = New-Object -ComObject Excel…

PowerShellでExcelの指定シートのセルを取得

# シート名 $name = 'Sheet1' # 抽出セル $cell = @('A1:D2', 'A1:D1', 'A2', 'B2', 'C2', 'D2') # 抽出データリスト $data = @() # 拡張子変更 $newtext = $args[0] -replace '\.xlsx$', '.txt' $excel = New-Object -ComObject Excel.Application # Excel…

PowerShellでキャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をワンライナーでTSV変換

qiita.com PowerShellでワンライナーでできるか試してみた PDFBOXだと改行されないので2行の処理がいらないのでpdftotextより簡単 標準出力がShift-JISなのでsjisにすると java -jar pdfbox-app-2.0.17.jar ExtractText -startPage 3 -sort -console -encodi…

PowerShellでキャッシュレス決済の地図より加盟店一覧をスクレイピング

# 座標からJSON取得 $response = Invoke-RestMethod -Uri 'https://api.cashless.go.jp/location/' -Method Get -Body @{ 'lat'=35.681236; 'lng'=139.76712499999996; 'limit'=30; 'd'=15000; 'q'=''; 'b'=''; 'c'=''; 'r'=''; 'p'='';} # JSONから店番号を…

PowerShellでキャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をCSV変換

# 抽出用 $p = "(^\d{1,3}(,\d{3})?)\s(\S{2,3}(都|道|府|県))\s+(\S{1,7}(市|区|町|村))\s+(.+)\s+(\S+)\s+(\S+)\s+([2|5]%)$" # TSV Get-Content kameiten_touroku_list.txt -Encoding UTF8 | Select-String -Pattern $p | ForEach-Object { $data = @(); …

PowerShellで日経平均をスクレイピング

winscript.jp $url = 'https://www.nikkei.com/markets/kabu/' $html = (Invoke-Webrequest $url).ParsedHTML $nikkei = $html.getElementsByTagName("span") | Where-Object { $_.className -eq 'mkc-stock_prices' } | ForEach-Object { $_.innerText } Wr…

キャッシュレス決済の地図より加盟店一覧をスクレイピング

出典:キャッシュレス・消費者還元事業 map.cashless.go.jp import requests import pandas as pd url = 'https://api.cashless.go.jp/location/' s = requests.Session() params = { "lat":35.681236, "lng":139.76712499999996, "limit":30, "d":15000, "q…

PowerShell

docs.microsoft.com forsenergy.com tonari-it.com news.mynavi.jp

宇和島市プレミアム付商品券が使えるお店をスクレイピング

!wget https://www.city.uwajima.ehime.jp/uploaded/attachment/24937.pdf -O list.pdf !wget https://www-eu.apache.org/dist/pdfbox/2.0.17/pdfbox-app-2.0.17.jar -O pdfbox-app.jar !java -jar pdfbox-app.jar ExtractText -startPage 2 -sort -encoding…

スプレッドシートをPDF化

qiita.com 「ウェブに公開」でPDFで公開したのと変わるのかな?

松山市プレミアム付商品券が使えるお店をスクレイピング

premium-gift.jp import csv import time import urllib.parse import requests from bs4 import BeautifulSoup url = 'https://premium-gift.jp/matsuyama/use_store' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11…

新居浜市プレミアム付商品券が使えるお店をスクレイピング

niihama-premium.com import requests import csv from bs4 import BeautifulSoup url = "https://niihama-premium.com/citizen/shop.html" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko" } r = requ…

「Windows 10 May 2019 Update」と一部NEC製PCの間に非互換性問題

forest.watch.impress.co.jp 今頃かよ公開後3日間ぐらい再インストールしたり設定いろいろ試行錯誤してだめだったので下のWi-Fiに交換して正解やったみたいやね。スピード早くなるし前より安定しているみたいやから インテル デュアルバンド 高速 Wi-Fi 通信…

キャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をPDFをCSV変換4

Colaboratoryで公開 PDFダウンロードからTSV変換まで colab.research.google.com # -*- coding: utf-8 -*- import pandas as pd from tabula import read_pdf # ページ数入力 max_page = 6360 pages = f"3-{max_page}" df = read_pdf("kameiten_touroku_list…

キャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をPDFをCSV変換3

www.meti.go.jp セルが「縮小して全体を表示」に変更されたのかセル内に縮小表示されたのでtabulaで抽出できるようになりました github.com tabula-1.0.3-jar-with-dependencies.jarをダウンロード -Xmx1G オプションでメモリを増やせば動きました java -jar…

Pythonクローリング&スクレイピング[増補改訂版]

楽天セールのクーポンで電子書籍版を購入 Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド-【電子書籍】[ 加藤耕太 ]ジャンル: 本・雑誌・コミック > PC・システム開発 > プログラミング > プログラミング入門ショ…

キャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をPDFをCSV変換2

imabari.hateblo.jp 正規表現での抽出を参考にColaboratoryで実行 !apt-get install openjdk-11-jre !curl -OL https://www-eu.apache.org/dist/pdfbox/2.0.16/pdfbox-app-2.0.16.jar !curl -OL https://cashless.go.jp/assets/doc/kameiten_touroku_list.pd…