2019-09-01から1ヶ月間の記事一覧

PowerShellのExcelベース

docs.microsoft.com if ( $args -eq $null ) { Write-Error '引数がありません' } if (Test-Path $args[0]) { $excel = New-Object -ComObject Excel.Application $excel.Visible = $false try { $book = $excel.Workbooks.Open($args[0]) $sheet = $book.Sh…

PowerShellでExcelから指定範囲をタブ区切りでクリップボード・TSVへ書き出し

$excel = New-Object -ComObject Excel.Application $excel.Visible = $false $book = $excel.Workbooks.Open($args[0]) $sheet = $book.Sheets('Sheet1') $data = @() # 全範囲 $sheet.UsedRange.Rows | ForEach-Object { $row = @($_.Columns).Text; $data…

後でみる

qiita.com qiita.com

Powershell抽出

# 全体 Get-Content ファイル名 | Select-String -Pattern "検索" | %{$_.Matches.Value} # 全体とマッチ Get-Content ファイル名 | Select-String -Pattern "検索" | %{$_.Matches.Groups.Value} # マッチのみ Get-Content ファイル名 | Select-String -Pat…

Windows10のロケールをUTF-8に変更する

「コントロールパネル」-「時計と地域」を選択 「地域」を選択 「管理」-「システムロケールの変更」を選択 「ベータ:ワイルドワイド言語サポートでUnicode UTF-8を使用」にチェック 古いソフトは起動時にエラーで動かなかった

PowerShellでExcelの指定シートのセルを取得2

範囲の場合はタブ結合 # シート名 $name = 'Sheet1' # 抽出セル $cell = @('A1:D2', 'A1:D1', 'A2', 'B2', 'C2', 'D2') # 抽出データリスト $data = @() # 拡張子変更 $newtext = $args[0] -replace '\.xlsx$', '.txt' $excel = New-Object -ComObject Excel…

PowerShellでExcelの指定シートのセルを取得

# シート名 $name = 'Sheet1' # 抽出セル $cell = @('A1:D2', 'A1:D1', 'A2', 'B2', 'C2', 'D2') # 抽出データリスト $data = @() # 拡張子変更 $newtext = $args[0] -replace '\.xlsx$', '.txt' $excel = New-Object -ComObject Excel.Application # Excel…

PowerShellでキャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をワンライナーでTSV変換

qiita.com PowerShellでワンライナーでできるか試してみた PDFBOXだと改行されないので2行の処理がいらないのでpdftotextより簡単 標準出力がShift-JISなのでsjisにすると java -jar pdfbox-app-2.0.17.jar ExtractText -startPage 3 -sort -console -encodi…

PowerShellでキャッシュレス決済の地図より加盟店一覧をスクレイピング

# 座標からJSON取得 $response = Invoke-RestMethod -Uri 'https://api.cashless.go.jp/location/' -Method Get -Body @{ 'lat'=35.681236; 'lng'=139.76712499999996; 'limit'=30; 'd'=15000; 'q'=''; 'b'=''; 'c'=''; 'r'=''; 'p'='';} # JSONから店番号を…

PowerShellでキャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をCSV変換

# 抽出用 $p = "(^\d{1,3}(,\d{3})?)\s(\S{2,3}(都|道|府|県))\s+(\S{1,7}(市|区|町|村))\s+(.+)\s+(\S+)\s+(\S+)\s+([2|5]%)$" # TSV Get-Content kameiten_touroku_list.txt -Encoding UTF8 | Select-String -Pattern $p | ForEach-Object { $data = @(); …

PowerShellで日経平均をスクレイピング

winscript.jp $url = 'https://www.nikkei.com/markets/kabu/' $html = (Invoke-Webrequest $url).ParsedHTML $nikkei = $html.getElementsByTagName("span") | Where-Object { $_.className -eq 'mkc-stock_prices' } | ForEach-Object { $_.innerText } Wr…

キャッシュレス決済の地図より加盟店一覧をスクレイピング

出典:キャッシュレス・消費者還元事業 map.cashless.go.jp import requests import pandas as pd url = 'https://api.cashless.go.jp/location/' s = requests.Session() params = { "lat":35.681236, "lng":139.76712499999996, "limit":30, "d":15000, "q…

PowerShell

docs.microsoft.com forsenergy.com tonari-it.com news.mynavi.jp

宇和島市プレミアム付商品券が使えるお店をスクレイピング

PDF

!wget https://www.city.uwajima.ehime.jp/uploaded/attachment/24937.pdf -O list.pdf !wget https://www-eu.apache.org/dist/pdfbox/2.0.17/pdfbox-app-2.0.17.jar -O pdfbox-app.jar !java -jar pdfbox-app.jar ExtractText -startPage 2 -sort -encoding…

スプレッドシートをPDF化

qiita.com 「ウェブに公開」でPDFで公開したのと変わるのかな?

松山市プレミアム付商品券が使えるお店をスクレイピング

premium-gift.jp import csv import time import urllib.parse import requests from bs4 import BeautifulSoup url = 'https://premium-gift.jp/matsuyama/use_store' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11…

新居浜市プレミアム付商品券が使えるお店をスクレイピング

niihama-premium.com import requests import csv from bs4 import BeautifulSoup url = "https://niihama-premium.com/citizen/shop.html" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko" } r = requ…

「Windows 10 May 2019 Update」と一部NEC製PCの間に非互換性問題

forest.watch.impress.co.jp 今頃かよ公開後3日間ぐらい再インストールしたり設定いろいろ試行錯誤してだめだったので下のWi-Fiに交換して正解やったみたいやね。スピード早くなるし前より安定しているみたいやから インテル デュアルバンド 高速 Wi-Fi 通信…

キャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をPDFをCSV変換4

PDF

Colaboratoryで公開 PDFダウンロードからTSV変換まで colab.research.google.com # -*- coding: utf-8 -*- import pandas as pd from tabula import read_pdf # ページ数入力 max_page = 6360 pages = f"3-{max_page}" df = read_pdf("kameiten_touroku_list…

キャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をPDFをCSV変換3

PDF

www.meti.go.jp セルが「縮小して全体を表示」に変更されたのかセル内に縮小表示されたのでtabulaで抽出できるようになりました github.com tabula-1.0.3-jar-with-dependencies.jarをダウンロード -Xmx1G オプションでメモリを増やせば動きました java -jar…

Pythonクローリング&スクレイピング[増補改訂版]

楽天セールのクーポンで電子書籍版を購入 Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド-【電子書籍】[ 加藤耕太 ]ジャンル: 本・雑誌・コミック > PC・システム開発 > プログラミング > プログラミング入門ショ…

キャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をPDFをCSV変換2

PDF

imabari.hateblo.jp 正規表現での抽出を参考にColaboratoryで実行 !apt-get install openjdk-11-jre !curl -OL https://www-eu.apache.org/dist/pdfbox/2.0.16/pdfbox-app-2.0.16.jar !curl -OL https://cashless.go.jp/assets/doc/kameiten_touroku_list.pd…

奥村 晴彦 キャッシュレス消費者還元事業登録リストのCSV化のコメント追加

奥村 晴彦 キャッシュレス消費者還元事業登録リストのCSV化 oku.edu.mie-u.ac.jp よくわからなかったので自分なりにコメント追加 import sys import re category = 0 # 固定店舗用 正規表現セット # [^ ]は半角スペース以外 regexp = r"([\d,]+) ([^ ]+) ([^…

キャッシュレス・消費者還元事業事務局審査を通過した加盟店一覧をPDFをCSV変換

PDF

imabari.hateblo.jp cashless.go.jp https://cashless.go.jp/assets/doc/kameiten_touroku_list.pdf smallpdfは時間がかかりすぎてエラー tabulaもエラー ※500ページごとにすればできました(文字が切れてる) camelotは変換中のまま現在進行中(3時間経過)…