スクレイピングツール

Googleスプレッドシート

  • いつ更新されるかタイミングがわからない。
  • 表・グラフにするならすごく便利(IMPORTHTML・IMPORTDATA)
  • GASでほぼ定時実行※、Twitter投稿、メール、RSS化できるので連携すると便利 ※00分等きっちりした時間実行はできないが45分ぐらいに実行されたら次もほぼ45分ぐらいに実行されている。

個別

  • IMPORTXML

    • 数が多くなるとすごく遅い。10前後ぐらいから目に見えて遅くなる。
    • 数が多い場合はXPATHでゆるくまとめてとる。該当箇所セル以下に全部取れるので必要箇所のみコピー。
    • XPATHを細かくすると急に取れない。「//a」ぐらいからルールを絞っていく感じだいたい1~3ぐらいまで
    • XPATHが絞り込めないと無駄なところがでてくるため使いづらい。
  • IMPORTHTML

    • TABLEとLISTだけ
    • シンプルなテーブルだときれいに取れる。複雑なものは見た目と違う。
  • IMPORTDATA

    • CSV形式だと便利。行をスキップできないので必要なもの以外も表示される。
  • IMPORFEED

    • 結合してRSS化するぐらい?

FEED43

feed43.com

  • 正規表現
  • 更新が遅いみたいなので1日1回更新されるものに有効
  • RSS化できる
  • 個数が20個まで取れる。
  • 改行部分は{}{_}{|}を使うみたいだけど{}{_}でいい。
  • 複雑なもの・数が多いものは取れない