読者です 読者をやめる 読者になる 読者になる

Pythonでスクレイピング4(抽出)

Program Python スクレイピング

愛媛新聞ONLINEから今治の記事のリンクを取得

import urllib.request
from bs4 import BeautifulSoup
from urllib.parse import urljoin

def imabari_find( url ):
    html = urllib.request.urlopen(url).read()
    soup = BeautifulSoup(html, from_encoding='cp932')

    kiji = soup.find('div',{'class':'main_text'}).get_text()

    if kiji.find('今治') == -1:
        return False
    else:
        return True

url = 'http://www.ehime-np.co.jp/news/local/'
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, from_encoding='cp932')

news_list = soup.find('div',{'class':'news_lists'})

for i in news_list.find_all('ul'):
    for kiji in i.find_all('a'):
        link = urljoin('http://www.ehime-np.co.jp/news/local/', kiji.get('href'))
        if imabari_find(link):
            print( kiji.get_text() )
            print( link )