Beautiful Soup Python スクレイピング プログラミング

【Python】requestsとBeautifulSoupでウェブサイト内の画像データをスクレイピングで自動収集する

この記事は約3分で読めます。

 

 

こんにちは、ミナピピン(@python_mllover)です。

 

今回はrequestsとBeautifulSoupで特定のサイト内のhtmlタグに含まれている画像データを自動収集する方法について紹介したいと思います。

 

 

スポンサーリンク
スポンサーリンク

requestsとBeautifulSoupで特定のサイト内の画像データを自動収集する

 

早速ですが、コードになります。ブラウザ上では画像が見えているのにsoup.find_all(“img”)には引っかからないという場合はjsで動的生成されたタグに含まれている可能性もあるため、seleniumで表示させてhtml.sourceでぶっこぬくという流れにしないといけません。

 

関連記事:【Python】Seleniumでスクレイピングする際によく使う小ネタ(引数・関数)のまとめ

 

from bs4 import BeautifulSoup
import requests
res = requests.get('https://xn--wdkj4byd.com/archives/16414')
soup = BeautifulSoup(res.text, 'lxml') #要素を抽出

l_data = soup.find_all("img")
num = 0
for i in l_data:
    num += 1
    print(i.get('src'))
    r = requests.get(i.get('src'))
    with open(f'{num}_.jpg', 'wb') as f: 
        f.write(r.content)

 

画像名はaltがない場合や日本語でエンコードエラーになるので無難に番号を振っていますが、その辺りは任意で変更してください。

 

また画像がhttpではなくdata/imageなどのバイナリ形式なっている場合は以下の記事を参考にしてください

 

関連記事:【Python】imgタグにバイナリでデータが埋め込まれている画像ファイルを取得する

 

また取得した画像をワードプレスにアップロードしたい場合は以下の記事を参考にしてみてください。

 

関連記事:【Python】WordPressのREST APIを使ってブログに記事を自動投稿する

 

 

 


プログラミング・スクレイピングツール作成の相談を受け付けています!

クラウドワークス・ココナラ・MENTAなどでPython・SQL・GASなどのプログラミングに関する相談やツール作成などを承っております!

過去の案件事例:

  • Twitter・インスタグラムの自動化ツール作成
  • ウェブサイトのスクレイピングサポート
  • ダッシュボード・サイト作成
  • データエンジニア転職相談

これまでの案件例を見る

キャリア相談もお気軽に!文系学部卒からエンジニア・データサイエンティストへの転職経験をもとに、未経験者がどう進むべきかのアドバイスを提供します。


スポンサーリンク
/* プログラミング速報関連記事一覧表示 */
ミナピピンの研究室

コメント

  1. […] 関連記事:【Python】requestsとBeautifulSoupでウェブサイト内の画像データをスクレイピングで自動収集する […]

タイトルとURLをコピーしました