Python Selenium スクレイピング プログラミング

【Python】Seleniumでスクレイピングする際によく使う小ネタ(引数・関数)のまとめ

この記事は約3分で読めます。

 

こんにちは、ミナピピン(@python_mllover)です!

今回は案件でseleniumを使ったスクレイピングコードを作成する際によく使用するメソッドなどを自分用にまとめておきます。

 

ページにあるリンクのURLを取得(属性取得)

 

HTMLタグの中にあるhrefのリンクURLテキストなどの属性情報attributeはget_attribute()で取得できます。

 

例:

.get_attribute("href")

 

またタグ内にstyleが埋め込んである場合はhrefをstyleに変更するだけです。

 

.get_attribute("style")

 

 

スポンサーリンク
スポンサーリンク

要素のテキストデータを取得

 

Seleniumで指定した要素の中にあるテキスト情報を取得したい場合は.textを使う。

古いバージョンだとget_text()で、混同して使用するとNonetype ~~~みたいなエラーになる

 

関連記事:【Python】Seleniumの.textで要素のテキスト内容が取得できない原因

 

表示中のページのHTMLデータを取得する

 

seleniumで表示中のページのHTMLを取得する時には.page_sourceを使う

 

driver.page_source

 

これで soup = BeautifulSoup(driver.page_source, ‘html.parser’) とすることでseleniumで表示させているページのhtmlをそのまま取得しjavascriptなどで動的に表示されるコンテンツなどもスクレイピングすることが可能になります。

 

表示中のページのURLを取得

 

表示中のページのURLを取得は.current_urlで行えます。

 

driver.current_url

 

 

Webdriverの更新を自動化する

 

関連記事:【Python】Seleniumで使用するWebDriverの更新を自動化してコードの挙動を安定させる

 

ページの更新

 

driver.refresh()

 

参考書籍

 

 

 

 

コメント

タイトルとURLをコピーしました