Python

【Python】URLからリクエストパラメーターを抽出・除去する

この記事は約2分で読めます。

 

こんにちは、ミナピピン(@python_mllover)です。

 

今回はスクレイピングしたURL文字列に?以降のGETパラメーター(http://××.com?〇〇=~~~~)が含まれている場合、これらを除去してURLとルーティングのパスだけを抽出する方法について紹介したいと思います。

 

スポンサーリンク
スポンサーリンク

urllibでURL文字列からGETパラメーターを抽出・除去

 

Pythonではurllibというライブラリを用いてURL文字列を解析することができます。

 

import urllib
url = 'https://www.amazon.co.jp/gp/product/B09CL1NLVP/ref=ppx_yo_dt_b_asin_title_o00_s00?ie=UTF8&psc=1' 
r = urllib.parse.urlparse(url)
print(r)
# getパラメーターを除去する
print(r.scheme+':/'+r.netloc+r.path)

 

 

 

参考:https://qiita.com/yagays/items/e59731b3930252b5f0c4

 


プログラミング・スクレイピングツール作成の相談を受け付けています!

クラウドワークス・ココナラ・MENTAなどでPython・SQL・GASなどのプログラミングに関する相談やツール作成などを承っております!

過去の案件事例:

  • Twitter・インスタグラムの自動化ツール作成
  • ウェブサイトのスクレイピングサポート
  • ダッシュボード・サイト作成
  • データエンジニア転職相談

これまでの案件例を見る

キャリア相談もお気軽に!文系学部卒からエンジニア・データサイエンティストへの転職経験をもとに、未経験者がどう進むべきかのアドバイスを提供します。


スポンサーリンク
/* プログラミング速報関連記事一覧表示 */
ミナピピンの研究室

コメント

タイトルとURLをコピーしました