こんにちは、ミナピピン(@python_mllover)です。
今回はスクレイピングしたURL文字列に?以降のGETパラメーター(http://××.com?〇〇=~~~~)が含まれている場合、これらを除去してURLとルーティングのパスだけを抽出する方法について紹介したいと思います。
urllibでURL文字列からGETパラメーターを抽出・除去
Pythonではurllibというライブラリを用いてURL文字列を解析することができます。
import urllib url = 'https://www.amazon.co.jp/gp/product/B09CL1NLVP/ref=ppx_yo_dt_b_asin_title_o00_s00?ie=UTF8&psc=1' r = urllib.parse.urlparse(url) print(r) # getパラメーターを除去する print(r.scheme+':/'+r.netloc+r.path)
参考:https://qiita.com/yagays/items/e59731b3930252b5f0c4
コメント