【Python】BeautifulSoupでスクレイピングしたhtmlが文字化けしたときの解消法

Beautiful Soup

2022.09.11 2021.06.24

この記事は約2分で読めます。

こんにちは、ミナピピン(@python_mllover)です。この前案件で某ECのサイトの商品情報をスクレピングしていたのですが、いつも通りのやり方でスクレピングするとテキストが文字化けしていました。

import requests
from bs4 import BeautifulSoup 

res = requests.get('https://www.monotaro.com/g/04100001/')
soup = BeautifulSoup(res.text, 'lxml') #要素を抽出

文字化けの解決方法

res.contentを渡す

res = requests.get('https://www.monotaro.com/g/04100001/')
soup = BeautifulSoup(res.content, 'lxml') #要素を抽出

BeautifulSoupで指定するテキストデータをr.textではr.contentにすることで大体治る気がします。他にも文字コードをutf-8指定するみたいな方法もあるみたいなのですが、今回は試しても効果はありませんでした。あとは’lxml’の部分を’html.parser’に変更するなどもあります