【Python】ファイル書き出し時に起こる「’cp932′ codec can’t encode character」の解消法

PythonでツイッターのAPIを用いてツイートデータをスクレイピングして形態素解析を行っていたところ以下のようなエラーに遭遇しました。

<作業環境>

  • Windows10
  • Jupyterlab
  • Python3.7

cp932 codec can't encode character '\u014d'in position6: ilegal multibyte 
sequence

解決方法としては、エンコードの際の文字コードをutf-8に指定する、エラーを無視するの2通りが存在します。

スクレイピング対象となるページは、ページによって様々な文字コードで作られていますが、そのままでは扱いづらいので、まずこれをデコードして Python 内部の Unicode 文字列表現に揃えてやります

これを行っているのが.requestsのtext属性にアクセスするres.textの部分です。

# 受信したバイト列をデコードして文字列にする
res = res.text

このテキストを writer.writerow([name])やで書き出すわけですが、Pythonでtxtやcsvファイルに書き出す時には Python の内部表現をそのまま書き出すわけにはいきませんので、何らかの文字コードでエンコードし、バイト列にしてから書いてやることになります。

この時 Python 3 はデフォルトの文字コードとして 実行している OS の言語環境の文字コード を選択してしまいます。そして日本語の Windows では、その文字コードは CP932 と呼ばれるものになっています。

CP932 というのは、要は Shift_JISのことです、 CP932 は日本語用の文字コードなので、英語でよく使われるUnicode文字をエンコードしようとするとエンコードエラーを起こします。

こういった場合の対処法として恐らく一番良いのはエラーの対象になっている文字をきちんと表現できる文字コードを指定することで、open()関数に encoding='utf-8' というキーワード引数を加えることで解決します。

またエラーを無視するのも策の1つでOpen関数にerrors='ignore'というキーワード引数を加えることでも解決します。

終わり

MACやLINUXがUTF-8であるのに対して、日本で発売されているWindowsの文字コードはCP932なので、同じコードでもMACやLINUX環境で書かれた内部でエンコードで行っている系のプログラムをそのままコピペして実行しようとすると文字コードの関係でエラーになることがあるので注意しましょう。

プログラミングの独学はとても難しい


プログラミングは小学校の義務教育にも導入され始めており、これから社会人として生きていく上でプログラミングはもはや出来て当たり前、出来なれば論外というエクセルレベルの必須スキルになりつつあります。そしてそういう話を聞いて参考書なりを購入して独学でプログラミング勉強しようと思っている人も少なくないでしょう。しかしプログラミングを独学で勉強し始めようと思うものの



・「分からない箇所で詰まって挫折してしまった」

・「勉強する時間が足りない」

・「ネットの記事だと情報が断片的でよくわからない」

・「コードのエラーの原因が分からない」



という壁にぶち当たって、プログラミングの勉強を止めてしまう方が少なくありません。独学でプログラミングを勉強してる時間のほとんどはつまづいている時間です。実際僕も最初のころ独学でプログラミングを勉強していた頃はエラーの原因が分からず丸1日を不意にしてしまった・・・そんな苦い経験がありました。それで僕は一度はプログラミングの学習を諦めてしまいましたが、就活で現実を知る中で



「プログラミングを勉強して、いずれフリーランスとして自由な生き方がしたい」

「エンジニアとして若いうちから高収入を得たい」



という強い気持ちから一念発起して「侍エンジニアのwebサービスコース」に申し込み、プロのエンジニアの方に対面でマンツーマンでPythonによるWebサービス作り方とWeb技術の基本を教えてもらい、ようやくプログラミングが理解でき、今ではエンジニアとしてそこそこの暮らしができるようになりました。





侍エンジニアでは、とりあえずプログラミングやインターネットの基本を知っておきたい人から、HTML・cssなどでWebサイトやWebアプリを作ってみたい人やPythonを勉強してデータサイエンティストやAIエンジニアになりたい人まで幅広いニーズに応えた様々なコースが用意されています。



IT業界と言ってもエンジニアの仕事はプログラミング言語次第でサーバーから機械学習・ディープラーニングまで多種多様ですし、侍エンジニアの無料レッスン(カウンセリング)を受けてみて、自分のやりたいITの仕事は何なのか?を見つけるのがエンジニアへの第一歩になります。ちなみに今侍エンジニアの無料レッスンを受けると1000円分のAmazonギフト券がもらえるので、試しに受けてみるだけもお得です。


自分は半端に独学やオンラインスクールで勉強して金と時間を無駄にするくらいなら、リアルのプログラミングスクールに通ってしっかりプログラミングを勉強した方がいいと思います。ちなみに今、侍エンジニアに申し込むと、25歳以下の学生の方であれば、受講料が20%OFFになるので超お得です。


そして、プログラミングは大勢で授業を受けたり漫然とオンライン学習をするよりも自分が分からない箇所をピンポイントでプロの講師に直接質問して、ちゃんと納得するというスタイルの方がお金は確かに少し掛かりますが、独学で学ぶよりも絶対にモノになります。


シェアする

  • このエントリーをはてなブックマークに追加

フォローする

   侍エンジニア塾       
侍エンジニアの無料体験レッスンを予約する -->