Python データ分析 自然言語処理

Pythonによる自然言語処理①~janomeを使ってテキストから名詞を抽出する

この記事は約2分で読めます。

 

 テキストデータ(自然言語)の前処理でよくやること

 

  • 分かち書き
  • URL,スペース,句読点,
    記号などのノイズ削除
  • 改行の排除

・文字データの辞書ベクトル化

 

 

自然言語のテキストデータを用意する

 

 

データは論ウィットさんが提供してくれているライブドアニュースコーパスを使用します。

 

 

ダウンロード - 株式会社ロンウイット
DOWNLOADS

 

 

janomeのインストール

 

!pip install janome

$pip install janome

 

 

janomeでテキストデータを前処理してみる(形態素解析)

 

 

インストールが終わったらまずは適当にテキストファイルを選んで、janomeで形態素解析してみましょう。テキストデータの前処理として今回は形態素解析を行っていきたいと思います

 

 

#ライブラリの読み込み

from janome.tokenizer import Tokenizer

from janome.analyzer import Analyzer
from janome.tokenfilter import POSKeepFilter
from janome.tokenfilter import *

import re
import os
import pandas as pd

 

#.txtの読み込み
data =’坂上さん、今日はいい天気ですね’

 

#pd.read_table(‘it-life-hack-6294340.txt’,sep=’,’,encoding=’UTF-8′)

 

#インスタンスの作成
t=Tokenizer()

token_filters=[POSKeepFilter([‘名詞’])]
a=Analyzer([],t,token_filters)

 

 

 

これで形態素解析ができました。

 

 


プログラミング・スクレイピングツール作成の相談を受け付けています!

クラウドワークス・ココナラ・MENTAなどでPython・SQL・GASなどのプログラミングに関する相談やツール作成などを承っております!

過去の案件事例:

  • Twitter・インスタグラムの自動化ツール作成
  • ウェブサイトのスクレイピングサポート
  • ダッシュボード・サイト作成
  • データエンジニア転職相談

これまでの案件例を見る

キャリア相談もお気軽に!文系学部卒からエンジニア・データサイエンティストへの転職経験をもとに、未経験者がどう進むべきかのアドバイスを提供します。


スポンサーリンク
/* プログラミング速報関連記事一覧表示 */
ミナピピンの研究室

コメント

タイトルとURLをコピーしました