Pythonによる自然言語処理①～janomeを使ってテキストから名詞を抽出する

Contents

・文字データの辞書ベクトル化

データは論ウィットさんが提供してくれているライブドアニュースコーパスを使用します。

!pip install janome

$pip install janome

インストールが終わったらまずは適当にテキストファイルを選んで、janomeで形態素解析してみましょう。テキストデータの前処理として今回は形態素解析を行っていきたいと思います

#ライブラリの読み込み

from janome.tokenizer import Tokenizer

from janome.analyzer import Analyzer
from janome.tokenfilter import POSKeepFilter
from janome.tokenfilter import *

import re
import os
import pandas as pd

#．txtの読み込み
data =’坂上さん、今日はいい天気ですね’

#pd.read_table(‘it-life-hack-6294340.txt’,sep=’,’,encoding=’UTF-8′)

#インスタンスの作成
t=Tokenizer()

token_filters=[POSKeepFilter([‘名詞’])]
a=Analyzer([],t,token_filters)

これで形態素解析ができました。