テキストデータ(自然言語)の前処理でよくやること
- 分かち書き
- URL,スペース,句読点,
記号などのノイズ削除 - 改行の排除
・文字データの辞書ベクトル化
自然言語のテキストデータを用意する
データは論ウィットさんが提供してくれているライブドアニュースコーパスを使用します。
ダウンロード - 株式会社ロンウイット
DOWNLOADS
janomeのインストール
!pip install janome
$pip install janome
janomeでテキストデータを前処理してみる(形態素解析)
インストールが終わったらまずは適当にテキストファイルを選んで、janomeで形態素解析してみましょう。テキストデータの前処理として今回は形態素解析を行っていきたいと思います
#ライブラリの読み込み
from janome.tokenizer import Tokenizer
from janome.analyzer import Analyzer
from janome.tokenfilter import POSKeepFilter
from janome.tokenfilter import *
import re
import os
import pandas as pd
#.txtの読み込み
data =’坂上さん、今日はいい天気ですね’
#pd.read_table(‘it-life-hack-6294340.txt’,sep=’,’,encoding=’UTF-8′)
#インスタンスの作成
t=Tokenizer()
token_filters=[POSKeepFilter([‘名詞’])]
a=Analyzer([],t,token_filters)
これで形態素解析ができました。
コメント