自然言語処理が簡単にできる「nlplot」でツイートデータを可視化・分析する

今回は業務でツイッターAPIを用いてツイートデータを収集して「nlplot」というライブラリでワードクラウドや共起ネットワークの作成みたいな自然言語処理を少し試してみたので忘れないようにメモしておきます。

Contents

前準備
- 必要なライブラリのインストール
- ツイートデータをスクレイピングする

Pythonでの自然言語処理
- 終わり

前準備

必要なライブラリのインストール

今回使用するライブラリは「nlplot」「Tweepy」「Mecab」の3つです

nlplot

# ライブラリのインストール
$ pip install nlplot==1.6.0

バージョンでメソッドの書き方が変わっているのでバージョンを固定していますが、依存性が多いライブラリなので動かない場合は最新バージョンをインストールしたほうがいいと思います

詳しい話についてはライブラリの作成者さんのサイトを参考にしてください

Tweepy

$ pip install tweepy --upgrade

Mecab

インストールしていない方は以下のコマンドでインストールしてください

$ pip install mecab-python3

参照：Google ColaboratoryにMecabをインストールして形態素解析を行うサンプルコード

ツイートデータをスクレイピングする

まずは分析の元になるツイートデータをTwitterAPIを用いたスクレイピングにて取得します。

今回はTwitterAPI2.0を用いています。

API鍵の種類のあれこれとかツイートデータのスクレイピングについて下記記事参照

参照：【Python】TwitterAPI V2のBearer tokenを使ってツイート検索をしてみる

ちなみにですが、無料のAPI鍵だと過去10日間しか遡れない&検索数に上限があるので、全期間や過去30日間のツイートについては有料APIが必要になります。

参照：【Python】TwitterのAPIを使って過去全期間のツイートをスクレイピング


import tweepy
from datetime import datetime
from datetime import timedelta
import json
import requests
import traceback
import os
import pandas as pd

print(f'tweepyのバージョンは{tweepy.__version__}です')

consumer_key = 'xxxx'
consumer_secret = 'xxxx'
access_token = 'xxxx'
access_token_secret = 'xxxx'

#APIインスタンスの作成
client = tweepy.Client(bearer)
api = tweepy.Client(None, consumer_key, consumer_secret, access_token, access_token_secret)

# ツイート取得
data = []

for tweet in tweepy.Paginator(client.search_recent_tweets, query='ワンピース 映画 lang:ja -is:retweet',
    expansions='author_id',max_results=100).flatten(limit=500):
    data.append(tweet.data['text'])

df=pd.DataFrame(data, columns=['data'])
df

<実行結果>

Pythonでの自然言語処理

Mecabで形態素解析して名詞を取り出す

まずは取得したテキストデータをMecabで形態素解析します。本記事はColabでMecabの環境構築が完了している前提で進めていますが、もし環境構築難しい場合はGoogle Natural Language APIなどで代用可能です。

def mecab_text(text):
    ng_word = ['https', '/','t', 'co','://','.','#',':','こと','さん','ちゃん']
    #MeCabのインスタンスを作成（辞書はmecab-ipadic-neologdを使用）
    mecab = MeCab.Tagger('')
    
    #形態素解析
    node = mecab.parseToNode(text)
    
    #形態素解析した結果を格納するリスト
    wordlist = []
    
    while node:
        #名詞のみリストに格納する
        if node.feature.split(',')[0] == '名詞':
            try:
              if node.surface not in ng_word:
                try:
                  int(node.surface)
                except:
                  if len(node.surface) > 1:
                    wordlist.append(node.surface)
            except:
              wordlist = []
        #他の品詞を取得したければ、elifで追加する
        #elif node.feature.split(',')[0] == '形容詞':
        #    wordlist.append(node.surface)
        node = node.next
    return wordlist

#形態素結果をリスト化し、データフレームdf1に結果を列追加する
df['words'] = df['text'].apply(mecab_text)

#表示
df

<実行結果>

実行するとデータフレームに新たにwordsという列が作成され、そこに形態素解析したものの中で名詞と判定されたものがリストで格納されます。これでデータが前処理ができたのでいよいよこのツイートデータを自然言語処理で可視化していきます。

頻出単語の可視化

まずは頻繁に出てきたワードを可視化します。

import nlplot

npt = nlplot.NLPlot(df, target_col='words')

# top_nで頻出上位単語, min_freqで頻出下位単語を指定できる
# ストップワーズは設定しませんでした。。。
stopwords = npt.get_stopword(top_n=0, min_freq=0)

npt.bar_ngram(
    title='uni-gram',
    xaxis_label='word_count',
    yaxis_label='word',
    ngram=1,
    top_n=50,
    stopwords=stopwords,
)

<実行結果>

ツリーマップで見せたい場合は以下のように記述します

npt.treemap(
    title='Tree of Most Common Words',
    ngram=1,
    top_n=30,
    stopwords=stopwords,
)

<実行結果>

単語数の分布を確認したい場合は以下のように記述します。

# 単語数の分布
npt.word_distribution(
    title='number of words distribution',
    xaxis_label='count',
)

<実行結果>

ワードクラウドの作成

# ワードクラウドを出力する
npt.wordcloud(
    max_words=100,
    max_font_size=100,
    colormap='tab20_r',
    stopwords=stopwords,
)

これでグラフが表示されない場合は以下のコマンドを追加してみてください

%matplotlib inline
plt.figure(figsize=(10, 15))
plt.imshow(fig_wc, interpolation="bilinear")
plt.axis("off")
plt.show()

<実行結果>

共起ネットワークの作成

#共起ネットワーク図作成
# ビルド（データ件数によっては処理に時間を要します）※ノードの数のみ変更
npt.build_graph(stopwords=stopwords, min_edge_frequency=10)

display(
    npt.node_df.head(), npt.node_df.shape,
    npt.edge_df.head(), npt.edge_df.shape
)

npt.co_network(
    title='Co-occurrence network',
)

上記でグラフが出力されない場合は以下を試してみてください

#共起ネットワーク図作成
#iplotをインポートして使えば結果が表示される
from plotly.offline import iplot

# ビルド（データ件数によっては処理に時間を要します）
npt.build_graph(stopwords=stopwords, min_edge_frequency=2)

# ビルド後にノードとエッジの数が表示される。ノードの数が100前後になるようにするとネットワークが綺麗に描画できる
#>> node_size:63, edge_size:63

fig_co_network = npt.co_network(
title='Co-occurrence network',
sizing=100,
node_size='adjacency_frequency',
color_palette='hls',
width=1100,
height=700,
save=False
)
iplot(fig_co_network)

<実行結果>

感情度の可視化

npt.sunburst(
    title='All sentiment sunburst chart',
    colorscale=True,
    color_continuous_scale='Oryel',
    width=800,
    height=600,
    save=True
)

<実行結果>

終わり

こんな感じで「nlplot」を使うことで関数1つで様々なグラフのプロットが可能なので非常に便利です。