【R言語】rvestによるWebスクレイピングのやり方①

Contents

R言語でのwebスクレピング
Rvestのインストールと読み込み
RvestでHTMLデータを取得する
取得したhtmlデータから特定のノードを抽出する
取得したHTMLからリンクを抽出する

まとめ

R言語でのwebスクレピング

R言語で実際にウェブ上のHTML・XML形式のデータを取得するwebスクレイピングを行う際には、「rvest」というパッケージがオススメです。

rvestパッケージは、HTMLやXMLからデータを検索・抽出するための言語であるxpath（XML Path Language）をRで簡単に実行するために作られたパッケージで、このrvestによってr言語でWebサイトの情報を取得(スクレイピング)できるようになると共にその取得した情報の整理が簡単に行えるようになります。

ミナピピンの研究室

【Web技術】スクレイピングする上で抑えておきたいHTMLの基本的な仕組み

https://tkstock.site/2017/04/21/2017-04-21-173741

近頃はビックデータの時代でデータ集めや分析が簡単になりました。そしてデータの収集先で一番多いのがインターネットです。インターネットからデータを集める方法の１つとしてサイトの情報をそのまま引っ張ってくるスクレイピングというものがあります。そしてスクレイピングを行うためには、まずWEBページの仕組みについて理解しておかなければなりません。ですが、HTMLについて知らなければデータを引っ張って来ても扱い方が全然わからないということになります。（私がそうでした）なので、今回はHTMLについてざっくり見てい...

Rvestのインストールと読み込み

＃Rvestのインストールの読み込み
>install.packages("rvest")
>library(rvest)

RvestでHTMLデータを取得する

まず例として簡単なHTMLで構成されたwebサイト（https://ishidamotohiro.github.io/sample_check/simple.html）を読み込みます。

アクセスすれば分かりますが、なんか仕込んでるのか疑うレベルの本当に単純なやつです。では実際にこのサイトのHTMLを収集します。rvestパッケージでは「read_html()」という関数でwebサイトのHTMLデータを取得できます。そして、収集したデータをsimpleというオブジェクトに保存します。

#https:～simple.htmlのデータをsimpleという変数に保存する

> simple 
<- read_html("https://IshidaMotohiro.github.io/sample_check/simple.html")

これでサイトのデータ取得できたはずなので、オブジェクトにアクセスして確認してみます。

> simple
{xml_document}
<html>
[1] <head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF ...
[2] <body>\n <h1>大見出し</h1>\n <a href="http://www.okadajp.org/RWiki/"> ...

Rのデータってサンプルデータみたいな行列で区切られたデータが一般的なので、ちょっと意味が分からないというのが初めて見た感想だと思いますが、これはHTMLをツリー状で表現するDOMという形式で保存されています。そしてDOM内の要素をノードと言います。

例

html

↓

→head

　　→title（ページタイトル）

→body

　　→h1（見出し）

取得したhtmlデータから特定のノードを抽出する

それではRを使ってノード（要素）を検索していきます。rvestパッケージでは「html_nodes()」という関数でノードの検索・抽出ができます。またDOMの操作には、dplyrパッケージをインストールすると使えるパイプ演算子（%<%）が便利です。

ミナピピンの研究室

【R言語】dplyrパッケージの使い方

https://tkstock.site/2017/04/21/2017-04-21-170903

今回はRでデータ処理を効率的に行うのを手助けしてくれるパッケージの一つであるdplyrパッケージの使い方を紹介していきます。この記事ではざっくりとした説明で、詳しく知りたい方はこちらの本に書いてあるので是非どうぞ Rによるスクレイピング入門石田基広,市川太祐,瓜生真也,湯谷啓明シーアンドアール研究所 AmazonKindle楽天ブックスパッケージのインストールと読み込み>install.packages("dplyr")>library(dplyr) www.dmjtmj-stock.com 内臓データの呼び出し> head(ToothGrowth) len supp dose1 ...

まず見出し要素(h1)を抽出してみます。

> simple %>% html_nodes("h1")
{xml_nodeset (1)}
[1] <h1>大見出し</h1>

タグを抜いて文字列だけを抽出したい場合は、「html_text()」関数を使います。

> simple %>% html_nodes("h1") %>% html_text() 
[1] "大見出し"

取得したHTMLからリンクを抽出する

次にリンクを抽出します。リンクはノード内では<a=href~”リンクURL”>リンクタイトル</a>という形で保存されており、これを取り出すには「html_attrs()」という関数を使います。

> simple %>% html_nodes(“a”) %>% html_attrs()
1
href
“http://www.okadajp.org/RWiki/“

2
href target
“http://rmecab.jp” “_blank”

>
> simple %>% html_nodes(“a”) %>% html_attr(“href”)
[1] “http://www.okadajp.org/RWiki/” “http://rmecab.jp”
>