スクレイピング

Webドキュメントから情報抽出するための技術まとめ

この記事は約3分で読めます。

 

前回は、HTMLなどのWeb上におけるデータの表示構造の種類についてまとめました。

 

 

WEB上でデータを配信技術のまとめ(http・HTML・XML・AJAX・JSON)

 

 

今回はそのWebデータから文字やリンク・表といった情報を抽出する技術について見ていきます。

 

 

xpath

 

『XPath』とは、HTMLやXMLなどのマークアップドキュメントから特定の情報を抽出するための技術です。

 

Webスクレイピングしたデータを分析するにあたってはWebドキュメントを収集することも重要ですが、その収集したデータを構造化し見やすい形に成型するというプロセスが必須です。

 

そのための技術として『XPath』はとても重要と言えます。

 

 

 

JSONパーサ

 

 HTMLやXMLと異なり、Twitterなどで使われているJSON形式のドキュメントはデータ量が少ないため解析しやすいです。

 

 

 

正規表現

 

 Webスクレイピングにおける関門の一つが、収集した大量にWebデータから自分の分析課題に沿ったデータを抽出することです。

 

データ抽出は、上述したXPathを使って抽出するのが一般的ですが、もう少し小さい単位の情報に注目して抽出したい場合は、規則的な要素(数詞や名前など)に注目して抽出することもあります。

 

 

こうした規則的な要素を抽出するために使われる技術が『正規表現』と言われるものです。

 

『正規表現』とはテキスト中において繰り返し使用されるような表現を特定するための抽象的文字列です。

 

必要とする情報がWebドキュメント内に散らばっていた場合マークアップ言語のXPathだけでは抽出するのが困難な場合があり、こういうときに正規表現で抽出するというやり方が有効になります。

 

 

テキストマイニング

 

テキストデータを正規表現やHTMLのタグに基づいて抽出するだけではなく、単語の使われた方などで抽出する技術の総称をテキストマイニングと言います。

 

これは非構造化データなどにおいてとても有効な分析手法になります。

 

 

 

SQL

 

 Amazonや楽天などのオンラインショッピング、銀行振り込みなど私たちが今尾ネット社会で何気なく利用しているサービスの背後には、データベースの存在の存在があります。

 

サービスの恩恵を享受する側だとデータベースの存在がどれだけ重要かというのがイマイチピンときませんが、データベースはWebサービスを成立させる上においてなくなてはならない存在だと言えます。

 

そしてデータ収集という点においても、データを個々に集める場合やオンライン上で共同作業する場合など、データはまとめて保存されていた方が都合がいいので、収集したデータをまとめてデータベースとして構築しておくことが多いです。

 

そしてこのデータベースの操作において使われる言語がSQLです。これは今の社会では必須の技術だと言えます。

 

 

 

 

 

 

 

 

 


プログラミング・スクレイピングツール作成の相談を受け付けています!

クラウドワークス・ココナラ・MENTAなどでPython・SQL・GASなどのプログラミングに関する相談やツール作成などを承っております!

過去の案件事例:

  • Twitter・インスタグラムの自動化ツール作成
  • ウェブサイトのスクレイピングサポート
  • ダッシュボード・サイト作成
  • データエンジニア転職相談

これまでの案件例を見る

キャリア相談もお気軽に!文系学部卒からエンジニア・データサイエンティストへの転職経験をもとに、未経験者がどう進むべきかのアドバイスを提供します。


スポンサーリンク
/* プログラミング速報関連記事一覧表示 */
ミナピピンの研究室

コメント

タイトルとURLをコピーしました