スポンサーリンク

Webドキュメントから情報抽出するための技術まとめ

 

前回は、HTMLなどのWeb上におけるデータの表示構造の種類についてまとめました。

 

 

WEB上でデータを配信技術のまとめ(http・HTML・XML・AJAX・JSON)

 

 

今回はそのWebデータから文字やリンク・表といった情報を抽出する技術について見ていきます。

 

 

xpath

 

『XPath』とは、HTMLやXMLなどのマークアップドキュメントから特定の情報を抽出するための技術です。

 

Webスクレイピングしたデータを分析するにあたってはWebドキュメントを収集することも重要ですが、その収集したデータを構造化し見やすい形に成型するというプロセスが必須です。

 

そのための技術として『XPath』はとても重要と言えます。

 

 

 

JSONパーサ

 

 HTMLやXMLと異なり、Twitterなどで使われているJSON形式のドキュメントはデータ量が少ないため解析しやすいです。

 

 

 

正規表現

 

 Webスクレイピングにおける関門の一つが、収集した大量にWebデータから自分の分析課題に沿ったデータを抽出することです。

 

データ抽出は、上述したXPathを使って抽出するのが一般的ですが、もう少し小さい単位の情報に注目して抽出したい場合は、規則的な要素(数詞や名前など)に注目して抽出することもあります。

 

 

こうした規則的な要素を抽出するために使われる技術が『正規表現』と言われるものです。

 

『正規表現』とはテキスト中において繰り返し使用されるような表現を特定するための抽象的文字列です。

 

必要とする情報がWebドキュメント内に散らばっていた場合マークアップ言語のXPathだけでは抽出するのが困難な場合があり、こういうときに正規表現で抽出するというやり方が有効になります。

 

 

テキストマイニング

 

テキストデータを正規表現やHTMLのタグに基づいて抽出するだけではなく、単語の使われた方などで抽出する技術の総称をテキストマイニングと言います。

 

これは非構造化データなどにおいてとても有効な分析手法になります。

 

 

 

SQL

 

 Amazonや楽天などのオンラインショッピング、銀行振り込みなど私たちが今尾ネット社会で何気なく利用しているサービスの背後には、データベースの存在の存在があります。

 

サービスの恩恵を享受する側だとデータベースの存在がどれだけ重要かというのがイマイチピンときませんが、データベースはWebサービスを成立させる上においてなくなてはならない存在だと言えます。

 

そしてデータ収集という点においても、データを個々に集める場合やオンライン上で共同作業する場合など、データはまとめて保存されていた方が都合がいいので、収集したデータをまとめてデータベースとして構築しておくことが多いです。

 

そしてこのデータベースの操作において使われる言語がSQLです。これは今の社会では必須の技術だと言えます。

 

 

 

 

 

 

 

 

 

スポンサーリンク

プログラミングの独学はとても難しい


プログラミングは小学校の義務教育にも導入され始めており、これから社会人として生きていく上でプログラミングはもはや出来て当たり前、出来なれば論外というエクセルレベルの必須スキルになりつつあります。そしてそういう話を聞いて参考書なりを購入して独学でプログラミング勉強しようと思っている人も少なくないでしょう。しかしプログラミングを独学で勉強し始めようと思うものの



・「分からない箇所で詰まって挫折してしまった」

・「勉強する時間が足りない」

・「ネットの記事だと情報が断片的でよくわからない」

・「コードのエラーの原因が分からない」



という壁にぶち当たって、プログラミングの勉強を止めてしまう方が少なくありません。独学でプログラミングを勉強してる時間のほとんどはつまづいている時間です。実際僕も最初のころ独学でプログラミングを勉強していた頃はエラーの原因が分からず丸1日を不意にしてしまった・・・そんな苦い経験がありました。



それで僕は一度はプログラミングの学習を諦めてしまいましたが、就活で現実を知る中で「プログラミングを勉強して、いずれフリーランスとして自由な生き方がしたい」「エンジニアとして若いうちから高収入を得たい」という気持ちから一念発起して「侍エンジニアのwebサービスコース」に申し込み、プロのエンジニアの方に対面でマンツーマンでPythonによるWebサービス作り方とWeb技術の基本を教えてもらい、ようやくプログラミングが理解でき、今ではエンジニアとしてそこそこの暮らしができるようになりました。





侍エンジニアでは、とりあえずプログラミングやインターネットの基本を知っておきたい人から、HTML・cssなどでWebサイトやWebアプリを作ってみたい人やPythonを勉強してデータサイエンティストやAIエンジニアになりたい人まで幅広いニーズに応えた様々なコースが用意されています。



IT業界と言ってもエンジニアの仕事はプログラミング言語次第でサーバーから機械学習・ディープラーニングまで多種多様ですし、侍エンジニアの無料レッスン(カウンセリング)を受けてみて、自分のやりたいITの仕事は何なのか?を見つけるのがエンジニアへの第一歩になります。ちなみに今侍エンジニアの無料レッスンを受けると1000円分のAmazonギフト券がもらえるので、試しに受けてみるだけもお得です。


自分は半端に独学やオンラインスクールで勉強して金と時間を無駄にするくらいなら、リアルのプログラミングスクールに通ってしっかりプログラミングを勉強した方がいいと思います。ちなみに今、侍エンジニアに申し込むと、25歳以下の学生の方であれば、受講料が20%OFFになるので超お得です。


そして、プログラミングは大勢で授業を受けたり漫然とオンライン学習をするよりも自分が分からない箇所をピンポイントでプロの講師に直接質問して、ちゃんと納得するというスタイルの方がお金は確かに少し掛かりますが、独学で学ぶよりも絶対にモノになります。


シェアする

  • このエントリーをはてなブックマークに追加

フォローする