R スクレイピング

WEB上でデータを配信技術のまとめ(http・HTML・XML・AJAX・JSON)

この記事は約3分で読めます。

 

 

 

HTML

 

 GooglechromeやFirefoxなどのインターネットブラウザでWebページを表示する際、その情報をどのようにして書くのかという構造基準が存在しています。

 

これがハイパーテキストマークアップ言語、いわゆる『HTML』というやつです。

 

これはWikipediaからTwitter・無料ブログにまで幅広く使われているもので、私たちがインターネットサーフィンを行う上で欠かせない技術です。

 

 

【Web技術】スクレイピングする上で抑えておきたいHTMLの基本的な仕組み

 

 

 

XML

 

 XMLは拡張マークアップ言語のことで、Web上でデータを配信するための標準的な技術です。

 

HTMLがWEB上のデータを見栄え良く表示するのに長けたものであるのに対して、『XML』は決められたタグに従ってデータを保存することに長けたフォーマットです。

 

XMLはユーザーがタグを自由に定義できるため、データ保存という点ではHTMLより優れていると言えます。

 

ウェブスクレイピングをする上においてXMLの理解は必須と言えます。

 

【Web技術】XMLとは何なのか? – 暇人の研究室

【R言語】XMLパッケージでWebスクレイピングしてみる

 

 

 

JSON

 

 JSON(Java Script Object Notation)はXMLと同じようにWeb上におけるデータ保存フォーマットの一つです。

 

現在のインターネット界隈では、『XML』と『JSON』がテキストデータ保存における標準フォーマットになっています。

 

『JSON』はRえおはじめとしてプログラミング言語との相性がいいことからWeb開発者から一定の支持を得ています。

 

ちなみにTwitterはJSONを使っているので、Twitterのテキストデータをスクレイピングしてテキストマイニングやトレンド分析を行う場合は『JSON』の理解が必須と言えるでしょう。

 

 

 

HTTP

 

 Webから情報を習得するためには端末とサーバー間で通信を行うことが必要です。この通信において使われる言語が、『HTTP』(ハイパーテキスト転送プロトコル)です。

 

つまりHTMLやXMLで表現されたWEBページは全てHTTPによって配信されています。

 

Webページのアドレスは、みんな『http:/~』から始まるようにhttpはインターネットにおいて当たり前の配信技術になっています。

 

ですが、これはコンピュータ側が勝手に処理しているので、私たちユーザーが気に掛ける必要はあまりないと思います。

 

 

 

 

 

 

 

AJAX

 

 AJAXは生放送などのリアムタイムデータ配信において表示を動的に変化させる必要のあるコンテンツによく使われる最新Webテクノロジーです。

 

 

 

 


プログラミング・スクレイピングツール作成の相談を受け付けています!

クラウドワークス・ココナラ・MENTAなどでPython・SQL・GASなどのプログラミングに関する相談やツール作成などを承っております!

過去の案件事例:

  • Twitter・インスタグラムの自動化ツール作成
  • ウェブサイトのスクレイピングサポート
  • ダッシュボード・サイト作成
  • データエンジニア転職相談

これまでの案件例を見る

キャリア相談もお気軽に!文系学部卒からエンジニア・データサイエンティストへの転職経験をもとに、未経験者がどう進むべきかのアドバイスを提供します。


スポンサーリンク
/* プログラミング速報関連記事一覧表示 */
ミナピピンの研究室

コメント

タイトルとURLをコピーしました