Thinking Simple Blog

役立つ情報とスポーツをビジネスの観点から

移転しました。

約5秒後に自動的にリダイレクトします。

【初心者におすすめ】データ分析に使えるデータセット


スポンサードリンク

データ分析イメージ(タイトル)

 

f:id:bee-dog:20210219154335j:plain

本記事では、書籍で学んだ内容をデータ分析の勉強に利用可能なおすすめのデータセットを紹介します。書籍で基本を学んだ後は、実践的なデータを利用して更に理解を深めましょう!

基礎的な知識が身についた所で、身近なデータを利用してデータ分析の練習をすることでより深く理解することが出来ます。

f:id:bee-dog:20210221171727j:plain

でも、データ分析に使えそうなデータってどこにあるのかな?

 

f:id:bee-dog:20210219154335j:plain

政府や研究機関などが公開しているオープンデータというものが使えるよ

 

身近に関係することでデータの中身のイメージもしやすいので、仮説を考えやすくなります。

 

おすすめの書籍は、こちらで紹介しています。参考にしてみて下さい。

 

データ分析学習用に使いやすいデータ

総務省統計局 家計調査データ

お金の話はみなさん興味も沸くし、イメージしやすいですよね。

このデータは、全国約9千世帯を対象として、家計の収入・支出、貯蓄・負債などを毎月調査しているデータです。

様々な切り口でのデータが公開されていますので、選択してダウンロードしてみて下さい。

例えば、世帯の年収別に購入している内容を調査したデータがあります。
世帯年収別の傾向分析や過去と比較すると色々な分析が出来そうです。

こちらのサイトから入手可能です。

ダウンロード先

www.e-stat.go.jp※階層が深いので、2020年12月のデータをリンクしています。
 2020年12月以外で分析したい人は、「調査年月を選択へ戻る」から変更して下さいね。

国土交通省 幹線鉄道旅客流動実態調査

国土交通省が5年に1度実施している鉄道による人の流れの調査です。

何県から何県に、誰とどんな目的で鉄道に乗車したかを調査したデータです。

平成22年と平成27年のデータがありますから、過去との比較もしやすいです。

扱う情報が人にの移動のみとシンプルなのでRの使い方・分析の方法に集中したい人にとってはおすすめです。

こちらのサイトから入手可能です。

ダウンロード先

www.mlit.go.jp

※画面下の方の「調査の結果」からデータの取得が可能です。

警察庁 犯罪統計

警察庁が毎月発表している発生した犯罪をまとめたデータです。

犯罪の種類や県別など、様々なデータが含まれています。

毎年、公表されているデータなので年別比較なども可能です。

こちらのサイトから、入手可能です。

ダウンロード先

www.e-stat.go.jp

※画面真ん中の「統計表」からデータの取得が可能です。

 

身近なデータで分析しやすいものを選定しました。

国や地方自治体からも、様々なデータが公開されています。

 

データ数がそれなりの量(1000件程度まで)あり、直感的に理解できるようなデータが最初はおすすめです。

データ分析をする前に

f:id:bee-dog:20210221173338j:plain

データも揃ったし、早速データ分析始めよう!

f:id:bee-dog:20210219154335j:plain

ちょっと待って、ダウンロードしたデータをそのままデータ分析で利用することはできないんだ

ダウンロードしたデータは、料理に例えるなら具材です。

データ分析は、調理に当たります。

この具材を調理できる状態にするには、事前の準備が必要なのです。

 

f:id:bee-dog:20210222072305p:plain


データ分析で利用したい内容をイメージしながら、扱いやすい形にデータを整える必要があります。

これをデータ分析の世界では、前処理と言います。

前処理でやっておくべきこと

データ分析の手法が注目されがちなのですが、前処理も重要です。
前処理は、時間も手間もかかりますが、どれだけ準備できたかによって、この後の工程の質も変わってくるのです。

丁寧に前処理しておけば、データ分析が効率的にできるようになります。

前処理で実施することは、分析する内容によっても異なりますが、主に次のようなものがあります。

 

本日のまとめ
  • 不要な行と列の削除
    分析対象から外れるレコードや分析に利用しない列は除外します。
  • 重複列の削除
    同じデータが複数存在する場合には削除、又は番号を振ります。
  • データの型違反
    数字の項目に文字があるなど、型が混在している場合は整理します。
  • 欠損値の対応
    データが存在せず、NAとなっているセルの取り扱いを検討します。
  • 不足項目の追加
    分析で使用したい項目が足りない場合は、データを追加します。
  • データの分割
    日付に曜日が含まれている場合などは、項目を分割します。
    【例】2021/02/23(火) → 「2021/02/23」と「火」に項目を分けます。 

慣れないうちは、前処理とデータ分析を行ったり来たりするかもしれませんが、徐々にやるべきことが整理されていきます。

データ分析を今すぐ始めたい方に

せっかく、データ分析を勉強したから、先ずはデータ分析をしたいという方には、私が学習で利用しているJリーグのデータ提供を行っていますので、こちらもご参考下さい。

2010年~2021年の過去11年分の試合に関するデータ(10,075試合)を、RPAという自動処理のツールを使ってJリーグ公式サイトから収集しました。

データ分析を行いやすいように前処理もしています。

note.com

収集したデータ分析に関する内容も、順次こちらで説明しています。

bee-dog.hatenablog.com