type
status
date
slug
summary
tags
category
icon
password
书籍
📘 統計学とは
📘【統計学の定義】
■ 統計学の目的
- データの収集・整理・分析を通じて、有用な知見を導き出す。
- エビデンスに基づく意思決定を支援する学問。
📊【データとは】
- 観測や計測によって得られる情報。
- 実験結果
- Webの検索履歴
- アンケートの回答
例:
- 単にデータを集めるだけでは意味がない。
→ 統計学の手法を使用することで、初めて価値を生み出す。
✅【なぜ統計学を学ぶのか】
- 現代は膨大なデータ社会であり、人間の感覚だけでは把握しきれない。
- *客観的根拠(エビデンス)**に基づいた判断が重要。
- 活用分野は多岐にわたる:
- 営業・マーケティング
- 財務・会計
- 人事・労務
- 生産・製造・物流
- IT・システム開発 など
📚【経営学との関係】
- 統計学は経営学研究の基盤ツールである。
- 最新の調査(山野井, 2021)によると:
- 経営学分野の論文の約6〜7割が定量的分析手法を使用している。
- 特にトップジャーナル3誌に掲載された論文170本(2020年)でも顕著である。
📊【データ分析の目的】
統計学を用いたデータ分析は、主に3つの目的に分類される。
1️⃣ データの要約
- 膨大なデータをそのまま眺めても、全体の傾向や特徴を把握することは難しい。
- データを要約し整理する手法として、平均値などが使用される。
2️⃣ 対象の説明
- データに基づいて、対象が持つ性質や関係性を明らかにし、理解を深める。
- 検定(平均値の差の比較)や相関分析などの手法を用いる。
- 因果関係があるかどうかを検討する。
⚖️【因果関係と相関関係の違い】
- 相関関係: AとBが同時に変動するが、Aの変動がBの変動を引き起こすとは限らない。
例:アイスクリームとビールの売上
→ 両者の売上は気温が高い時に増加するが、アイスクリームの売上を増やしてもビールの売上が必ずしも増えるわけではない。
- 因果関係: Aの変化がBに影響を与える関係。
例:薬を飲むと血圧が下がる
→ 薬が原因で血圧が下がる。
3️⃣ 未知データの予測
- 既存のデータを基に、新たに得られるデータの予測を行う。
- 回帰分析などの手法が用いられる。
📌【データ分析(統計学)の目指すもの】
- 統計学は「傾向をつかむ」ための手法である。
- 実務においては、「意思決定を誤らない」ことが最も重要である。
📌【統計学の使い方・考え方】
✅ 意思決定が目的
- 「進む方向」を決定することが最優先。(例:○○に投資するか?)
- 次に「どのくらいの規模で取り組むか」を検討。
- 例:全力で取り組む、または試しに様子を見る。
- 分析結果に基づき、真逆の判断を避けることが重要。
✅ 統計学は「傾向」を見るもの
- 手法開発の段階(統計学者の仕事)
- 数学的に厳密な検討を行う。
- 手法の適用・解釈の段階(実務家・応用研究者)
- 細かすぎる数値にこだわり過ぎず、「全体の傾向」をつかむことが重要。
📌【統計学の役割】
- ばらつきのある対象(データ)に対して有効である。
- 日常の現象やビジネスの現場では、「ばらつき」がつきもの。
- 統計学はこの「ばらつき」を“不確実性”として捉える。
- 「完全に同じ結果が出ない」ことを前提にする。
- 確率の考え方を用いて説明・予測を行う。
- → 不確実な中でも、全体の傾向や今後の動きを見通すためのツールとして機能する。
📚 統計学の全体像をざっくりつかもう!
統計学は大きく以下のようなパートに分かれており、それぞれが役割を持って連携しています。
① 記述統計(きじゅつとうけい)
▶ データを「見える化」して、全体像をつかむ
- 平均・中央値・最頻値
- 標準偏差・分散
- グラフ(ヒストグラム、箱ひげ図など)
📝 例:社員の年齢をグラフにして、どの年代が多いかを見る
② 推測統計(すいそくとうけい)
▶ 一部のデータから全体を「予測・判断」する
- 母集団:全体
- 標本:調べた一部のデータ
📝 例:100人にアンケートをとって、全社員の意見を推定する
③ 確率モデル
▶ 「ばらつき」や「不確実さ」を数式で表す
- サイコロ・くじ引きのような確率の話から応用
- 確率分布(正規分布・二項分布など)を使って、現実のデータをモデル化
📝 例:テストの点数が「山なり」になる理由を数式で説明できる!
④ 統計的推定と仮説検定
▶ 結果に“意味があるか”を判断する
- 統計的推定:母集団の平均を「予測」する
- 仮説検定:「この差は偶然か?意味あるのか?」をチェック
📝 例:「この薬、本当に効いてる?」をデータで証明!
⑤様々な分析手法
統計学では、データの種類・数・目的に応じて、使う分析手法が変わります。
1️⃣ データの種類によって手法が変わる
✅ 質的データ(カテゴリーデータ)
- 数値ではない「分類」に関するデータ
- 例:血液型(A/B/O/AB)、性別(男・女)など
🔎 よく使う分析:
- クロス集計
- カイ二乗検定
✅ 量的データ(数値データ)
- 実際の「数値」で表されるデータ
- 例:身長、体重、売上など
🔎 よく使う分析:
- 平均・分散などの記述統計
- 相関分析・回帰分析・t検定など
2️⃣ データの数(変数の数)でアプローチが変わる
✅ 1変数(単変量分析)
- 例:身長だけ
- 📌「そのデータだけで全体を把握」する
🔎 よく使う手法:
- ヒストグラム
- 平均・中央値・標準偏差
✅ 2変数(2つのデータを比べる)
- 例:身長と体重
- 📌「関係性を見る」分析になる
🔎 よく使う手法:
- 散布図
- 相関係数(どのくらい関係があるか)
- 回帰分析(予測に使えるか)
✅ 多変数(3つ以上)
- 例:年齢・年収・学歴などをまとめて分析
- 📌「複雑な関係性」や「パターン抽出」を行う
🔎 よく使う手法:
- 重回帰分析(複数要因で予測)
- 主成分分析(次元削減)
- クラスター分析(グループ分け)
🧠 ポイントまとめ
- データの種類(質的 or 量的)で手法が違う
- データの数(1つ、2つ、3つ以上)で注目点が変わる
- 状況に応じて、最適な分析方法を選ぶのが統計学の腕の見せ所!
🔹変数とは?
- 同じ性質を持つデータの集まり(例:身長、体重など)
- 複数あれば関係性の分析が可能
- 次元とも呼ばれ、1変数=1次元、2変数=2次元データなど
🔹分析手法の原理を知る理由
- 分析結果の正しい解釈には、手法の原理理解が不可欠
- ツール任せでは、**誤った解釈(過大・過小)**のリスクあり
➕ 過大に解釈すると
→ 効果が不明な施策を「データ根拠」で実行してしまう
➖ 過小に解釈すると
→ 有効な施策のチャンスを逃す
📘データ分析の目的と興味の対象
- 目的に応じた分析対象の選定
- データ分析を行う目的に合わせて、どの対象を分析するかを決める必要がある。
- 必ずしも、収集したデータだけが対象ではなく、もっと広い範囲が興味の対象になることもある。
2. 母集団
- 母集団とは?
- あるデータ分析で「興味がある全体の対象」を「母集団」と呼ぶ。
- 何を分析対象とするかをしっかりと決め、分析結果がどこまで広い範囲に適用できるかを考えることが重要。
3. 全数調査と標本調査
- 全数調査
- 母集団が「有限」の場合、すべてのデータを調べることができる(全数調査)。
- 例:日本に住んでいるすべての人を対象に調査する場合。
- 標本調査
- 母集団が「無限」の場合や、全数調査が実際的に難しい場合は、母集団の一部(標本)を調査する。
- 例:サイコロの出目を調べる場合(理論的には無限の組み合わせがあるため、標本調査が必要)。
4. 標本の大きさ
- サンプルサイズ
- 「標本」とは母集団から選ばれたデータの集まり。
- 「サンプルサイズ」はその標本のデータ数を指す。
- 注意点:サンプル数(標本の数)とサンプルサイズ(データの数)は異なる。
データの尺度
データはその特性に応じて、4つの尺度に分類されます。それぞれの尺度には異なる特徴があり、分析の方法も異なります。
以下は、提供された内容を基にした「データの種類」に関する講義メモです:
データの種類
データはその性質に応じて、名義尺度、順序尺度、間隔尺度、比例尺度の4種類に分類されます。それぞれに特徴があり、適切な方法で分析を行うことが重要です。
1. 名義尺度(Nominal Scale)
- 定義:データが単にラベルやカテゴリを示すもので、順序や量に意味はない。
- 特徴:
- 区別のためのラベル。
- 順序や量による差はない。
- 平均や中央値は意味を持たない(最頻値は可)。
- 四則演算はできない。
- 度数(件数のカウント)は可能。
- 例:
- 性別、血液型、職業など。
2. 順序尺度(Ordinal Scale)
- 定義:データに順序関係があり、順番を付けることができるが、間隔には意味がない。
- 特徴:
- 名義尺度に加え、順序関係がある。
- 1位と2位の差と2位と3位の差が同じとは限らない。
- 平均は意味を持たない(中央値、最頻値は可)。
- 四則演算はできないが、度数・大小比較は可能。
- 例:
- ランキング、アンケート結果など。
3. 間隔尺度(Interval Scale)
- 定義:順序尺度に加え、値の間隔に意味があり、差を計算できる。
- 特徴:
- 順序尺度に加え、値の間隔に意味がある。
- ただし、比率には意味がない(例:「気温20℃は10℃の2倍暑い」は間違い)。
- 平均は意味を持つ。
- 0は相対的な意味しか持たない(絶対的ゼロではない)。
- 四則演算(加算・減算)は可能。
- 例:
- 温度(摂氏・華氏)、西暦、偏差値など。
4. 比例尺度(Ratio Scale)
- 定義:間隔尺度に加え、値の比率に意味があり、最も情報量が多い尺度。
- 特徴:
- 間隔尺度に加え、値の比率に意味がある。
- 最も情報量が多く、最も高精度な尺度。
- 平均が意味を持つ。
- 0が絶対的な意味を持つ(ゼロが「無」を示す)。
- 四則演算(加算・減算・乗算・除算)が可能。
- 例:
- 値段、身長、体重、年齢、距離など。
データの種類 - 連続変数と離散変数
量的データ(量的変数)は、その取り得る値の性質により、連続変数と離散変数の2種類に分類されます。それぞれの特徴は以下の通りです。
1. 連続変数(Continuous Variable)
- 定義:原理的に、任意の小さい単位まで細かく数値を計測できる変数。
- 特徴:
- 数値が無限に細かく分けられる(例えば、身長や体重は非常に細かい単位で測定できる)。
- 測定する単位が小さければ小さいほど、より高精度な計測が可能。
- 例:身長(170.1cm、170.12cm、170.123cm など)、体重(60kg、60.1kg、60.01kg など)。
2. 離散変数(Discrete Variable)
- 定義:取り得る値が「飛び飛び」であり、数値が連続しない変数。
- 特徴:
- 整数値などの限定的な値しか取らない。
- 連続的な値ではなく、数えられる範囲でしか測定できない。
- 例:人数(1人、2人、3人など)、サイコロの目(1~6)、本の冊数(1冊、2冊、3冊など)。
- 作者:みなみ
- 链接:https://www.minami.ac.cn//MBA%E3%83%A1%E3%83%A2/1d5d7ae8-88e2-807f-83c3-f6d6c6f1e72e
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。