統計学とはどういう学問?基礎知識や日常生活の身近な例を紹介
- TAGS.
統計学とは、調査して集めたデータを数値に表し、性質を調べたり未知のデータを推測したりする学問のことです。記述統計・推測統計・ベイズ統計などの種類があります。
本記事では、統計学とはどのような学問か詳しく説明した上で、日常生活に使われている身近な例を紹介します。
統計学とは
統計学とは、対象群のデータの性質を調べたり、手持ちのデータでより大きな未知のデータを推測したりする学問を指します。一般的に、統計は「集団」の「傾向・性質」を「数量的」に明らかにすることです。
統計学は、さまざまな分野で役立つ学問として、近年注目を集めています。ここから、統計学が役立つ分野・必要な分野について説明した上で、近年とくに統計学が注目されている理由を解説します。
統計学が役立つ分野・必要な分野
統計学が役立つ分野や、必要な分野は主に以下のとおりです。
・マーケティング
・研究・開発
・コンサルティング
・金融・証券
例えば、金融・証券の分野では、リスクを把握するのに統計学が役立ちます。一般的に、リスクとは不確実性のことです。
株式や投資信託などの金融商品を購入する際、あらかじめリスクを把握しておけば、リスク軽減策を検討できるでしょう。
近年統計学が注目されている理由
古代エジプトやローマ帝国の時代から、「統計」の概念は存在していました。しかし、コンピューターが統計に関する膨大な計算をこなせるようになったことで、近年さらに統計学が注目を集めています。
近年、統計学分野で鍵を握るキーワードが「ビッグデータ」です。ビッグデータとは、人間だけでは把握が困難な多種多様な形式の膨大なデータを指します。
ビッグデータを上手に扱い統計学で分析すれば、各方面においてリアルタイムかつ高精度で現状を把握し、将来の状況もある程度予測できるでしょう。
主に3種類の統計学に分類
統計学の手法は、主に以下3種類の内容に分類できます。
1. 記述統計
2. 推測統計
3. ベイズ統計
それぞれの内容を確認していきましょう。
統計学1. 記述統計の内容
記述統計とは、手元のデータの特徴や性質を分析して明らかにする統計学です。
データの特徴を基本統計量として数値でよりわかりやすく示したり、グラフで表現したりします。例えば、A社総務部に所属する社員10人の年齢を確認し、平均年齢41歳と示すことは記述統計のひとつです。
ただし、記述統計は対象のデータがないと分析できません。上記の例で、総務部の平均年齢を示せても、データがない営業部の平均年齢は計算できません。
統計学2. 推測統計の内容
推測統計とは、母集団(統計の調査対象となる集団全体)から抽出した標本のデータを使い、母集団の情報を推測する統計学です。推測統計は、手元のデータを使用して「手に入れていないデータ」について議論したり推測したりする点が、記述統計と異なります。
選挙の出口調査のように、母集団が大きくて調査することが困難な場合に、推測統計が有効です。
統計学3. ベイズ統計の内容
ベイズ統計とは、18世紀に英国のトーマス・ベイズによって提唱された「ベイズの定理」に基づく統計学です。ベイズ統計は、記述統計や推測統計と異なり、データが不十分な場合でも確率を導こうとします。
新しくデータを入手するたびに、確率を更新する点がベイズ統計の特徴です。コンピューターが自ら学習してデータのパターンやルールを見出す「機械学習」との親和性が高く、統計学の中でも近年とくに注目を集めています。
【基礎知識】統計学の専門用語
統計学を活用するには、以下の専門用語を理解していなければなりません。
・平均値・中央値
・標準偏差・分散
・ヒストグラム・散布図
・推定・検定
・相関分析・回帰分析
それぞれの意味や例を解説します。
平均値・中央値
平均値とは、すべての数値を足して要素の数で割った値を指します。例えば、23歳・25歳・42歳・44歳・46歳のメンバーがいる部署の平均値(平均年齢)は36歳です((23+25+42+44+46)÷ 5)。
一方、中央値はデータを大小順に並べたときの、真ん中の数値を指します。上記部署の例における中央値は42歳で、平均値より6歳も高いです。とくに、他の値との差が異常に大きい「外れ値」が存在する場合に(例:今回のデータに60歳が加わるケース)、平均値と中央値が乖離します。
平均値や中央値の詳しい内容については、以下の記事も参考にしてください。
平均値と中央値の違いとは?それぞれの求め方や最頻値の意味も紹介
標準偏差・分散
標準偏差や分散とは、ばらつきや傾向に関する指標のことです。
分散は、データの各数値の偏差(各数値の平均からの隔たり)を2乗してマイナスを無くしてからすべてを加え、平均を求めた数値を指します。一方、標準偏差は分散の正の平方根をとった数値のことです。
標準偏差や分散については、以下の記事も参考にしてください。
ヒストグラム・散布図
ヒストグラムや散布図はデータをグラフで示したものです。
ヒストグラムは、データをいくつかの階級に分類した上で、棒グラフのような形状で示します。各棒グラフの面積を確認すれば、度数(各階級に属する個数のこと)がわかる点が特徴です。
一方、散布図は2つの要素の関係を点を打って(プロットして)示します。散布図を見れば、2つの要素の関係性の有無がわかる点が特徴です。
推定・検定
推定とは、標本のデータを使って母集団の平均や分散などを推測することです。推定には、1つの値で推定する「点推定」と、ある程度の幅を持たせて推定する「区間推定」があります。
検定とは、標本のデータを使って母集団についての仮説が統計学的に正しいかを判断することです。検定は、以下の流れで進められます。
1. 仮説の設定
2. 有意水準の決定
3. 検証
4. 結論
「有意水準」は検定で帰無仮説(設定した仮説と相反する仮説)を設定した際に、その帰無仮説を棄却する基準の確率のことです。
相関分析・回帰分析
相関分析も回帰分析も、複数の変数の関係性を確認する分析手法です。ただし、相関分析が相関関係を求める手法であるのに対し、回帰分析は因果関係を見出して変数を予測する点が異なります。
相関関係は互いに関係していることで、因果関係は各要素が原因と結果の関係にあることです。例えば、アイスクリームの売上が増加するときに、おでんの売上が減少すると、両者に「相関関係」があるといえます。
しかし、アイスクリームの売上とおでんの売上の間に、「因果関係」があるとは言い切れません。なぜなら、アイスクリームの売上が伸びる(おでんの売上が減る)のは、気温が原因の可能性があるためです。
日常生活で使われている統計学を使った身近な例
統計学は、日常生活のさまざまな場面で使われています。具体例は、以下のとおりです。
1. テストの平均点や偏差値の計算(記述統計)
2. 選挙速報・平均年収(推計統計)
それぞれ確認していきましょう。
1. テストの平均点や偏差値の計算(記述統計)
テストの平均点や偏差値を計算する際、記述統計を使います。Aさん65点・Bさん80点・Cさん95点で平均点や偏差値を出してみましょう。
まず、平均点は80点です((65点+80点+95点)÷3)。
また、各数値の偏差が−15点(65点-80点)・0点(80点-80点)・15点(95点-80点)と計算できます。そのため、分散は150((-15の2乗+0の2乗+15の2乗)÷3)、標準偏差は約12.24(分散の平方根)です。
テストの偏差値は、偏差÷標準偏差×10+50で計算できます。つまり、A・B・Cの偏差値は、それぞれ37.7・50.0・62.3です。
2. 選挙速報・平均年収(推測統計)
複雑なため計算式は省略しますが、選挙速報や国民の平均年収などで推測統計が使われています。なぜなら、母集団(例:日本の人口)が非常に膨大ですべて集めることが困難なためです。
なお、保険会社が事故発生数を予測する際にも推測統計が使われています。推測統計で予測した事故発生件数は、保険料を算定する根拠のひとつです。
統計学を使って簡単に分析する方法とは
統計学の計算は複雑で手間はかかりますが、以下の方法を使えば簡単に分析できます。
・Excelを使用する
・R(アール)を活用する
それぞれの方法を簡単に紹介します。
Excelを使用する
会社や自宅のパソコンに搭載されているExcelを使用すれば、手軽に統計に関する計算をこなせるでしょう。
例えば、任意のセルに「=AVERAGE(A1:A20)」(「A1:A20」は平均値を求めるデータの範囲)と入力するだけで平均値を求められます。同様に、「=MEDIAN(A1:A20)」と入力すれば中央値も計算可能です。
対象の関数を入力するだけで、そのほかにもさまざまな計算ができます。
R(アール)を活用する
「R(アール)言語」を活用すれば、より本格的に統計学を活用できます。R言語とは、統計解析やグラフィックに特化したプログラミング言語です。
利用する際は、まずパソコンに「R」や「R Studio」をダウンロード・ インストール します。インストール後、調査するデータを読み込み、プログラムを書けば統計分析が可能です。
例えば「summary ( )」(かっこ内にデータフレームを入れる)のコマンドを入力するだけで、対象データのMin(最小値)・Midian(中央値)・Mean(平均値)・Max(最大値)などが一度に表示されます。
統計学とはさまざまな分野で活用できる学問
統計学とは、対象群のデータの性質を調べたり、手持ちのデータでより大きな未知のデータを推測したりする学問です。主に、記述統計・推測統計・ベイズ統計の3種類の手法があります。
コンピューターの普及とともに、統計学が注目を集めるようになりました。ビジネスや投資などにも活かせるため、この機会に深く学んでみてはいかがでしょうか。
参考:総務省統計局「統計とは?」
参考:総務省統計局「推測統計」
ライター:Editor HB
監修者:高橋 尚
監修者の経歴:
都市銀行に約30年間勤務。後半15年間は、課長以上のマネジメント職として、法人営業推進、支店運営、内部管理等を経験。個人向けの投資信託、各種保険商品や、法人向けのデリバティブ商品等の金融商品関連業務の経験も長い。2012年3月ファイナンシャルプランナー1級取得。2016年2月日商簿記2級取得。現在は公益社団法人管理職。