平均値と中央値の違いとは?それぞれの求め方や最頻値の意味も紹介
平均値・中央値・最頻値の使い分け
代表値(平均値・中央値・最頻値)は、状況に応じて使い分けなければなりません。ここから、平均値を使うケース・中央値を使うケース・最頻値を使うケースに分けて具体例を紹介します。
平均値を使うケース
データ全体の特徴をとらえたり、データ間を比較する際の代表値として平均値を使います。
平均値のメリットは、すべての数値を考慮できる点です。一方、外れ値が存在する場合に、値が大きく左右される点が平均値のデメリットとして挙げられます。外れ値とは、他の数値と比較して極端に外れた値のことです。
仮にAさん・Bさん・Cさん・Dさん・Eさんの年収が、それぞれ400万円・550万円・450万円・300万円・600万円としましょう。この場合、5人の平均年収は460万円です。
しかし、ここに年収1億円(外れ値)のFさんが加わると、6人の平均年収は2,050万円まで大幅に上昇します。この場合、平均値にもかかわらず「2,050万円」を上回る年収の人はFさん以外誰も存在しません。
中央値を使うケース
外れ値があるデータを分析するケースでは、中央値を使うとよいでしょう。なぜなら、平均値と比べて中央値は外れ値の影響を受けにくいからです。
先ほどのAさん・Bさん・Cさん・Dさん・Eさん・Fさんの年収のケースで、中央値は「500万円」になります。「2,050万円」と比べると「500万円」のほうが6人の年収の実態に近いといえるでしょう。
しかし、中央値は全体のデータから計算する数値でない点に注意が必要です。あくまでデータの真ん中を示した値に過ぎないため、データ全体の推移を確認するのには馴染みません。
最頻値を使うケース
最頻値は、分布に偏りがあるケースで主に使います。なぜなら、最頻値は外れ値の影響を受けにくい上に、中央値と比べると分布も配慮できるためです。
ただし、データが少ない場合に、実態を反映できない点がデメリットとして挙げられます。例えば「1, 3, 4, 5, 9」のように、数値がすべて1回ずつしか出現しないデータの場合「1」「3」「4」「5」「9」のすべてが最頻値です。
ここまで紹介したとおり、平均値・中央値・最頻値にはそれぞれメリットとデメリットが存在します。ビジネスのマーケティングなどに統計学をいかす際は、どれかひとつに偏らずすべて確認するようにしましょう。
統計で平均値・中央値・最頻値を出す便利な方法
平均値・中央値・最頻値を手計算でするには手間がかかるため、別の便利な方法を活用しましょう。例えば、Excelを使えば、一度に平均値・中央値・最頻値を算出できます。
それぞれのコマンドは、以下のとおりです。
・平均値:AVERAGE関数「AVERAGE()」
・中央値:MEDIAN関数「MEDIAN()」
・最頻値:MODE関数「MODE()」
それぞれ、代表値を表示したいセルで、上記のコマンドを入力します。カッコ内には分析するデータの範囲を入力しましょう。
データの数値をすべて加える作業(平均値)、並べ替える作業(中央値)、まとめる作業(最頻値)が不要で、一度に算出できるため便利です。
平均値と中央値の違いを理解してデータを分析
平均値を使えば、データの特徴を把握できます。ただし、データの中に外れ値が存在する場合に、実態に即した平均値を出せないことがあるため注意は必要です。
外れ値があるデータの特徴を把握する際には、中央値や最頻値が役立ちます。どれかひとつの代表値に頼るのではなく、平均値・中央値・代表値の違いを理解して上手に使い分けましょう。
ライター:Editor HB
監修者:高橋 尚
監修者の経歴:
都市銀行に約30年間勤務。後半15年間は、課長以上のマネジメント職として、法人営業推進、支店運営、内部管理等を経験。個人向けの投資信託、各種保険商品や、法人向けのデリバティブ商品等の金融商品関連業務の経験も長い。2012年3月ファイナンシャルプランナー1級取得。2016年2月日商簿記2級取得。現在は公益社団法人管理職。