平均値と中央値の違いとは?それぞれの求め方や最頻値の意味も紹介
平均値や中央値は、どちらも集団の中心的傾向を示す値(代表値)として使われます。ただし、それぞれ計算・算出方法が異なる点に注意が必要です。
本記事では、平均値と中央値の違いを説明した上で、具体例を交えつつ計算方法を紹介します。
平均値と中央値には違いがある
平均値も中央値も、データの中心的傾向を示した数値(代表値)である点で共通していますが、計算方法に違いがあります。そのため、データの分布次第で、平均年収や平均点などの平均値と、中央値の間に大きな差が生じることもあるでしょう。
例えば、厚生労働省によると2021年の1世帯当たり平均所得金額(平均値)が545万7千円に対し、中央値は423万円です。つまり、平均値の方が中央値よりも100万円以上上回っています。
参考:厚生労働省「2022(令和4)年 国民生活基礎調査の概況 各種世帯の所得等の状況」
平均値とは
平均値とは、データの数字をすべて足してから、データの個数で割った数値のことです。平均値の求め方や計算例、平均値の種類を紹介します。
平均値の求め方
平均値を求めるには、データの数字をひとつずつ足してから、その個数で割ることがポイントです。データ「a,b,c,d,e, ……」の平均値を求める場合、以下の式で計算します。
・平均値=(a+b+c+d+e+……)÷データの個数
仮に平均値を出すのが(a, b, c, d, e)までの範囲であれば、データの個数は「5(個)」です。一方「a, b, c, d, e, f, g」の範囲で平均値を出す場合は「7」で割ります。
平均値の計算・算出例
ある年の1月から12月までの月商が以下のとおりのA社の、平均月商を計算してみましょう。
(94+55+75+83+55+66+83+11+83+103+76+56)÷12=70
つまり、A社のある年の月商の平均値(平均月商)は70万円です。
平均値の種類
平均値には、以下のようにさまざまな種類があります。
・算術平均(相加平均)
・相乗平均
・調和平均
・二乗平均
・加重平均
算術平均は、ここまで紹介してきた数値を足し合わせて平均を出すことです。一般的に、平均値は算術平均のことを指します。
相乗平均とは、数字を掛け合わせて平均を出すことです。(a, b)のデータがある場合、算術平均は「(a+b)÷2」で計算するのに対し、相乗平均は「abの平方根」を計算します。
調和平均とは、数値の逆数をとってから算術平均で平均値を出し、また逆数をとる値です。二乗平均とは、各数値を二乗してから算術平均で算出した値を指します。
加重平均とは、各数値の重要度に合わせて重みを加味した上で、算術平均で計算した値です。
中央値とは
中央値とは、母集団(調査対象になるものの全体)の分布の中央に位置する値のことです。ここから、中央値の求め方や計算例を確認していきましょう。
中央値の求め方
中央値を求める際は、データを小さい順(大きい順)に並び替えて、真ん中の値を見つけることがポイントです。
例えば「2, 3, 5, 40, 100」のデータでは、真ん中の「5」が中央値と判断できます。同データで、平均値は「30」のため、今回のケースでは中央値の方が小さいことがわかるでしょう。
なお、個数が偶数の場合は真ん中に数値が2つ出現します。偶数の場合は、真ん中の2つの数値の平均値が中央値です。
中央値の計算・算出例
平均値と同じく、A社のある年の月商データを使って、中央値を計算してみましょう。
まず、中央値を小さい順に並べ替えます。
A社の月商を並べ替えた結果、真ん中の数値(No.6とNo.7)は「75万円(3月)」と「76万円(11月)」でした。そのため、中央値は75.5万円と計算できます((75万円 + 76万円)÷2)。
平均値と中央値以外に最頻値(モード)も重要
平均値や中央値以外に、代表値として「最頻値(モード)」を用いることがあります。最頻値とは、データの中で最も頻繁に出現する値のことです。
最頻値の求め方や、計算例を解説します。
最頻値の求め方
最頻値を求める際は、同じ数値をまとめて、最も多く出現した数値の数を数えることがポイントです。
「5, 2, 3, 5, 7, 9, 5」のデータでは「2」「3」「7」「9」はそれぞれ1個しかありませんが、「5」は3つあります。よって「5, 2, 3, 5, 7, 9, 5」の最頻値は「5」です。
なお、このデータの平均値は約「5.14」、中央値は「5」と計算できます。
最頻値の計算・算出例
A社のある年の月商の最頻値も計算してみましょう。
表を確認すると「55万円」が2回、「83万円」が3回出現していることがわかります(そのほかの数字は各1回)。つまり、A社のある年の月商の最頻値は「83万円」です。
なお、A社のある年における月商の平均値が「70万円」、中央値が「75.5万円」、最頻値が「83万円」でそれぞれ異なります。どの値を代表値としてとらえるかによって、A社に対するイメージが変わるでしょう。
平均値・中央値・最頻値の使い分け
代表値(平均値・中央値・最頻値)は、状況に応じて使い分けなければなりません。ここから、平均値を使うケース・中央値を使うケース・最頻値を使うケースに分けて具体例を紹介します。
平均値を使うケース
データ全体の特徴をとらえたり、データ間を比較する際の代表値として平均値を使います。
平均値のメリットは、すべての数値を考慮できる点です。一方、外れ値が存在する場合に、値が大きく左右される点が平均値のデメリットとして挙げられます。外れ値とは、他の数値と比較して極端に外れた値のことです。
仮にAさん・Bさん・Cさん・Dさん・Eさんの年収が、それぞれ400万円・550万円・450万円・300万円・600万円としましょう。この場合、5人の平均年収は460万円です。
しかし、ここに年収1億円(外れ値)のFさんが加わると、6人の平均年収は2,050万円まで大幅に上昇します。この場合、平均値にもかかわらず「2,050万円」を上回る年収の人はFさん以外誰も存在しません。
中央値を使うケース
外れ値があるデータを分析するケースでは、中央値を使うとよいでしょう。なぜなら、平均値と比べて中央値は外れ値の影響を受けにくいからです。
先ほどのAさん・Bさん・Cさん・Dさん・Eさん・Fさんの年収のケースで、中央値は「500万円」になります。「2,050万円」と比べると「500万円」のほうが6人の年収の実態に近いといえるでしょう。
しかし、中央値は全体のデータから計算する数値でない点に注意が必要です。あくまでデータの真ん中を示した値に過ぎないため、データ全体の推移を確認するのには馴染みません。
最頻値を使うケース
最頻値は、分布に偏りがあるケースで主に使います。なぜなら、最頻値は外れ値の影響を受けにくい上に、中央値と比べると分布も配慮できるためです。
ただし、データが少ない場合に、実態を反映できない点がデメリットとして挙げられます。例えば「1, 3, 4, 5, 9」のように、数値がすべて1回ずつしか出現しないデータの場合「1」「3」「4」「5」「9」のすべてが最頻値です。
ここまで紹介したとおり、平均値・中央値・最頻値にはそれぞれメリットとデメリットが存在します。ビジネスのマーケティングなどに統計学をいかす際は、どれかひとつに偏らずすべて確認するようにしましょう。
統計で平均値・中央値・最頻値を出す便利な方法
平均値・中央値・最頻値を手計算でするには手間がかかるため、別の便利な方法を活用しましょう。例えば、Excelを使えば、一度に平均値・中央値・最頻値を算出できます。
それぞれのコマンドは、以下のとおりです。
・平均値:AVERAGE関数「AVERAGE()」
・中央値:MEDIAN関数「MEDIAN()」
・最頻値:MODE関数「MODE()」
それぞれ、代表値を表示したいセルで、上記のコマンドを入力します。カッコ内には分析するデータの範囲を入力しましょう。
データの数値をすべて加える作業(平均値)、並べ替える作業(中央値)、まとめる作業(最頻値)が不要で、一度に算出できるため便利です。
平均値と中央値の違いを理解してデータを分析
平均値を使えば、データの特徴を把握できます。ただし、データの中に外れ値が存在する場合に、実態に即した平均値を出せないことがあるため注意は必要です。
外れ値があるデータの特徴を把握する際には、中央値や最頻値が役立ちます。どれかひとつの代表値に頼るのではなく、平均値・中央値・代表値の違いを理解して上手に使い分けましょう。
ライター:Editor HB
監修者:高橋 尚
監修者の経歴:
都市銀行に約30年間勤務。後半15年間は、課長以上のマネジメント職として、法人営業推進、支店運営、内部管理等を経験。個人向けの投資信託、各種保険商品や、法人向けのデリバティブ商品等の金融商品関連業務の経験も長い。2012年3月ファイナンシャルプランナー1級取得。2016年2月日商簿記2級取得。現在は公益社団法人管理職。