選挙や視聴率、迷惑メールの判別にもこの理論が使われている
「数字を使って騙す人」を減らすためにも、投資家が知っておきたい統計学とは
迷惑メールの判別にもこの理論が使われている
――私たちに身近な範囲で「実はこんなところに統計学が使われている」という事例はありますか。
西 全体の姿を一部のデータから予測する、という意味でわかりやすいのが「テレビの視聴率」です。テレビを視聴している全世帯を調べるのではなく、ランダムに選ばれた特定の世帯の視聴データをもとに、「区間推定」と呼ばれる統計学の手法で全体の視聴率を予測しています。
ただし区間推定には誤差もあり、仮に視聴率20%としても、実際は17%~23%ほどの幅を持つ可能性もありますね。
ちなみに、選挙の開票速報にも区間推定が一部使われていて、開票率0%で当選確実と出るのは、集めた一部のデータをこの手法で分析し、さらに出口調査や過去の選挙データと組み合わせて最終結果を予測しているためです。
――だからあんなに早く判明するんですね。
西 そうですね。このほかには、迷惑メールの自動判別にも「ベイズ統計」という統計学の手法が活用されています。過去のデータから未来を予測する考え方で、簡単に言うと、過去のメールから「迷惑メールに多い特徴」を学び、それをもとに新着メールが迷惑メールか否かを判断します。
文章の構成や使用している単語、本文にURLが含まれているか、含まれているならどの位置にどのようなアドレスがあるか、メールのタイトルなど……。さまざまな要素を見ています。
ベイズ統計の特徴は、新しいデータを蓄積して次の分析に活用すること。そうしてどんどん精度を高めていきます。医療や金融市場の予測でも使われており、AIの登場でさらに存在感が増していますね。
――投資や貯蓄においても、統計学は関わりが深いのでしょうか。
西 非常に深いですね。投資の「移動平均線」はその代表でしょう。25日移動平均線であれば、25日間の終値を平均してグラフ化したもので、株価の動きや傾向が見えやすくなります。
貯蓄と統計学のつながりで言うと、よく議論になるのが「平均値」と「中央値」の違いです。平均値は全データをならすので、仮に大富豪が1人入ると平均貯蓄額は非常に高くなる。一方、中央値は全体の真ん中に位置する値を取るため、平均値とは異なります。
SNSではいろいろなデータが流れてきますから、こうした違いを知っておくだけでも正しい理解につながるのではないでしょうか。
「嘘つきは数字を使う」からこそ、確かな知識を
――今のお話にあるように、最近はさまざまなデータを目にする機会が増えました。これらの情報に触れるとき、心がけることはありますか。
西 データの背景や裏側を確かめることではないでしょうか。「数字は嘘をつかないが、嘘つきは数字を使う」という話もあり、悪意を持ってデータを都合よく見せる人もいます。また、悪意はなくても、統計の知識が十分ではないために不自然なグラフを作っているケースもあります。
データに触れた時、調査の対象者やデータの収集方法、分析の仕方までチェックすることが大切であり、統計学の知識があるとその思考が身につくでしょう。
――数字は説得力があるからこそ、適切に扱うことが大切ですね。
西 もう1つ、投資でいえば、株価や業績が変化した要因を考える力をつける上でも、統計学の知識は役立つでしょう。
回帰分析という統計学の手法では「目的変数」と「説明変数」という言葉がよく使われます。目的変数とは、簡単に言えば何かの結果を表す変数で、説明変数はその要因となる変数です。
仮に企業の業績が目的変数なら、その要因となった説明変数は何か。統計学の視点からこうした探究ができるでしょう。
――統計学の知識をつけると、投資の見え方も大きく変わるかもしれません。
西 その通りで、時系列でデータ分析ができるようになると、過去のデータから今後の動きを推測する力が身につきますし、夏に特定の商品が売れるなどの「季節性のトレンド」も発見しやすくなるでしょう。「何となく」ではない、「数字に基づいた判断」につながるのではないでしょうか。
(取材・文/有井太郎 撮影/森カズシゲ)
※記事の内容は2025年3月現在の情報です
同志社大学 文化情報学部卒業。メーカーで総務を、コンサルティング会社でシステム導入とWebマーケティングを経験した後、独立。現在はフリーランスとして、MAツール導入やWebマーケティングのコンサルティング、データ分析に関するメディア運営など幅広く活動中。2024年4月より、データ×ビジネスの理解を深めるべく、上智大学大学院 応用データサイエンス学位プログラムに進学。著書「これから学ぶ人のための統計学超入門」kindle版