テキストマイニングで銘柄検索も!
AIを「相棒」にして、投資先を選ぶ
囲碁で人間に勝ったり、ロボットとして単純労働を担ってくれたり……。ニュースでよく聞く「AI(人工知能)」が、株式市場にも活用されつつあるという。一体、どんなふうに投資の世界を変えていくのだろうか。今回から4回にわたって、AI研究者にインタビューしていく。
1回目は、金融テキストマイニングの第一人者であり、個人投資家向けの企業情報検索システム「CEES(Causal Expressions Extraction System)」を開発した、成蹊大学の酒井浩之先生に聞いた。
聞き手:国府田昌史
決算短信を「テキストマイニング」で検索できる
──まずは「CEES」がどのようなものなのかご説明いただけますか。
企業のホームページに掲載された「決算短信」から、例えば「〇〇は好調に推移しました」のような業績要因を含むテキストを自動的に抽出し、抽出されたテキストを検索対象とした企業検索システムです。私は自然言語処理を専門としていて、大量のテキストから有益な情報を取り出す「テキストマイニング」の研究を行ってきましたが、これもその技術を使って開発しました。
──具体的にはどんなことができるのでしょうか。
企業名を入力すると、その企業の業績に関わるテキストが提示されます。また、キーワード検索も可能です。例えば「猛暑」というキーワードを入れると、上場企業数千社の決算短信から「猛暑の影響で○○の売上げが伸びました」といった文を抽出して表示します。「猛暑」が業績に好影響を及ぼしたという文とともに、マイナスの影響を及ぼしたという文も表示されます。
実は、私も投資を行っているのですが、投資家であれば「今年の夏は暑そうなので猛暑で売り上げが伸びる銘柄を買ってみよう」とか「新しい技術が話題になっているので、その関連企業に投資しよう」などと考えたことがあると思います。そういうとき、これを使えばどんな企業が投資対象になるのかが一発でわかります。
URL:http://hawk.ci.seikei.ac.jp/cees/
──たしかに便利ですね。ちなみに「猛暑」と入れると、どのくらい表示されるのでしょう?
(実際に検索して)約470社分出てきました。つまり、上場企業数千社の中の470社ほどが決算短信に記されている業績要因に「猛暑」という言葉を使っていることになります。空調機器や食品に関連する企業が多く検索されました。
──参考までに「東京オリンピック」と入れてみると……。
えーっと、160社ほどですね。建設機械に関連する企業が多く検索されました。今のところさほど多くありませんが、これからどんどん増えていくでしょう。ただし、このシステムのよさは「量」ではありません。
──というと?
例えば「猛暑」が業績に好影響を及ぼす企業というと、ほとんどの人は空調機器メーカーや飲料メーカーを思い浮かべます。でも、ここで検索すると、それら以外にも化粧品を扱っている企業や園芸用品メーカーなども出てきます。
どういうことかいうと、前者は「猛暑の影響で日焼け止め関連商品が好調だった」、後者は「夏場の猛暑により除草剤需要が高まった」とあります。つまり、普通には思いつかないような意外な企業もたくさん検索されるんです。だから、人とは違った視点で投資先の検討ができます。
──なるほど。
それが決算短信を使った狙いでもあります。どの企業も決算短信にはかなり詳しい情報を記載していますし、比較的鮮度も高い。株式投資というと『会社四季報』を参考にする人が多いですよね。
もちろん有用な情報源ですが、掲載されている何千という企業を細かくチェックするのは時間がかかり、個人投資家には不可能です。だったら、肝心な部分、つまり業績要因のみ拾えるようなシステムができないものかと考えて、決算短信にポイントを絞ったのです。
──投資経験のある酒井先生だからこそ、考えることができたシステムといえそうですね。
そうかもしれませんね。私は父にすすめられて大学3年のときに株式投資を始めたのですが、そのときから投資先を見つけるためのツールがほしいと考えていました。そういう意味では、私自身の願望をかたちにしたシステムといえるかもしれません(笑)。
業績要因の抽出に「ディープラーニング」を活用
──ところで、テキストマイニングはAIの発展によって進化を遂げたといわれますが、「CEES」もAIを活用しているのですか。
私が「CEES」の開発に着手したのは5年くらい前のことですが、元になった技術は10年以上前に開発しました。当時は今ほどAIという言葉は注目されていませんでしたが、研究を重ねる過程で機械学習やブートストラップ手法といった手法を使った部分はあります。
──そもそも、どのような手法で開発したのですか。
決算短信は「短信」といっても何十ページにも及びます。その中から「業績要因を含む文」を特定して抽出しなければならないわけですが、これは一筋縄ではいきません。ひと口に「業績要因を含む文」いってもいろいろな表現がありますから。業績が向上したことを示す表現だけでも「○○が増加した」「○○が前年度を上回った」「○○が伸長した」「○○が堅調に推移した」など無数にあるわけです。
そこで、私は少数のキーワードを入れると、コンピュータがそれに類する言葉を自動的に拾っていくプログラムをつくりました。
最初にまず「○○が好調」という言葉を入力し、コンピュータに「○○」に入る表現を取り出すよう命じるわけです。すると、コンピュータは「売上げ(が好調)」「受注(が好調)」など何十通りもの表現を取り出します。
そして次に、それら、新たに取り出してきた表現を使って、例えば「売上げ(が増加)」のような、さらに新しい表現を取り出します。つまり、「売上げが○○」「受注が○○」の「○○」に入る表現を探し出してくるわけです。コンピュータはこれを延々繰り返します。そうして最終的に業績が向上したことを示す表現を多く取り出すわけです。
──先生は「○○が好調」という表現を入力しただけで、あとはコンピュータが自動的に処理していくと。
そういうことです。その意味ではこれもAIを活用したといえるかもしれません。
──AIを使えば何でも簡単にできてしまいそうですね。
いえいえ、そんなことはありません。このときも試行錯誤を繰り返しました。例えば最初のころは、あまり適切とはいえない表現まで拾ってしまうことが多かったんですね。その表現は業績の要因を意味しないだろうと。そうすると、その表現を手がかりに新しい表現を拾ってくるので、どんどんノイズを拾ってずれていってしまうわけです。
そこで、ノイズ、つまり不適切な表現を除去するフィルターの強度を高め、適切な表現のみ拾うように改善しました。ただ、今度は表現を絞り込み過ぎてしまい、適切な表現をも除去してしまいます。より多くの業績要因を抽出できるように改良する過程で、昨今注目されている「ディープラーニング」を活用しました。
──AIを飛躍的に進化させたといわれる最先端技術ですね。
はい、まずは単に「○○が好調」ではなく、「○○が大変好調」という具合に強い表現にして入力します。これによって業績要因の抽出数は低下しますが、精度が高まります。そうして抽出された業績要因を学習データとし、ディープラーニングを使って学習させ、業績要因文かどうかを判定させたわけです。これによって、業績要因の抽出数がぐんと上がりました。現在、公開してる「CEES」は、このディープラーニングを使って改良されたバージョンになります。
「業績予測」の研究も可能に?
──現在、「CEES」は一般にも開放していて、誰でも自由に使えるようになっていますが、反響はどうですか。
あまり告知していないので利用者は限られますが、評判はいいですよ。個人投資家の方々だけでなく、機関投資家の方も、自分が担当する企業を調べるのに使っているようです。
──新しい機能を加える予定はありますか。
はい、いくつか考えています。例えば決算短信には業績予測に関する記述もあるんですね。「来期はこれだけの売上げを見込んでいます」などといったものです。ですから、こうした文も抽出できるようにしたい。業績予測に関する文の抽出は、現在の業績を示す表現よりも手がかりとなる表現が多様なのでいろいろな工夫が必要なのですが、これもディープラーニングを活用することで突破口が開けそうです。
──今やテキストマイニングはさまざまな分野で使われていますが、そのなかにはツイッターなどソーシャルメディアに大量に投稿されるつぶやきや、ネットの掲示板などから有益な情報を抽出するという動きも出始めています。現在、酒井先生は決算短信を使われていますが、ほかのテキストデータの活用も視野に入れているのでしょうか。
例えば、経済新聞記事やアナリストレポート、あるいは有価証券報告書なども利用価値は高いと思います。私も経済新聞記事を使った研究を行ってきましたし、アナリストレポートを使った研究も現在、行っています。それらを使ったテキストマイニングの開発を行っている研究者もいます。
ソーシャルメディアのつぶやきやネットの書き込みに関しては、研究してみる必要はあると思いますが、書き込み内容の真偽の判定など、難しい問題があります。
──今後、AI技術が進化を遂げればさらに可能性が広がっていきそうですね。
それは間違いないでしょう。
──では、本日はありがとうございました。今度「CEES」を使ってみますね。
はい、ぜひ、試してみてください。どんなキーワードでも関連する企業が検索できますし、投資先の選定などに利用価値は高いはずです。
<プロフィール>
成蹊大学理工学部情報科学課准教授
酒井 浩之氏
2005年 豊橋技術科学大学大学院工学研究科博士後期課程(電子・情報工学専攻)修了。工学博士。同大学の知識情報工学系助手を経て、2012年、成蹊大学理工学部情報科学科の講師。2014年、同大学理工学部情報科学科准教授となり、現在に至る。