人とAIが“一緒に”音楽をつくるツールを開発
楽器メーカー・ヤマハが「AI音源技術」の研究の先に目指すもの
市場で注目を浴びているトレンドを深掘りする連載「マネ部的トレンドワード」。今回のテーマは、「現代用語の基礎知識選 2023ユーキャン新語・流行語大賞」のトップ10に入った「生成AI」。2022年のChatGPTの登場によって注目を集め、さまざまなサービスや製品に活用されている「生成AI」だが、以前から研究開発に用いられている。
その例のひとつが、ヤマハが行っているAI音源技術の研究だ。代表的な事例が、2019年にNHK主導のもとで進められた「AIでよみがえる美空ひばり」プロジェクト。深層学習技術(ディープラーニング)を使った歌声合成技術「VOCALOID:AI(TM)」を用いて、美空ひばりさんの歌声を再現したものだ。
[NHKスペシャル] AIでよみがえる美空ひばり | 新曲 あれから | NHK
AIで歌声をつくり出す方法やこれからの展開について、ヤマハ研究開発統括部VLABプロジェクトの久湊裕司さん、才野慶二郎さん、大道竜之介さんに聞いた。
人とAIが一緒に音楽をつくるために必要なツール
ヤマハでは、「AIでよみがえる美空ひばり」プロジェクトに取り組む前から、AIを活用した研究を進めていたという。
「当社では2003年に独自の歌声合成技術『VOCALOID(TM)』を発表し、その後も歌声合成のクオリティや表現力を上げるべく研究してきました。その過程で、2015年頃に出始めたAIの新しい技術も取り入れ、チャレンジしてきました。その後、NHKさんから美空ひばりさんの歌声合成の協力依頼があり、本格的にAIの導入を進めていったという流れです」(久湊さん)
歌声合成の先駆けとなった「VOCALOID(TM)」を生み出し、早くからAIも取り入れていたヤマハにとっても、「AIでよみがえる美空ひばり」プロジェクトはエポックメイキング的な取り組みになったそう。
ちなみに「VOCALOID:AI(TM)」は、目標となる歌手の歌声を集め、そこに含まれる音色や歌い回しなどの特徴をディープラーニングによりAIに学習させることで、その歌手独特のクセやニュアンスを含んだ歌声を生成できるようになるというもの。「AIでよみがえる美空ひばり」プロジェクトでは、美空ひばり氏本人の歌や話し声を収録した音源を用いた。
「美空ひばりさんのプロジェクトを経験したことで、ヤマハとして目指す先が明確になった面があります。『生成AI』というと、AIが自動的に音楽をつくる様子を想像すると思いますが、私たちは人とAIが一緒に音楽をつくるにはどのような開発をしていけばいいか、というテーマを掲げています。美空ひばりさんの歌声もAIに100%つくらせたわけではなく、音楽プロデューサーの秋元康さんやひばりさんのファンの皆さんにも参加していただき、どの年代のどの曲の歌声がいいか、意見を出してもらいながら、学習元のデータを選ぶことで、人とAIが一緒になってつくっていきました」(大道さん)
「当社のAIプロジェクトのひとつに、人のピアノ演奏に合わせてAIが伴奏してくれる『Duet with YOO』というものがあります。これはまさに、音楽を楽しみたいという人の想いにAIが寄り添い、一緒に音楽を生み出すものです。歌声でも楽器音でも、AIが自動的につくって享受するだけではなく、人と一緒につくるほうが面白いし、どちらかだけでは成し得なかった相乗効果が生まれます。AIと一緒に音楽をつくれるツールを開発し、発信していきたいと考えています」(才野さん)
音楽制作のハードルを下げる歌声合成ソフト「VX-β」
ヤマハはAIと一緒に音楽をつくるツールとして、音楽制作ソフト上でAI歌声合成を可能にするソフトウェア「VX-β(ブイエックスベータ)」を開発。2023年8月に立ち上げた「VOCALOID β-STUDIO」上で「VX-β」を無償提供し、一般ユーザーに自由に音楽をつくり出してもらい、未来の歌声合成の姿を一緒に追求するという実証実験を行っている。
「研究段階の技術を一般ユーザーに開き、試験的に使ってもらうという試みは、ヤマハとしてはほぼ初めてのことです。今回に関しては、私たちだけで開発して提供するのは違うのかなと思い、実際にユーザーの方々に触っていただいて、AI歌声合成を体感していただこうと考えました」(大道さん)
「『VX-β』を届けたいのは、この技術を使って音楽をつくる人です。例えば、ピアノは演奏を聴く人のためのものであるのと同時に、演奏する人にとってもコミットできるものであることがベストといえます。歌声合成器も同じで、プレイヤーにとってもいいものを出したい。ただ、その答えにはまだたどり着いていないので、歌声のクオリティや表現力、使い勝手なども含めて良し悪しを判断していけるよう、オープンな実証実験を行いました」(才野さん)
実証実験は2024年3月末まで実施されるが、現時点でユーザーから好評を得ている機能があるようだ。
「『Power』という歌声の強弱を調整するパラメーターが好評です。ノブをひねるだけで強弱をつけることができます。ただボリュームが変わるのではなく、弱いときはささやくような声、強いときは声を張る表現が出るようになっています。ユーザーが入力したメロディや歌詞をAIに歌ってもらい、『Power』を直感的に動かすことで、歌手とリアルタイムでやり取りしながらレコーディングしているような感覚を得られます」(大道さん)
「VOCALOID(TM)」で歌い回しなどを変えるには、10個以上のパラメーターを調整しなければできなかったが、「VX-β」では1つのノブだけで変化を生み出せる。音楽制作のハードルがグッと下がるといえそうだ。
「例えるなら、マニュアル車とオートマ車です。『VOCALOID(TM)』はすべてのシフトチェンジを人が行うことで、思い通りに動かせるマニュアル車。一方、『VX-β』は前進後進のシフトチェンジくらいで、いい感じに走ってくれるオートマ車のイメージです。また、『VX-β』の面白さは、歌い回しなどの指示を人がした際に、AIが人の予想を超えるような歌声を返してくれることです。単に設計図通りにつくるのではなく、インタラクションを行いながら音楽をつくる面白さがあると感じています」(才野さん)
「歌うのはAIなので、音楽制作をしているその場で歌手(歌声)を選ぶ、何度も歌ってもらう、100人の声を重ねるといった、人力では難しいことに挑戦できるところも特徴です。『VOCALOID β-STUDIO』を公開した頃に、ボカロPの『みきとP』さんに使っていただいたことがあるのですが、バンドと一緒に音楽をつくって歌詞を書き、ヴォーカルを乗せるところまで、1日で全部終わったんです。そのセッション感がAIならではなのかなと感じましたね」(大道さん)
YAMAHA『VX-β』を使って、即興作曲してみた。【みきとP×YAMAHA VOCALOID β-STUDIO】
目指すは「安心感を持って音楽を楽しめるツール」
AIによる歌声合成の登場で、音楽制作がより身近なものになりそうだ。
「AIによって音楽制作のハードルを下げるというところは、個人的にそうなったらいいなと思う未来のひとつです。従来の音楽制作は音楽理論だけでなく、パソコンや制作ソフトの知識も必要だったので、曲を完成させるまでに時間がかかったと思います。しかし、AIを用いることで、苦手な部分は機械に任せて、得意なところでオリジナリティを出すという制作もできるのではないかと思います」(才野さん)
特に、現代はSNSや動画配信が普及したことで、音楽に対するニーズが一般化したため、音楽をつくるツールやサービスはより求められるという。
「TikTokのように動画に音楽を付ける前提のサービスが出てきたため、音楽の数や種類が求められる世の中になっています。『VX-β』で制作された楽曲を対象に、Audiostockさんと共催で作曲コンテストを開催したところ、たくさんの応募をいただきましたし、その音源を使ってTikTokに動画を投稿してくれたユーザーさんもいました。個人や企業が動画コンテンツを発信する際に、歌声が入った音楽が使われていく未来を感じましたね。動画に限らず、いろいろなシチュエーションで歌声合成の音楽が使われるようになると、さらにユーザー層も広がると思います」(大道さん)
AI歌声合成は、いまの時代にマッチした技術といえそうだ。最後に、今後の展開について伺った。
「人がAIと関わってどのように音楽をつくるか、という点は変わらず突き詰めていきたいです。『VOCALOID β-STUDIO』のように音楽制作を行っている人向けの開発だけでなく、歌うだけでEvery Little Thingの持田香織さんの声になる『なりきりマイク』のように、とにかく音楽を楽しみたい人向けの試みも進めています。音楽をつくる人にも音楽を楽しむ人にも響くようなことを、バランス良く取り組んでいきたいです」(大道さん)
「『VOCALOID(TM)』も発表から20年が経ちましたが、クリエイターやミュージシャンが届けたい感情の機微を伝えるツールとしては未完成だと思っています。『悲しいけど楽観的に歌う』のような複雑な感情を届けるお手伝いができるツールとして、進化させていきたいですね」(久湊さん)
「AIを活用するうえで、大切にしていることはデータを安心して使えることです。権利者が了承していない歌声を用いているものは、安心感を持って使えないですよね。安心できないツールでは、楽しむことができません。『音楽をつくるAI=人が楽しめる技術』となるよう、安心感を持って使ってもらえるものとして開発し、広めていきたいと思っています」(才野さん)
「VX-β」をはじめ、AI歌声合成の技術が新たな文化やビジネスを生み出していくと考えると、ワクワクしてくる。製品化されることを期待して待つとしよう。
(取材・文/有竹亮介(verb) 撮影/森カズシゲ)