連載企画 第2回
〜エンターテイメントは孤独を癒せるのか?〜

連載

第2回目のゲストとしては、最先端のAI 音声変換技術を用いて、生まれながらにして変えられない (身体的制約) 個人の声色を自由にカスタマイズできるソフトウェアを開発するParakeet株式会社代表取締役 CEOの中村泰貴氏を迎え、弊社代表の斎藤由多加と、「エンターテイメントは孤独を癒せるのか?」をテーマに語りました。

中村 泰貴(なかむら たいき)
東京大学大学院博士課程 3年在籍。専門は音声情報処理。東大工学部時代から音声合成を研究し、複数のトップレベルの国際会議に採択経験あり。自然言語処理研究会優秀発表賞。アイデミー、日立製作所、サイバーエージェントでの音声合成関連のインターン経験し、2022年にParakeet株式会社を創業。オカメインコ(Parakeet)をこよなく愛する。


なぜ声をテーマに起業したのか?

斎藤 中村さんはいま東京大学の現役の大学院生と伺っています。中村さんが最近話題になっているというところで言うと、やはり紅白歌合戦で、バーチャルユーミンの声を担当したことですか?

中村 そうですね。専門がTTS(*)と、あと音声変換(*)なんですね。

斎藤 なるほど。声をテーマに起業した理由は何だったんですか?

中村 私が元々、学部の頃から音声合成と音声変換を研究室でインターンをやっていて、声に興味があったんですよね。声って、コミュニケーションを司る1番大事な伝達手段で、人と人とが意思疎通する、あるいは人とロボットが意思疎通するっていう重要なファクターになっていると思っていまして。そこにすごく惹かれことが理由です。

技術とエンタメって、切っても切れないような関係で繋がっている

斎藤 最近のお仕事はどういった案件が多いですか?

中村 芸能人の声を作れるTTSを作ってほしいとか、あとはリアルタイム音声変換を、例えばコールセンター領域とかにも使ってみたいとか。 コミュニケーションの部分に関する案件が多いですね。

斎藤 そういう中で強く意識するようにしているのはエンターテインメント性か、それとも技術か、どっちでしょうか?

中村 私は技術ですね。やはり技術がないと他社さんに比べて差別化がしにくいとか、あとは我々だからこそ解決できる部分っていうのがあると思っています。でも、技術とエンタメって切っても切れないような関係で繋がっているとも思っています。

斎藤 人工衛星を発案したのがアーサー・C・クラークってSF作家であるっていうのが非常に興味深くて、ただイマジネーションで妄想するんじゃなくて、ものすごく科学的な裏付けで 組み立てて未来を想像する。人工衛星がその最たるもので、それを読んだ若者がNASAに職員として入り、技術者としてそれを実現しているっていうのは、 まさにエンタメと技術のスパイラル状態の1つの例ですよね。

中村 おっしゃる通りで、メタバースも最初はSFから始まって、 SFの本の中でメタバースみたいな世界観が出てきて、それが技術になっていったという感じなので。そういったエンタメと技術の融合、どちらが先かっていうのは結構いろんな方によって違うとは思うんですけど、今後増えていくかなと個人的には思っています。

斎藤 他社との違いはどういうとこに出していきたいって思っていますか?

中村 1番根幹の部分は速度で、リアルタイム音声変換もそうですけど、速度が他社に比べて相当速いっていう点ですね。コミュニケーションって、速度が大事だと思っていて、例えば喋っている相手が急に10秒間黙り黙ってしまったらコミュニケーションにならないので。その音声をいかに早く生成して相手を待たせないかっていうような部分に関して優位性があると思っています。

斎藤 速度が速いというのは、かなりの強みになりますね。

見守りにフォーカスしたスマートスピーカーの開発

中村 シーマン人工知能研究所は今後、いわき市で実際にどういった製品開発していこうとしているんですか?

斎藤 いまは助成金をいただいている関係で、「浜通り」っていうところを拠点にしています。元々はもっとエンターテイメント寄りのものを作っていきたいと思っていて、それを目指すための一環としてまずは医療分野での製品を作っています。具体的には、1人暮らしの高齢者の方と毎日一定の会話をこなし、その内容に異変がないかを含めて、依頼人の方々にメールでその会話の内容をお送りする、というようなスマートスピーカーです。

中村 なるほど、見守りにフォーカスしたスマートスピーカーを開発しているんですね。

斎藤 そうですね。Wi-Fiの接続もなしにして極力手間のかかる作業をなくそうと思っています。箱から出したらいきなり使えるっていうのが理想と考えています。

孤独の解消に大切なこととは

中村 そのスマートスピーカーがご老人と会話をする上で、例えば孤独の解消を目的とした時に、どんな会話やどういう振る舞いをしてくれれば孤独の解消につながると思いますか?

斎藤 1番原点で、エンターテイメントっぽい話になりますが、まずは監視されているというようなものには絶対なってはいけない。むしろそのスピーカーが可愛く思えてきて、何かと心配になる、そういう存在になる演出をすることだと思っていますね。だから、前にご相談したけど、子供の声、でいきたいです。あとは表情が大事なので、寂しがったりするようなところが大事かと思っています。

中村 スマートスピーカーから出てくる愛着が湧くような声、確かにかなり大事だと思います。無機質な喋り方とかニュースを読み上げるような声とかじゃなくて、やっぱりお孫さんの声だったりとかだといいなと思いますね。

斎藤 そうですね、ちょっと噛んだりするような要素があっても良いんです。
昔、飛行機の中でディズニーの美女と野獣の英語版を観ていて。その中のシーンで、子役がやってる声って、本当の子供の声ってボソボソッとしていて、綺麗じゃない、鼻が詰まっていたりね。でもそれがすごくリアルで、異国の地に行ってる僕は自分の子供を思い出して、ついうっかり泣いてしまったっていうのがあるんですけど、そういうことかな。

中村 なるほど。完璧じゃないところがやっぱり人間らしさというか。完璧な回答をすると人工知能っぽくなりますけど、そうじゃなくて、不完全さを残すっていうのは意図的にやってもいいくらいですね。