予見

 現実味なるものはあんまり信用してはいけない。

 flash全盛期、目のところが黒いマーカーで塗りつぶされたロボット(おそらくドラえもん)が風刺ネタを言うようなswfがあった。カタコトで喋っていて「エ?声が変ダッテ?ロボットノ声ナンテコンナモンダヨ。テレビノ見過ギ。アレハ声優ヲ使ッテイルンダヨ」みたいなブラックなジョークでなんか言っていた。

 この声、上手く説明できないが、電子音の波形であいうえおの発音を出そうとした音で、ゲームで説明すると、MOTHER2のポーキー、ギーグのいる世界みたいな音でホワンホワンしゃべっていた。この当時、こういうものが作られ、出回るくらいにはリアリティというものがあったのだろう。私自身も「そうなのかもなぁ」と思ったりしていた。

 でも2017年現在、ペッパーもミクもいて、ゆっくりボイスですら職人の手によって感情を込めたしゃべりかたができる時代に同じネタをやっても多分、かつてほどのブラックさは生まれないだろう。たしかに今の技術でもカタコトな感じは残ってはいるものの、「あれ、この声で別にいいんじゃね?」と思う人が多く、当時のロボットボイスよりもいやな感じはしないはずだ。

 なんでこんな差がうまれたのかというとロボットの声に関する認識が全然違うからだ。具体的に二つあげてみよう。

 1つは「音」の考え方だ。当時はファミコンとか家電に使われているような電子音から人の声に近いものを作ろうとしていた。一方で今は人の声をサンプリングしてそこから音を作っていこうとしている。絵描きで説明すると、前者はドットでイラストを描こうとするもので、後者はスキャナを使って絵を取り込み電子化していくというのに近い。どちらが楽でよりアナログな感じを出せるかは説明するまでもない。なぜ昔と今で方法が違うのかというと、パソコンの性能が違うからだ。録音したデータというのはものすごく膨大な大きさであるため、パソコンの容量が少なかった昔は非常に扱いが難しかった。今みたいにMP3が出回っているような世の中ではなかったのである。だから、音を録音するというより、MIDIやシンセサイザーみたくあらかじめ登録された音を出すとか、波形をいじって音を出すというように、外側ではなく、その場で音を作るという発想がメーンだったのである。

 もう一つは「読み方」の考え方だ。昔のロボットボイスは「朗読ソフト」の考え方をしていた。文字を一つずつ音に変換するというイメージで、「す・ズ・き・く・ン・の・う・ミ・ソ・ノ・な・カ」みたいなイメージで読まれる。今は「音楽ソフト」の考え方になっていて、「すず(↑)ーきくん(↓)のーみその(↑)なか(↓)」みたいなイメージ。間とか音の強弱とか高低によって音自体にアレンジを加えながら発音する。

 つまり当時のロボットボイスのリアリティは「当たり前のようにCD音質の音がパソコンから流れる世界」というのを想像できなかったばかりに、その当時に手近にある技術だけで未来や現実を語った結果、ロボットの声は上述のようなホワンホワンになるんだという結論に至ったのだろう。

 岡田斗司夫なんかはよく、「機械の馬の図」を引っ張ってきて説明している。機械化、自動化の世界を昔の人は想像していたが、自動車の発想がなかったためにまず馬車をひく馬を機械にして、機械の馬にひっぱってもらうというものすごく効率の悪くダサイ発想をしていた。その時代にあるものをいくら先端のものだからと言って組み合わせても未来はそのようにはならない。人々が夢物語だと思っていたものこそ主流になっていたりする。車もいずれ空を飛ぶかもしれないが、当然今の車にハネがくっつくわけじゃない。ひょっとすると危険すぎてありえないと言われてきたタケコプター型かもしれないのだ。

 ドラえもんの誕生は2112年。それだけの時間があればアニメのようになめらかに喋るロボットが生まれても何ら不思議はない。flash自体終わってしまって、あの当時の賢者は今では先見性のないバカだったという事になる。当時はネタにマジレスカコワルイの時代だったので、ネタ扱いされて逃げられていただろうけど。

 現実的な視線なんてものはあんまり役立たない。夢を実現するヴィジョンこそ真に大事なものだ。