著者プロフィール                

       
聴覚 〜 「意識」と「認識の過程」(その4)

西園 孝

県立浦和高校卒、山形大学医学部卒、三岳荘小松崎病院非常勤

好きな曲:Hey! Say! Jump 「Dear My Lover」
好きな俳優:吉沢亮
カラオケでうまく歌いたい曲:Mrs. Green Apple 「ライラック」

私はハゲカッパ、お茶の水はかせ、などといわれます。川に入るようスタッフに指示されるのはこのため。

聴覚 〜 「意識」と「認識の過程」(その4)

 聴覚についてです。私達は、誰かと会話をしているときや、何かの音を聞いているとき、相手の声や音が、その発声や音が鳴ったのと同時に、リアルタイムに聞こえていると感じています。でも、聴覚では、まず、音による空気の振動が鼓膜を振動させ、耳小骨がその振動を増強し、蝸牛が感知し、刺激が側頭葉の一次聴覚野(聴覚皮質)に到達し、さらに高次の聴覚野や、他の皮質に伝達され、またおそらくは、記憶情報との照合を経て、聴感覚が成立し、聞こえることになると考えられますので、刺激が鼓膜に到達してから実際に聞こえるまでには、ある一定の時間が必要と考えられるわけですので、こちらも視覚のときと同様に、全くの同時(リアルタイム)ということではないはずなのです。ただ、聴覚の場合は、視覚ほど時間がかかっていない印象があります。ここで、その聞こえるという感覚に、遅れがあることを認識できる状況があります。その一つがカクテルパーティーの際のものです。

カクテルパーティー効果

 カクテルパーティー効果とは、一般的には、まず、たくさんの人が集まるようなカクテルパーティー会場のようなところでは、種々雑多な会話や音が入り乱れて聞こえてきているわけですが、その中で、ある特定の人の話に注意を向けてその人の話を聞くことができるという、選択的注意ということがいわれています(これに関しては、相手の話者が目の前にいれば、その人の口の動きを見ることなどで、視覚的にも音声の定位はなされると思っています)。他に、ある特定の人と会話をしていて、他での話し声を聞いていないときに、誰かが自分の名前を言うなど、自分にとって関心や興味のある話をしていたりすると、急にその話し声が聞こえてくるという現象が挙げられると思います。

 二つ目のことに関しては、耳から入った情報は、無意識のうちに、ある程度の段階まで情報処理されているのではないかと考えられています。そしてそのあとで、自分の名前とか、自分にとって関係が深い内容のものや、関心や興味がある内容の情報は、意識化される、つまり聞こえてくるということと考えられます。これは、はじめに耳から入った音声は、脳内で情報処理されたあと、一時的に保存される、そして保存されている間に聞こえてくるという現象があることを意味していると考えられます。この聴感覚が保存される現象は、聴覚における感覚情報保存、エコイックメモリーといわれます。カクテルパーティーにおいての二つ目のことに、どのように感覚情報保存が関係しているのかということですが、まずカクテルパーティーのような種々雑多な会話や音が聞こえている中で、特定の人と会話をしている最中に、他の人が自分についての話をしたとして、そのはじめの時点では、その話に注意が向いていないことは明らかです。ある特定の人と(集中して)会話をしている際には、他の人の話は基本的に聞いていないのがふつうです。このとき、他の人が自分のことを話題にした場合、最初からその話が聞こえているのかどうかということをよく考えてみます。

 例えばその人の名前を、仮に、「やまもとさん」とします(今後、敬称略といたします)。誰かとの会話中に、他の誰かが、やまもとさんの名前を口にしたという状況を厳密に考えてみますと、まずはじめの「や」の音が発音されても、「やま」まで発音されたとしても、さらには「やまも」まで発音されたとしても、本人にはまだ自分のこととはわからないはずです。速くても、次の「やまもと」まで発音された時点で、はじめて自分の名前が呼ばれたとわかる、認識できると考えられるわけです。つまり、言葉として、意味が形成されるところまで発音されてからでないと、認識ができないわけで、「やまも」まで発音された時点ではまだ自分のこととはわからないはずです。そして再び申しますが、カクテルパーティー会場において種々雑多な会話が入り乱れている騒がしい状況で、しかも自分が誰かと話をしている最中に、もともと自分の名前を口にした人のほうには注意が向いていないわけですから、少なくとも「やまも」までは聞いていない、本人の意識としては聞こえていないはずだと考えるのがふつうです。ここで、「やまもと」の最後の「と」が発音された段階で、はじめて自分の名前だとわかるのですが、このとき、「やまもと」と、すべての語が発音されたあとで、「やまもと」と聞こえることとなり、明らかに時間的なずれ(タイムラグ)があると考えられるのです。つまり、聞こえた時点ですでに「やまも」は発音されたあととなり、そのあとに「やまも」が聞こえることとなるわけです。もしもはじめからその人の音声に注意を向けて聞いていれば、はじめの「や」が発音された時点で、すでにその「や」が聞こえるはずなのです。でもこの場合には、「や」が発音された時点では、その「や」には気付いていない(おそらく聞こえていない)、本人は意識していないということになると思います。「や」がはっきりと意識して聞こえるのは、「やまもと」まで発音されたあとということになるのです。「やまも」が発音されたあとで、「やまも」が聞こえることの理由は、次のようです。

 つまり「やまも(と)」と発音された時点で聴覚として意識されていなくても、その音声は鼓膜から脳の聴覚皮質に送られ、情報処理されているのではないかと考えられるわけです。実はこの時点で1回「やまもと」と聞こえた(耳には入っていた)はずと考えられるのですが、他の人との会話に注意が向いていて、そちらの音声には注意が向いていなかったために聞こえとしてはほとんど意識されていなかったと考えられるのです。そしてこの直後(またはほとんど同時?)、それが自分の名前(自分にとって重要な情報)であることが認識され、注意が向いて、それが急にはっきりと、あたかもはじめからしっかりと聞いていたかのように、「やまもと」と聞こえるということとなると考えています。つまりこの時点ではっきりと聴感覚として意識されることとなるわけです。この際の順番をもう一度考えますと、まず「やまもと」の音声が情報処理されたあとで注意が向くと考えられるわけですが(ほとんど同時かもしれませんが、注意の転換のほうが順番としてはあとになると考えるのが妥当かと思います)、この際にその「やまもと」の音声情報は保存されています(感覚情報保存)。つまり「やまもと」の音声は鼓膜を振動させ、刺激が聴覚皮質に到達してある程度の情報処理がされていると考えられ、この時点で1回聞こえているのかもしれないのですが、このときはまだ注意が向いておらず、聴感覚としてはっきりとは意識にのぼっていない状態で、次の瞬間に注意が転換されて向けられ(この場合の注意の転換は、自動的で意識にのぼっていないとも考えられます)、そしてその直後の瞬間に「やまもと」と(はっきり)聞こえるということとなると考えられます(保存されていた音声が聞こえてくるということです)。この一連の過程は、時間にしてほんの一瞬(数百ミリ秒程度)と考えられます。これは、聴感覚情報が脳内で処理され、それがしばらく保存されてから聞こえてくるということで、感覚情報保存、エコイックメモリーの機能が関係していると考えられるのです。つまり「やまもと」と発音された直後に「やまもと」と聞こえたことになるわけですので、「やまもと」という情報がいったん保存されて、注意の転換のあとに聞こえたということとなるわけです。この場合、はじめに聞こえた(はずの)ときと、次にはっきりと聞こえたときとは、厳密には時間的な遅れ、タイムラグがあるのですが、実際にはほとんど同時で、タイムラグが感じられないように思います(このカクテルパーティー効果はのちほどさらに詳しくお話しいたします)。

一般的な聴感覚の成立

 はじめにカクテルパーティーでのことをお話ししましたが、これはやや特殊な状況ではあります。ここで一般的な音の聞こえのことについてお話しいたします。音刺激によって頭皮上から記録される聴性誘発電位の知見によりますと、音刺激のあと、最初に聴覚皮質(一次聴覚野)で記録される成分は、約30~50ミリ秒で、その後、後部側頭平面(側頭葉の後ろのほう、聴覚野)に約100ミリ秒後に著明な反応が認められ、それ以降は、150ミリ秒から刺激音が停止するまで続く反応などが認められ、これには聴覚野だけではなく、他の非特異的な関連脳領域が関与していると考えられています。聴覚による刺激でも、基本的に記憶情報との照合の過程はあるのではないかと思っているのですが、これには、他の感覚と同様に、(一部は)前頭葉が関与しているのではないかとは思いますが、視覚感覚の成立の場合よりもやや速い印象がありますので、側頭葉、頭頂葉の周辺だけが関与しているということもあるのでしょうか。そしてこれらの過程を経て聴感覚が成立するには(つまり聞こえるには)、速くても100ミリ秒くらいかかるのではないかと思われます。ここで、視覚のところでもお話しいたしましたが、体性感覚の場合に、約500ミリ秒後に(記憶情報との照合がされて成立したと考えられる)感覚意識が、はじめに感覚皮質に刺激が到達した初期EPの時点まで前戻しされるという現象が観察されましたが、聴覚の場合は、記憶情報との照合で成立した聴感覚が、体性感覚での場合のように、はじめに刺激が聴覚皮質に到達した初期の時点まで前に戻るという現象は、考えにくいのです。この意識経験が前に戻るという現象は、皮膚の体性感覚の場合では考えやすく、視覚での場合でも考えられうるとは思いますが、聴覚では考えにくいのです。その理由は、聴感覚が成立したということは、つまり「聞こえた」ということですが、この「聞こえた」という感覚が、本当は「それよりも前に聞こえていました」と前戻しで報告されると、明らかに時間的なずれが認識されてしまいます。つまり、約100ミリ秒後に聴感覚が成立したとして、つまり聞こえたとして、これが50ミリ秒ほど前に戻って、刺激がはじめに聴覚皮質に到達した時点ですでに聞こえていましたとしたら、明らかに時間的なずれが認識されてしまうように思われるからです。聴覚における時間分解能は、視覚よりも短く、約3ミリ秒といわれています。つまり、少しでも時間的に遅れれば、すぐに音がずれたとわかるということとも思いますので、感覚経験が時間的に前に戻されるという現象で理解することは難しいように思われます。

聴感覚の成立から再び皮膚感覚の成立を考える

 このような聴感覚の成立ということからもう一度皮膚の体性感覚を考えてみますと、(前にも申しましたが)完成した感覚意識が前に戻る、時間的に逆行するということではなく、約500ミリ秒後に生じた皮膚感覚がその時点で意識されたことは確かですが、ただその直前の初期EPの時点でも何らかの感覚は生じていて、つまりそれらの感覚が生じる順番は時間的に順行性で、その両方の感覚が、融合したような形となって、一つの感覚として感じられたと理解することがやはり妥当なのではないかと考えられます。他の表現をしますと、はじめの初期EPの時点で何らかの感覚が生じ、それが意識されている間に、その約500ミリ秒後に記憶情報との照合がなされた(完成した)感覚が生じ、それらが一体化して(統合されて)、1回の感覚として意識されるということです。この場合、厳密には、初期EPの時点での感覚と、記憶情報との照合がされてからの感覚とで、感覚が2回生じていることとも考えられますが、実際には感覚は1回しか意識されません。これは、はじめの感覚のあとで次の感覚が生じるまで、時間的にはごくわずかなので、同時と感じられるということと考えています。

聴感覚の成立を考える

 ここで、もう一度聴感覚の成立に関して考えますと、はじめに刺激が一次聴覚野に到達するまでが約30~50ミリ秒後で、記憶情報との照合を経たとして完成された感覚が成立するのは、一般的に約100ミリ秒後と思われ、これらの間には50~70ミリ秒くらいの差はあるように思われます。聴覚野での機能に関しては、視覚野ほどはよくわかっていないようですが、もし聴覚においても、皮膚の体性感覚や視覚の場合と同様に、(記憶情報との照合を経て)聴感覚が成立する前に、はじめに聴覚皮質に刺激が到達した初期の段階ですでに聴感覚が生じるとすれば、この両者の感覚が融合されて、一つの感覚意識として成立し、しかも聞こえのタイミングが、最初に聴覚皮質に刺激が到達した時点ということとなって、約(30~)50ミリ秒後に聞こえたということになるのかもしれませんが、もしそうだとした場合(記憶情報との照合のあとと思われる)、だいたい100ミリ秒後くらいの聴感覚との時間的なずれが、ふだん感じられないのがなぜかはわかりません。

 ところで、音をスピーカーで発した場合、そこから1メートル離れると、音声が到達するのに3ミリ秒程度遅れる(4)とのことですので、例えばオーケストラの演奏で、観客席の場所にもよるでしょうが、端のほうに座った場合は、最も近くから聞こえる楽器の音と、最も遠くから聞こえる楽器の音とでは、十数ミリ秒から数十ミリ秒程度のちがいがある可能性があると思われますが、楽曲は一つのまとまった音楽として聞こえているわけですので、それらの音は統合されて聞こえているということと思います。このことは、ある時間的な幅をもった音声が、一つの感覚として統合されうるということと思います(時間的な統合窓)。時間の識別能が約3ミリ秒というのは、クリック音のような、立ち上がりが速くて持続が短い二つの音に対する識別能ということで、複雑な構成での音声や、立ち上がりがゆっくりとした音などに関しての識別では、もっと時間的に幅があるのではないかと思われますので、このことがオーケストラの音声が統合されて聞こえる理由の一つかもしれません。一般的な聴感覚においても、刺激が聴覚皮質に到達したはじめの時点での感覚と、記憶情報との照合を経て完成した感覚とが統合されて、一つの聴感覚となるという現象が起きることが、このことから説明できるかもしれません。

聴感覚と注意

 視覚では、注意を向けた対象一つ一つにサッケードなどで視線を移動させ、情報をとらえられるので、知覚が能動的という側面があると考えられます。聴覚でもある程度は知覚の方向性を変えることはできると思いますが、さまざまな方向から複数の音声が同時に入ってくることもあるわけですので、受動的という側面があり、その中での注意による選択が必要ということとなります。一つの音声に注意を集中していて、他に重要な音声が入ったときに聞き逃してしまうといけませんので(同時に二つのことを意味的に処理することはできないと考えられます)、聞き逃しを防ぐということからも、聴覚における感覚情報保存がやや長めということは効果的ではないかとは思われるところなのですが。仮にほとんど同時に二つの音声情報が入ってきたとして、その両方を聞き取ろうとした場合、そのうちの一方を情報処理している(聞いている)間に、もう一方の情報が保存、保持されていて、直後にそちらの情報が知覚されると、たいへん都合いいわけですが、実際にはもう一方の情報も詳しく意味処理できる程度にまで保存されることは難しいように思います。おそらくこのような場合は、両方の情報に交互に注意を移動させながら、何とか両方とも理解しようと努力する感じになってしまうように思います。

 ところで、聴覚と注意との関係を調べた、両耳分離聴課題という実験があります。これは、左右それぞれの耳に異なる内容の文章や単語のリストを入力し(聞かせ)、一方の耳への入力を無視しながら、もう一方の耳に聞こえる内容の追唱(聞こえたまま言ってもらう)を求めるものです(追唱するほうの耳に注意が向くわけです)。そして、注意しないほうの耳への音声入力について、どのような内容が認識されていたかの回答を求めました。代表的な結果としては、(a)英語からドイツ語への変化に気付かない、(b)途中で逆再生に変化させても気付かない、(c)話者が男性から女性に変わると気付く、(d)音声から正弦波音(ピーというような音)への変化に気付く、(e)自分の名前が提示されると気付く、(f)注意する側の内容と関連する単語は追唱に影響を与える、(g)事前に電気ショックと条件付けられた単語と同じカテゴリの単語が提示されると、気付かないが皮膚電気反応は起こることがわかったとのことです。(13)このことから、注意されていないほうの耳からの音声も、(一部は)ある程度の情報処理を受けていて、記憶されていることがわかりました。

 ここで、聴覚と注意とに関して、初期選択説と後期選択説というのがあり、どちらが正しいのかという議論があります。初期選択説は、注意による入力情報の選択は聴覚情報処理の初期段階で行われるとするものです。初期というのは、物理的な(感覚的なともいえる)段階での知覚、言語でいえば意味がわかる前の段階での音声として(だけ)の知覚ということと思われます。また後期選択説は、すべての入力は意味分析を受けたあとに選択を受けるというものです。これは、音声に注意が向けられる場合に、情報処理のどの段階で注意が向けられるのかについての議論ということです。

 まず注意に関してですが、注意とはさまざまな情報の中から一つを選択する過程といえると思います(選択的注意)。この場合、その対象に注意を向けるには、それなりの理由があると考えられます。例えばそれに興味があるということも理由の一つでしょうが、興味があったとしても、必ずしも注意を向ける必要はないわけで、ある時点ではそれに全く注意が向けられないかもしれません。また、ふだんの日常生活においての注意の向け方と、何らかの課題遂行においての注意の向け方では、おそらくちがいがあるのではないかと思われます。日常生活での注意は、完全に個人的な志向に基づいていて、十人十色ともいえるのではないかと思います。何らかの課題遂行の場合は、そのための決められたルールにのっとって注意を向けていく必要があるでしょう。進化の過程としていわれていることは、敵をすばやく察知して逃げるために、ふだんとはちがう音などが聞こえれば、敵が近づく音かどうかすぐにそちらに注意を向けるなどのことがいわれています。現在でも、急に近くで大きな音がすれば、身の危険を感じてすぐにそちらに注意が向くのではないかと思います。注意を向けるということは、もちろん自分にとって重要な内容に対してということもあるでしょうが、そうでなくてもその瞬間に注意を向けるべき何らかの理由があるときということと思います。ただ、音声(言語)の場合、近くで誰かに大声で話されると、聞く気がなくても(注意を向けるつもりがなくても)聞こえてしまう(音韻的に理解してしまう、理解させられてしまう?)ということがあるように思います。この場合、注意との関係は難しいです。一般に意味の分析にも、その方にとっての意味処理の水準の深さや段階、とらえ方などがあり個人差もあるかもしれません。ここで音声と注意との関係について、簡単に私の考えを申します。まず、耳から入った音や音声の情報は(とくに注意がされていなくても)、すべてはじめの段階での処理を受けていると考えます。このはじめの段階での処理というのは、例えばそれが何かの物(物品)などによる音なのか、何かの機械による音なのか、自動車の音なのか、楽器の音なのか、人の声なのか、動物の声なのか、風で木が揺れる音なのかなどの(ある程度の)同定ということです(これは物理的な段階での処理といえるのかもしれませんので、とくに意味処理というべきかどうかはわかりません)。ただ発話(言語)に関しては、表面的な認識(誰かが何か言った程度の知覚)と、内容の理解(音韻的な意味処理)の段階などがあると思われます。ところで、もしもはじめの段階で、どのような音にも同定されないような音が聞こえたとすれば、それはその時点では、純粋に物理的な音そのものというしかないものでしょうが、日常生活でこのような音を経験することは、まずないように思います。もちろん、何の音なのかよくわからない場合もあるとは思います。例えば自動車の音なのか風の音なのかよくわからないというようなことです。ただこの場合でも、人の声ではないということはわかっています。もしも本当に、何の音なのか、その起源も全くわからないような(未知の)音が聞こえたとしたら、「今の音は何だったのだろう」ということとなり、音の解明に(全)注意が集中してしまうでしょう。つまり、音声はすべて聞こえた時点で何かがわかっていて(はじめの段階での処理は受けていて)、もしはっきりとはわかっていなくても、だいたいの推測はされていて、とくに問題ない程度の認識で(ほとんど無意識的かもしれませんが)、それ以上の特別な注意も向けられないということと考えられます。また、このとき誰かと話をしていたりするなど、注意が他に向いていれば、音声にはとくに注意は向けられず、(はじめの段階での処理がなされたあとは)それ以上の情報処理はされず、記憶もされないということになると思います。

 例えばレストランで誰かと食事をしているとして、相手との会話以外に、他のお客さんの声、店員さんの声、スプーンと食器の音、店内の音楽、近くを通る自動車の音など、さまざまな音声が聞こえてくると思いますが、そのほとんどは、さきほどお話ししたはじめの段階での処理を受けたあと、それ以上の処理はされないで忘れられることとなるでしょう。ただここで、厨房から少し大きな、お皿が割れるような音がすると、その音に注意が向いて、「店員さんが間違ってお皿を落として割ってしまった音かな」などと音が分析されるのです(意味的な処理がなされるのです)。この場合、この音は、はじめの段階での処理がなされたあと、それが大きな音で、特殊な音だったために、それに注意が向けられ、(いわば深く)意味的な処理がなされたということになると考えられます。

 ところで、さきほどの初期選択か後期選択かについての議論ですが、たくさんの外界の情報をすべて処理することは難しく、その中から重要な内容を優先的に選択することが注意機能の目的の一つとした場合、その重要度を評価する際に、そのポイントはどこにあるのかということになると思います。重要度(優先順位)を評価できるところまで処理された時点で、必要なら注意による選択を受けるということとなり、このポイントが初期なのか後期なのかということとなるでしょう。言語による音声の場合、例えば男性の声か女性の声かという判定だけでは、優先度評価の目的に応じられないようにも思われ、その音声の内容についての(ある程度の)分析、処理のあとで注意が向けられると考えるのが妥当かと思われます。もちろん、どのポイントで注意を向けるのか、注意が向くのかは個人差があるように思います。また、意味処理には水準(レベルまたは段階)のようなものがあって、どの水準まで処理されれば注意を向ける指標になるのかについても、やはり個人差のようなものがあるかもしれませんので、一概には言えないようにも思います。ちなみに、音声内容の個々の言葉の意味がわかっていなくても(個々の言葉の意味処理がされていなくても)、その音声(全体)の大雑把な内容や、音声が発せられている状況などがわかる場合もあります。例えば、駅の構内に次々と流れる、駅員さんによる電車の発着などに関する情報のアナウンスや、道の駅などのトイレの付近で流れる「トイレ音声案内」など、その発話の言葉そのものは(ほとんど)認識されていない状況であったとしても(たくさんの電車が発着するような場合や、トイレでいそいでいるときなど、個々の言葉の内容の分析、理解まで至らない場合もあると思いますが)、それらが何らかの説明のアナウンスであることはわかります。また、数人の若者が会話していれば、その具体的な内容はわからなくても、「よく若い方がするような会話」がされているという認識ができます。つまり、音声中の個々の言葉の意味処理がされていなくても、それが発せられている音声の感じから(感覚的に?)、それがどのようなものであるのかがわかるのです。この認識も一つの意味処理に基づいているといえるかもしれませんが、個々の言語の意味処理はされていない段階での認識です。この段階で注意を向ければ、言語的な意味処理がされていない段階で注意が向けられたということになります。ですので、言葉であっても、注意が向けられるのは言葉の意味処理がされてからとは限らないといえます。

 ここで、前述のカクテルパーティーのところでも申しましたが、種々雑多な音声が聞こえている中で、誰かが急に「自分の名前」を言ったとした場合、もちろんこれが本人にとって重要な情報であることは確かですが、それだけではなく、自分の名前を言ったのは誰なのか、なぜ名前が出てきたのか、同姓同名の人のことなのかなど、いわばその発語(自分の名前)に対しての、関連する内容の意味的な分析を目的として、すぐにそちらに注意が向けられるということとなると考えられます。この際の順序に関してお話しする前に、ミスマッチ陰性電位についてお話しいたします。

「意識」と「認識の過程」 【全7回】 公開日
(その1)意識のゆりかご─意識はどこで生まれるのか 2025年10月31日
(その2)視覚 2025年11月30日
(その3)視覚 2025年12月26日
(その4)聴覚 2026年1月30日