Inteligibilidad: ¿Cómo se calcula el STI?

Ene 8, 2020

El índice de inteligibilidad o Speech Transmission Index (STI) es un buen indicador utilizado tanto para diseño de salas como de sistemas de sonido por su versatilidad, eficiencia y facilidad de uso. Como se mencionó en el post anterior, todo lo referido a la medición de la inteligibilidad la lleva a cabo un dispositivo de manera automática. El STI, al ser un índice, está comprendido entre 0 y 1. Siendo un puntaje de STI=0 correspondiente a la completa pérdida de la señal, mientras que el puntaje más alto, STI=1 corresponde a una señal completamente inalterada e inteligible.

¿Qué determina que haya una buena inteligibilidad?

Dejando de lado características de los hablantes (pronunciación) y los oyentes (Audición) la inteligibilidad variará dependiendo de las condiciones en la que es emitida. El dispositivo que calcula el STI tiene en cuenta los siguientes factores:

  • El ruido de fondo
  • La respuesta del sistema de sonido (si lo hay)
  • Las condiciones acústicas (reverberación)
  • El enmascaramiento entre frecuencias

La manera en que interactúan estos factores es un tanto compleja y depende de las condiciones en las que se lleve a cabo la medición, por lo que es preferible entender en qué se basa el STI antes de contemplar cada caso.

La gran ventaja que posee es el trabajar con una señal de referencia específica, por lo que el proceso es relativamente sencillo:

Fig 1. Dispositivo para medir STI.

En primera instancia se emite la señal de referencia desde la ubicación en la que estaría el hablante con un dispositivo calibrado (como el de la figura 1,) que es capturada con un receptor calibrado para tal propósito. Este dispositivo compara lo grabado (señal de referencia + ruido de fondo, etc) con la señal de referencia original mediante un análisis espectral. De usarse un sistema de sonido en el lugar, es emitida desde el mismo.

Tanto el ruido, como la señal de referencia, se descomponen en 7 bandas de una octava de ancho. Entonces, la diferencia entre el nivel de la señal y el ruido de fondo es comparado para cada octava por separado. Por ejemplo, en la figura 2 puede observarse que el habla (línea azul) tiene un nivel mayor que el del ruido (línea violeta) en las octavas de 125 Hz a 4000 Hz. Por encima de 4000 Hz el ruido es mayor.

Fig 2. Espectro del habla y el ruido.

Cómo es lógico, para las octavas donde el nivel del ruido es similar o superior al habla la inteligibilidad es mala. En la medida que la señal tenga un nivel mayor con respecto al ruido de fondo la inteligibilidad será mayor. La razón por la que se descompone en octavas se debe a que no todas las frecuencias contribuyen de igual manera a la inteligibilidad del habla. Por esta razón se atribuyen factores de corrección α según la octava. Las octavas cercanas al registro medio tienen mayor preponderancia.

¿Cómo puede el dispositivo distinguir entre el nivel del ruido y el de la señal por separado si son captados en simultaneo?

El truco está en evaluar cómo se comporta en el tiempo lo grabado (Figura 3.a). El dispositivo conoce cómo debe ser la señal de referencia. La señal de referencia varía su intensidad de una forma predecible para cada octava (figura 3.b) por lo que el dispositivo analiza cualquier alteración de esos patrones. Podría decirse que, cuando haya ruido perturbando la señal, su patrón se superpondrá con el patrón del ruido (figura 3.c).

Fig 3. a) Espectro del habla y del ruido. b) evolución temporal del habla y el ruido por separado. c) Error parcial: superposición de los patrones.

De esta forma, el dispositivo puede deducir cuánto se está desviando cada octava de lo esperado y calcula un error parcial. Teniendo los errores parciales para cada octava se los promedia y se obtiene el índice de inteligibilidad total, el STI.

De haber un sistema de sonido, este influye en gran medida. Si el sistema tiene una distorsión considerable o una respuesta en frecuencia deficiente es posible que esto impacte en la inteligibilidad. Por ejemplo, si el ruido de fondo tiene mucho nivel en agudos, y el sistema de sonido no tiene suficiente nivel en ese rango, la inteligibilidad no será buena, aunque el sistema sea potente. Por otro lado, un ambiente con mucha reverberación también puede comprometer la inteligibilidad dado que al prolongar la duración de los sonidos en el tiempo desdibuja los patrones de intensidad de la señal.

Lo interesante del STI es que está basado en un sistema bastante robusto para detectar cualquier alteración que entorpezca el habla. Tener el conocimiento de qué es lo que está comprometiendo la inteligibilidad es fundamental para saber cómo mejorarla.

Lic. Lucas Landini

Departamento de Ingeniería – Equaphon


Bibliografía

  • AudioXpress. https://audioxpress.com/news/NTi-Audio-Provides-Professional-Verification-of-Voice-Evacuation-Systems
  • Houtgast; Steeneken (2002). Past, present and future of the Speech Transmission Index.