En el post anterior se habló de las funciones de ventana en la FFT y cómo afectan su resultando (ver Ventana FFT). Para continuar profundizando en las características de la FFT, en esta ocasión se analizarán las diferencias en el tamaño de ventana de la FFT.
En principio, cabe aclarar que el cálculo de la FFT es una operación discreta, es decir que se analiza de a pedazos de la funcion y no de manera contínua. Es por esto que uno de los factores importantes a configurar es el del tamaño de la ventana, esto se traduce en la cantidad de muestras que se van a analizar.
Debido a que en el mundo digital es más práctico trabajar con potencias de dos, en general el tamaño puede ser definido desde 64 hasta 32.768 muestras.
Hay tres resultados que se ven afectados por el tamaño de la ventana: la velocidad, la resolución y la frecuencia mínima. Para poder analizar de que manera se ven afectados lo primero a definir es la frecuencia de muestreo, dado que ella define el vínculo temporal de las muestras.
Velocidad: Supongamos que se trabaja con una frecuencia de muestreo de 48 kHz, significa que se toma aproximadamente una muestra cada 0,02 milisegundos. Esto quiere decir que si se analizan de a 64 muestras, la velocidad de »reacción» es de 1,3 milisegundos. En el caso de las 32.768 muestras es de 682 milisegundos (más de medio segundo). Aunque no parezca mucho, para determinadas tareas es necesaria la máxima velocidad si se quieren detecatar eventos de muy corta duración (ruidos por ejemplo) que de otra manera podrían quedar enmascarados en el análisis mismo.
Resolución y frecuencia mínima: Estás dos características se encuentran integramente ligadas y dependen también de la frecuencia de muestreo. La frecuencia mínima a analizar se asocia directamente al largo de la ventana, esto se debe a que debe entrar al menos un período en la ventana. Por ejemplo: si elegimos una ventana de 128 muestras (a 48 kHz) el período corresponde a 375 Hz (48000 / 128). El resultado de analizar ruido rosa con esta configuración se observa en la figura 1.
Esto quiere decir que si queremos analizar hasta 20 Hz, debemos elegir por lo menos una ventana de 2048 muestras (a 48 kHz). Este resultado se observa en la figura 2.
En líneas generales parecería que no son necesarias más de 4096 muestras para estudiar el espectro completo de audio. Pero hay una gran diferencia (además de la frecuencia mínima) entre ambas figuras y es la resolución. Es fácil notar cómo la figura 2 parece tener más detalle en alta frecuencia.
Esta diferencia se debe a que los puntos de información corresponden a múltiplos de la frecuencia mínima. Con 128 muestras el siguiente punto con información es 750 Hz, y así cada 375 Hz hasta completar el gráfico. Para rellenar se realiza una extrapolación entre los puntos, como se observa en la figura 3.
De esta manera si se necesita una mayor resolución (en especial en bajas frecuencias) es necesario recurrir a un tamaño de ventana mayor. Si tomamos una ventana de 32.768 la resolución (y frecuencia mínima) es menor a 2 Hz, suficiente para la mayoría de los requerimientos. El problema es que hay tantos puntos de información en altas frecuencias que resulta difícil su lectura, como se puede observar en la figura 4.
Para solucionar este problema, algunos software realizan múltiples FFT de diferente tamaño y los combinan en un único resultado. De esta manera se obtiene buena resolución en bajas frecuencias y buena lectura en altas frecuencias.
Ing. Eduardo Sacerdoti
Investigación & Desarrollo – Equaphon