viernes, 19 de febrero de 2016

Procesador de voz, teoría.



Procesador de voz

Este es uno de los grandes olvidados dentro de la cadena de transmisión, la captura de audio y su proceso hasta llegar al modulador. Solo los equipos más caros y por tanto sofisticados llevan algún tipo de procesador de voz en TX. Para uso externo al equipo hay múltiples soluciones, todas ellas caras, especialmente si comparamos con el precio de un QRP monobanda. No obstante un QRP con un buen procesador de voz gana varios dB y esto es mucho más importante cuanta menos potencia se dispone. Una estación con 1Kw no necesita del procesador de voz, ya llega con un S9+20 o más. Sin embargo, una estación que llega justo por encima del ruido, se sabe que está pero no se consigue entender su modulación, si tuviera 6dB más de potencia probablemente se le oiría.
Vamos a analizar algunas de las características de la voz, como afectan a la potencia de TX y a la claridad del mensaje para entender cómo mejorar la transmisión. Analizaremos alguno de los circuitos básicos que intervienen en un procesador de voz y como afecta cada uno de ellos por separado y en conjunto a la calidad de una transmisión.
No podemos perder de vista el objetivo, entender y que nos entiendan. No necesitamos un 59 estéreo, basta con un radio 5 real y que se nos oiga entre el ruido.

Características de la voz

Es fácil comprobar, con un PC y un analizador de espectro para la tarjeta de sonido que la voz concentra su mayor energía en las frecuencias bajas. Ahora bien, las frecuencias altas son las que aportan claridad a la voz. De no ser así bastaría con eliminarlas. Las frecuencias por debajo de 300Hz aportan muy poco y las que están por encima de 3000Hz tampoco aportan mucho. Por esta razón el canal telefónico se limita a la banda de 300-3000Hz. Con esto es suficiente para identificar al corresponsal y entenderle perfectamente el mensaje. En SSB el ancho de banda se limita más a aún, a 2500Hz en total. Esta es una de las razones principales que hace inaudible una transmisión en SSB cuando se oye por primera vez.

Fig1: Densidad de potencia de las vocales
Las vocales concentran la mayor energía en las frecuencias de 300 a 500 Hz mientras que las consonantes lo hacen entre 500 y 2000. Además de las características propias de cada sonido, interviene el idioma y el sexo entre otras. A la distribución espectral de la voz hay que añadir otra característica importante que es la envolvente del sonido. La envolvente de sonido lo que nos muestra es que hay picos de señal que sobre pasan el valor medio en 12 a 16 dB. Por tanto el paso final del transmisor no debe ser sobreexcitado en los piscos de voz. La potencia media de salida de TX estará unos 6 a 10 dB por debajo de la potencia de pico disponible en transceptores con ALC. El ALC actúa como compresor de voz pero en transceptores sin ALC la diferencia es incluso mayor. Si sobreexcitamos el paso final tendremos un espurreo de ruido que afecta a otras estaciones.

Fig2. CQ cuarenta CQ cuarenta…
El efecto de este comportamiento de la voz es que en el receptor del corresponsal el CAG se ajustará para la potencia media y no para los picos. Por tanto el ruido de banda queda menos atenuado y nuestra señal se diferenciará poco del ruido.
Está claro que interesa reducir la relación entre picos y promedio de la voz así como mejorar la relación entre frecuencias bajas y altas ya que estas últimas llevan menos potencia, pero son determinantes en la inteligibilidad del mensaje.

El micrófono

El micrófono es el responsable de convertir la señal acústica en señal eléctrica. Dicho esto no debemos confundir alta fidelidad con comunicaciones. Un micrófono de alta fidelidad reproduce fielmente todo el espectro de frecuencias mientras que un micrófono de comunicaciones  realza las frecuencias altas. No es de extrañar que un buen micrófono de comunicaciones suene agudo, como hemos dicho antes, es para mejorar la inteligibilidad. Que un micrófono de comunicaciones tenga buena respuesta en graves, por debajo de 200Hz o en agudos, por encima de 3000z, no nos sirve para nada, salvo para pagar más.

Fig3: Respuesta de un micrófono de comunicaciones Shure 444
Además de la respuesta del propio micrófono hay que tener en cuenta que cuanto más cerca de la boca mejor respuesta en bajas frecuencias. Un micrófono de sobremesa estará a unos 20 ó 30 cm, pero el micro de mano lo tendremos muy cerca de la boca. Aún siendo ambos micros para comunicaciones su respuesta en frecuencia  va a ser distinta. La sensación que va mejor acercarse el micrófono ya que sale más potencia es equívoca. Un buen balance de frecuencias es lo que más ayuda a mejorar la inteligibilidad y a que la potencia se destine más a las frecuencias altas para que la voz llegue clara.

Fig4: Respuesta en bajos con la distancia
El micro de mano lo podemos colocar cerca de la boca pero de forma lateral, de esta manera conseguiremos una mejor respuesta en bajos.
Hay otros muchos aspectos a tener en cuenta como es el ruido ambiente, los rebotes de sonido en las proximidades del micrófono como la mesa en un micro con peana, etc.

Procesado de voz

Muchos de los problemas descritos tienen solución mediante técnicas de manipulación del sonido. Hoy día con un DSP se hace todo en un solo chip y pocos componentes externos. No obstante los principios teóricos son los mimos para un circuito analógico que para un DSP.

Amplificador de preénfasis de 6dB/octava

Uno de los requisitos más importantes a la hora de procesar la señal es equilibrar la potencia de audio entre frecuencias bajas y altas. Esto se hace mediante ecualización. La ecualización consiste en amplificar unas frecuencias más que otras de forma que su relación de amplitud queda modificada. Se ha hallado experimentalmente que la mejor relación es la de 6dB por octava. Referido 0dB a 1Khz, una frecuencia de 500Hz será atenuada a la mitad mientras que otra de 2Khz será amplificada al doble de su valor. Esta modificación nos va a ayudar a mejorara la inteligibilidad entre el ruido. No obstante, si el micrófono ya tiene esta respuesta no es necesario hacer esta ecualización a menos que al hablar muy cerca del micrófono su respuesta en bajos sea tan alta que realmente sea necesario.



Fig5: Circuito de preénfasis y respuesta en frecuencia
El circuito de la figura 5 tiene ganancia unidad a 1Khz. A las frecuencias altas tiene más ganancia y a frecuencias baja tiene menos. Este filtro además viene muy bien para otros aspectos de proceso que veremos más adelante, el recortador de picos.

Amplificador de presencia

Frente a la sencillez del circuito de preénfasis existen otros más complejos pero también más efectivos. El ecualizador de bandas permite personalizar de forma muy precisa, cuantas más bandas mejor, pero la complejidad del circuito no lo hace viable para usarlo en un sencillo transceptor en campo. La alternativa de compromiso es el amplificador de presencia. Es un circuito no muy complejo pero a la vez muy eficiente. Este circuito realza un margen de frecuencias en torno a los 2 KHz. Un micrófono de respuesta plana tendrá un comportamiento equivalente a la respuesta de un micrófono de comunicaciones tipo al de la figura 3.
 Fig 6: Presencia
El circuito de presencia de la figura 6 consiste en un amplificador realimentado por un filtro eliminabanda sintonizado a 2Khz. Mediante un divisor resistivo se ajusta el nivel de realimentación desde un valor mínimo R4= 0 y R14 = 50K, igual realimentación en todas las frecuencias, lo que proporciona una respuesta plana. Cuando la realimentación es vía el filtro, cuya frecuencia de resonancia es 2Khz la ganancia es máxima a esta frecuencia. Estas resistencias se pueden substituir por un potenciómetro para obtener un ajuste gradual o poner un conmutador para tener posición plana, cuando se use un micrófono de respuesta con realce de agudos y otra posición con realce de agudos para usar un micrófono de respuesta plana. El comportamiento de este circuito es muy interesante ya que hasta 500Hz prácticamente no amplifica y a partir de ahí aumenta la ganancia, manteniéndola por encima de 6dB entre 1000 y 3000 Hz.

Limitador de picos

Como ya se expuso en la figura 2, el valor medio de la amplitud de la señal está varios dB por debajo de los picos. En la imagen de la figura 3 esta relación está en 18dB aproximadamente. Estos picos sería muy conveniente eliminarlos, pero esto con lleva otros problemas que hay que tratar. Eliminar los picos es tan sencillo como intercalar un circuito que llegada a cierta amplitud la señal de entrada no la deje pasar de cierta amplitud prefijada.  Un recortador de picos de este tipo se hace con un par de diodos en contrafase. Hay muchas soluciones, pero lo que nos interesa es estudiar lo que sucede en el recortador de picos.




Fig 7: Limitador y espectro de salida
El limitador va a eliminar la señal que sobrepasa cierto nivel. Esto se traduce en una distorsión que provoca la aparición de armónicos impares. Esto es un gran problema ya que estos armónicos van a inetrmodular con otras frecuencias generando todo un espectro de señales que no estaban y que no nos interesa que estén. Mediante filtrado se pueden eliminar los armónicos y productos de intermodulación que caen fuera de la banda de 300-3000Hz, estos nos preocupan mucho, pero los que caen dentro de la banda no hay forma de quitarlos una vez que aparecen. Aquí es donde el circuito de preénfasis nos va a echar una mano. La potencia de voz está en las frecuencias bajas, por tanto nos interesa que estas frecuencias no sufran un gran recorte para que los armónicos no caigan dentro de la banda de paso, las frecuencias altas por el contrario van a crear armónicos más allá de los 3Khz que se eliminan fácilmente con una pasobajo. Por tanto el circuito de preénfasis o de presencia al acentuar las frecuencias altas no solo mejora la inteligibilidad sino que  además mejora el comportamiento del recortador de picos. En la figura 7, el espectro de la izquierda es el que hay a la salida del recortador de picos, mientras que el de la derecha es después de filtrar. El armónico de 3Khz queda atenuado por lo que la distorsión mejora. El resto de armónicos se eliminarán con el correspondiente filtro pasobajo.
Esta solución tiene un problema que hay que tener en cuenta. Según nos acerquemos al micrófono o gritemos más o menos en función el ruido ambiente, una vez recortada la señal y filtrada, el sonido presenta arrastres y signos evidentes de distorsión. El nivel de recorte de picos no debe ser exagerado, 6 a 12 dB es suficiente para mejorar la inteligibilidad y subir la potencia media sin sacrificar excesivamente la calidad del audio. Con el preénfasis se puede recortar hasta 30 dB sin mermar en exceso la calidad de voz. Para mantener el nivel de entrada al recortador de picos dentro de ciertos márgenes que garanticen que el recorte estará entre 6 y 12 dB, se necesita ajustes constantes de sensibilidad. Un amplificador de ganancia variable controlado por la tensión de error permite que se ajuste automáticamente la ganancia del amplificador en función del nivel de audio a la entrada.

Amplificador de ganancia variable


Fig 8: Amplificador de ganancia variable
En la figura 8 se puede ver el diseño de un sencillo amplificador de ganancia variable. El FET, cuando la tensión drenador surtidor es de 0 voltios, actúa como una resistencia controlada por la tensión de puerta. Cuando la tensión Vgs es 0 voltios, la resistencia DS es de menos de 200 ohmios. La ganancia del amplificador por tanto es 1+R1/(R3+200) que es aproximadamente 275 o 48 dB. Cuando Vgs es de -2,7 voltios para el BF245B, la resistencia DS es de 100K, por tanto la ganancia es de 4,3 o 12,6 dB. Este sencillo circuito permite un rango de ajuste de 35 dB.
La tensión de puerta es controlada por un detector y un circuito integrador que proporciona tensión negativa cuanto mayor sea la amplitud de la señal de entrada.  En la figura 9 de la izquierda se puede ver cómo a una variación instantánea de la señal de entrada la salida del amplificador de ganancia variable ajusta el nivel al valor prefijado. Esto le lleva un tiempo que está fijado por el tiempo de respuesta del detector. Seguido al amplificador de ganancia variable el limitador muestra como a una variación de 10 dB a la entrada, la salida permanece casi constante todo el tiempo, figura 9 de la derecha. El pico de voz ha sido recortado.

Fig 9: Respuesta del compresor
El circuito de error debe responder con cierto retraso para que los picos de voz no lleven la ganancia a un punto tal que cualquier ruido fortuito deje la ganancia al mínimo. Se suele usar un tiempo de ataque de unos 25 a 100 milisegundos y para que la ganancia no vuelva al máximo en el instante que no hay audio entre dos palabras el tiempo de decaimiento debe estar entre 0,5 y 1 segundo. De esta forma el circuito se ajusta a un valor medio de ganancia determinado por el valor medio de la distribución de audio de la voz. Detrás del circuito de compresión de ganancia  ya se puede colocar el limitador ajustado a unos 12 a 18 dB.

Fig 10: Diagrama de bloques de un procesador de voz
Uno de los problemas que se detectan con este tipo de sistemas es que una excesiva ganancia de micrófono solo sirve para captar ruido en ausencia de voz. Cuando se empieza a hablar el amplificador reduce automáticamente la ganancia al valor adecuado pero entre palabra y palabra suele recuperar parte de la ganancia sacando el ruido de fondo. El ajuste de sensibilidad de micrófono se tiene que hacer para que hablando en condiciones normales, el amplificador de ganancia variable no requiera grandes márgenes de compresión.
Solamente si se habla más fuerte de lo normal por ruido ambiente u otra causa, el compresor debe actuar para mantener el nivel de entrada al limitador dentro del margen deseado.


No hay comentarios:

Publicar un comentario

Espero que te sea útil. Te agradezco la crítica constructiva y todo tipo de comentarios no ofensivos, despectivos o mal intencionados