Procesador de voz
Este es uno de los grandes olvidados dentro de la cadena de
transmisión, la captura de audio y su proceso hasta llegar al modulador. Solo
los equipos más caros y por tanto sofisticados llevan algún tipo de procesador
de voz en TX. Para uso externo al equipo hay múltiples soluciones, todas ellas
caras, especialmente si comparamos con el precio de un QRP monobanda. No
obstante un QRP con un buen procesador de voz gana varios dB y esto es mucho
más importante cuanta menos potencia se dispone. Una estación con 1Kw no
necesita del procesador de voz, ya llega con un S9+20 o más. Sin embargo, una
estación que llega justo por encima del ruido, se sabe que está pero no se
consigue entender su modulación, si tuviera 6dB más de potencia probablemente se le oiría.
Vamos a analizar algunas de las características de la voz,
como afectan a la potencia de TX y a la claridad del mensaje para entender cómo
mejorar la transmisión. Analizaremos alguno de los circuitos básicos que
intervienen en un procesador de voz y como afecta cada uno de ellos por
separado y en conjunto a la calidad de una transmisión.
No podemos perder de vista el objetivo, entender y que nos
entiendan. No necesitamos un 59 estéreo, basta con un radio 5 real y que se nos
oiga entre el ruido.
Características de la voz
Es fácil comprobar, con un PC y un analizador de espectro
para la tarjeta de sonido que la voz concentra su mayor energía en las
frecuencias bajas. Ahora bien, las frecuencias altas son las que aportan
claridad a la voz. De no ser así bastaría con eliminarlas. Las frecuencias por
debajo de 300Hz aportan muy poco y las que están por encima de 3000Hz tampoco
aportan mucho. Por esta razón el canal telefónico se limita a la banda de
300-3000Hz. Con esto es suficiente para identificar al corresponsal y
entenderle perfectamente el mensaje. En SSB el ancho de banda se limita más a
aún, a 2500Hz en total. Esta es una de las razones principales que hace
inaudible una transmisión en SSB cuando se oye por primera vez.
Fig1: Densidad de
potencia de las vocales
Las vocales concentran la mayor energía en las frecuencias
de 300 a 500 Hz mientras que las consonantes lo hacen entre 500 y 2000. Además
de las características propias de cada sonido, interviene el idioma y el sexo
entre otras. A la distribución espectral de la voz hay que añadir otra
característica importante que es la envolvente del sonido. La envolvente de
sonido lo que nos muestra es que hay picos de señal que sobre pasan el valor
medio en 12 a 16 dB. Por tanto el paso final del transmisor no debe ser sobreexcitado
en los piscos de voz. La potencia media de salida de TX estará unos 6 a 10 dB
por debajo de la potencia de pico disponible en transceptores con ALC. El ALC
actúa como compresor de voz pero en transceptores sin ALC la diferencia es
incluso mayor. Si sobreexcitamos el paso final tendremos un espurreo de ruido
que afecta a otras estaciones.
Fig2. CQ cuarenta CQ
cuarenta…
El efecto de este comportamiento de la voz es que en el
receptor del corresponsal el CAG se ajustará para la potencia media y no para los
picos. Por tanto el ruido de banda queda menos atenuado y nuestra señal se
diferenciará poco del ruido.
Está claro que interesa reducir la relación entre picos y
promedio de la voz así como mejorar la relación entre frecuencias bajas y altas
ya que estas últimas llevan menos potencia, pero son determinantes en la
inteligibilidad del mensaje.
El micrófono
El micrófono es el responsable de convertir la señal
acústica en señal eléctrica. Dicho esto no debemos confundir alta fidelidad con
comunicaciones. Un micrófono de alta fidelidad reproduce fielmente todo el
espectro de frecuencias mientras que un micrófono de comunicaciones realza las frecuencias altas. No es de
extrañar que un buen micrófono de comunicaciones suene agudo, como hemos dicho
antes, es para mejorar la inteligibilidad. Que un micrófono de comunicaciones
tenga buena respuesta en graves, por debajo de 200Hz o en agudos, por encima de
3000z, no nos sirve para nada, salvo para pagar más.
Fig3: Respuesta de un
micrófono de comunicaciones Shure 444
Además de la respuesta del propio micrófono hay que tener en
cuenta que cuanto más cerca de la boca mejor respuesta en bajas frecuencias. Un
micrófono de sobremesa estará a unos 20 ó 30 cm, pero el micro de mano lo
tendremos muy cerca de la boca. Aún siendo ambos micros para comunicaciones su
respuesta en frecuencia va a ser
distinta. La sensación que va mejor acercarse el micrófono ya que sale más
potencia es equívoca. Un buen balance de frecuencias es lo que más ayuda a
mejorar la inteligibilidad y a que la potencia se destine más a las frecuencias
altas para que la voz llegue clara.
Fig4: Respuesta en
bajos con la distancia
El micro de mano lo podemos colocar cerca de la boca pero de
forma lateral, de esta manera conseguiremos una mejor respuesta en bajos.
Hay otros muchos aspectos a tener en cuenta como es el ruido
ambiente, los rebotes de sonido en las proximidades del micrófono como la mesa
en un micro con peana, etc.
Procesado de voz
Muchos de los problemas descritos tienen solución mediante
técnicas de manipulación del sonido. Hoy día con un DSP se hace todo en un solo
chip y pocos componentes externos. No obstante los principios teóricos son los
mimos para un circuito analógico que para un DSP.
Amplificador de preénfasis de 6dB/octava
Uno de los requisitos más importantes a la hora de procesar
la señal es equilibrar la potencia de audio entre frecuencias bajas y altas.
Esto se hace mediante ecualización. La ecualización consiste en amplificar unas
frecuencias más que otras de forma que su relación de amplitud queda
modificada. Se ha hallado experimentalmente que la mejor relación es la de 6dB
por octava. Referido 0dB a 1Khz, una frecuencia de 500Hz será atenuada a la
mitad mientras que otra de 2Khz será amplificada al doble de su valor. Esta
modificación nos va a ayudar a mejorara la inteligibilidad entre el ruido. No
obstante, si el micrófono ya tiene esta respuesta no es necesario hacer esta
ecualización a menos que al hablar muy cerca del micrófono su respuesta en
bajos sea tan alta que realmente sea necesario.
Fig5: Circuito de
preénfasis y respuesta en frecuencia
El circuito de la figura 5 tiene ganancia unidad a 1Khz. A
las frecuencias altas tiene más ganancia y a frecuencias baja tiene menos. Este
filtro además viene muy bien para otros aspectos de proceso que veremos más
adelante, el recortador de picos.
Amplificador de presencia
Frente a la sencillez del circuito de preénfasis existen
otros más complejos pero también más efectivos. El ecualizador de bandas
permite personalizar de forma muy precisa, cuantas más bandas mejor, pero la
complejidad del circuito no lo hace viable para usarlo en un sencillo
transceptor en campo. La alternativa de compromiso es el amplificador de
presencia. Es un circuito no muy complejo pero a la vez muy eficiente. Este
circuito realza un margen de frecuencias en torno a los 2 KHz. Un micrófono de
respuesta plana tendrá un comportamiento equivalente a la respuesta de un
micrófono de comunicaciones tipo al de la figura 3.
Fig 6: Presencia
El circuito de presencia de la figura 6 consiste en un
amplificador realimentado por un filtro eliminabanda sintonizado a 2Khz.
Mediante un divisor resistivo se ajusta el nivel de realimentación desde un
valor mínimo R4= 0 y R14 = 50K, igual realimentación en todas las frecuencias,
lo que proporciona una respuesta plana. Cuando la realimentación es vía el
filtro, cuya frecuencia de resonancia es 2Khz la ganancia es máxima a esta
frecuencia. Estas resistencias se pueden substituir por un potenciómetro para
obtener un ajuste gradual o poner un conmutador para tener posición plana,
cuando se use un micrófono de respuesta con realce de agudos y otra posición
con realce de agudos para usar un micrófono de respuesta plana. El
comportamiento de este circuito es muy interesante ya que hasta 500Hz
prácticamente no amplifica y a partir de ahí aumenta la ganancia, manteniéndola
por encima de 6dB entre 1000 y 3000 Hz.
Limitador de picos
Como ya se expuso en la figura 2, el valor medio de la
amplitud de la señal está varios dB por debajo de los picos. En la imagen de la
figura 3 esta relación está en 18dB aproximadamente. Estos picos sería muy
conveniente eliminarlos, pero esto con lleva otros problemas que hay que
tratar. Eliminar los picos es tan sencillo como intercalar un circuito que
llegada a cierta amplitud la señal de entrada no la deje pasar de cierta
amplitud prefijada. Un recortador de
picos de este tipo se hace con un par de diodos en contrafase. Hay muchas
soluciones, pero lo que nos interesa es estudiar lo que sucede en el recortador
de picos.
Fig 7: Limitador y
espectro de salida
El limitador va a eliminar la señal que sobrepasa cierto
nivel. Esto se traduce en una distorsión que provoca la aparición de armónicos
impares. Esto es un gran problema ya que estos armónicos van a inetrmodular con
otras frecuencias generando todo un espectro de señales que no estaban y que no
nos interesa que estén. Mediante filtrado se pueden eliminar los armónicos y
productos de intermodulación que caen fuera de la banda de 300-3000Hz, estos
nos preocupan mucho, pero los que caen dentro de la banda no hay forma de
quitarlos una vez que aparecen. Aquí es donde el circuito de preénfasis nos va
a echar una mano. La potencia de voz está en las frecuencias bajas, por tanto
nos interesa que estas frecuencias no sufran un gran recorte para que los
armónicos no caigan dentro de la banda de paso, las frecuencias altas por el
contrario van a crear armónicos más allá de los 3Khz que se eliminan fácilmente
con una pasobajo. Por tanto el circuito de preénfasis o de presencia al acentuar
las frecuencias altas no solo mejora la inteligibilidad sino que además mejora el comportamiento del recortador
de picos. En la figura 7, el espectro de la izquierda es el que hay a la salida
del recortador de picos, mientras que el de la derecha es después de filtrar.
El armónico de 3Khz queda atenuado por lo que la distorsión mejora. El resto de
armónicos se eliminarán con el correspondiente filtro pasobajo.
Esta solución tiene un problema que hay que tener en cuenta.
Según nos acerquemos al micrófono o gritemos más o menos en función el ruido
ambiente, una vez recortada la señal y filtrada, el sonido presenta arrastres y
signos evidentes de distorsión. El nivel de recorte de picos no debe ser
exagerado, 6 a 12 dB es suficiente para mejorar la inteligibilidad y subir la
potencia media sin sacrificar excesivamente la calidad del audio. Con el
preénfasis se puede recortar hasta 30 dB sin mermar en exceso la calidad de
voz. Para mantener el nivel de entrada al recortador de picos dentro de ciertos
márgenes que garanticen que el recorte estará entre 6 y 12 dB, se necesita
ajustes constantes de sensibilidad. Un amplificador de ganancia variable
controlado por la tensión de error permite que se ajuste automáticamente la
ganancia del amplificador en función del nivel de audio a la entrada.
Amplificador de ganancia variable
Fig 8: Amplificador
de ganancia variable
En la figura 8 se puede ver el diseño de un sencillo
amplificador de ganancia variable. El FET, cuando la tensión drenador surtidor
es de 0 voltios, actúa como una resistencia controlada por la tensión de
puerta. Cuando la tensión Vgs es 0 voltios, la resistencia DS es de menos de 200
ohmios. La ganancia del amplificador por tanto es 1+R1/(R3+200) que es
aproximadamente 275 o 48 dB. Cuando Vgs es de -2,7 voltios para el BF245B, la
resistencia DS es de 100K, por tanto la ganancia es de 4,3 o 12,6 dB. Este
sencillo circuito permite un rango de ajuste de 35 dB.
La tensión de puerta es controlada por un detector y un
circuito integrador que proporciona tensión negativa cuanto mayor sea la
amplitud de la señal de entrada. En la
figura 9 de la izquierda se puede ver cómo a una variación instantánea de la
señal de entrada la salida del amplificador de ganancia variable ajusta el
nivel al valor prefijado. Esto le lleva un tiempo que está fijado por el tiempo
de respuesta del detector. Seguido al amplificador de ganancia variable el
limitador muestra como a una variación de 10 dB a la entrada, la salida
permanece casi constante todo el tiempo, figura 9 de la derecha. El pico de voz
ha sido recortado.
Fig 9: Respuesta del
compresor
El circuito de error debe responder con cierto retraso para
que los picos de voz no lleven la ganancia a un punto tal que cualquier ruido
fortuito deje la ganancia al mínimo. Se suele usar un tiempo de ataque de unos 25
a 100 milisegundos y para que la ganancia no vuelva al máximo en el instante
que no hay audio entre dos palabras el tiempo de decaimiento debe estar entre
0,5 y 1 segundo. De esta forma el circuito se ajusta a un valor medio de
ganancia determinado por el valor medio de la distribución de audio de la voz.
Detrás del circuito de compresión de ganancia
ya se puede colocar el limitador ajustado a unos 12 a 18 dB.
Fig 10: Diagrama de
bloques de un procesador de voz
Uno de los problemas que se detectan con este tipo de
sistemas es que una excesiva ganancia de micrófono solo sirve para captar ruido
en ausencia de voz. Cuando se empieza a hablar el amplificador reduce
automáticamente la ganancia al valor adecuado pero entre palabra y palabra
suele recuperar parte de la ganancia sacando el ruido de fondo. El ajuste de
sensibilidad de micrófono se tiene que hacer para que hablando en condiciones
normales, el amplificador de ganancia variable no requiera grandes márgenes de compresión.
Solamente si se habla más fuerte de lo normal por ruido
ambiente u otra causa, el compresor debe actuar para mantener el nivel de
entrada al limitador dentro del margen deseado.
No hay comentarios:
Publicar un comentario
Espero que te sea útil. Te agradezco la crítica constructiva y todo tipo de comentarios no ofensivos, despectivos o mal intencionados