Análisis del Comportamiento Verbal Articulatorio en Conversaciones Grupales Espontáneas. E. Barrull, 1992. (esteban@biopsychology.org)
|
2.2 Procedimientos analíticos
En este apartado exponemos la estrategia del análisis que vamos a llevar a cabo en nuestra investigación. Queremos recordar que nuestro único objetivo consiste en dilucidar la existencia de patrones de comportamiento articulatorio. Por consiguiente se trata de una investigación de exploración y no de causación, en el sentido de que no pretendemos demostrar ninguna relación entre variables o fenómenos, sino simplemente su existencia. Por lo tanto, desde un punto de vista metodológico, nos interesa saber de qué manera podemos detectar la presencia de patrones en el caso de que estos existan. Hemos de tener presente que no se trata del problema del reconocimiento automático de patrones o formas, que tanto interés está teniendo en nuestros días. Este problema sólo tiene sentido en el caso de que previamente se haya verificado que, en un determinado campo, existen patrones definidos, y esto, en el caso articulatorio, aún está por ver. Por otra parte, el hecho de que estemos interesados en el estudio del comportamiento articulatorio no implica que debamos usar una metodología, que en sus aspectos fundamentales, esté diseñada ex-profeso para este ámbito. Todo lo contrario, podemos utilizar la misma estrategia que se utiliza en el ámbito del análisis fonético, por ejemplo. Se trata de una estrategia metodológica capaz de detectar la existencia de patrones en fenómenos vibratorios, independientemente de cual sea su naturaleza física. Ciertamente, la realización de nuestra investigación descansa, en sus aspectos técnicos y metodológicos, en la fecunda investigación desarrollada en el campo de la fonética, desde hace ya varias décadas. Por todo ello, utilizamos, en la siguiente exposición, la analogía del análisis fonético para lograr una mayor comprensión del procedimiento analítico que aplicaremos al fenómeno articulatorio. La analogía es muy adecuada en tanto que ésta ha constituido la guía a la hora de plantear nuestra investigación, al ser el fenómeno fonético un ejemplo paradigmático de lo que entendemos por secuencias de patrones vibratorios. Hemos de tener presente que tanto en el diseño de la investigación, como en su puesta en marcha, no disponíamos de material empírico sobre el fenómeno articulatorio, por lo que nuestra única guía fueron las investigaciones realizadas en el campo fonético(1).
El material que sometemos a análisis, y que contiene la información acústica del comportamiento verbal, suele estar almacenado en una cinta de cassette o en un video, aunque a veces lo tomamos directamente de la fuente (radio, TV, micrófono, etc.). En cualquier caso, nos viene dado por un sistema hi-fi tradicional en el cual, la información acústica se transmite mediante oscilaciones en el voltaje de una corriente eléctrica continua (analógica). Antes del gran desarrollo de los ordenadores, los análisis de este tipo de información sólo se podían hacer en aparatos específicos llamados analógicos. En estos aparatos, las operaciones de cálculo están implementadas en sus circuitos, es decir, realizan sus cálculos sobre la misma corriente eléctrica que contiene la información acústica. Además del alto coste de dichos aparatos, su principal defecto, de cara a la investigación, es su limitación en cuanto a su versatilidad. Por contra, los ordenadores permiten una gran versatilidad, puesto que es posible alterar a voluntad los algoritmos de cálculo, sin tener que cambiar de aparato. El problema reside en trasladar la información acústica que nos viene dada por una corriente eléctrica hasta la memoria del ordenador, para entonces, realizar todos los cálculos que consideremos necesarios. El proceso mediante el cual se traslada la información contenida en la oscilación de una corriente eléctrica (analógica) hasta la memoria del ordenador, en forma de una serie finita de números (digital) se denomina muestreo mediante conversión analógico/digital (A/D). El muestreo se realiza a intervalos regulares de tiempo ( seg) y consiste en convertir a un número entero, el valor (normalmente el voltaje) que toma la corriente eléctrica original en cada instante de muestreo dado. La capacidad de cuantificación viene dada por el número de bits que puede tomar el valor numérico. En nuestro caso, hemos utilizado un convertidor de 14 bits, con lo que el rango de números enteros va de 0 a 214-1 (de 0 a 16383). Por consiguiente, el error de cuantificación (redondeo al entero más próximo) depende directamente de este rango(2). El proceso puede describirse como el paso de una función continua del tiempo x(t) (corriente eléctrica) a una serie discreta del tiempo {xr} (digital). Mientras que x(t) toma valores para cualquier tiempo real dado t, xr sólo toma valores para tiempos múltiplos enteros de seg, que es el período de muestreo escogido. En la Fig. 2.6 representamos este proceso de muestreo. La señal continua x(t) es convertida a la serie numérica xr, en donde el valor xj corresponde a la aproximación entera del valor de x(t) para el instante t=j. Puesto que el proceso de muestreo sólo nos deja una representación aproximada de la información original, cabe preguntarse ¿Hasta que punto un muestreo puede revelar con exactitud las propiedades de la señal original? Este es el problema básico del proceso de muestreo y su solución viene dada por el teorema del muestreo, según el cual, si la señal original tiene una frecuencia máxima de fmax Hz, entonces, un muestreo cuya frecuencia sea mayor a dos veces fmax permitirá reconstruir, teóricamente con exactitud, la señal original (ver Papoulis, 1978, pp. 143). A la frecuencia límite de muestreo, es decir, 2fmax se le llama frecuencia de Nyquist. En la práctica no es posible reconstruir exactamente la señal original aunque se respete la condición impuesta por el teorema del muestreo, entre otras razones debido a la longitud finita del período muestreado. Otra fuente de error se produce en la cuantificación de la conversión A/D, ya que la conversión numérica de la corriente tiene que redondearse al entero más próximo. La técnica usual para asegurar que el teorema del muestreo se cumpla consiste en realizar un filtrado pasa bajos, previo al muestreo, de forma que se eliminen las frecuencias mayores a la deseada. No obstante, como que los procesos de filtrado no son perfectos, es decir, dejan pasar frecuencias mayores a la de corte, aunque atenuadas, siempre es conveniente que la frecuencia de muestreo sea de 4 a 10 veces superior a la frecuencia de corte del filtro pasa bajos. En nuestro caso, la señal de entrada contiene información acústica procedente de la voz humana por lo que las frecuencias de interés, es decir, aquellas que contienen prácticamente toda la información, se sitúan en el rango de los 20 Hz a 4000 Hz. Por lo tanto, para realizar una conversión (muestreo) en el que no se pierda información relevante, es necesario realizarlo a una frecuencia superior a los 32.000 Hz, es decir, tomando más de 32.000 muestras por segundo (teorema del muestreo), y filtrar la señal original a 4000 Hz. No obstante, en nuestro caso podemos prescindir del filtrado previo de la señal, puesto que no estamos interesados en el estudio de las frecuencias acústicas de la señal (entre 20 Hz y 4.000 Hz) sino que nuestro interés se centra en las frecuencias articulatorias (inferiores a los 20 Hz).
2.2.2 Integración (Submuestreo) Como ya hemos comentado, nosotros no estamos interesados en el estudio de las propiedades acústicas de la señal verbal, sino que nos interesa el comportamiento articulatorio presente en dicha señal. Para poder acceder a esta información, se hace necesario introducir un proceso de submuestreo en la serie {xr} obtenida del muestreo A/D anterior. Este submuestreo se realiza mediante el cálculo de algún parámetro de la señal que sea relevante para la investigación. Además de escoger el parámetro adecuado, se suele introducir un proceso de integración (promedio) de modo que se reduzca significativamente el número de muestras que se vayan a manejar, siempre y cuando el tipo de análisis lo permita. En nuestro caso, el proceso consiste en obtener la media del módulo de la amplitud de la señal vocal para intervalos de tiempo regulares. El módulo de la amplitud de la señal vocal es un buen discriminante de las vocales con respecto a las consonantes, es decir, nos informa del movimiento articulatorio abierto (vocal)/cerrado (consonante) (Casacuberta, F., et al., 1987, p. 44). Al igual que en el proceso de muestreo anteriormente descrito, tenemos que escoger un intervalo de integración de muestras (o su equivalente en tiempo seg) y evaluar la expresión para la media del módulo de la amplitud de xr, es decir, con lo que obtenemos una nueva serie {yn} a partir de la anterior serie {xr} de muestreo. Lógicamente, si la serie inicial tenía r muestras, la serie resultante tendrá muestras. En la Fig. 2.7 damos un ejemplo de integración de la amplitud media de la señal acústica ya muestreada. Como puede observarse, se reduce significativamente el número de muestras. Por otra parte, puede verse como el proceso tiene un efecto de filtro pasa bajos, por el cual se eliminan las altas frecuencias, dejando sólo las frecuencias de interés(3). Lógicamente, la frecuencia de corte depende del intervalo de integración escogido y que nosotros escogeremos de modo que sólo pasen las frecuencias inferiores a 20 Hz. Con ello, eliminamos las propiedades acústicas de la señal (tono, timbre, etc) y nos quedamos únicamente con los movimientos articulatorios involucrados. Fig. 2.7. Proceso de integración.
Una vez tenemos capturada la información del comportamiento verbal en un formato digital, y hemos extraído su componente articulatoria, mediante el proceso de integración, procedemos a realizar los análisis que nos permitan evaluar la presencia de patrones en dicho comportamiento. El instrumento básico para este fin será el análisis espectral. Este análisis puede, por si mismo, mostrarnos o no la existencia de patrones de comportamiento. Lo que nos interesa determinar es si, a lo largo del registro analizado, existen patrones discernibles de comportamiento. Para que estos sean discernibles, es necesario que tengan una duración limitada, es decir, que pueda determinarse cuando empiezan y cuando acaban. Para ello, debe manifestarse un fenómeno de figura-fondo, que permita detectar contornos o límites formales. En la Fig. 2.8 se muestra un ejemplo de secuencia de patrones. En este caso, los patrones corresponden a sonidos fónicos y en la línea superior hemos marcado los límites aproximados de cada uno de los patrones que conforman la secuencia. Fig. 2.8. La segmentación como estrategia para detectar patrones. La estrategia a seguir para discriminar la presencia de patrones consiste en analizar cortes de duración constante (segmentos) a lo largo de todo el período a analizar, los cuales representan para nosotros la unidad de análisis. Interesa que las propiedades comportamentales a lo largo de cada segmento se mantengan aproximadamente constantes, es decir, que correspondan a una parte estable de un solo patrón. Piénsese que si analizásemos todo el conjunto, como una sola unidad, no podríamos precisar, caso de que existieran, ni el número ni la duración de los patrones existentes. Por lo tanto, en caso de existir los patrones (unidades formales), sólo con unidades de análisis de duración igual o inferior pueden ser estos correctamente identificados. En la Fig. 2.8 podemos ver como en el caso de que escogiéramos la unidad de segmentación A, la mayoría de los patrones podrían ser correctamente identificados puesto que su duración es sensiblemente superior, pero si escogiéramos la unidad de segmentación B, ningún patrón sería correctamente identificado puesto que en cada segmento de análisis caben dos o más patrones diferentes. La unidad de segmentación nos va a limitar, pues, el rango de duración de los patrones que podamos detectar. Lógicamente, es posible realizar varios análisis escogiendo diversas unidades de segmentación con lo que podemos hacer búsquedas de patrones de distintos rangos de duración. En la Fig. 2.9 podemos ver con más detalle el proceso de segmentación. Este consiste en dividir el período total de análisis en unidades de igual longitud (segmentos), los cuales pueden, y es conveniente, estar solapados entre si en una proporción a determinar. En la figura vemos a tres segmentos solapados al 50%. El hecho de solapar los segmentos se utiliza para evitar que nos pueda pasar por alto un patrón que caiga entre dos segmentos consecutivos no solapados, dado que los segmentos son unidades arbitrarias. A su vez, cada segmento se pondera mediante una ventana temporal que tiene la función de realzar el centro del segmento, para contrarrestar así la redundancia que se produce al solapar los segmentos. Esta ventana tiene también una función importante en el cálculo del espectro de los segmentos puesto que aumenta la precisión estadística de los mismos. Así, de una hora de grabación podemos obtener, por ejemplo, 1000 segmentos distintos, de 7,2 seg. cada uno, solapados al 50%. Ello nos ha de permitir detectar la presencia de patrones de comportamiento verbal cuya duración sea aproximadamente igual o superior a 7,2 seg. ¿Qué debe ocurrir para que podamos identificar la presencia de patrones de comportamiento? El reconocimiento automático de patrones es una tarea aún no conseguida para el estado actual de nuestros conocimientos. No obstante, sólo pretendemos obtener una información adecuada y objetiva, que nos permita evaluar, por nosotros mismos y con garantías, dicha presencia. Por ejemplo, sabemos a ciencia cierta que los fonemas consisten en patrones acústicos aunque no podamos aún reconocerlos automáticamente de forma satisfactoria. Con la aparición de los sonogramas (secuencias de espectros) los lingüistas pudieron convencerse de la existencia de tales patrones formales y determinar sus frecuencias características (formantes). Por lo tanto, nosotros también esperamos encontrar series de espectros consecutivos que presenten de forma significativa y estable unos 'picos' o líneas espectrales con claridad. Por el contrario, si estos picos no aparecen o bien no presentan ningún tipo de estabilidad, nos será muy difícil aceptar la existencia de tales patrones. En la Fig. 2.10 vemos dos ejemplos de espectros que presentan con claridad unas líneas espectrales. No obstante, esta información es insuficiente de cara a decidir si dichos espectros corresponden a un determinado patrón en la señal. Para que esto sea así, es necesario que uno o más espectros precedentes y/o siguientes a los de la figura, presenten sus mismas líneas espectrales. Sólo así, podremos afirmar la existencia de un patrón y sus límites de duración temporal. Para hacernos una idea de lo que realmente buscamos, podemos utilizar la siguiente analogía. Supongamos que cada forma espectral la representamos por una letra del alfabeto. Entonces, reconoceremos la existencia de patrones si nos encontramos con secuencias del tipo ....lllliiiorrrrrrsssssriiiiuu.... Por el contrario, si las secuencias de espectros son de la forma ....ialengisñjsirmepqs.... deberemos concluir que no existen patrones cuya duración sea igual o superior al tamaño del segmento utilizado para el análisis. En la Fig. 2.11 mostramos un ejemplo de análisis espectral por segmentación de un patrón fonético. El análisis se realiza mediante el cálculo de la densidad espectral de 10 segmentos correlativos (solapados al 50%) que abarcan todo el desarrollo temporal del patrón. En el eje temporal, cada número se sitúa en el centro del segmento a que corresponde, y la duración de cada segmento va desde el número anterior al posterior, es decir, el segmento 5 se inicia en la posición 4 y termina en la posición 6. Lo que nos interesa destacar aquí es el hecho de que la secuencia de espectros muestra una constancia en la posición (frecuencia) de las líneas espectrales correspondientes al patrón analizado. Esta constancia es precisamente la que nos permite deducir la presencia de un patrón. Lógicamente, dicho patrón presenta una evolución y un cambio interno, pero mantiene coherentemente unas propiedades formales que vienen reflejadas por la estabilidad de la posición de sus líneas espectrales. Por lo tanto, este patrón (fonema) puede caracterizarse por la frecuencia a que corresponde cada una de sus líneas espectrales, que en el caso fonético reciben el nombre de formantes, así como a su relativa amplitud o contribución a la formación del patrón. De ahí la idoneidad del análisis espectral para sintetizar la información contenida en un patrón formal, de comportamiento temporal, en unos pocos parámetros (líneas espectrales). Esta constancia, a lo largo de los segmentos analizados en el ejemplo de la Fig. 2.11, queda reflejada cuando hallamos el espectro medio de dichos segmentos, tal y como muestra la Fig. 2.12. Podemos observar como el espectro medio sigue mostrando las mismas líneas espectrales que aparecen en cada uno de los distintos segmentos de la secuencia. Ahora bien, pudiera ocurrir que tanto el número de líneas como su posición y amplitud en la secuencia de espectros no mantuviesen una constancia apreciable. En este caso, sería imposible hablar de la existencia de patrones, al menos, en el nivel de análisis realizado (dependiente de la longitud de los segmentos utilizados). Por el mismo motivo, tampoco podríamos caracterizar eficazmente intervalos de comportamiento mediante unas pocas líneas espectrales. Esta es, pues, nuestra incógnita con respecto a lo que ocurre en el comportamiento verbal articulatorio. Lógicamente no pensamos que en el caso de existir patrones de comportamiento estos muestren necesariamente unos espectros tan simples como los aquí ejemplificados. Lo importante no es la simplicidad del espectro, aunque de ser así puede facilitar las cosas, sino su constancia durante un determinado intervalo de tiempo, o lo que es lo mismo, su constancia en un determinado número de segmentos consecutivos. Puesto que la determinación de la existencia de patrones de comportamiento formal depende de las unidades de análisis que escojamos (en concreto, la duración de los segmentos), deberemos realizar varios análisis a distintos niveles de segmentación para abarcar distintas dimensiones temporales en las que pueda producirse el fenómeno de la organización comportamental. En todos los casos, nos interesará el estudio de períodos de interacción verbal lo más largos posibles, que en nuestro caso van a ser aproximadamente de una hora de duración. Para quienes estén muy familiarizados con la técnica del sonograma, se darán cuenta de que la estrategia que acabamos de describir es la misma que se utiliza para la elaboración del mismo. El sonograma consiste en la visualización de una serie consecutiva de espectros. Cuando se quiere aumentar la resolución frecuencial, disminuye la resolución temporal (aumenta la longitud de los segmentos) y viceversa.
Notas: 1. Para una completa referencia de los métodos de análisis fonético puede consultarse Hess (1983). 2. A mayor rango numérico, menor es el error de cuantificación. Para un conversor A/D de 14 bits, la relación señal-ruido es aproximadamente de 84 dB (Hess, 1983, p. 15). 3. Esta es la razón, apuntada antes, de que podamos prescindir de un filtrado pasa bajos inicial.
|
|