Biopsychology.org

English

Artículos Casos   Libros Apuntes Otros  

Análisis del Comportamiento Verbal Articulatorio en Conversaciones Grupales Espontáneas. E. Barrull, 1992. (esteban@biopsychology.org)

Atrás Arriba Siguiente

 

2.3 Algoritmos e instrumentación

2.3.1 Esquema básico del procedimiento
2.3.2 Algoritmo FFT
2.3.3 Implementación técnica

 

Para la puesta en práctica de esta investigación ha sido necesario implementar un conjunto de instrumentos y algoritmos informáticos que quisiéramos comentar brevemente.

Ha sido esta una tarea muy ardua y con un elevado coste en cuanto al tiempo requerido para su ejecución, por la sencilla razón de que no existía ninguna infraestructura ya elaborada y de la cual nosotros pudiéramos disponer. Elaborar, a partir de un instrumento vacío como es el ordenador, toda la infraestructura que permita la captura de la señal vocal en el ordenador e implementar los diversos procesos analíticos que nos permitan dilucidar nuestros interrogantes experimentales es una tarea más propia de un ingeniero que de un psicólogo.

No obstante, consideramos que todo este esfuerzo no ha sido inútil puesto que ello nos ha obligado a una profunda comprensión de todos los procesos implicados, no solo en su dimensión técnica, sino también en su dimensión conceptual. Este conocimiento redunda tanto en la flexibilidad y creatividad en el análisis como en la propia seguridad en cuanto a las conclusiones que de ellos puedan deducirse.

De nuestra experiencia hemos podido deducir que, si bien los equipos interdisciplinares constituyen un paso importante para el desarrollo de las ciencias sociales, es aún más importante y provechoso, que los propios psicólogos integren, en su formación y conocimientos, aquellas metodologías que puedan serles útiles en su investigación.

Si el psicólogo deja en manos de los 'técnicos' los problemas metodológicos que genera su investigación, y no realiza el esfuerzo por comprender dichas técnicas, no puede esperar que sea el técnico quien interprete, desde la psicología, los resultados de la investigación.

 

2.3.1 Esquema básico del procedimiento

Vamos a comentar el procedimiento técnico básico que hemos seguido para realizar nuestra investigación, y que queda reflejado en el siguiente esquema:

La primera operación ha realizar es la grabación, en un soporte magnético, de la señal vocal que queremos analizar, para su posterior edición y tratamiento. Para ello hemos utilizado un sistema de vídeo doméstico hi-fi estéreo, en vez del soporte de cinta magnética tradicional, por tres razones fundamentales. En primer lugar, la calidad de grabación es muy superior, reduciendo significativamente el ruido de fondo. En segundo lugar, por su gran facilidad de edición, puesto que permite un control, incluso de forma semi-programada, en tiempo real, mediante el reloj incorporado en estos sistemas y en tercer lugar, por su gran capacidad de almacenaje ya que permite una grabación continua de hasta 8 horas con una gran calidad de sonido.

Una vez disponemos de la grabación de la señal acústica, el primer paso a realizar consiste en trasladar la información de interés al ordenador, para su almacenamiento y posterior tratamiento digital. Para ello, hemos utilizado una placa de conversión analógico/digital convencional, instalada en una ranura de expansión del ordenador, y hemos elaborado un programa para su manejo. Debido a que este proceso tiene que realizarse en tiempo real, hemos tenido que diseñar y escribir el programa en lenguaje maquina o ensamblador, puesto que la utilización de lenguajes de nivel superior no permitían satisfacer las necesidades de velocidad con que se debía realizar el proceso. En este sentido, hemos diseñado el programa para el uso al 'límite' de las posibilidades que nos ofrecía nuestro ordenador.

A partir de este momento, tenemos la información a nuestra disposición para realizar los análisis que creamos convenientes. En general, todos los programas de análisis y edición, los hemos escrito en el lenguaje BASIC (utilizando el compilador QuickBasic de Microsoft), excepto el programa de análisis espectral, que ha sido escrito en lenguaje máquina, debido a sus especiales requerimientos de cálculo y, por consiguiente, de consumo de tiempo (Ver apéndice SERESPEC.ASM).

Este es el principal programa de análisis y su esquema de procedimiento básico es:

Para cada uno de los segmentos a analizar:

1. recuperar el segmento temporal a analizar
2. centrar el segmento (hacer que )
3. multiplicación por la ventana de ponderación
4. aplicar el algoritmo FFT (Análisis de Fourier)
5. calculo de la densidad espectral
6. calculo de parámetros estadísticos del espectro (entre ellos, la entropía)
7. almacenamiento del espectro y sus estadísticos
8. volver al paso 1 hasta que se hayan completado todos los segmentos del registro temporal.

Además de este programa, hemos realizado otros programas con el fin de completar el análisis. Un programa para el análisis de la distribución de los períodos de silencio y emisión. Un programa para el cálculo de distancias euclideas entre los espectros. Un programa para normalizar funciones. Un programa para determinar la distribución de la amplitud media de la señal, etc.

En general, todos los programas realizan operaciones matemáticas comunes. Pero, aunque en el mercado puedan encontrarse programas que realicen estas operaciones, estos no son apropiados para una investigación de carácter intensivo como la que hemos realizado. Nos hemos visto obligados a construir todos los programas debido al altísimo volumen de información manejada, así como a la necesidad de automatizar al máximos toda la secuencia del proceso.

Hemos seguido el criterio de maximizar la automatización y permitir así, tanto la liberalización de mano de obra, como la facilidad para la reiteración del proceso de medida. Así, por ejemplo, podemos analizar 6 conversaciones contenidas en una cinta de vídeo, de forma completamente automática, mediante la definición de unos pocos parámetros en un fichero y la sincronización temporal entre el vídeo y el ordenador. Aunque las operaciones puedan tardar varias horas, no se requiere la presencia de ninguna persona. Esto nos ha permitido analizar muchísimas horas de conversaciones en un tiempo relativamente corto.

Además de los programas de cálculo, hemos diseñado un programa de representación gráfica lo suficientemente flexible como para permitir una revisión ágil del gran volumen de resultados que la investigación produce. Hemos de considerar que un solo análisis espectral de una sola conversación puede generar del orden de 1.000 espectros. El acceso rápido y preciso a esta información es fundamental para un buen aprovechamiento de la misma.

 

2.3.2 Algoritmo FFT

El núcleo fundamental de nuestro análisis es el cálculo espectral sobre la señal del comportamiento verbal. Este cálculo se fundamenta en el teorema de Fourier y su implementación requiere un comentario especial.

Si nos propusiéramos diseñar un algoritmo para el cálculo de la DFT y que realizara las operaciones literalmente tal y como están descritas en (2-12), nos encontraríamos con un esfuerzo de calculo muy importante.

Para darnos una idea de lo que consistiría este esfuerzo, podemos decir que el número aproximado de sumas y multiplicaciones que requiere un solo análisis espectral, de una conversación de las que hemos realizado, es del orden de 135 millones de operaciones.

Aunque el ordenador constituye una gran herramienta, estos volúmenes de cálculo son aún desproporcionados para sus posibilidades. Un volumen como el anterior puede llevar un tiempo aproximado de 10 horas de trabajo a un ordenador tipo XT.

Afortunadamente, existe un algoritmo de calculo para evaluar la DFT que reduce drásticamente el número de operaciones y con ello se obtienen dos beneficios. En primer lugar, la reducción de tiempo ya comentada, y en segundo lugar, y no menos importante, el aumento de precisión en el calculo, ya que al disminuir las operaciones, disminuyen los inevitables errores de redondeo que implica cada operación.

Este algoritmo se denomina FFT (Fast Fourier Transform) y fue propuesto por primera vez en 1965, por Cooley y Tukey(1). El número aproximado de operaciones que requiere el algoritmo FFT, para el mismo caso anterior, es de 2,3 millones. Por tanto, la reducción es de 59 veces menor, y el tiempo de ejecución se reduce a 10 minutos.

De este algoritmo existen varias versiones en función de la aplicación que se quiera hacer y del nivel de ahorro que se quiera llegar(2). Nosotros hemos utilizado el algoritmo básico y más simple, puesto que las limitaciones que introduce no son importantes para nuestra investigación.

En concreto, dicho algoritmo requiere que los segmentos a analizar contengan exactamente 2n muestras, donde n es cualquier número entero superior a 2. De todas formas, esta limitación es solo relativa, puesto que, si por alguna razón dicha condición no puede cumplirse, siempre es posible rellenar con ceros el segmento hasta completar un número de muestras que sea potencia de 2.

Para la implementación del algoritmo FFT en nuestro programa, hemos seguido las indicaciones expuestas en Newland (1975) y Stearns y David (1988). Estos últimos autores incluyen una completa biblioteca de programas, junto con sus tests de verificación correspondientes.

2.3.3 Implementación técnica

Uno de nuestros objetivos ha sido el que los instrumentos necesarios para la investigación fuesen lo más asequibles posible, es decir, no requiriesen de intervenciones especiales por parte de técnicos especializados. Por otra parte, la informatización de todo el proceso de análisis, elimina en la práctica la mayoría de instrumentos tradicionales, siendo substituidos por sus algoritmos de cálculo equivalentes.

Por consiguiente, todos los elementos utilizados son productos comerciales de consumo normal y pueden encontrarse fácilmente. Damos una relación del equipo utilizado:

Micrófono marca Shure, SM58: Se trata de un micrófono de tipo dinámico, de alta sensibilidad y de carácter unidireccional. Se ha utilizado para la grabación de las conversaciones privadas, procurando situarlo en posición cenital centrada.

Vídeo marca Panasonic, NV-F70EB Hi-Fi: Hemos utilizado el vídeo como sistema de grabación acústica dada su superior cualidad de sonido, con respecto a las grabadoras tradicionales (casetes o bobinas). Tiene también importantes ventajas en la edición (mediante contador de tiempo), en la programación (inicio y parada de grabación automática), así como una mayor capacidad de autonomía (hasta 8 horas de grabación).

Tarjeta convertidora A/D marca Advantech Co., PCL-714: Dicha tarjeta se inserta en el ordenador y se conecta a la salida de audio del vídeo (o cualquier otro apartado de audio). Tiene una resolución digital de 14 bits, y puede muestrear hasta una frecuencia de 25.000 Hz. Su control se realiza mediante software.

Ordenador tipo XT: tiene un procesador V20 a 12 MHz, y coprocesador matemático 8087 con 640 Kb de RAM(3). Se trata de un ordenador mínimo, pero suficiente, para la tarea a que le hemos sometido, lo que nos obligó a la realización de programas especiales para obtener su máximo rendimiento. Con los ordenadores actuales, nos habríamos ahorrado bastante trabajo de programación.

Disco duro removible marca Syquest, SQ-555: Se trata de un disco duro extraible y de bajo coste, con una capacidad de 40 MB, lo que permite almacenar una cantidad importante de información. Hemos de tener en cuenta que el análisis de una conversación de una hora, puede generar del orden de 2 a 4 MB de información.

Plotter marca Roland, DXY-800A: permite dibujar con precisión, los resultados de los análisis, aunque es bastante lento y no permite el uso de papel continuo, con lo que se merma la capacidad de automatización. Como alternativa, hemos utilizado una impresora matricial y últimamente, una impresora láser.

 

Notas:

1. Cooley, J.W. y Tukey, J.W., (1965): An algorithm for the machine calculation of complex Fourier series. Mathematics of Computation, vol. 19, 297-301. (Reimpreso en Oppenheim, A.V., (1969) (ed.). Papers on Digital Signal Processing, MIT Press, Cambridge, Mass.

2. Una revisión completa de dicho algoritmo puede encontrarse en Nussbaumer (1982).

3. A la hora de redactar estas líneas, dicho ordenador ya puede ser considerado como anticuado, dada la vertiginosa evolución de estos aparatos.

 

© Biopsychology.org, 1998-2006

 
Última actualización:
22/03/06