Modelos Probabilísticos para la Recolección de Datos

Mar 19, 2021 | Metodología

El objetivo de cualquier ciencia es descubrir la estructura y la dinámica de los fenómenos que son su objeto. Esto, tal y como se muestran en los modelos estadísticos para la recolección de datos. Los científicos tratan continuamente de describir las posibles estructuras. Se preguntan si los datos pueden, teniendo en cuenta los errores de medición, describirse adecuadamente en términos de ellas.

Durante mucho tiempo, varias familias de estructuras se han repetido en muchos campos de la ciencia. Estas estructuras se han convertido en objetos de estudio por derecho propio. Principalmente por parte de los estadísticos, otros especialistas en metodología, matemáticos aplicados y filósofos de la lógica y la ciencia. Se han desarrollado métodos para evaluar la idoneidad de determinadas estructuras para dar cuenta de determinados tipos de datos. En aras de la claridad, hablamos de estas estructuras en este artículo y de los métodos analíticos utilizados para su estimación y evaluación. Sin embargo, en la práctica están estrechamente entrelazados.

Modelos Estadísticos y Matemáticos

Una buena parte de los modelos matemáticos y estadísticos intentan describir las relaciones, tanto estructurales como dinámicas, que se dan entre las variables. Las mismas se suponen representables mediante números. Tales modelos sólo son aplicables en las ciencias sociales y del comportamiento. Esto en la medida en que se puedan concebir mediciones numéricas adecuadas para las variables pertinentes. En muchos estudios, los fenómenos en cuestión y los datos brutos obtenidos no son intrínsecamente numéricos, sino cualitativos, como las identificaciones de grupos étnicos.

Los números de identificación utilizados para codificar dichas categorías del cuestionario para los ordenadores no son más que etiquetas, que podrían ser igualmente letras o colores. Una cuestión clave es si hay alguna forma natural de pasar de los aspectos cualitativos de esos datos a una representación estructural. La misma implica que uno de los modelos numéricos o geométricos bien entendidos o si ese intento sería intrínsecamente inadecuado para los datos en cuestión. La decisión de si unos datos empíricos concretos pueden representarse o no en determinadas estructuras numéricas o más complejas rara vez es sencillo. Los fuertes sesgos intuitivos o las suposiciones a priori sobre lo que puede y no puede hacerse pueden ser engañosos.

Adaptación a las Ciencias Sociales

En las últimas décadas se ha producido un rápido y amplio desarrollo y aplicación de métodos analíticos. Los mismos han sido adaptados a la naturaleza y complejidad de los datos de las ciencias sociales. Según Ellenberg (2014), los ejemplos de modelización no numérica son cada vez más numerosos. Además, la disponibilidad generalizada de potentes ordenadores está provocando probablemente una revolución cualitativa. Esto debido a que afecta no sólo a la capacidad de calcular soluciones numéricas a modelos numéricos. También afecta a la elaboración de las consecuencias de todo tipo de estructuras que no implican números en absoluto.

También es útil distinguir entre las representaciones de datos que son muy discretos o categóricos por naturaleza (como si una persona es hombre o mujer) y los que son continuos por naturaleza (como la altura de una persona). Por supuesto, hay casos intermedios que implican ambos tipos de variables. Por ejemplo, los estímulos de color que se caracterizan por tonos discretos (rojo, verde) y una medida de luminancia continua.

Los modelos probabilísticos conducen de forma muy natural a cuestiones de estimación y evaluación estadística de la correspondencia entre los datos y el modelo. Los que no son probabilísticos implican problemas adicionales de tratamiento y representación de las fuentes de variabilidad que no están explícitamente modeladas. En la actualidad, los científicos comprenden algunos aspectos de la estructura, como las geometrías, y algunos aspectos de la aleatoriedad. Los mismos son plasmados en los modelos probabilísticos, pero aún no comprenden adecuadamente cómo juntar ambos en un único modelo unificado.

Modelos de probabilidad

Algunas variables de las ciencias sociales y del comportamiento parecen ser más o menos continuas. Por ejemplo, la utilidad de los bienes, la intensidad de los sonidos o el riesgo asociado a alternativas inciertas. Sin embargo, muchas otras variables son intrínsecamente categóricas. Esto a menudo con sólo dos o unos pocos valores posibles. Por ejemplo, si una persona está escolarizada o no, si está empleada o no, si se identifica con un partido político importante o con una ideología política. Y algunas variables, como las actitudes morales, suelen medirse en la investigación con preguntas de encuesta que sólo permiten respuestas categóricas.

Gran parte de la primera teoría de la probabilidad se formuló sólo para variables continuas. Su uso con variables categóricas no estaba realmente justificado, y en algunos casos puede haber sido engañoso. Recientemente, se han producido avances muy significativos en la forma de tratar explícitamente las variables categóricas. Describimos en primer lugar varios enfoques contemporáneos de los modelos que implican variables categóricas, seguidos de los que implican representaciones continuas.

Modelos logarítmicos para variables categóricas

Muchos modelos recientes para el análisis de datos categóricos del tipo que suele mostrarse como recuentos (frecuencias de celdas) en las tablas de contingencia multidimensionales se engloban bajo el título general de modelos log-lineales. Es decir, modelos lineales en los logaritmos naturales de los recuentos esperados en cada celda de la tabla. Estas formas de análisis estadístico recientemente desarrolladas permiten dividir la variabilidad debida a diversas fuentes en la distribución de los atributos categóricos y aislar los efectos de determinadas variables o combinaciones de ellas.

Según Livio (2013), los actuales modelos logarítmicos lineales fueron desarrollados y utilizados por primera vez por estadísticos y sociólogos. Luego encontraron una amplia aplicación en otras disciplinas de las ciencias sociales y del comportamiento. Cuando se aplican, por ejemplo, al análisis de la movilidad social, estos modelos separan los factores de la oferta y la demanda ocupacional de otros factores. Los mismos pueden impedir o impulsar el movimiento hacia arriba y hacia abajo en la jerarquía social.

Aplicación de estos modelos

Con estos modelos, los investigadores descubrieron el sorprendente hecho de que los patrones de movilidad ocupacional son sorprendentemente similares en muchas naciones del mundo. Esto, incluso entre naciones dispares como Estados Unidos y la mayoría de los países socialistas de Europa del Este. También de un periodo de tiempo a otro, una vez que se tienen en cuenta las diferencias en la distribución de las ocupaciones. Los modelos logarítmicos lineales y otros similares también han permitido identificar y analizar las diferencias sistemáticas de movilidad entre países y a lo largo del tiempo. Otro ejemplo de aplicaciones es que los psicólogos y otros profesionales han utilizado los modelos log-lineales para analizar las actitudes y sus determinantes. También para vincular las actitudes al comportamiento. Estos métodos también se han difundido y utilizado ampliamente en las ciencias médicas y biológicas.

Modelos de regresión para variables categóricas

Los modelos que permiten explicar o predecir una variable por medio de otras, llamados modelos de regresión, son los caballos de batalla de gran parte de la estadística aplicada. Esto es especialmente cierto cuando la variable dependiente (explicada) es continua. Para una variable dependiente de dos valores, como vivo o muerto, los modelos y la teoría aproximada y los métodos computacionales para una variable explicativa se desarrollaron en biometría hace unos 50 años. Hoy en día se dispone de programas informáticos capaces de manejar muchas variables explicativas, continuas o categóricas. Sin embargo, incluso ahora, la exactitud de la teoría aproximada sobre datos dados es una cuestión abierta.

Utilizando la teoría clásica de la utilidad, los economistas han desarrollado modelos de elección discreta que resultan estar algo relacionados con los modelos de regresión log-lineal y categórica. Los modelos para variables dependientes limitadas, especialmente las que no pueden tomar valores por encima o por debajo de un determinado nivel (como las semanas de desempleo, el número de hijos y los años de escolarización) se han utilizado de forma provechosa en economía y en algunas otras áreas.

Aplicación a las Variables Normales Censuradas

Las variables normales censuradas (llamadas tobits en economía), en las que simplemente se cuentan los valores observados fuera de ciertos límites, se han utilizado en el estudio de las decisiones de seguir estudiando. Será necesario seguir investigando y desarrollando para incorporar plenamente la información sobre rangos limitados de variables en las principales metodologías multivariantes. Además, con respecto a las suposiciones sobre la distribución y la forma funcional que se hacen convencionalmente en los modelos de respuesta discreta, se están desarrollando ahora algunos métodos nuevos que prometen producir inferencias fiables. Esto sin hacer suposiciones poco realistas. La investigación futura en este ámbito promete un progreso significativo.

Modelos de historias de eventos

Los estudios de la historia de los acontecimientos revelan la secuencia de eventos que los encuestados experimentan a lo largo de un período de tiempo. Por ejemplo, el momento en que se contrae matrimonio, se tiene un hijo o se participa en la población activa. Los datos de la historia de los acontecimientos pueden utilizarse para estudiar el progreso educativo, los procesos demográficos (migración, fertilidad y mortalidad), las fusiones de empresas, el comportamiento del mercado laboral e incluso los disturbios, las huelgas y las revoluciones. A medida que ha crecido el interés por este tipo de datos, muchos investigadores han recurrido a modelos que se refieren a los cambios en las probabilidades a lo largo del tiempo. Especialmente para describir cuándo y cómo los individuos se mueven entre un conjunto de estados cualitativos.

Gran parte de los avances en los modelos para los datos de la historia de los acontecimientos se basan en los recientes desarrollos de la estadística y la bioestadística para los modelos de tiempo de vida, tiempo de fracaso y peligro. Estos modelos permiten analizar las transiciones cualitativas en una población cuyos miembros sufren un deterioro orgánico parcialmente aleatorio, un desgaste mecánico u otros riesgos a lo largo del tiempo.

El problema de las transiciones repetidas

Con el aumento de la complejidad de los datos de la historia de los eventos que se recogen actualmente, y la extensión de las bases de datos de la historia de los eventos a períodos de tiempo muy largos, surgen nuevos problemas. Los mismos no pueden ser tratados eficazmente por los tipos de análisis más antiguos.

Entre los problemas se encuentran las transiciones repetidas, como entre el desempleo y el empleo o el matrimonio y el divorcio. También puede existir más de una variable temporal (como la edad biológica, el tiempo de calendario, la duración en una etapa y el tiempo de exposición a alguna condición específica). Por otra parte, se encuentran las variables latentes (variables que se modelan explícitamente aunque no se observen). Asimismo, las lagunas en los datos y el desgaste de la muestra que no se distribuye aleatoriamente entre las categorías, así como las dificultades de los encuestados para recordar el momento exacto de los acontecimientos.

Modelos para la medición de múltiples ítems

Por diversas razones, los investigadores suelen utilizar medidas múltiples (o indicadores múltiples) para representar conceptos teóricos. Los sociólogos, por ejemplo, de acuerdo con Carlisle (2017), suelen basarse en dos o más variables (como la ocupación y la educación) para medir la posición socioeconómica de un individuo. Los psicólogos de la educación suelen medir la capacidad de un estudiante con múltiples ítems de pruebas. A pesar de que las observaciones básicas son categóricas, en varias aplicaciones se interpretan como una partición de algo continuo. Por ejemplo, en la teoría de los tests se piensa en las medidas de la dificultad de los ítems y de la capacidad del encuestado como variables continuas, posiblemente de carácter multidimensional.

La teoría clásica de los tests y las nuevas teorías de respuesta al ítem en psicometría se ocupan de la extracción de información de múltiples medidas. Los tests, que son una importante fuente de datos en la educación y en otras áreas, dan lugar a millones de ítems de tests almacenados en archivos cada año. Esto para fines que van desde la admisión a la universidad hasta los programas de formación laboral para la industria. Uno de los objetivos de la investigación sobre estos datos de pruebas es poder hacer comparaciones entre personas o grupos, incluso cuando se utilizan diferentes elementos de pruebas.

Técnicas de Respuesta

Aunque la información recopilada de cada encuestado es intencionadamente incompleta para que los tests sean cortos y sencillos, las técnicas de respuesta a los ítems permiten a los investigadores reconstituir los fragmentos en una imagen precisa de las competencias generales del grupo. Estos nuevos métodos proporcionan un mejor manejo teórico de las diferencias individuales, y se espera que sean extremadamente importantes en el desarrollo y uso de los tests. Por ejemplo, se han utilizado en los intentos de equiparar diferentes formas de una prueba administrada en oleadas sucesivas durante un año, un procedimiento que se hace necesario en los programas de pruebas a gran escala por la legislación que exige la divulgación de las claves de puntuación de las pruebas en el momento en que se dan los resultados.

Ejemplo Práctico

Un ejemplo del uso de la teoría ítem-respuesta en un esfuerzo de investigación importante es la Evaluación Nacional de Progreso Educativo (NAEP). El objetivo de este proyecto es proporcionar información precisa y representativa a nivel nacional sobre la competencia media (y no individual) de los niños estadounidenses en una amplia variedad de materias académicas a medida que avanzan en la escuela primaria y secundaria. Este enfoque supone una mejora con respecto a la utilización de los datos de tendencias de los exámenes de acceso a la universidad. Las estimaciones del NAEP sobre los logros académicos (por características generales como la edad, el grado, la región, el origen étnico, etc.) no están distorsionadas por el carácter autoseleccionado de los alumnos que buscan ser admitidos en programas universitarios, de postgrado y profesionales.

La teoría del ítem-respuesta también constituye la base de muchos instrumentos psicométricos nuevos. Los mismos son conocidos como pruebas adaptativas computarizadas, que actualmente están siendo implementadas por los servicios militares de los Estados Unidos. Se encuentran en desarrollo adicional en muchas organizaciones de pruebas. En los tests adaptativos, un programa informático selecciona los ítems para cada examinando basándose en el éxito del examinando con los ítems anteriores.

Por lo general, cada persona recibe un conjunto de ítems ligeramente diferente y la equivalencia de las puntuaciones de la escala se establece utilizando la teoría ítem-respuesta. Las pruebas adaptativas pueden reducir en gran medida el número de ítems necesarios para alcanzar un determinado nivel de precisión en la medición.

Modelos no lineales y no aditivos

Prácticamente todos los modelos estadísticos que se utilizan actualmente imponen un supuesto de linealidad o aditividad de algún tipo. A veces tras una transformación no lineal de las variables. Imponer estas formas a relaciones que, de hecho, no las poseen, puede dar lugar a falsas descripciones y efectos espurios. Los usuarios desprevenidos, especialmente de los paquetes de software informático, pueden ser fácilmente engañados. Pero cada vez se dispone de modelos multivariantes no lineales y no aditivos más realistas. Es probable que el uso extensivo con datos empíricos obligue a realizar muchos cambios y mejoras en dichos modelos . Además puede estimular enfoques muy diferentes del análisis multivariante no lineal en la próxima década.

Nuestros especialistas esperan por ti para que los contactes a través del formulario de cotización o del chat directo. También contamos con canales de comunicación confidenciales como WhatsApp y Messenger. Y si quieres estar al tanto de nuestros novedosos servicios y las diferentes ventajas de contratarnos, síguenos en Facebook, Instagram o Twitter.

Si este artículo fue de tu agrado, no olvides compartirlo por tus redes sociales.

Referencias Bibliográficas

Livio M (2013) Brilliant Blunders: From Darwin to Einstein—Colossal Mistakes by Great Scientists that Changed our Understanding of Life and the Universe (Simon & Schuster, New York), 1st Simon & Schuster hardcover ed, p 341.

Ellenberg J (2014) How Not to Be Wrong: The Power of Mathematical Thinking (Penguin, New York).

Carlisle JB (2017) Data fabrication and other reasons for non-random sampling in 5087 randomised, controlled trials in anaesthetic and general medical journals. Anaesthesia 72:944–952.

También te puede interesar: Modelos Geométricos y Algebraicos para la Recolección de Datos

Modelos Probabilísticos para la Recolección de Datos Estadísticos

Modelos Probabilísticos para la Recolección de Datos

Modelos Estadísticos y Matemáticos

Adaptación a las Ciencias Sociales

Modelos de probabilidad