Con la estadística inferencial, se intenta llegar a conclusiones que van más allá de los datos inmediatos. Por ejemplo, utilizamos la estadística inferencial para intentar inferir de los datos de la muestra lo que podría pensar la población. O bien, utilizamos la estadística inferencial para hacer juicios sobre la probabilidad de que una diferencia observada entre los grupos sea fiable o se haya producido por casualidad en este estudio. Así, utilizamos la estadística inferencial para hacer inferencias de nuestros datos a condiciones más generales; utilizamos la estadística descriptiva simplemente para describir lo que ocurre en nuestros datos.

Quizás una de las pruebas inferenciales más sencillas se utiliza cuando se quiere comparar el rendimiento medio de dos grupos en una sola medida para ver si hay una diferencia. Puede que quiera saber si los chicos y las chicas de octavo grado difieren en las puntuaciones de las pruebas de matemáticas o si un grupo del programa difiere en la medida del resultado de un grupo de control. Siempre que desee comparar el rendimiento medio entre dos grupos debe considerar la prueba t para las diferencias entre grupos.

El Modelo Lineal General

La mayoría de los principales estadísticos inferenciales proceden de una familia general de modelos estadísticos conocida como Modelo Lineal General. Esto incluye la prueba t, el análisis de la varianza (ANOVA), el análisis de la covarianza (ANCOVA), el análisis de regresión y muchos de los métodos multivariantes como el análisis factorial, el escalado multidimensional, el análisis de conglomerados, el análisis de funciones discriminantes, etc. Dada la importancia del Modelo Lineal General, es una buena idea que cualquier investigador social serio se familiarice con su funcionamiento. La discusión del Modelo Lineal General aquí es muy elemental y sólo considera el modelo lineal más simple. Sin embargo, le permitirá familiarizarse con la idea del modelo lineal y le ayudará a prepararse para los análisis más complejos que se describen a continuación.

Una de las claves para entender cómo se comparan los grupos se encuentra en la noción de la variable «ficticia». Su nombre no sugiere que estemos utilizando variables poco inteligentes o, peor aún, ¡que el analista que las utiliza sea un «dummy»! Quizás estas variables se describirían mejor como variables «proxy». Esencialmente, una variable ficticia es aquella que utiliza números discretos, normalmente 0 y 1, para representar diferentes grupos en su estudio. Las variables ficticias son una idea sencilla que permite hacer cosas bastante complicadas. Por ejemplo, al incluir una simple variable ficticia en un modelo, puedo modelar dos líneas separadas (una para cada grupo de tratamiento) con una sola ecuación. Para ver cómo funciona esto, consulte la discusión sobre las variables ficticias.

Uno de los análisis más importantes en las evaluaciones de los resultados de los programas consiste en comparar el grupo del programa y el que no lo está en la variable o variables de resultado. Los diseños de investigación se dividen en dos tipos principales de diseños: experimental y cuasi-experimental. Como los análisis difieren en cada uno de ellos, se presentan por separado.

Análisis experimental

El experimento aleatorio simple de dos grupos con postest suele analizarse con la prueba t simple o el ANOVA de una vía. Los diseños experimentales factoriales suelen analizarse con el modelo de análisis de la varianza (ANOVA). Los diseños de bloques aleatorizados utilizan una forma especial de modelo de bloqueo ANOVA que utiliza variables con códigos ficticios para representar los bloques. El Diseño Experimental de Análisis de Covarianza utiliza, como es lógico, el modelo estadístico de Análisis de Covarianza.

Análisis cuasiexperimental

Los diseños cuasi-experimentales difieren de los experimentales en que no utilizan la asignación aleatoria para asignar unidades (por ejemplo, personas) a los grupos del programa. La falta de asignación aleatoria en estos diseños tiende a complicar considerablemente su análisis. Por ejemplo, para analizar el diseño de grupos no equivalentes (NEGD) tenemos que ajustar las puntuaciones de la prueba previa para el error de medición en lo que a menudo se llama un modelo de análisis de covarianza corregido por fiabilidad.

En el diseño de regresión-discontinuidad, debemos preocuparnos especialmente por la curvilineidad y la mala especificación del modelo. En consecuencia, tendemos a utilizar un enfoque de análisis conservador que se basa en la regresión polinómica que comienza por sobreajustar la función verdadera probable y luego reducir el modelo basado en los resultados. El Diseño de Desplazamiento de Puntos de Regresión sólo tiene una unidad tratada. Sin embargo, el análisis del diseño RPD se basa directamente en el modelo ANCOVA tradicional.

Cuando haya investigado estos diversos modelos analíticos, verá que todos proceden de la misma familia: el Modelo Lineal General. La comprensión de este modelo le ayudará a introducirse en las complejidades del análisis de datos en contextos de investigación social y aplicada.

Estadística descriptiva frente a estadística inferencial

Las estadísticas descriptivas permiten describir un conjunto de datos, mientras que las estadísticas inferenciales permiten hacer inferencias basadas en un conjunto de datos.

Estadística descriptiva

Mediante la estadística descriptiva, puede informar de las características de sus datos:

La distribución se refiere a la frecuencia de cada valor.

La tendencia central se refiere a los promedios de los valores.

La variabilidad se refiere a la dispersión de los valores.

En la estadística descriptiva no hay incertidumbre: la estadística describe con precisión los datos que se han recogido. Si se recogen datos de toda una población, se pueden comparar directamente estos estadísticos descriptivos con los de otras poblaciones.

Ejemplo de Estadística descriptiva

Recoges datos sobre las puntuaciones del SAT de todos los alumnos de 11º curso de una escuela durante tres años.

Puede utilizar las estadísticas descriptivas para obtener una visión general rápida de los resultados de la escuela en esos años. A continuación, puede comparar directamente la puntuación media del SAT con las puntuaciones medias de otras escuelas.

Estadística inferencial

La mayoría de las veces, sólo se pueden obtener datos de muestras, porque es demasiado difícil o costoso recoger datos de toda la población en la que se está interesado.

Mientras que la estadística descriptiva sólo puede resumir las características de una muestra, la estadística inferencial utiliza la muestra para hacer conjeturas razonables sobre la población en general.

Con la estadística inferencial, es importante utilizar métodos de muestreo aleatorios e imparciales. Si la muestra no es representativa de la población, no se pueden hacer inferencias estadísticas válidas.

Ejemplo de Estadística inferencial

Seleccionas al azar una muestra de estudiantes de 11º grado en tu estado y recoges datos sobre sus puntuaciones en el SAT y otras características.

Puedes utilizar la estadística inferencial para hacer estimaciones y probar hipótesis sobre toda la población de estudiantes de 11º grado en el estado basándote en los datos de tu muestra.

Error de muestreo en la estadística inferencial

Dado que el tamaño de una muestra es siempre menor que el tamaño de la población, una parte de la población no es captada por los datos de la muestra. Esto crea un error de muestreo, que es la diferencia entre los verdaderos valores de la población (llamados parámetros) y los valores de la muestra medidos (llamados estadísticos).

El error de muestreo surge cada vez que se utiliza una muestra, incluso si ésta es aleatoria e insesgada. Por este motivo, siempre existe cierta incertidumbre en la estadística inferencial. Sin embargo, el uso de métodos de muestreo probabilístico reduce esta incertidumbre.

Estimación de los parámetros de la población a partir de las estadísticas de la muestra

Las características de las muestras y las poblaciones se describen mediante números denominados estadísticos y parámetros:

Un estadístico es una medida que describe la muestra (por ejemplo, la media de la muestra).

Un parámetro es una medida que describe toda la población (por ejemplo, la media de la población).

El error de muestreo es la diferencia entre un parámetro y la estadística correspondiente. Como en la mayoría de los casos no se conoce el parámetro real de la población, se puede utilizar la estadística inferencial para estimar estos parámetros de forma que se tenga en cuenta el error de muestreo.

Hay dos tipos importantes de estimaciones que se pueden hacer sobre la población: estimaciones puntuales y estimaciones de intervalo.

Una estimación puntual es una estimación de un valor único de un parámetro. Por ejemplo, la media de la muestra es una estimación puntual de la media de la población.

Una estimación de intervalo ofrece un rango de valores en el que se espera que se encuentre el parámetro. Un intervalo de confianza es el tipo más común de estimación de intervalo.

Ambos tipos de estimaciones son importantes para obtener una idea clara de dónde es probable que se encuentre un parámetro.

Intervalos de confianza

Un intervalo de confianza utiliza la variabilidad en torno a una estadística para obtener una estimación de intervalo para un parámetro. Los intervalos de confianza son útiles para estimar parámetros porque tienen en cuenta el error de muestreo.

Mientras que una estimación puntual le proporciona un valor preciso del parámetro que le interesa, un intervalo de confianza le indica la incertidumbre de la estimación puntual. La mejor manera de utilizarlos es combinándolos entre sí.

Cada intervalo de confianza está asociado a un nivel de confianza. Un nivel de confianza le indica la probabilidad (en porcentaje) de que el intervalo contenga la estimación del parámetro si se repite el estudio de nuevo.

Un intervalo de confianza del 95% significa que si se repite el estudio con una nueva muestra exactamente de la misma manera 100 veces, se puede esperar que la estimación se encuentre dentro del rango de valores especificado 95 veces.

Aunque se puede decir que la estimación estará dentro del intervalo un determinado porcentaje de veces, no se puede asegurar que el parámetro poblacional real lo esté. Esto se debe a que no se puede conocer el valor real del parámetro poblacional sin recoger datos de toda la población.

Sin embargo, con un muestreo aleatorio y un tamaño de muestra adecuado, se puede esperar razonablemente que el intervalo de confianza contenga el parámetro un cierto porcentaje de las veces.

Ejemplo de Estimación puntual e intervalo de confianza

Quiere saber el número medio de días de vacaciones pagadas que reciben los empleados de una empresa internacional. Después de recoger las respuestas de la encuesta de una muestra aleatoria, usted calcula una estimación puntual y un intervalo de confianza.

Su estimación puntual de la media poblacional de días de vacaciones pagadas es la media muestral de 19 días de vacaciones pagadas.

Con un muestreo aleatorio, un intervalo de confianza del 95% de [16 – 22] significa que puede estar razonablemente seguro de que el número medio de días de vacaciones está entre 16 y 22.

Comprobación de hipótesis

La comprobación de hipótesis es un proceso formal de análisis estadístico que utiliza la estadística inferencial. El objetivo de la comprobación de hipótesis es comparar poblaciones o evaluar relaciones entre variables utilizando muestras.

Las hipótesis, o predicciones, se comprueban mediante pruebas estadísticas. Las pruebas estadísticas también estiman los errores de muestreo para poder hacer inferencias válidas.

Al respecto, las pruebas estadísticas pueden ser paramétricas o no paramétricas. Las pruebas paramétricas se consideran más potentes desde el punto de vista estadístico porque es más probable que detecten un efecto si es que existe.

De esta manera, las pruebas paramétricas hacen suposiciones que incluyen lo siguiente:

La población de la que procede la muestra sigue una distribución normal de las puntuaciones

El tamaño de la muestra es lo suficientemente grande como para representar a la población

Las varianzas, una medida de dispersión, de cada grupo que se compara son similares

Cuando los datos incumplen alguno de estos supuestos, las pruebas no paramétricas son más adecuadas. Las pruebas no paramétricas se denominan «pruebas sin distribución» porque no asumen nada sobre la distribución de los datos de la población.

Pruebas Estadísticas

Las pruebas estadísticas se presentan de tres formas: pruebas de comparación, correlación o regresión.

Pruebas de comparación

Las pruebas de comparación evalúan si existen diferencias en las medias, medianas o clasificaciones de las puntuaciones de dos o más grupos.

Para decidir qué prueba se ajusta a su objetivo, considere si sus datos cumplen las condiciones necesarias para las pruebas paramétricas, el número de muestras y los niveles de medición de sus variables.

Las medias sólo pueden hallarse para los datos de intervalo o proporción, mientras que las medianas y las clasificaciones son medidas más apropiadas para los datos ordinales.

Pruebas de correlación

Las pruebas de correlación determinan el grado de asociación de dos variables.

Aunque la r de Pearson es la prueba más potente desde el punto de vista estadístico, la r de Spearman es adecuada para las variables de intervalo y proporción cuando los datos no siguen una distribución normal.

La prueba de independencia de chi cuadrado es la única que puede utilizarse con variables nominales.

Pruebas de regresión

Las pruebas de regresión demuestran si los cambios en las variables predictoras provocan cambios en una variable de resultado. Puede decidir qué prueba de regresión utilizar en función del número y los tipos de variables que tenga como predictores y resultados.

La mayoría de las pruebas de regresión más utilizadas son paramétricas. Si sus datos no están distribuidos normalmente, puede realizar transformaciones de datos.

Las transformaciones de datos le ayudan a hacer que sus datos se distribuyan normalmente utilizando operaciones matemáticas, como sacar la raíz cuadrada de cada valor.

Nuestros especialistas esperan por ti para que los contactes a través del formulario de cotización o del chat directo. También contamos con canales de comunicación confidenciales como WhatsApp y Messenger. Y si quieres estar al tanto de nuestros novedosos servicios y las diferentes ventajas de contratarnos, síguenos en FacebookInstagram o Twitter.

Si este artículo fue de tu agrado, no olvides compartirlo por tus redes sociales.

Referencias Bibliográficas

GUJARATI, D. (1997) Econometría Básica. Bogotá: McGraw-Hill.

KMENTA, J (1980) Elementos de Econometría. Barcelona: Vicens Universidad.

MARTíN PLIEGO, F. (1994) Introducción a la Estadística Económica y Empresarial. (Teoría y Práctica) Madrid: AC.

Estadística Inferencial

Estadística Inferencial. Foto: Unsplash. Créditos: Paul Siewert

Shares
Abrir chat
1
Escanea el código
Bienvenido(a) a Online Tesis
Nuestros expertos estarán encantados de ayudarte con tu investigación ¡Contáctanos!