El análisis estadístico consiste en investigar las tendencias, los patrones y las relaciones utilizando datos cuantitativos. Es una importante herramienta de investigación utilizada por científicos, gobiernos, empresas y otras organizaciones.

Para sacar conclusiones válidas, el análisis estadístico requiere una planificación cuidadosa desde el principio del proceso de investigación. Hay que especificar las hipótesis y tomar decisiones sobre el diseño de la investigación, el tamaño de la muestra y el procedimiento de muestreo.

Una vez recogidos los datos de la muestra, puede organizar y resumir los datos mediante estadísticas descriptivas. A continuación, puede utilizar la estadística inferencial para probar formalmente las hipótesis y hacer estimaciones sobre la población. Por último, puede interpretar y generalizar sus conclusiones.

Pasos para llevar a cabo el Análisis Estadístico

Paso 1: Redactar las hipótesis y planificar el diseño de la investigación

Para recoger datos válidos para el análisis estadístico, primero hay que especificar las hipótesis y planificar el diseño de la investigación.

Redactar las hipótesis estadísticas

El objetivo de la investigación suele ser investigar una relación entre variables dentro de una población. Se empieza con una predicción y se utiliza el análisis estadístico para probar esa predicción.

Una hipótesis estadística es una forma formal de escribir una predicción sobre una población. Todas las predicciones de la investigación se reformulan en hipótesis nulas y alternativas que pueden probarse utilizando datos de la muestra.

Mientras que la hipótesis nula siempre predice que no hay efecto o relación entre las variables, la hipótesis alternativa establece la predicción de su investigación de un efecto o relación.

Ejemplo: Hipótesis estadística para probar un efecto

Hipótesis nula: Un ejercicio de meditación de 5 minutos no tendrá ningún efecto sobre las puntuaciones de los adolescentes en los exámenes de matemáticas.

Hipótesis alternativa: Un ejercicio de meditación de 5 minutos mejorará las puntuaciones en los exámenes de matemáticas de los adolescentes.

Ejemplo: Hipótesis estadística para probar una correlación

Hipótesis nula: Los ingresos de los padres y la nota media no tienen relación entre sí en los estudiantes universitarios.

Hipótesis alternativa: Los ingresos de los padres y la nota media están positivamente correlacionados en los estudiantes universitarios.

Planificación del diseño de la investigación

El diseño de la investigación es la estrategia general de recogida y análisis de datos. Determina las pruebas estadísticas que puede utilizar para probar su hipótesis más adelante.

En primer lugar, decida si su investigación utilizará un diseño descriptivo, correlacional o experimental. Los experimentos influyen directamente en las variables, mientras que los estudios descriptivos y correlacionales sólo miden las variables.

Experimental: puedes evaluar una relación causa-efecto (por ejemplo, el efecto de la meditación en las puntuaciones de los exámenes) utilizando pruebas estadísticas de comparación o regresión.

Correlacional: puede explorar las relaciones entre las variables (por ejemplo, los ingresos de los padres y el promedio de calificaciones) sin ninguna suposición de causalidad utilizando coeficientes de correlación y pruebas de significación.

Descriptivo: puede estudiar las características de una población o fenómeno (por ejemplo, la prevalencia de la ansiedad en los estudiantes universitarios de EE.UU.) utilizando pruebas estadísticas para sacar conclusiones de los datos de la muestra.

El diseño de la investigación también se refiere a si va a comparar a los participantes a nivel de grupo, a nivel individual o a ambos.

Entre sujetos: se comparan los resultados a nivel de grupo de los participantes que han sido expuestos a diferentes tratamientos (por ejemplo, los que realizaron un ejercicio de meditación frente a los que no lo hicieron).

Dentro de los sujetos: se comparan las medidas repetidas de los participantes que han participado en todos los tratamientos de un estudio (por ejemplo, las puntuaciones de antes y después de realizar un ejercicio de meditación).

Diseño mixto (factorial): una variable se altera entre los sujetos y otra se altera dentro de los sujetos (por ejemplo, las puntuaciones de antes y después de los participantes que hicieron o no hicieron un ejercicio de meditación).

Ejemplo: Diseño de investigación experimental

Usted diseña un experimento dentro de los sujetos para estudiar si un ejercicio de meditación de 5 minutos puede mejorar las puntuaciones de los exámenes de matemáticas. Su estudio toma medidas repetidas de un grupo de participantes.

En primer lugar, tomará las puntuaciones de referencia de los participantes. Después, los participantes se someterán a un ejercicio de meditación de 5 minutos. Por último, registrarás las puntuaciones de los participantes en un segundo examen de matemáticas.

En este experimento, la variable independiente es el ejercicio de meditación de 5 minutos y la variable dependiente es la puntuación de la prueba de matemáticas de antes y después de la intervención.

Ejemplo: Diseño de investigación correlacional

En un estudio correlacional, usted comprobará si existe una relación entre los ingresos de los padres y la nota media de los estudiantes universitarios que se gradúan. Para recoger los datos, pedirá a los participantes que rellenen una encuesta y que informen de los ingresos de sus padres y de su propia nota media.

En este estudio no hay variables dependientes ni independientes, porque sólo quiere medir las variables sin influir en ellas de ninguna manera.

Medición de variables

Al planificar el diseño de una investigación, debe operacionalizar sus variables y decidir exactamente cómo las va a medir.

Para el análisis estadístico, es importante tener en cuenta el nivel de medición de sus variables, que le indica qué tipo de datos contienen:

Los datos categóricos representan agrupaciones. Pueden ser nominales (por ejemplo, el sexo) u ordinales (por ejemplo, el nivel de conocimientos de idiomas).

Los datos cuantitativos representan cantidades. Pueden estar en una escala de intervalo (por ejemplo, la puntuación de un examen) o en una escala de proporción (por ejemplo, la edad).

Muchas variables pueden medirse con distintos niveles de precisión. Por ejemplo, los datos de la edad pueden ser cuantitativos (8 años) o categóricos (joven). Si una variable se codifica numéricamente (por ejemplo, nivel de acuerdo de 1 a 5), no significa automáticamente que sea cuantitativa en lugar de categórica.

Identificar el nivel de medición es importante para elegir las estadísticas y las pruebas de hipótesis adecuadas. Por ejemplo, se puede calcular una puntuación media con datos cuantitativos, pero no con datos categóricos.

En un estudio de investigación, además de las medidas de las variables de interés, a menudo se recogen datos sobre las características relevantes de los participantes.

Ejemplo: Variables (experimento)

Puede realizar muchos cálculos con datos cuantitativos de edad o de puntuación de pruebas, mientras que las variables categóricas pueden utilizarse para decidir agrupaciones para pruebas de comparación.

Variable Tipo de datos

Edad Cuantitativa (ratio)

Género Categórica (nominal)

Raza o etnia Categórica (nominal)

Puntuaciones de la prueba inicial Cuantitativa (intervalo)

Puntuaciones finales de las pruebas Cuantitativa (intervalo)

Ejemplo: Variables (estudio correlacional)

Los tipos de variables en un estudio correlacional determinan la prueba que se utilizará para el coeficiente de correlación. Se puede utilizar una prueba de correlación paramétrica para los datos cuantitativos, mientras que se debe utilizar una prueba de correlación no paramétrica si una de las variables es ordinal.

Variable Tipo de datos

Ingresos de los padres Cuantitativa (ratio)

GPA Cuantitativa (intervalo)

Paso 2: Recoger datos de una muestra

Población frente a muestra

En la mayoría de los casos, es demasiado difícil o caro recopilar datos de todos los miembros de la población que le interesa estudiar. En su lugar, se recogen datos de una muestra.

El análisis estadístico le permite aplicar sus resultados más allá de su propia muestra, siempre que utilice procedimientos de muestreo adecuados. El objetivo es que la muestra sea representativa de la población.

Muestreo para el análisis estadístico

Existen dos enfoques principales para seleccionar una muestra.

Muestreo probabilístico: cada miembro de la población tiene la posibilidad de ser seleccionado para el estudio mediante una selección aleatoria.

Muestreo no probabilístico: algunos miembros de la población tienen más probabilidades que otros de ser seleccionados para el estudio debido a criterios como la conveniencia o la autoselección voluntaria.

En teoría, para obtener resultados altamente generalizables, se debe utilizar un método de muestreo probabilístico. La selección aleatoria reduce el sesgo del muestreo y garantiza que los datos de la muestra son realmente típicos de la población. Las pruebas paramétricas pueden utilizarse para realizar inferencias estadísticas sólidas cuando los datos se recogen mediante un muestreo probabilístico.

Pero en la práctica, rara vez es posible reunir la muestra ideal. Aunque las muestras no probabilísticas tienen más probabilidades de estar sesgadas, son mucho más fáciles de reclutar y recoger datos. Las pruebas no paramétricas son más apropiadas para las muestras no probabilísticas, pero dan lugar a inferencias más débiles sobre la población.

Si quiere utilizar pruebas paramétricas para muestras no probabilísticas, tiene que demostrar que

Su muestra es representativa de la población a la que está generalizando sus resultados.

La muestra carece de sesgo sistemático.

Tenga en cuenta que la validez externa significa que sólo puede generalizar sus conclusiones a otras personas que comparten las características de su muestra. Por ejemplo, los resultados de las muestras occidentales, educadas, industrializadas, ricas y democráticas (por ejemplo, los estudiantes universitarios de EE.UU.) no son automáticamente aplicables a todas las poblaciones que no son de este tipo.

Si aplica las pruebas paramétricas a los datos de muestras no probabilísticas, asegúrese de explicar las limitaciones de la generalización de sus resultados en la sección de discusión.

Cree un procedimiento de muestreo adecuado

En función de los recursos disponibles para su investigación, decida cómo va a reclutar a los participantes.

¿Dispondrá de recursos para publicitar su estudio ampliamente, incluso fuera de su entorno universitario?

¿Tendrá los medios para reclutar una muestra diversa que represente a una población amplia?

¿Tiene tiempo para ponerse en contacto y hacer un seguimiento de los miembros de los grupos de difícil acceso?

Ejemplo: Muestreo (experimento)

La población que le interesa son los estudiantes de secundaria de su ciudad. Se pone en contacto con tres escuelas privadas y siete escuelas públicas en varios distritos de la ciudad para ver si puede administrar su experimento a los estudiantes del 11º grado.

Los participantes son seleccionados por los propios colegios. Aunque se trata de una muestra no probabilística, el objetivo es que sea diversa y representativa.

Correlación
Ejemplo: Muestreo (estudio correlacional)

Su principal población de interés son los estudiantes universitarios varones de Estados Unidos. Utilizando la publicidad en las redes sociales, usted recluta a estudiantes universitarios masculinos de último año de una subpoblación más pequeña: siete universidades de la zona de Boston.

Los participantes son voluntarios para la encuesta, por lo que se trata de una muestra no probabilística.

Calcule el tamaño suficiente de la muestra

Antes de reclutar a los participantes, decida el tamaño de la muestra consultando otros estudios en su campo o utilizando estadísticas. Una muestra demasiado pequeña puede ser poco representativa de la muestra, mientras que una muestra demasiado grande será más costosa de lo necesario.

Hay muchas calculadoras del tamaño de la muestra en Internet. Se utilizan diferentes fórmulas en función de si hay subgrupos o del grado de rigor del estudio (por ejemplo, en la investigación clínica). Como regla general, es necesario un mínimo de 30 unidades o más por subgrupo.

Para utilizar estas calculadoras, tiene que entender e introducir estos componentes clave:

Nivel de significación (alfa): el riesgo de rechazar una hipótesis nula verdadera que está dispuesto a asumir, normalmente fijado en el 5%.

Potencia estadística: la probabilidad de que su estudio detecte un efecto de cierto tamaño si lo hay, normalmente el 80% o más.

Tamaño del efecto esperado: indicación estandarizada de la magnitud del resultado esperado de su estudio, normalmente basada en otros estudios similares.

Desviación estándar de la población: una estimación del parámetro poblacional basada en un estudio anterior o en un estudio piloto propio.

Paso 3: Resumir los datos con estadísticas descriptivas

Una vez que haya recogido todos los datos, puede inspeccionarlos y calcular las estadísticas descriptivas que los resumen.

Inspeccionar los datos

Hay varias formas de inspeccionar los datos, entre ellas las siguientes:

Organizando los datos de cada variable en tablas de distribución de frecuencias.

Mostrando los datos de una variable clave en un gráfico de barras para ver la distribución de las respuestas.

Visualizando la relación entre dos variables mediante un gráfico de dispersión.

Al visualizar los datos en tablas y gráficos, se puede evaluar si los datos siguen una distribución sesgada o normal y si hay valores atípicos o datos que faltan.

Una distribución normal significa que los datos se distribuyen simétricamente en torno a un centro en el que se encuentran la mayoría de los valores, y que los valores se reducen en los extremos.

En cambio, una distribución sesgada es asimétrica y tiene más valores en un extremo que en el otro. Es importante tener en cuenta la forma de la distribución, ya que sólo deben utilizarse algunas estadísticas descriptivas con distribuciones sesgadas.

Los valores atípicos extremos también pueden producir estadísticas engañosas, por lo que puede ser necesario un enfoque sistemático para tratar estos valores.

Calcular las medidas de tendencia central

Las medidas de tendencia central describen dónde se encuentra la mayoría de los valores de un conjunto de datos. A menudo se presentan tres medidas principales de tendencia central:

Moda: la respuesta o valor más popular del conjunto de datos.

Mediana: el valor que se encuentra exactamente en el centro del conjunto de datos cuando se ordena de menor a mayor.

Media: la suma de todos los valores dividida por el número de valores.

Sin embargo, dependiendo de la forma de la distribución y del nivel de medición, sólo una o dos de estas medidas pueden ser apropiadas. Por ejemplo, muchas características demográficas sólo pueden describirse utilizando la moda o las proporciones, mientras que una variable como el tiempo de reacción puede no tener ninguna moda.

Calcular las medidas de variabilidad

Las medidas de variabilidad indican la dispersión de los valores de un conjunto de datos. A menudo se presentan cuatro medidas principales de variabilidad:

Rango: el valor más alto menos el valor más bajo del conjunto de datos.

Rango intercuartil: el rango de la mitad del conjunto de datos.

Desviación estándar: la distancia media entre cada valor del conjunto de datos y la media.

Varianza: el cuadrado de la desviación estándar.

Una vez más, la forma de la distribución y el nivel de medición deben guiar la elección de los estadísticos de variabilidad. El rango intercuartil es la mejor medida para las distribuciones sesgadas, mientras que la desviación estándar y la varianza proporcionan la mejor información para las distribuciones normales.

Paso 4: Comprobar las hipótesis o hacer estimaciones con estadísticas inferenciales

Un número que describe una muestra se llama estadística, mientras que un número que describe una población se llama parámetro. Utilizando la estadística inferencial, puede sacar conclusiones sobre los parámetros de la población basándose en las estadísticas de la muestra.

Los investigadores suelen utilizar dos métodos principales (simultáneamente) para hacer inferencias en estadística.

Estimación: cálculo de los parámetros de la población a partir de las estadísticas de la muestra.

Pruebas de hipótesis: un proceso formal para probar las predicciones de la investigación sobre la población utilizando muestras.

Estimación

Se pueden realizar dos tipos de estimaciones de parámetros poblacionales a partir de estadísticas muestrales:

Una estimación puntual: un valor que representa su mejor estimación del parámetro exacto.

Una estimación de intervalo: un rango de valores que representa su mejor estimación de dónde se encuentra el parámetro.

Si su objetivo es inferir e informar de las características de la población a partir de los datos de la muestra, lo mejor es utilizar tanto las estimaciones puntuales como las de intervalo en su trabajo.

Se puede considerar que una estadística muestral es una estimación puntual del parámetro poblacional cuando se dispone de una muestra representativa (por ejemplo, en una amplia encuesta de opinión pública, la proporción de una muestra que apoya al gobierno actual se toma como la proporción poblacional de partidarios del gobierno).

Siempre hay un error en la estimación, por lo que también debe proporcionar un intervalo de confianza como una estimación de intervalo para mostrar la variabilidad alrededor de una estimación puntual.

Un intervalo de confianza utiliza el error estándar y la puntuación z de la distribución normal estándar para indicar dónde se espera encontrar el parámetro de la población la mayor parte del tiempo.

Pruebas de hipótesis

Utilizando los datos de una muestra, se pueden comprobar las hipótesis sobre las relaciones entre las variables de la población. Las pruebas de hipótesis comienzan con la suposición de que la hipótesis nula es verdadera en la población, y se utilizan pruebas estadísticas para evaluar si la hipótesis nula puede rechazarse o no.

Las pruebas estadísticas determinan en qué lugar de una distribución esperada de los datos de la muestra se encontrarían los datos de la muestra si la hipótesis nula fuera cierta. Estas pruebas dan dos resultados principales:

Un estadístico de prueba que le indica en qué medida sus datos difieren de la hipótesis nula de la prueba.

Un valor p le indica la probabilidad de obtener sus resultados si la hipótesis nula es realmente cierta en la población.

Existen tres tipos de pruebas estadísticas:

Comparación: evalúan las diferencias de grupo en los resultados.

Regresión: evalúan las relaciones de causa y efecto entre las variables.

Correlación: evalúan las relaciones entre las variables sin asumir la causalidad.

La elección de la prueba estadística depende de las preguntas de investigación, el diseño de la investigación, el método de muestreo y las características de los datos.

Pruebas paramétricas

Las pruebas paramétricas hacen poderosas inferencias sobre la población a partir de los datos de la muestra. Pero para utilizarlas, deben cumplirse algunos supuestos y sólo pueden utilizarse algunos tipos de variables. Si sus datos violan estos supuestos, puede realizar las transformaciones de datos apropiadas o utilizar pruebas alternativas no paramétricas en su lugar.

Regresión

Una regresión modela la medida en que los cambios en una variable de predicción producen cambios en la(s) variable(s) de resultado.

La regresión lineal simple incluye una variable de predicción y una variable de resultado.

La regresión lineal múltiple incluye dos o más variables predictoras y una variable de resultado.

Pruebas de Comparación

Las pruebas de comparación suelen comparar las medias de los grupos. Pueden ser las medias de diferentes grupos dentro de una muestra (por ejemplo, un grupo de tratamiento y uno de control), las medias de un grupo de la muestra tomadas en diferentes momentos (por ejemplo, las puntuaciones de las pruebas previas y posteriores), o una media de la muestra y una media de la población.

Una prueba t es para exactamente 1 o 2 grupos cuando la muestra es pequeña (30 o menos).

Una prueba z es para exactamente 1 o 2 grupos cuando la muestra es grande.

Un ANOVA es para 3 o más grupos.

Las pruebas z y t tienen subtipos basados en el número y tipos de muestras y en las hipótesis:

Pruebas de Muestras

Si sólo tiene una muestra que desea comparar con la media de la población, utilice una prueba de una muestra.

Si tiene mediciones emparejadas (diseño dentro de los sujetos), utilice una prueba de muestras dependientes (emparejadas).

Igualmente se debe considerar si tiene mediciones completamente separadas de dos grupos no emparejados (diseño entre sujetos), utilice una prueba de muestras independientes (no emparejadas).

Pruebas de Cola

Si espera una diferencia entre los grupos en una dirección específica, utilice una prueba de una cola.

Si no tiene ninguna expectativa sobre la dirección de la diferencia entre los grupos, utilice una prueba de dos colas.

Pruebas de Correlación

La única prueba de correlación paramétrica es la r de Pearson. El coeficiente de correlación (r) indica la fuerza de una relación lineal entre dos variables cuantitativas.

Sin embargo, para comprobar si la correlación en la muestra es lo suficientemente fuerte como para ser importante en la población, también hay que realizar una prueba de significación del coeficiente de correlación, normalmente una prueba t, para obtener un valor p. Esta prueba utiliza el tamaño de la muestra para calcular cuánto difiere el coeficiente de correlación de cero en la población.

Paso 5: Interpretar los resultados

El último paso del análisis estadístico es la interpretación de los resultados.

Significación estadística

En las pruebas de hipótesis, la significación estadística es el principal criterio para extraer conclusiones. Se compara el valor p con un nivel de significación establecido (normalmente 0,05) para decidir si los resultados son estadísticamente significativos o no.

Los resultados estadísticamente significativos se consideran poco probables si se deben únicamente al azar. Sólo hay una probabilidad muy baja de que se produzca un resultado de este tipo si la hipótesis nula es cierta en la población.

Tamaño del efecto

Un resultado estadísticamente significativo no significa necesariamente que haya aplicaciones importantes en la vida real o resultados clínicos para un hallazgo.

En cambio, el tamaño del efecto indica la importancia práctica de los resultados. Es importante comunicar el tamaño del efecto junto con los estadísticos inferenciales para obtener una imagen completa de los resultados. También debe informar de las estimaciones de intervalo de los tamaños del efecto si está escribiendo un trabajo en estilo APA.

Errores de decisión

Los errores de tipo I y de tipo II son errores cometidos en las conclusiones de la investigación. Un error de tipo I significa rechazar la hipótesis nula cuando en realidad es verdadera, mientras que un error de tipo II significa no rechazar la hipótesis nula cuando es falsa.

Se puede intentar minimizar el riesgo de estos errores seleccionando un nivel de significación óptimo y asegurando una alta potencia. Sin embargo, hay un equilibrio entre los dos errores, por lo que es necesario un equilibrio fino.

Estadística frecuentista frente a estadística bayesiana

Tradicionalmente, la estadística frecuentista hace hincapié en la prueba de significación de la hipótesis nula y siempre comienza con la suposición de una hipótesis nula verdadera.

Sin embargo, la estadística bayesiana ha ganado popularidad como enfoque alternativo en las últimas décadas. En este enfoque, se utiliza la investigación previa para actualizar continuamente las hipótesis en función de las expectativas y las observaciones.

El factor de Bayes compara la fuerza relativa de las pruebas para la hipótesis nula frente a la alternativa en lugar de llegar a una conclusión sobre el rechazo de la hipótesis nula o no.

Nuestros especialistas esperan por ti para que los contactes a través del formulario de cotización o del chat directo. También contamos con canales de comunicación confidenciales como WhatsApp y Messenger. Y si quieres estar al tanto de nuestros novedosos servicios y las diferentes ventajas de contratarnos, síguenos en FacebookInstagram o Twitter.

Si este artículo fue de tu agrado, no olvides compartirlo por tus redes sociales.

También te puede interesar: La Estadística Descriptiva

Fuentes Consultadas

Berenson M.L. and Levine D.M. (1996) Basic Business Statistics, Prentice-Hall, Englewood Cliffs, New Jersey.

Diamond, W. J. (1989). Practical Experiment Designs, Van-Nostrand Reinhold, New York.

Neter, J., Wasserman, W. and Kutner, M. H. (1990). Applied Linear Statistical Models, 3rd Edition, Irwin, Boston, MA.

El Análisis Estadístico

El Análisis Estadístico. Foto: Unsplash. Créditos: Brooke Cagle

Abrir chat
1
Escanea el código
Bienvenido(a) a Online Tesis
Nuestros expertos estarán encantados de ayudarte con tu investigación ¡Contáctanos!