Compartir este Post

La estadística descriptiva se refiere a aquellos breves coeficientes descriptivos que resumen un conjunto de datos determinado, que puede ser una representación de toda la población o una muestra de una población. La estadística descriptiva se dividen en medidas de tendencia central y medidas de variabilidad (dispersión). Las medidas de tendencia central incluyen la media, la mediana y la moda, mientras que las medidas de variabilidad incluyen la desviación estándar, la varianza, las variables mínima y máxima, la curtosis y la asimetría.

La estadística descriptiva se utiliza para describir las características básicas de los datos de un estudio. Proporciona resúmenes sencillos sobre la muestra y las medidas. Junto con un análisis gráfico sencillo, constituyen la base de prácticamente todos los análisis cuantitativos de datos.

Diferencias con la Estadística Inferencial

La estadística descriptiva suele distinguirse de la estadística inferencial. Con la estadística descriptiva simplemente se describe lo que es o lo que muestran los datos. Con la estadística inferencial, se intenta llegar a conclusiones que van más allá de los datos inmediatos. Por ejemplo, utilizamos la estadística inferencial para intentar inferir de los datos de la muestra lo que podría pensar la población. O bien, utilizamos la estadística inferencial para hacer juicios sobre la probabilidad de que una diferencia observada entre los grupos sea fiable o se haya producido por casualidad en este estudio. Así, utilizamos la estadística inferencial para hacer inferencias de nuestros datos a condiciones más generales; utilizamos la estadística descriptiva simplemente para describir lo que ocurre en nuestros datos.

Usos de la Estadística Descriptiva

La estadística descriptiva se utiliza para presentar descripciones cuantitativas de forma manejable. En un estudio de investigación podemos tener muchas medidas. O puede que midamos a un gran número de personas en alguna medida. La estadística descriptiva nos ayudan a simplificar grandes cantidades de datos de forma razonable.

La estadística descriptiva reduce muchos datos a un resumen más sencillo. Por ejemplo, consideremos un simple número utilizado para resumir el rendimiento de un bateador en el béisbol, la media de bateo. Este número es simplemente el número de hits dividido por el número de veces que se batea (con tres dígitos significativos). Un bateador que batea 0,333 acierta una vez cada tres veces al bate. Uno que batea .250 está bateando una vez en cuatro. El número único describe un gran número de eventos discretos. O consideremos el azote de muchos estudiantes, el promedio de calificaciones (GPA). Este único número describe el rendimiento general de un estudiante en una gama potencialmente amplia de experiencias de curso.

Cada vez que se intenta describir un gran conjunto de observaciones con un único indicador, se corre el riesgo de distorsionar los datos originales o de perder detalles importantes. La media de bateo no indica si el bateador está bateando jonrones o sencillos. No te dice si ha tenido una mala racha o una racha. El GPA no dice si el estudiante ha estado en cursos difíciles o fáciles, o si eran cursos en su campo principal o en otras disciplinas. Incluso teniendo en cuenta estas limitaciones, la estadística descriptiva ofrecen un potente resumen que puede permitir comparaciones entre personas u otras unidades.

¿Por qué necesitamos estadísticas que simplemente describan los datos?

La estadística descriptiva se utiliza para describir o resumir las características de una muestra o conjunto de datos, como la media, la desviación estándar o la frecuencia de una variable. La estadística inferencial puede ayudarnos a entender las propiedades colectivas de los elementos de una muestra de datos. Conocer la media muestral, la varianza y la distribución de una variable puede ayudarnos a entender el mundo que nos rodea.

Entender la Estadística Descriptiva

La estadística descriptiva, en definitiva, ayuda a describir y comprender las características de un conjunto de datos específico ofreciendo breves resúmenes sobre la muestra y las medidas de los datos. Los tipos más reconocidos de estadística descriptiva son las medidas del centro: la media, la mediana y la moda, que se utilizan en casi todos los niveles de matemáticas y estadística. La media, o el promedio, se calcula sumando todas las cifras del conjunto de datos y dividiéndolas por el número de cifras del conjunto.

Por ejemplo, la suma del siguiente conjunto de datos es 20: (2, 3, 4, 5, 6). La media es 4 (20/5). La moda de un conjunto de datos es el valor que aparece con más frecuencia, y la mediana es la cifra situada en el centro del conjunto de datos. Es la cifra que separa las cifras más altas de las más bajas dentro de un conjunto de datos. Sin embargo, hay tipos menos comunes de estadística descriptiva que siguen siendo muy importantes.

Los profesionales utilizan la estadística descriptiva para reajustar las percepciones cuantitativas difíciles de entender de un gran conjunto de datos en descripciones del tamaño de un bocado. El promedio de notas de un estudiante (GPA), por ejemplo, proporciona una buena comprensión de la estadística descriptiva. La idea de un GPA es que toma puntos de datos de una amplia gama de exámenes, clases y calificaciones, y los promedia juntos para proporcionar una comprensión general del rendimiento académico global de un estudiante. El GPA personal de un estudiante refleja su rendimiento académico medio.

Tipos de Medidas en la Estadística Descriptiva

Todas las medidas en estadística descriptiva son medidas de tendencia central o medidas de variabilidad, también conocidas como medidas de dispersión.

Tendencia central

Las medidas de tendencia central se centran en los valores medios de los conjuntos de datos, mientras que las medidas de variabilidad se centran en la dispersión de los datos. Estas dos medidas utilizan gráficos, tablas y discusiones generales para ayudar a comprender el significado de los datos analizados.

Las medidas de tendencia central describen la posición central de una distribución para un conjunto de datos. Una persona analiza la frecuencia de cada punto de datos en la distribución y la describe utilizando la media, la mediana o la moda, que mide los patrones más comunes del conjunto de datos analizados.

Medidas de variabilidad

Las medidas de variabilidad (o las medidas de dispersión) ayudan a analizar la dispersión de la distribución de un conjunto de datos. Por ejemplo, aunque las medidas de tendencia central pueden dar a una persona la media de un conjunto de datos, no describen cómo se distribuyen los datos dentro del conjunto.

Así, mientras que la media de los datos puede ser de 65 sobre 100, todavía puede haber puntos de datos tanto en 1 como en 100. Las medidas de variabilidad ayudan a comunicar esto describiendo la forma y la dispersión del conjunto de datos. El rango, los cuartiles, la desviación absoluta y la varianza son ejemplos de medidas de variabilidad.

Considere el siguiente conjunto de datos: 5, 19, 24, 62, 91, 100. El rango de ese conjunto de datos es 95, que se calcula restando el número más bajo (5) del conjunto de datos al más alto (100).

¿Qué son la media y la desviación estándar?

Son dos herramientas de la estadística descriptiva que se emplean habitualmente. La media es el nivel medio observado en algún dato, mientras que la desviación estándar describe la varianza, o lo dispersos que están los datos observados en esa variable en torno a su media.

¿Puede utilizarse la estadística descriptiva para hacer inferencias o predicciones?

No.  La estadística descriptiva pueden ser útiles para dos propósitos: 1) proporcionar información básica sobre las variables de un conjunto de datos y 2) destacar las posibles relaciones entre las variables. Los métodos más comunes pueden mostrarse de forma gráfica o pictórica y son:

Métodos gráficos/pictóricos

Existen varios métodos gráficos y pictóricos que mejoran la comprensión de los investigadores de las variables individuales y de las relaciones entre las variables. Los métodos gráficos y pictóricos proporcionan una representación visual de los datos. Algunos de estos métodos son:

Histogramas

Gráficos de dispersión

Sistemas de información geográfica (SIG)

Sociogramas

Histogramas

Gráficos de dispersión

Muestran la relación entre dos variables cuantitativas o numéricas mediante el trazado de una variable frente al valor de otra variable.

Por ejemplo, un eje de un gráfico de dispersión podría representar la altura y el otro el peso. Cada persona de los datos recibiría un punto de datos en el gráfico de dispersión que corresponde a su altura y peso.

Sistemas de Información Geográfica (SIG)

Un SIG es un sistema informático capaz de capturar, almacenar, analizar y mostrar información referenciada geográficamente, es decir, datos identificados según su ubicación.

Mediante un programa SIG, un investigador puede crear un mapa para representar visualmente las relaciones entre los datos

Sociogramas

Muestran redes de relaciones entre variables, lo que permite a los investigadores identificar la naturaleza de las relaciones que, de otro modo, serían demasiado complejas de conceptualizar.

Medidas de tendencia central

Las medidas de tendencia central son la descripción más básica y, a menudo, la más informativa de las características de una población. Describen el miembro "medio" de la población de interés. Hay tres medidas de tendencia central:

Media: la suma de los valores de una variable dividida por el número total de valores.

Mediana: el valor medio de una variable

Moda: el valor que se da con más frecuencia

Ejemplo:

Los ingresos de cinco personas seleccionadas al azar en Estados Unidos son 10.000, 10.000, 45.000, 60.000 y 1.000.000 de dólares.

Ingreso medio = (10.000 + 10.000 + 45.000 + 60.000 + 1.000.000) / 5 = 225.000 dólares

Ingreso medio = 45.000 dólares

Ingreso modal = 10.000 dólares

La media es la medida de tendencia central más utilizada. Las medianas se utilizan generalmente cuando unos pocos valores son extremadamente diferentes del resto de los valores (esto se llama una distribución sesgada). Por ejemplo, la mediana de los ingresos suele ser la mejor medida de los ingresos medios porque, aunque la mayoría de los individuos ganan entre 0 y 200.000 dólares, un puñado de individuos ganan millones.

Medidas de dispersión

Las medidas de dispersión proporcionan información sobre la dispersión de los valores de una variable. Hay cuatro medidas clave de dispersión:

Rango

Varianza

Desviación estándar

Sesgo

El rango es simplemente la diferencia entre los valores más pequeños y más grandes de los datos. El rango intercuartil es la diferencia entre los valores del percentil 75 y el percentil 25 de los datos.

La varianza es la medida de dispersión más utilizada. Se calcula tomando la media de las diferencias al cuadrado entre cada valor y la media.

La desviación estándar, otra estadística de uso común, es la raíz cuadrada de la varianza.

La asimetría es una medida de si algunos valores de una variable son extremadamente diferentes de la mayoría de los valores. Por ejemplo, los ingresos están sesgados porque la mayoría de las personas ganan entre 0 y 200.000 dólares, pero un puñado de personas ganan millones. Una variable está sesgada positivamente si los valores extremos son más altos que la mayoría de los valores. Una variable está sesgada negativamente si los valores extremos son más bajos que la mayoría de los valores.

Ejemplo:

Los ingresos de cinco personas seleccionadas al azar en Estados Unidos son 10.000, 10.000, 45.000, 60.000 y 1.000.000 de dólares:

Rango = 1.000.000 - 10.000 = 990.000

Varianza = [(10.000 - 225.000)2 + (10.000 - 225.000)2 + (45.000 - 225.000)2 + (60.000 - 225.000)2 + (1.000.000 - 225.000)2]. / 5 = 150,540,000,000

Desviación estándar = Raíz cuadrada (150.540.000.000) = 387.995

Sesgo = Los ingresos están sesgados positivamente

Medidas de asociación

Las medidas de asociación indican si dos variables están relacionadas. Se suelen utilizar dos medidas:

Chi-cuadrado

Como medida de asociación entre variables, las pruebas de chi-cuadrado se utilizan con datos nominales (es decir, datos que se clasifican en clases: por ejemplo, sexo [hombre, mujer] y tipo de trabajo [no cualificado, semicualificado, cualificado]) para determinar si están asociados*.

Un chi-cuadrado se denomina significativo si hay una asociación entre dos variables, y no significativo si no hay asociación

Para comprobar la existencia de asociaciones, el chi-cuadrado se calcula de la siguiente manera: Supongamos que un investigador quiere saber si existe una relación entre el género y dos tipos de trabajos, obrero de la construcción y auxiliar administrativo. Para realizar una prueba de chi-cuadrado, el investigador cuenta el número de mujeres auxiliares administrativas, el número de mujeres trabajadoras de la construcción, el número de hombres auxiliares administrativos y el número de hombres trabajadores de la construcción en los datos.

Estos recuentos se comparan con el número que se esperaría en cada categoría si no hubiera asociación entre el tipo de trabajo y el género (este recuento esperado se basa en cálculos estadísticos). Si hay una gran diferencia entre los valores observados y los valores esperados, la prueba de chi-cuadrado es significativa, lo que indica que existe una asociación entre las dos variables.

*La prueba de chi-cuadrado también puede utilizarse como medida de bondad de ajuste, para comprobar si los datos de una muestra proceden de una población con una distribución específica, como alternativa a las pruebas de bondad de ajuste de Anderson-Darling y Kolmogorov-Smirnov. Como tal, la prueba de chi-cuadrado no se limita a los datos nominales; sin embargo, con los datos no clasificados, los resultados dependen de cómo se creen los intervalos o las clases y del tamaño de la muestra.

Correlación

El coeficiente de correlación se utiliza para medir la fuerza de la relación entre las variables numéricas (por ejemplo, el peso y la altura).

El coeficiente de correlación más común es la r de Pearson, que puede oscilar entre -1 y +1.

Si el coeficiente está entre 0 y 1, cuando una variable aumenta, la otra también lo hace. Esto se denomina correlación positiva. Por ejemplo, la altura y el peso están correlacionados positivamente porque las personas más altas suelen pesar más

Si el coeficiente de correlación está entre -1 y 0, a medida que una variable aumenta la otra disminuye. Esto se llama correlación negativa. Por ejemplo, la edad y las horas dormidas por noche están correlacionadas negativamente porque las personas mayores suelen dormir menos horas por noche.

Nuestros especialistas esperan por ti para que los contactes a través del formulario de cotización o del chat directo. También contamos con canales de comunicación confidenciales como WhatsApp y Messenger. Y si quieres estar al tanto de nuestros novedosos servicios y las diferentes ventajas de contratarnos, síguenos en FacebookInstagram o Twitter.

Si este artículo fue de tu agrado, no olvides compartirlo por tus redes sociales.

También te puede interesar: El Análisis Estadístico

Fuentes Consultadas

Hicks, C. R. 1973. Fundamental Concepts in the Design of Experiments. Holt, Rhinehart and Winston,New-York

Miller, R. G., Jr. (1981). Simultaneous Statistical Inference, Springer-Verlag, New York.

Neter, Wasserman, and Whitmore (1993). Applied Statistics, 4th Edition, Allyn and Bacon, Boston, MA.

La Estadística Descriptiva

La Estadística Descriptiva. Foto: Unsplash. Créditos: Emma Dau

Compartir este Post
Abrir chat
1
Bienvenido(a) a Online Tesis
Nuestros expertos estarán encantados de ayudarte con tu investigación ¡Contáctanos!