Los datos estadísticos son una secuencia de observaciones. Las mismas se realizan sobre un conjunto de objetos incluidos en la muestra extraída de la población. Los datos estadísticos pueden ser presentados de dos (2) maneras.

Datos no agrupados

Los datos que se han dispuesto en un orden sistemático se denominan datos brutos o datos no agrupados.

Datos agrupados

Los datos presentados en forma de distribución de frecuencias se denominan datos agrupados.

Recogida de datos

El primer paso de cualquier encuesta (investigación) es la recogida de datos. Los datos pueden recogerse para toda la población o sólo para una muestra. En la mayoría de los casos, de acuerdo con Ioannidis (2012) , se recogen sobre la base de una muestra. La recogida de datos es un trabajo muy difícil. El enumerador o investigador es la persona bien formada que recoge los datos estadísticos. Los encuestados son las personas de las que se recoge la información.

Tipos de datos

Hay dos tipos (fuentes) de recogida de datos. Estos son los Datos primarios y Datos secundarios

Primarios

Los datos primarios son la información de primera mano que recogen, recopilan y publican las organizaciones con algún fin. Son los datos más originales. No han sido sometidos a ningún tipo de tratamiento estadístico.

Ejemplo: Los informes del censo de población son datos primarios porque son recogidos, compilados y publicados por la organización del censo de población.

Secundarios

Los datos secundarios son la información de segunda mano que ya ha sido recopilada por una organización para algún fin. Al respecto, está disponible para el presente estudio. Los datos secundarios no son puros y han sido tratados al menos una vez.

Ejemplo: Un estudio económico de Inglaterra es un dato secundario porque los datos han sido recogidos por más de una organización. Puede ser la Oficina de Estadística, la Junta de Ingresos, los bancos, etc.

Métodos de recogida de datos primarios

Los datos primarios se recogen mediante los siguientes métodos:

  1. Investigación personal: El propio investigador realiza la encuesta y recoge los datos de la misma. Los datos recogidos de este modo suelen ser precisos y fiables. Este método de recogida de datos sólo es aplicable en el caso de proyectos de investigación pequeños.
  2. A través de la investigación: Se emplean investigadores formados para recoger los datos. Estos investigadores se ponen en contacto con las personas y rellenan los cuestionarios tras solicitar la información necesaria. La mayoría de las organizaciones utilizan este método.
  3. Recogida mediante cuestionario: Los investigadores obtienen los datos de las representaciones o agentes locales que se basan en su propia experiencia. Este método es rápido pero sólo da una estimación aproximada.
  4. A través del teléfono: Los investigadores obtienen la información de los individuos a través del teléfono. Este método es rápido y proporciona información precisa.

Métodos de recogida de datos secundarios

Los datos secundarios se recogen mediante los siguientes métodos:

  1. Oficiales: por ejemplo, publicaciones de la División de Estadística, del Ministerio de Hacienda, de las Oficinas Federales de Estadística, de los Ministerios de Alimentación, Agricultura, Industria, Trabajo, etc.
  2. Semioficiales: por ejemplo, el Banco del Estado, la Junta de Ferrocarriles, el Comité Central del Algodón, las Juntas de Investigación Económica, etc.
  3. Publicaciones de asociaciones comerciales, cámaras de comercio, etc.
  4. Revistas y periódicos técnicos y comerciales.
  5. Organizaciones de investigación como universidades y otras instituciones.

Diferencia entre datos primarios y secundarios

La diferencia entre datos primarios y secundarios es sólo un cambio de mano. Los datos primarios son la información de primera mano. Se recogen directamente de una fuente. Son los más originales y no han sido sometidos a ningún tipo de tratamiento estadístico. Mientras que los datos secundarios se obtienen de otras fuentes u organismos. No tienen un carácter puro y han sido sometidos a algún tratamiento al menos una vez.

Ejemplo: Supongamos que estamos interesados en conocer la edad media de los estudiantes de un determinado departamento. Recogemos los datos por dos métodos: recogiendo directamente la información de cada estudiante u obteniendo sus edades de los registros de la universidad. Los datos recogidos mediante la investigación personal directa se denominan datos primarios y los datos obtenidos de los registros de la universidad se denominan datos secundarios.

Edición

Después de recoger los datos, ya sea de fuentes primarias o secundarias, el siguiente paso es su edición. Por edición se entiende el examen de los datos recogidos para descubrir cualquier error o equivocación antes de presentarlos. Hay que decidir de antemano qué grado de precisión se desea y qué grado de errores se pueden tolerar en la investigación. La edición de los datos secundarios es más sencilla que la de los datos primarios.

Nuevas técnicas estadísticas

Remuestreo interno

Una de las grandes contribuciones de la estadística del siglo XX fue demostrar que una muestra correctamente extraída y de tamaño suficiente. Esto, aunque sólo sea una pequeña fracción de la población de interés, puede dar lugar a muy buenas estimaciones de la mayoría de las características de la población. Cuando se sabe lo suficiente al principio sobre la característica en cuestión -por ejemplo, que su distribución es aproximadamente normal-, la inferencia de los datos de la muestra a la población en su conjunto es directa. Se pueden calcular fácilmente medidas de la certeza de la inferencia. Por ejemplo el intervalo de confianza del 95 por ciento en torno a una estimación.

Pero las formas de la población son a veces desconocidas o inciertas. De esta manera, los procedimientos de inferencia no pueden ser tan sencillos. Además, según Perkel J (2012), la mayoría de las veces es difícil evaluar incluso el grado de incertidumbre asociado a los datos complejos. Igualmente, se asocian a las estadísticas necesarias para desentrañar fenómenos sociales y de comportamiento complejos.

Los métodos de remuestreo interno intentan evaluar esta incertidumbre generando una serie de conjuntos de datos simulados similares a los realmente observados. La definición de similar es crucial. Se han ideado muchos métodos que explotan diferentes tipos de similitud. Estos métodos proporcionan a los investigadores la libertad de elegir procedimientos científicamente apropiados. De la misma manera, brinda la posibilidad de sustituir los procedimientos que son válidos bajo formas de distribución asumidas por otros que no están tan restringidos. La clave de estos métodos es la simulación informática flexible e imaginativa.

Método Boostrap y Jackknife

Para una muestra aleatoria simple, el método "bootstrap" remuestrea repetidamente los datos obtenidos (con reemplazo). Se puede así generar una distribución de posibles conjuntos de datos. De este modo, se puede simular la distribución de cualquier estimador y derivar medidas de la certeza de la inferencia. El método "jackknife" omite repetidamente una fracción de los datos. De este modo, genera una distribución de posibles conjuntos de datos que también puede utilizarse para estimar la variabilidad. Estos métodos también pueden utilizarse para eliminar o reducir el sesgo. Por ejemplo, se sabe que el estimador de la proporción, un estadístico que se utiliza habitualmente en el análisis de encuestas y censos por muestreo, está sesgado. El método jackknife suele subsanar este defecto. Los métodos se han ampliado a otras situaciones y tipos de análisis, como la regresión múltiple.

Hay indicios de que, en condiciones relativamente generales, estos métodos, y otros relacionados con ellos, permiten realizar estimaciones más precisas. Especialmente de la incertidumbre de las inferencias que los tradicionales. Estos últimos se basan en distribuciones supuestas (normalmente, normales) cuando esa suposición distributiva no está justificada. En el caso de las muestras complejas, este remuestreo o submuestreo interno facilita la estimación de las varianzas muestrales de las estadísticas complejas.

Una idea más antigua y sencilla, pero igualmente importante, es utilizar una submuestra independiente en la búsqueda de los datos. Así se puede desarrollar un modelo y al menos una submuestra separada para estimar y probar un modelo seleccionado. De lo contrario, es casi imposible tener en cuenta el ajuste excesivamente estrecho del modelo. El mismo se produce como resultado de la búsqueda creativa de las características exactas de los datos de la muestra. Estas características que son hasta cierto punto aleatorias y que no predecirán bien otras muestras.

Técnicas robustas

El análisis de los datos se basa en muchos supuestos técnicos. Algunos, como el supuesto de que cada elemento de una muestra se extrae de forma independiente de otros elementos, pueden debilitarse cuando los datos están lo suficientemente estructurados como para admitir modelos alternativos sencillos. Ejemplo de esto es la correlación serial. Normalmente, estos modelos requieren la estimación de unos pocos parámetros. Las suposiciones sobre las formas de las distribuciones, siendo la normalidad la más común, han demostrado ser particularmente importantes. Se han hecho considerables progresos en el tratamiento de las consecuencias de las diferentes suposiciones.

Más recientemente, se han diseñado técnicas robustas que permiten realizar discriminaciones nítidas y válidas entre los posibles valores de los parámetros de tendencia central. Especialmente para una amplia variedad de distribuciones alternativas, reduciendo el peso dado a las desviaciones extremas ocasionales. Resulta que renunciando, por ejemplo, a un 10% de la discriminación que podría proporcionarse bajo el supuesto poco realista de la normalidad, se puede mejorar enormemente el rendimiento en situaciones más realistas. Especialmente cuando las desviaciones inusualmente grandes son relativamente comunes.

Estas valiosas modificaciones de las técnicas estadísticas clásicas se han extendido a la regresión múltiple. Aquí los procedimientos de reponderación iterativa pueden ofrecer ahora un rendimiento relativamente bueno para una variedad de formas distributivas subyacentes. Deberían extenderse a esquemas de análisis más generales.

En algunos contextos -sobre todo en los usos más clásicos del análisis de la varianza- el uso de técnicas robustas adecuadas debería ayudar a acercar la práctica estadística convencional. Específicamente a los mejores estándares que los expertos pueden alcanzar ahora.

Parámetros interrelacionados

Al tratar de ofrecer una representación del mundo real más precisa que la que es posible con modelos simples, los investigadores utilizan a veces modelos con muchos parámetros. Todos estos deben estimarse a partir de los datos. Los principios clásicos de estimación, como el de máxima verosimilitud directa, no producen estimaciones fiables. Esto a menos que el número de observaciones sea mucho mayor que el número de parámetros que hay que estimar o que se utilicen diseños especiales junto con suposiciones sólidas. Los métodos bayesianos no distinguen entre parámetros fijos y aleatorios. Por esto pueden ser especialmente adecuados para este tipo de problemas.

Recientemente se han desarrollado diversos métodos estadísticos que pueden interpretarse como el tratamiento de muchos de los parámetros. Específicamente según Salsburg (2017),  pueden usarse en cantidades aleatorias o similares, aunque se considere que representan cantidades fijas que deben estimarse. La teoría y la práctica demuestran que estos métodos pueden mejorar los métodos más sencillos de parámetros fijos a partir de los cuales han evolucionado. Especialmente cuando el número de observaciones no es grande en relación con el número de parámetros.

Entre las aplicaciones más exitosas se encuentran las admisiones a universidades y escuelas de posgrado. Aquí la calidad de la escuela anterior se trata como un parámetro aleatorio cuando los datos son insuficientes para estimarlo bien por separado. Los esfuerzos por crear modelos apropiados utilizando este enfoque general para la estimación de áreas pequeñas y el ajuste de sub-conteo en el censo son importantes aplicaciones potenciales.

Datos perdidos

En el análisis, pueden surgir graves problemas cuando falta parcial o totalmente cierto tipo de información (cuantitativa o cualitativa). Se han desarrollado o se están desarrollando varios enfoques para tratar estos problemas. Uno de los métodos desarrollados recientemente para tratar ciertos aspectos de los datos que faltan se denomina imputación múltiple: cada valor que falta en un conjunto de datos se sustituye por varios valores que representan una gama de posibilidades, con una dependencia estadística entre los valores que faltan reflejada por la vinculación entre sus sustituciones.

En la actualidad se está utilizando para tratar un importante problema de incompatibilidad entre las cintas de uso público de la Oficina del Censo de 1980 y las anteriores en lo que respecta a los códigos de ocupación. La extensión de estas técnicas para abordar problemas como la falta de respuesta a las preguntas sobre ingresos en la Encuesta de Población Actual se ha examinado en aplicaciones exploratorias con gran promesa.

Referencias Bibliográficas

Ioannidis JPA (2012) Why science is not necessarily self-correcting. Perspect Psychol Sci 7:645–654.

Salsburg D (2017) Errors, Blunders, and Lies (CRC, Boca Raton, FL).

Perkel J (2012) Should Linus Pauling’s erroneous 1953 model of DNA be retracted? Retraction Watch. Available at retractionwatch.com/2012/06/27/should-linus-paulings-erroneous-1953-model-of-dna-be-retracted/.

También te puede interesar: Errores en la Recolección de Datos Estadísticos

Recolección de Datos Estadísticos

Recolección de Datos Estadísticos

Abrir chat
1
Bienvenido(a) a Online Tesis
Nuestros expertos estarán encantados de ayudarte con tu investigación ¡Contáctanos!