La confiabilidad se refiere a si se obtiene la misma respuesta al utilizar un instrumento para medir algo más de una vez. En términos sencillos, la confiablidad de la investigación es el grado en que el método de investigación produce resultados estables y consistentes.

Se considera que una medida específica es confiable si su aplicación sobre el mismo objeto de medición un número de veces produce los mismos resultados.

La confiabilidad, al igual que la validez, es una forma de evaluar la calidad del procedimiento de medición utilizado para recoger datos en una tesis. Para que los resultados de un estudio se consideren válidos, el procedimiento de medición debe ser primero fiable.

Proceso de Medición del Constructo

Cuando examinamos un constructo en un estudio, elegimos una de las posibles formas de medir ese constructo. Por ejemplo, podemos optar por utilizar elementos del cuestionario, preguntas de la entrevista, etc. Estos ítems del cuestionario o las preguntas de la entrevista forman parte del procedimiento de medición. Este procedimiento de medición debe proporcionar una representación exacta del constructo que está midiendo si se quiere considerar válido. Por ejemplo, si queremos medir el constructo «inteligencia», necesitamos un procedimiento de medición que mida con precisión la inteligencia de una persona. Dado que hay muchas formas de concebir la inteligencia (por ejemplo, el coeficiente intelectual, la inteligencia emocional, etc.), esto puede dificultar la elaboración de un procedimiento de medición que tenga una fuerte validez.

En la investigación cuantitativa, el procedimiento de medición se compone de variables. Puede ser una única variable o una serie de variables que pueden constituir un constructo. Cuando pensamos en la confiabilidad de estas variables, queremos saber lo estables o constantes que son. Esta suposición, la de que la variable que se mide es estable o constante, es fundamental para el concepto de confiabilidad. En principio, un procedimiento de medición que es estable o constante debería producir los mismos resultados (o casi los mismos) si se utilizan los mismos individuos y condiciones. Entonces, ¿qué queremos decir cuando decimos que un procedimiento de medición es constante o estable?

Proceso de Medición Constante o Estable

Algunas variables son más estables (constantes) que otras. Es decir, algunas cambian significativamente, mientras que otras son razonablemente constantes. Sin embargo, el procedimiento de medición que se utiliza para medir una variable introduce cierta cantidad/grado de error, ya sea pequeño o grande. Por lo tanto, la puntuación medida (por ejemplo, de 0 a 100 en un examen) para una determinada variable está formada por la puntuación verdadera más el error.

La puntuación verdadera es la puntuación real que reflejaría de forma fiable la medición en un constructo determinado. Por ejemplo, una puntuación de 76 sobre 100 en un test de CI refleja realmente la inteligencia de la persona que realiza el test. Si esa persona realizara otro test de CI al día siguiente, esperaríamos que volviera a obtener 76 sobre 100. Esto suponiendo que sólo estamos viendo la puntuación verdadera de esa persona y no ningún error.

Error en la puntuación

El error refleja las condiciones que hacen que la puntuación que estamos midiendo no refleje la puntuación verdadera, sino una variación de la puntuación real (por ejemplo, una persona cuya puntuación verdadera en un test de CI debería ser de 76 sobre 100 obtiene 74 un día, pero 79 al día siguiente y la diferencia de las puntuaciones entre los dos días refleja el componente de error). Este componente de error dentro de un procedimiento de medición variará de una medición a otra, aumentando y disminuyendo la puntuación de la variable.

Se supone que esto ocurre de forma aleatoria y que el error tiene una media de cero a lo largo del tiempo; es decir, los aumentos o disminuciones del error a lo largo de una serie de mediciones se igualan de forma que acabamos obteniendo la puntuación verdadera (por ejemplo, si la persona cuya puntuación verdadera debería ser 76 sobre 100 realizara el test de inteligencia 20 veces, acabaríamos viendo una puntuación media de 76, a pesar de que las puntuaciones obtenidas fueran a veces superiores a 76 y a veces inferiores). Sin embargo, no todos los procedimientos de medición tienen la misma cantidad/grado de error (es decir, algunos procedimientos de medición son propensos a un mayor error que otros).

Categorías en la Confiabilidad de la Investigación

La confiablidad de la investigación puede dividirse en varias categorías:

Confiablidad Test – Retest

La confiablidad test-retest se refiere a la medida de confiablidad que se ha obtenido al realizar la misma prueba más de una vez a lo largo de un periodo de tiempo con la participación del mismo grupo de muestra.

Ejemplo: Se puede pedir a los empleados de la empresa ABC que rellenen el mismo cuestionario sobre la satisfacción laboral de los empleados dos veces con un intervalo de una semana, de modo que los resultados de la prueba puedan compararse para evaluar la estabilidad de las puntuaciones.

Por qué es importante

Hay muchos factores que pueden influir en los resultados en diferentes momentos: por ejemplo, los encuestados pueden experimentar diferentes estados de ánimo o las condiciones externas pueden afectar a su capacidad para responder con precisión.

La confiabilidad de la prueba-retest puede utilizarse para evaluar la resistencia de un método a estos factores a lo largo del tiempo. Cuanto menor sea la diferencia entre las dos series de resultados, mayor será la confiabilidad test-retest.

Cómo se mide

Para medir la confiabilidad test-retest, se realiza la misma prueba en el mismo grupo de personas en dos momentos diferentes. A continuación, se calcula la correlación entre los dos conjuntos de resultados.

Ejemplo de confiabilidad test-retest

Se diseña un cuestionario para medir el coeficiente intelectual de un grupo de participantes (una propiedad que probablemente no cambie de forma significativa con el paso del tiempo). Se administra la prueba con dos meses de diferencia al mismo grupo de personas, pero los resultados son significativamente diferentes, por lo que la confiabilidad test-retest del cuestionario de coeficiente intelectual es baja.

Cómo mejorar la confiabilidad de la prueba de reexamen

Cuando diseñe pruebas o cuestionarios, intente formular las preguntas, los enunciados y las tareas de forma que no se vean influidos por el estado de ánimo o la concentración de los participantes.

Al planificar los métodos de recogida de datos, intente minimizar la influencia de factores externos y asegúrese de que todas las muestras se someten a las mismas condiciones.

Recuerde que es de esperar que se produzcan cambios en los participantes a lo largo del tiempo y téngalos en cuenta.

Confiabilidad de Formas Paralelas

La confiablidad de formas paralelas se refiere a una medida que se obtiene al realizar la evaluación del mismo fenómeno con la participación del mismo grupo de muestra a través de más de un método de evaluación.

Ejemplo: Los niveles de satisfacción de los empleados de la empresa ABC pueden evaluarse con cuestionarios, entrevistas en profundidad y grupos de discusión y los resultados pueden compararse.

Por qué es importante

Si quiere utilizar varias versiones diferentes de una prueba (por ejemplo, para evitar que los encuestados repitan las mismas respuestas de memoria), primero tiene que asegurarse de que todos los conjuntos de preguntas o medidas dan resultados fiables.

En la evaluación educativa, a menudo es necesario crear diferentes versiones de las pruebas para garantizar que los alumnos no tengan acceso a las preguntas de antemano. La confiabilidad de las formas paralelas significa que, si los mismos alumnos realizan dos versiones diferentes de una prueba de comprensión lectora, deberían obtener resultados similares en ambas pruebas.

Cómo se mide

La forma más habitual de medir la confiabilidad de las formas paralelas es elaborar un gran conjunto de preguntas para evaluar lo mismo y, a continuación, dividirlas aleatoriamente en dos conjuntos de preguntas.

El mismo grupo de encuestados responde a ambos conjuntos y se calcula la correlación entre los resultados. Una alta correlación entre los dos indica una alta confiabilidad de los formularios paralelos.

Ejemplo de confiabilidad de formularios paralelos

Se formula un conjunto de preguntas para medir la aversión al riesgo financiero en un grupo de encuestados. Las preguntas se dividen aleatoriamente en dos conjuntos y los encuestados se dividen aleatoriamente en dos grupos. Ambos grupos realizan las dos pruebas: el grupo A realiza primero la prueba A y el grupo B la prueba B. Se comparan los resultados de las dos pruebas y los resultados son casi idénticos, lo que indica una alta confiabilidad de las formas paralelas.

Cómo mejorar la confiabilidad de los formularios paralelos

Asegúrese de que todas las preguntas o ítems del test se basan en la misma teoría y están formulados para medir lo mismo.

Confiabilidad entre evaluadores

La confiablidad entre evaluadores, como su nombre indica, se refiere a la medición de conjuntos de resultados obtenidos por diferentes evaluadores que utilizan los mismos métodos. Las ventajas y la importancia de evaluar la confiablidad entre evaluadores pueden explicarse haciendo referencia a la subjetividad de las evaluaciones.

Ejemplo: Los niveles de motivación de los empleados de la empresa ABC pueden ser evaluados mediante el método de observación por dos evaluadores diferentes y la confiablidad entre evaluadores se refiere al grado de diferencia entre las dos evaluaciones.

Por qué es importante

Las personas son subjetivas, por lo que las percepciones de los distintos observadores sobre las situaciones y los fenómenos difieren naturalmente. Una investigación fiable pretende minimizar la subjetividad en la medida de lo posible, de modo que otro investigador pueda reproducir los mismos resultados.

A la hora de diseñar la escala y los criterios para la recogida de datos, es importante asegurarse de que diferentes personas calificarán la misma variable de forma coherente con un sesgo mínimo. Esto es especialmente importante cuando hay varios investigadores implicados en la recogida o el análisis de datos.

Cómo medirla

Para medir la confiabilidad entre evaluadores, diferentes investigadores realizan la misma medición u observación en la misma muestra. A continuación, se calcula la correlación entre sus diferentes conjuntos de resultados. Si todos los investigadores dan calificaciones similares, la prueba tiene una alta confiabilidad entre los evaluadores.

Ejemplo de confiabilidad entre evaluadores

Un equipo de investigadores observa el progreso de la cicatrización de las heridas en los pacientes. Para registrar las etapas de cicatrización, se utilizan escalas de valoración, con un conjunto de criterios para evaluar diversos aspectos de las heridas. Se comparan los resultados de diferentes investigadores que evalúan el mismo conjunto de pacientes y existe una fuerte correlación entre todos los conjuntos de resultados, por lo que la prueba tiene una alta confiabilidad entre los evaluadores.

Cómo mejorar la confiabilidad entre los evaluadores

Defina claramente sus variables y los métodos que se utilizarán para medirlas.

Desarrolle criterios detallados y objetivos sobre cómo se calificarán, contarán o categorizarán las variables.

Si hay varios investigadores implicados, asegúrese de que todos tienen exactamente la misma información y formación.

Confiabilidas de Consistencia Interna

La confiablidad de consistencia interna se aplica para evaluar el grado de diferencias entre los ítems de la prueba que exploran el mismo constructo y producen resultados similares. Puede representarse en dos formatos principales.

a) la correlación media entre ítems es una forma específica de consistencia interna que se obtiene aplicando el mismo constructo en cada ítem del test

b) la confiablidad dividida como otro tipo de confiablidad de consistencia interna implica que todos los ítems de un test se «dividan por la mitad».

Por qué es importante

Cuando se diseña un conjunto de preguntas o valoraciones que se combinarán en una puntuación global, hay que asegurarse de que todos los ítems reflejan realmente lo mismo. Si las respuestas a los distintos ítems se contradicen, la prueba podría no ser fiable.

Para medir la satisfacción de los clientes con una tienda online, podría crear un cuestionario con un conjunto de afirmaciones con las que los encuestados deben estar de acuerdo o en desacuerdo. La consistencia interna le indica si todas las afirmaciones son indicadores fiables de la satisfacción del cliente.

Cómo medirla

Para medir la consistencia interna se utilizan dos métodos habituales.

Correlación media entre elementos: Para un conjunto de medidas diseñadas para evaluar el mismo constructo, se calcula la correlación entre los resultados de todos los pares de ítems posibles y luego se calcula la media.

Fiabilidad por mitades: Se divide aleatoriamente un conjunto de medidas en dos conjuntos. Después de probar todo el conjunto con los encuestados, se calcula la correlación entre los dos conjuntos de respuestas.

Ejemplo de consistencia interna

Se presenta a un grupo de encuestados un conjunto de afirmaciones diseñadas para medir la mentalidad optimista y pesimista. Deben calificar su acuerdo con cada afirmación en una escala de 1 a 5. Si la prueba es internamente consistente, un encuestado optimista debería dar generalmente calificaciones altas a los indicadores de optimismo y bajas a los de pesimismo. Se calcula la correlación entre todas las respuestas a las afirmaciones «optimistas», pero la correlación es muy débil. Esto sugiere que la prueba tiene una baja consistencia interna.

Mejorar la consistencia interna

Hay que tener cuidado a la hora de diseñar las preguntas o las medidas: las que pretenden reflejar el mismo concepto deben basarse en la misma teoría y estar cuidadosamente formuladas.

Confiabilidad por mitades

La confiabilidad dividida en dos mitades se utiliza principalmente en las pruebas escritas/estandarizadas, pero a veces se utiliza en las pruebas de rendimiento físico/humano (aunque requieran un número de ensayos). Sin embargo, se basa en el supuesto de que el procedimiento de medición puede dividirse (es decir, dividirse) en dos mitades coincidentes.

La confiabilidad por mitades se evalúa dividiendo las medidas/elementos del procedimiento de medición por la mitad y calculando las puntuaciones de cada mitad por separado. Antes de calcular la confiabilidad a medias de las puntuaciones, hay que decidir cómo dividir las medidas/elementos del procedimiento de medición (por ejemplo, un test escrito/estandarizado). La forma de hacerlo afectará a los valores que se obtengan.

Formas de llevar a cabo la confiabilidad por mitades

Una opción es simplemente dividir el procedimiento de medición por la mitad; es decir, tomar las puntuaciones de las medidas/elementos de la primera mitad del procedimiento de medición y compararlas con las puntuaciones de esas medidas/elementos de la segunda mitad del procedimiento de medición. Esto puede ser problemático debido a (a) cuestiones de diseño de la prueba (por ejemplo, las preguntas más fáciles/duras están en la primera/segunda mitad del procedimiento de medición), (b) la fatiga/concentración/concentración de los participantes (es decir, las puntuaciones pueden disminuir durante la segunda mitad del procedimiento de medición) y (c) los diferentes ítems/tipos de contenido en las diferentes partes de la prueba.

Otra opción es comparar los ítems/medidas pares e impares del procedimiento de medición. El objetivo de este método es intentar hacer coincidir las medidas/elementos que se comparan en términos de contenido, diseño de la prueba (es decir, dificultad), exigencias de los participantes, etc. Esto ayuda a evitar algunos de los sesgos potenciales que surgen de la simple división del procedimiento de medición en dos.

Después de dividir las medidas/elementos del procedimiento de medición, las puntuaciones de cada una de las mitades se calculan por separado, antes de evaluar la consistencia interna entre los dos conjuntos de puntuaciones, normalmente mediante una correlación (por ejemplo, utilizando la fórmula de Spearman-Brown). Se considera que el procedimiento de medición demuestra la confiabilidad de la mitad dividida si los dos conjuntos de puntuaciones están altamente correlacionados (es decir, hay una fuerte relación entre las puntuaciones).

Alfa de Cronbach

El coeficiente alfa de Cronbach (también conocido como técnica de coeficiente alfa o coeficiente de confiabilidad alfa) es una prueba de confiabilidad como consistencia interna (Cronbach, 1951). A nivel de tesis de grado y de máster, es más probable que se utilice que el método de la mitad dividida. Es más probable que se utilice en pruebas escritas/estandarizadas (por ejemplo, una encuesta).

Usos del Alfa de Cronbach

El alfa de Cronbach también se utiliza para medir la confiabilidad por partes. Sin embargo, en lugar de examinar simplemente dos conjuntos de puntuaciones, es decir, calcular la confiabilidad de la mitad dividida en el procedimiento de medición sólo una vez, el alfa de Cronbach lo hace para cada medida/elemento dentro de un procedimiento de medición (por ejemplo, cada pregunta dentro de una encuesta). Por lo tanto, el alfa de Cronbach examina las puntuaciones entre cada medida/elemento y la suma de todas las demás medidas/elementos relevantes que le interesan. Esto nos proporciona un coeficiente de correlaciones entre elementos, donde una fuerte relación entre las medidas/elementos dentro del procedimiento de medición sugiere una alta consistencia interna (por ejemplo, un coeficiente de alfa de Cronbach de .80).

El alfa de Cronbach se utiliza a menudo cuando se tienen escalas de varios elementos (por ejemplo, un procedimiento de medición, como una encuesta, con múltiples preguntas). También es una prueba de confiabilidad versátil como consistencia interna porque puede utilizarse para mediciones actitudinales, que son populares entre los estudiantes de grado y de máster (por ejemplo, las mediciones actitudinales incluyen escalas de Likert con opciones como muy de acuerdo, de acuerdo, ni de acuerdo ni en desacuerdo, en desacuerdo, muy en desacuerdo).

Alfa de Cronbach y la unidimensionalidad

Sin embargo, el alfa de Cronbach no determina la unidimensionalidad de un procedimiento de medición (es decir, que un procedimiento de medición sólo mide un constructo, como la depresión, en lugar de poder distinguir entre múltiples constructos que se están midiendo dentro de un procedimiento de medición; quizás la depresión y el agotamiento de los empleados). Esto se debe a que se puede obtener un coeficiente alfa de Cronbach elevado (por ejemplo, 0,80) cuando se prueba un procedimiento de medición que incluye dos o más constructos.

Sesgo del experimentador y sesgo instrumental

A veces, podemos pensar que el dispositivo de medición es el investigador que recoge los datos, ya que es el investigador el que realiza la evaluación de la medición. Es más probable que esto ocurra en los diseños de investigación cualitativa que en los de investigación cuantitativa, porque la investigación cualitativa generalmente implica procedimientos de medición menos estructurados y menos estandarizados, como las entrevistas y observaciones no estructuradas y semiestructuradas. Sin embargo, la investigación cuantitativa también implica métodos de investigación en los que la puntuación de la variable dependiente que se da en un procedimiento de medición concreto está determinada por el investigador.

En estos casos, se quiere evitar el potencial sesgo del experimentador y el sesgo instrumental, que son amenazas para la validez interna y la confiabilidad. Por ejemplo, imaginemos que un investigador utiliza la observación participante estructurada para evaluar la incomodidad social (es decir, la variable dependiente) en dos tipos diferentes de profesión (es decir, la variable independiente). Para simplificar, imaginemos que dos investigadores observan a estos dos grupos diferentes de empleados y puntúan su nivel de torpeza social en una escala del 1 al 10 (por ejemplo, 10 = extremadamente torpe socialmente).

Puntuación del Investigador

La forma en que un investigador puntúa puede cambiar en el transcurso de un experimento por dos razones: En primer lugar, el investigador puede ganar experiencia (es decir, volverse más competente) o fatigarse durante el transcurso del experimento, lo que afecta a la forma en que se registran las observaciones. Esto puede ocurrir en todos los grupos, pero también dentro de un mismo grupo (incluso antes y después de las pruebas).

En segundo lugar, es posible que se utilice un investigador diferente para la medición previa y posterior a la prueba. En la investigación cuantitativa que utiliza la observación participante estructurada, es importante tener en cuenta la capacidad/experiencia de los investigadores y cómo ésta, u otros factores relacionados con la puntuación del investigador, pueden cambiar con el tiempo. Sin embargo, esto sólo conducirá a un sesgo instrumental si la forma en que el investigador puntúa es diferente para los grupos que se están midiendo (por ejemplo, el grupo de control frente al grupo de tratamiento).

Uno de los objetivos de la confiabilidad de la equivalencia es evaluar dicho sesgo del experimentador y el sesgo instrumental comparando la similitud/consistencia de las mediciones simultáneas que se están realizando.

Exigencias experimentales

A veces hay demasiadas mediciones que debe realizar un solo investigador (por ejemplo, muchos participantes), o las mediciones están dispersas geográficamente (por ejemplo, las mediciones deben realizarse en diferentes lugares). Esto también puede dar lugar a que se realicen mediciones simultáneas.

Dado que el juicio de los investigadores no es perfecto, no podemos asumir que diferentes investigadores registrarán una medición de algo de la misma manera (por ejemplo, medir la torpeza social de una persona en una escala de 1 a 10 simplemente observándola). Para evaluar la confiabilidad de estas mediciones simultáneas, podemos utilizar la confiabilidad entre evaluadores. Dicha confiabilidad entre evaluadores es una medida de la correlación entre las puntuaciones proporcionadas por los dos observadores, que indica el grado de acuerdo entre ellos (es decir, la confiabilidad como equivalencia).

Amenazas a la confiabilidad

Las amenazas a la confiabilidad son aquellos factores que causan (o son fuentes de) error. Al fin y al cabo, la inestabilidad o incoherencia en la medición que está utilizando proviene de dicho error. Algunas de las fuentes de error en su tesis pueden ser: el error del investigador (u observador), los cambios del entorno y los cambios de los participantes.

Error del investigador (u observador)

Durante el proceso de elaboración del Trabajo Final de Grado hay muchas situaciones en las que usted es responsable de realizar las mediciones. Durante este proceso de medición, como investigador, puede introducir errores al realizar las mediciones. Esto se conoce como error del investigador (u observador). Incluso cuando un proceso de medición se considera preciso (por ejemplo, un cronómetro), su juicio estará a menudo implicado en el uso de la medición (por ejemplo, cuándo iniciar y detener el cronómetro). El error humano (o las diferencias humanas) también es un factor (por ejemplo, el tiempo de reacción para poner en marcha el reloj). Esto se convierte en un problema mayor a medida que aumenta el número de investigadores (observadores) y/o el número de mediciones (por ejemplo, 10 personas que utilizan cronómetros y realizan 100 mediciones de tiempo).

Cambios ambientales

Durante el tiempo que transcurre entre las mediciones (por ejemplo, al registrar el tiempo en un cronómetro), pueden producirse pequeños cambios en el entorno que influyan en las mediciones que se están realizando, creando un error. Estos cambios en el entorno hacen imposible asegurar que el mismo individuo sea medido de la misma manera (es decir, en idénticas condiciones). Por ejemplo, incluso dos mediciones muy próximas entre sí pueden verse afectadas por las condiciones/variables del entorno (por ejemplo, la luz, el día, la hora, la temperatura, etc.). Sin embargo, cabe señalar que lo ideal es garantizar que los individuos sean medidos de la misma manera cada vez (es decir, con las mismas/idénticas condiciones ambientales), sin ningún cambio ambiental.

Cambios en los participantes

Entre las mediciones, también es posible que los participantes en la investigación cambien de alguna manera. Aunque este potencial de cambio suele reducirse si el tiempo entre las mediciones es corto, no es necesariamente así. Depende de la naturaleza de la medición (por ejemplo, la concentración/atención afecta a los tiempos de reacción, el hambre/cansancio provoca una reducción del rendimiento físico/mental, etc.). Estos cambios de los participantes pueden crear un error que reduce la confiabilidad (es decir, la consistencia o la estabilidad) de las mediciones.

Nuestros especialistas esperan por ti para que los contactes a través del formulario de cotización o del chat directo. También contamos con canales de comunicación confidenciales como WhatsApp y Messenger. Y si quieres estar al tanto de nuestros novedosos servicios y las diferentes ventajas de contratarnos, síguenos en FacebookInstagram o Twitter.

Si este artículo fue de tu agrado, no olvides compartirlo por tus redes sociales. También te puede interesar: Una tesis resuelve problemas de robótica industrial mediante algoritmos inteligentes

Referencias Bibliográficas

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika16(3): 297-334.

Kuder, G F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika2(3): 151-160.

Miller, M. B. (1995). Coefficient alpha: A basic introduction from the perspectives of classical test theory and structural equation modelling. Structural Equation Modeling2(3): 255-273.

Salthouse, T. A., & Hedden, T. (2002). Interpreting reaction time measures in between-group comparisons. Journal of Clinical and Experimental Neuropsychology24(7): 858-872.

¿A qué nos referimos cuando hablamos de confiabilidad?

¿A qué nos referimos cuando hablamos de confiabilidad? Foto: Unsplash. Créditos: Eliabe Costa

Shares
Abrir chat
1
Escanea el código
Bienvenido(a) a Online Tesis
Nuestros expertos estarán encantados de ayudarte con tu investigación ¡Contáctanos!