Para muchos científicos, especialmente en el ámbito de las ciencias de la vida, el proceso de recuperación de la literatura es tedioso, propenso a errores y poco transparente. Por otro lado, la calidad de la búsqueda de la literatura ha sido reconocida como una de las características clave para la generación de evidencia científica de alta calidad. Entre las crecientes necesidades de recuperación de la literatura científica y la variedad de recursos bibliográficos diferentes, los científicos, como usuarios de la literatura, piden un punto de entrada unificado, fácil de usar y fiable a la información científica como Google Scholar.

A la luz de esta justificada demanda, los recientes resultados sobre la calidad de Google Scholar como recurso para la recuperación de la literatura científica, incluso para las revisiones sistemáticas, dieron lugar a grandes expectativas sobre la aparición de dicha interfaz de búsqueda unificadora.

Muchos especialistas en información parecen estar abrumados por la rápida evolución de las bases de datos con multitud de características técnicas. En un proceso continuo de debate y acuerdo, las comunidades de las ciencias de la información y de la recuperación de la literatura científica han desarrollado métodos y normas que aspiran a un alto nivel de calidad en la recuperación y la presentación de la literatura. Muchos científicos de la información abogan por una sólida validación de Google Scholar y otras herramientas en desarrollo antes de publicitarlas.

Diferencia entre Base de Literatura Científica y Motor de Búsqueda Científica

La distinción entre “base de datos de literatura científica” y “motor de búsqueda científica” no debe tomarse demasiado al pie de la letra, al menos desde el punto de vista tecnológico: por un lado, una base de datos de literatura competitiva utiliza tecnología de procesamiento de lenguaje natural e indexación de alta gama para procesar sus entradas y tecnología de Internet para ofrecer los resultados. Por otro lado, todos los índices generados por un rastreador se almacenan en bases de datos y pueden mejorarse con tecnología semántica.

Así pues, en el futuro, la discriminación entre “base de datos bibliográficos” y “motor de búsqueda científica” se difuminará. Una “base de datos de literatura científica” (por ejemplo, MEDLINE) sólo es accesible para los usuarios mediante un “motor de búsqueda” con su interfaz de usuario (por ejemplo, PubMed u OvidSP). Google Scholar es un motor de búsqueda web académico que no proporciona un recurso propio de información de referencia a los usuarios. El motor de búsqueda y la interfaz de usuario de Google Scholar enlazan directamente desde su índice con los documentos de la web.

Aplicabilidad de Google Scholar

La propia documentación de Google Scholar no hace ninguna afirmación sobre la aplicabilidad de Google Scholar en determinados contextos. No dice nada sobre la exhaustividad de la cobertura o la calidad de los resultados de la recuperación. El usuario recibe el servicio “tal cual”, como se indica claramente en el aviso legal de Google. En referencia a sus propias declaraciones oficiales, Google Scholar intenta cooperar con los editores y productores de textos científicos y proporciona ayuda sobre cómo preparar los documentos para su indexación por Google Scholar.

Sin embargo, cuando los recursos están cerrados, el acceso está restringido, por ejemplo, mediante la protección con contraseña, o cuando el propietario del recurso no quiere cooperar, Google no puede procesar los documentos respectivos. Así pues, Google Scholar depende de la accesibilidad fundamental de los textos científicos a través de Internet o de la voluntad de las editoriales y bibliotecas de cooperar y abrir sus repositorios para la indexación.

Expresiones de búsqueda en Google Scholar

La estructura general de la expresión de búsqueda es la simple conjunción de términos, frases o subexpresiones conectadas con el booleano AND. En Google Scholar el AND se expresa como un espacio ‘ ‘ entre términos, frases o subexpresiones.

Los términos en Google Scholar son palabras individuales completas (no es posible el truncamiento). Google Scholar aplica un stemming automático a los términos cuya raíz es reconocible para Google Scholar. Sin embargo, este mecanismo puede no ser fiable para el lenguaje de un dominio específico (por ejemplo, el lenguaje médico).

Las frases en Google Scholar son uno o más términos separados por espacios entre comillas ‘”‘. Estas frases (conectadas) son buscadas por Google Scholar exactamente como se proporcionan a la interfaz de búsqueda.

Las subexpresiones en Google Scholar son disyunciones de términos y frases conectadas con un OR booleano. En Google Scholar el OR se expresa como un “OR” entre partes de la búsqueda. La subexpresión debe estar encerrada entre un par de paréntesis ‘( … )’.

¿Está Google Scholar preparado para ser utilizado sólo para las revisiones sistemáticas?

Google Scholar tiene una cobertura muy alta para ciertos temas de la medicina clínica. Se trata de una condición previa importante para la aplicabilidad de Google Scholar como motor de búsqueda de revisiones sistemáticas. Sin embargo, estos resultados no pueden generalizarse a los procedimientos de búsqueda estructurada ni a todas las áreas temáticas de la ciencia biomédica.

Otra cuestión importante es cómo se integra Google Scholar con la conducta profesional actual en la recuperación de la literatura científica. Para el trabajo profesional en todos los ámbitos, las interfaces de búsqueda científica tienen ciertas características y proporcionan al menos las siguientes herramientas integradas:

Fiabilidad y estabilidad de los resultados de la búsqueda en el tiempo y el lugar.

Funciones de exportación de conjuntos de resultados de búsqueda.

Una función de historial que almacene temporalmente los resultados de las búsquedas para el perfeccionamiento de las estrategias de búsqueda.

Apoyo a la documentación de las estrategias de búsqueda.

Interfaces de usuario avanzadas que permiten componer expresiones de búsqueda complejas

Tecnología de Búsqueda de Google Scholar

Google Scholar utiliza la tecnología del motor de búsqueda de Google. Como tal, no es una base de datos bibliográfica en el sentido tradicional como MEDLINE, Embase o la Web of Knowledge. En una base de datos de literatura científica más tradicional, las entradas para una base de datos de referencias se recogen de revistas científicas seleccionadas, libros y otros recursos que cumplen ciertos criterios de calidad. La información sobre las referencias se extrae y se almacena en una base de datos independiente, por ejemplo, la base de datos MEDLINE. Además, la información recopilada se indexa automáticamente y es procesada en parte por personas.

En Google Scholar, un programa de software automatizado llamado crawler visita los documentos académicos accesibles en Internet y construye un índice de texto completo almacenando las palabras extraídas del texto completo junto con un enlace al documento fuente. Sin embargo, la información de referencia en sí no es accesible a través de una base de datos de referencia adicional de Google Scholar.

Por lo tanto, los índices de Google Scholar sólo pueden contener referencias a las que se puede acceder a través de Internet de cualquier forma, por ejemplo, como texto completo, a través de la página web de un editor o como cita del texto completo de una obra citada. Por lo tanto, no se puede garantizar que todas las referencias accesibles en un momento dado sean recuperables en todos los momentos posteriores. Los resultados de la búsqueda cambiarán con el tiempo cuando la indexación cambie debido a la accesibilidad de los documentos fuente o de las bases de datos.

Motor de Indexación

El motor de indexación de Google Scholar implementa algunos algoritmos de procesamiento del lenguaje natural para procesar las palabras recogidas de las fuentes. Además, Google Scholar extrae automáticamente la información de las citas de las referencias. Esta tecnología, conocida como indexación autónoma de citas, también se aplica a la Web of Knowledge y a Scopus, aunque con resultados diferentes.

Para proporcionar al usuario una clasificación significativa de las referencias, la tecnología del motor de búsqueda de Google utiliza algoritmos de clasificación que no sólo analizan la coincidencia entre la expresión de búsqueda y el texto completo. Las referencias también se clasifican en función de la frecuencia con la que son citadas por otras referencias y otras informaciones. Por su gran tamaño y potencia tecnológica, Google y Google Scholar son capaces de indexar todo lo que es accesible a través de Internet, almacenarlo en grandes bases de datos distribuidas y ofrecer resultados en milisegundos.

Uno de los principales objetivos de Google es el acceso fácil y la facilidad de uso. Esta política puede ser adecuada para muchos usos, pero restringe a los usuarios a una interfaz de búsqueda sencilla que no es suficiente para expresar consultas más complejas. Google Scholar sigue la interfaz principal de Google con la forma de interacción más sencilla posible: un único campo de entrada de texto (denominada en adelante “interfaz de búsqueda simple”). Además, existe una “interfaz de búsqueda avanzada”. Esta interfaz permite conectar los términos de búsqueda con operadores lógicos o utilizar frases exactas en las expresiones de búsqueda.

Google Scholar: un motor de búsqueda de literatura científica con limitaciones conocidas

Si se compara con las interfaces de búsqueda de literatura profesional (PubMed, OvidSP, Web of Knowledge) independientemente de las fuentes de datos subyacentes, Google Scholar tiene algunas limitaciones importantes:

Los campos de búsqueda de las interfaces de búsqueda simple y avanzada están limitados a expresiones que no superen una longitud de 256 caracteres.

Este factor deteriora gravemente la aplicabilidad de Google Scholar, ya que limita la expresividad global de las búsquedas a expresiones muy cortas. Además, si no se comprueba cuidadosamente que se utiliza la expresión completa prevista, la interfaz de búsqueda trunca la expresión después de 256 caracteres sin avisar y puede dejar una frase o término corto sin sentido que aumenta el número de resultados falsos positivos.

No se pueden mostrar más de 1000 resultados del conjunto completo de resultados en pasos de un máximo de 20 resultados por página.

No está disponible la exportación masiva de resultados. Los resultados sólo pueden exportarse a un software de gestión de referencias (por ejemplo, ZOTERO) por el número máximo de referencias por página (20). Con este límite, Google Scholar no puede integrarse en un proceso profesional de selección de referencias para revisiones sistemáticas.

Google Scholar no tiene operadores de truncamiento.

En las expresiones de búsqueda de Google Scholar deben utilizarse palabras completas. Se utiliza un mecanismo automático de stemming para detectar una raíz de palabra común, sin embargo, este mecanismo no funciona de forma fiable. Por ejemplo, no basta con buscar “child” para encontrar los términos “child”, “childhood” y “children”, lo mismo ocurre con “random” para “randomisation”, “randomization”, “randomized” y “randomised”.

Se pueden utilizar operadores lógicos, aunque sólo sin anidación de subexpresiones lógicas a más de un nivel.

Es posible utilizar conjunciones de términos, frases y subexpresiones conectadas con el operador lógico AND. Google Scholar utiliza un espacio ‘ ‘ para expresar el AND lógico. Las subexpresiones son disyunciones de términos y frases conectadas con el OR lógico y tienen que estar encerradas entre paréntesis ( … ) en un nivel (véase un ejemplo más abajo). Esta característica no está documentada.

Aunque la interfaz de búsqueda de Google Scholar ha sido mejorada para la correcta interpretación de los conectores lógicos, los resultados de la recuperación siguen sin ser estables frente a la variación de la secuencia de términos de búsqueda de expresiones de búsqueda por lo demás lógicamente equivalentes. El conjunto de resultados de una búsqueda con la expresión oesophagus OR esophagus tiene un tamaño de 545.000. La búsqueda lógica equivalente esófago OR esófago tiene un tamaño de 565.000 referencias.

No es posible construir todas las expresiones posibles en la interfaz de búsqueda avanzada debido al número limitado de campos de entrada disponibles.

Sólo se dispone de un campo para cada tipo de expresión (conjunción, disyunción y conjunción de frases), lo que no es suficiente para construir, por ejemplo, una simple conjunción de dos disyunciones. Ejemplo:

(hemorragia OR sangrado) AND (esófago OR esófago)

Estas expresiones de búsqueda con más de una subexpresión deben construirse en un editor de texto fuera de la interfaz de búsqueda de Google. Una vez construidas, deben copiarse y pegarse en su totalidad en el campo de entrada único de la interfaz de búsqueda simple. Además, la interfaz de búsqueda avanzada analiza expresiones más complejas en sus campos, aunque el número limitado de campos no es suficiente para cubrir el significado de la expresión de búsqueda (ejemplo anterior). Por lo tanto, la interfaz de búsqueda avanzada podría distorsionar una consulta a una expresión con una semántica completamente diferente. Por lo tanto, una búsqueda compleja insertada en la interfaz de búsqueda simple nunca debería ser enviada desde la interfaz de búsqueda avanzada.

La actualización de Google Scholar puede no ser muy alta para algunos recursos.

El periodo de actualización de ciertos recursos es de hasta nueve meses. Aunque los resultados de las investigaciones indican que la cobertura de Google Scholar es muy alta, no se conoce la cobertura exacta. El propio Google afirma que no indexa revistas, sólo artículos, y no pretende ser exhaustivo.

La literatura que no está disponible en formato digital no se puede buscar de forma fiable. Sólo se pueden encontrar referencias a citas de esta literatura y, en consecuencia, sólo se pueden buscar por palabras de título y autores.

Algunos campos de la interfaz de búsqueda avanzada no están disponibles en una expresión de búsqueda como palabra clave o indicador de campo. Mientras que los autores pueden buscarse específicamente con el indicador de campo “autor” en una expresión como “autor: nombre del autor”, la fecha no es accesible mediante un indicador de campo.

Nuestros especialistas esperan por ti para que los contactes a través del formulario de cotización o del chat directo. También contamos con canales de comunicación confidenciales como WhatsApp y Messenger. Y si quieres estar al tanto de nuestros novedosos servicios y las diferentes ventajas de contratarnos, síguenos en FacebookInstagram o Twitter.

Si este artículo fue de tu agrado, no olvides compartirlo por tus redes sociales

Referencias Bibliográficas

Sampson M, McGowan J: Errors in search strategies were identified by type and frequency. J Clin Epidemiol. 2006, 59: 1057.e1-1057.e9.

Maggio LAM, Tannery NH, Kanter SL: Reproducibility of literature search reporting in medical education reviews. Acad Med Aug 2011. 2011, 86: 1049-1054.

Boeker M, Vach W, Motschall E: Semantically equivalent PubMed and Ovid-MEDLINE queries: different retrieval results because of database subset inclusion. J Clin Epidemiol. 2012, 65: 915-916. 10.1016/j.jclinepi.2012.01.015.

También te puede interesar: Startup con impacto social: a partir de una tesis crearon una plataforma para microemprendedores

Google Scholar

Google Scholar. Fuente: Unsplash. Créditos: Eliott Reyna @eliottreyna

Abrir chat
1
Escanea el código
Bienvenido(a) a Online Tesis
Nuestros expertos estarán encantados de ayudarte con tu investigación ¡Contáctanos!