Análisis Semántico Latente

Jun 8, 2020 | Metodología

El modelo de análisis semántico latente es una teoría de cómo el significado de las representaciones pueden aprenderse al encontrar grandes muestras de lenguaje sin instrucciones explícitas sobre cómo está estructurado. Para extraer y comprender patrones de los documentos, el Análisis Semántico Latente sigue inherentemente ciertos supuestos:

El significado de oraciones o documentos es una suma del significado de todas las palabras que aparecen en él. En general, el significado de una palabra determinada es un promedio en todos los documentos en los que aparece.

El Análisis Semántico Latente supone que las asociaciones semánticas entre palabras no están presentes explícitamente, sino solo latentemente en la gran muestra de lenguaje.

Perspectiva Matemática

El Análisis Semántico Latente se compone de ciertas operaciones matemáticas para obtener información sobre un documento. Este algoritmo forma la base del modelado de temas. La idea central es tomar una matriz de lo que tenemos (documentos y términos) y descomponerla en una matriz separada de documentos y temas y una matriz de temas y términos.

El primer paso es generar nuestra matriz de términos de documentos. También se puede construir utilizando un modelo de bolsa de palabras, pero los resultados son escasos y no aportan ningún significado. De esta manera, dados m documentos y n palabras en nuestro vocabulario, podemos construir una matriz m × n en la que cada fila representa un documento y cada columna representa una palabra. Intuitivamente, un término tiene un gran peso cuando aparece con frecuencia en todo el documento pero con poca frecuencia en todo el corpus.

Matriz de Pasaje de Término

Una colección de texto estadísticamente representativo de la experiencia del lenguaje humano se divide primero en pasajes con significados coherentes, típicamente párrafos o documentos. La colección se representa como una matriz de pasaje de término. Las filas representan términos individuales y las columnas representan pasajes o documentos (u otras unidades de análisis de interés). Las entradas de celdas individuales contienen la frecuencia con la que cada término aparece en un documento.

Matriz transformada de pasaje a término

Las entradas en la matriz de términos y documentos a menudo se transforman para ponderarlas según su importancia estimada a fin de imitar mejor el proceso de comprensión humana. Para la simulación del lenguaje, el mejor rendimiento se observa cuando las frecuencias se acumulan de manera sublineal dentro de las celdas (típicamente log (freqij + 1), donde freqij es la frecuencia del término i en el documento j), e inversamente con la aparición general del término en la colección (generalmente usando frecuencia de documento inversa o medidas de entropía).

Dejar de enumerar y derivar

Estos se usan muy raramente. De acuerdo con la teoría y el modelo subyacentes, ni la derivación ni la detención de la inclusión son apropiadas o generalmente eficaces. Como en el lenguaje natural, el significado de los pasajes no se puede reconstruir o comprender con precisión sin todas sus palabras. Sin embargo, cuando se usa el Análisis Semántico Latente para comparar cadenas de palabras más cortas que los párrafos de texto normales, oraciones cortas y ponderación cero de las palabras, a menudo es pragmáticamente útil.

Reducción de la dimensión

Se realiza una descomposición de valores singulares de rango reducido en la matriz, en la que se retienen los valores k singulares más grandes, y el resto se establece en 0. La representación resultante es la mejor aproximación k-dimensional a la matriz original en el menor -su sentido de los cuadrados. Cada pasaje y término ahora se representa como un vector k-dimensional en el espacio derivado. En la mayoría de las aplicaciones k, la dimensionalidad es mucho menor que el número de términos en la matriz de paso de términos.

¿Qué es el análisis de contenidos y en qué investigaciones usarlo?

Propósito y método del Análisis Semántico Latente

El Análisis Semántico Latente modela la contribución al lenguaje natural atribuible a la combinación de palabras en pasajes coherentes. Utiliza un método de álgebra matricial conocido desde hace tiempo, la descomposición del valor singular. Este se volvió práctico para la aplicación a fenómenos tan complejos solo después del advenimiento de potentes máquinas y algoritmos de computación digital a fines de la década de 1980.

Para construir un espacio semántico para un idioma, el Análisis Semántico Latente primero proyecta un corpus de texto representativo en una matriz rectangular de palabras por pasajes coherentes. Cada celda contiene una transformación del número de veces que aparece una palabra dada en un pasaje dado. La matriz se descompone de tal manera que cada pasaje se representa como un vector, cuyo valor es la suma de vectores que representan sus palabras componentes. Las similitudes entre palabras y palabras, pasajes y palabras y de pasajes a pasajes, se calculan como productos de punto, cosenos u otras métricas vector-algebraicas.

El Análisis Semántico Latente como teoría y modelo de lenguaje

La interpretación teórica del lenguaje del resultado del análisis es que los vectores aproximan el significado de una palabra como su efecto promedio sobre el significado de los pasajes en los que ocurre, y recíprocamente aproximan el significado de los pasajes como el promedio del significado de sus palabras. La relación derivada entre palabras individuales no debe confundirse con la coincidencia superficial, la frecuencia o probabilidad de que las palabras aparezcan en los mismos pasajes. Se interpreta correctamente como la similitud de los efectos que las palabras tienen sobre los pasajes en los que ocurren.

Aplicaciones de simulación de lenguaje típicas

El Análisis Semántico Latente se ha utilizado más ampliamente para aplicaciones de tecnología educativa y en bases de datos pequeñas. En las colecciones de pruebas cuando todas las demás características de los métodos de comparación se mantienen constantes, el Análisis Semántico Latente ofrece resultados combinados de precisión y recuperación alrededor de un 30% mejores que otros. Su fortaleza se recuerda debido a su independencia de la superposición de palabras literales.

Su falta de uso más amplio parece deberse a requisitos de capacitación ampliamente sobreestimados. Las aplicaciones educativas más conocidas son el componente principal en los sistemas automáticos de calificación de ensayos que igualan a los lectores humanos en precisión y en la redacción de resúmenes y otros tutores informáticos. Ha sido la base de tecnologías para mejorar la indexación, evaluar la coherencia y la secuencia de contenido de los libros, diagnosticar trastornos psicológicos, emparejar trabajos y solicitantes, monitorear y mejorar las comunicaciones del equipo y otras aplicaciones. Se ha utilizado como base de una métrica para el estado de desarrollo de las palabras en función de la cantidad de lenguaje encontrado. Se ha utilizado como herramienta para experimentos y como componente de teorías y aplicaciones en psicología, antropología, sociología, psicolingüística, minería de datos y aprendizaje automático.

Aplicaciones que no están en inglés y en varios idiomas

El Análisis Semántico Latente se ha utilizado con éxito en una amplia variedad de idiomas. Estos incluyen todos los idiomas de las Naciones Unidas y la Unión Europea, chino y japonés (en representaciones de caracteres chinos donde la suposición de la suma de componentes se aplica a la complejidad de los diferentes componentes), swahili, hindi, árabe y letón. Los lenguajes altamente inflexos y compuestos de palabras han sido sorprendentemente manejables siempre que se utilicen corpus de capacitación lo suficientemente amplios. Una demostración del interés lingüístico y antropológico / filosófico, así como el valor práctico, de la capacidad de múltiples idiomas de Análisis Semántico Latente proviene de la recuperación de información en varios idiomas.

En este método, los espacios independientes en dos o más idiomas se crean primero a partir de corpus de un solo idioma en el que varios cientos de pasajes son traducciones directas o se cierran tópicamente los textos correspondientes en los otros idiomas. Luego, los diferentes espacios del lenguaje se rotan mediante el método Procrustes de mínimos cuadrados para que los pasajes comunes estén mejor alineados. Probado por la similitud de un pasaje aleatorio con el otro de los pares traducidos que no se utilizan en la alineación, el recuerdo y la precisión están dentro de los rangos normales para IR de un solo idioma.

Implicaciones lingüísticas y filosóficas.

Platón, Chomsky, Pinker y otros han afirmado que ni la gramática ni la semántica se pueden aprender de la exposición al lenguaje porque hay muy poca información en la experiencia, por lo que debe ser principalmente innato. El Análisis Semántico Latente ha demostrado que la inducción computacional puede extraer mucha más información de lo que se suponía anteriormente. El hallazgo de que las palabras y pasajes de significado similar expresados en una amplia variedad de idiomas diferentes pueden mapearse entre sí mediante una simple transformación lineal que implica que la estructura semántica del lenguaje puede, en cierto sentido, ser universal, presumiblemente porque en todas partes las personas deben aprender a hablar sobre todo de las mismas cosas.

Deficiencias, objeciones, pruebas y argumentos

En el Análisis Semántico Latente, no se incluye la exposición al lenguaje oral, la instrucción directa de padres y maestros y la asociación del lenguaje con la percepción y la acción. De igual manera, el Análisis Semántico Latente es ciego al orden de las palabras. Sin embargo, algunos enfoques sugieren que el Análisis Semántico Latente podría ser solo un 10% inferior a los humanos. Algunos comentaristas también han argumentado que el Análisis Semántico Latente no se basa en la percepción y la intención. La fuerza de esta objeción se reduce considerablemente por la percepción de la palabra abstracta en sí misma y por los variados éxitos de Análisis Semántico Latente.

Conclusiones

La capacidad de derivar significado es la clave de cualquier enfoque que necesite usar o evaluar el conocimiento. Con el advenimiento de una informática más poderosa y la disponibilidad de textos en línea y diccionarios legibles por máquina, se han desarrollado técnicas novedosas que pueden derivar automáticamente representaciones semánticas.

Estas técnicas capturan los efectos de las regularidades inherentes al lenguaje para aprender sobre las relaciones semánticas entre las palabras. Las técnicas operan en grandes corpus, permitiendo el desarrollo automático de léxicos en grandes muestras de lenguaje. Las técnicas se pueden incorporar a los métodos para el modelado cognitivo en una amplia gama de fenómenos psicológicos, como la adquisición del lenguaje, el procesamiento del discurso, la categorización y la memoria. Además, las técnicas se pueden utilizar en entornos aplicados, en los que una computadora puede derivar representaciones de conocimiento semántico del texto.

Si tu tesis se desarrolla en el ámbito del lenguaje, cualquiera que sea la disciplina, en Online-Tesis.com, podemos asesorarte para que puedas realizar el Análisis Semántico Latente, de ser necesario, con el profesionalismo que sólo nuestros expertos te pueden brindar.

Nuestros especialistas esperan por ti para que los contactes a través del formulario de cotización o del chat directo. También contamos con canales de comunicación confidenciales como WhatsApp y Messenger. Y si quieres estar al tanto de nuestros novedosos servicios y las diferentes ventajas de contratarnos, síguenos en Facebook, Instagram o Twitter.

Si este artículo fue de tu agrado, no olvides compartirlo por tus redes sociales.

Referencias Bibliográficas

Berry, M. W., Dumais, S. T. and O’Brien, G. W. (1995). Using linear algebra for intelligent information retrieval. SIAM: Review, 37(4): 573-595.

Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990). Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science, 41, 391-407.

Foltz, P. W., Laham, D., and Landauer, T. K. (1999). The Intelligent Essay Assessor: Applications to educational technology. Interactive Multimedia Electronic Journal of Computer-Enhanced Learning, 1(2). Online journal.

También te puede interesar: Ciber-Etnografía: Algunas Aplicaciones y Consideraciones

Análisis Semántico Latente

Análisis Semántico Latente