Латентно-семантический анализ

Латентно-семантический анализ

Латентно-семантический анализ (ЛСА) — это метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и терминами в них встречающимися, сопоставляющий некоторые факторы (тематики) всем документам и терминам.

В основе метода латентно-семантического анализа лежат принципы факторного анализа, в частности выявление латентных связей изучаемых явлений или объектов. При классификации/кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших корпусов текстов.

ЛСА можно сравнить с простым видом нейросети, состоящей из трех слоев:

  1. первый слой содержит множество слов (термов)
  2. второй – некое множество документов, соответствующих определенным ситуациям
  3. третий, средний, скрытый слой представляет собой множество узлов с различными весовыми коэффициентами, связывающих первый и второй слои.

В качестве исходной информации ЛСА использует матрицу термы-на-документы, описывающую набор данных, используемый для обучения системы. Элементы этой матрицы содержат, как правило, веса, учитывающие частоты использования каждого терма в каждом документе и участие терма во всех документах (TF-IDF).

Существуют три основных разновидности решения задачи методом ЛСА:

  1. сравнение двух термов между собой;
  2. сравнение двух документов между собой;
  3. сравнение терма и документа.

По материалам Wikipedia