Перейти до основного вмісту
Латентно-семантичний аналіз

Латентно-семантичний аналіз (ЛСА) - це метод обробки інформації природною мовою, що аналізує взаємозв'язок між колекцією документів і термінами, що в них зустрічаються, зіставляє деякі фактори (тематики) усім документам і термінам.

В основі методу латентно-семантичного аналізу лежать принципи факторного аналізу, зокрема виявлення латентних зв'язків явищ, що вивчаються, або об'єктів. При класифікації/кластеризації документів цей метод використовується для отримання контекстно-залежних значень лексичних одиниць за допомогою статистичної обробки великих корпусів текстів.

ЛСА можна порівняти з простим видом нейромережі, що складається з трьох шарів: перший шар містить безліч слів (термів); Як вихідна інформація ЛСА використовує матрицю термін-документи, що описує набір даних, що використовується для навчання системи. Елементи цієї матриці містять, як правило, ваги, що враховують частоти використання кожного терму в кожному документі та участь терму у всіх документах (TF-IDF).

Існують три основні різновиди розв'язання задачі методом ЛСА:

  1. порівняння двох термів між собою;
  2. порівняння двох документів між собою;
  3. порівняння терму та документа.