TF-IDF

TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова ti в пределах отдельного документа.

tf.png

где ni есть число вхождений слова в документ, а в знаменателе — общее число слов в данном документе.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF.

tf-idf.png

где

  • |D| — количество документов в корпусе; 
  • ti.png- количество документов, в которых встречается ti (когда ti не равен 0).

Выбор основания логарифма в формуле не имеет значения, поскольку изменение основания приводит к изменению веса каждого слова на постоянный множитель, что не влияет на соотношение весов. Таким образом, мера TF-IDF является произведением двух сомножителей:

tf-idf2.png

Алгоритм TF-IDF чаще всего используют при анализе текстов в информационном поиске, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации.

По материалам Wikipedia