Перейти до основного вмісту
TF-IDF

TF-IDF (від англ. TF - term frequency, IDF - inverse document frequency) - статистична міра, що використовується для оцінки важливості слова в контексті документа, що є частиною колекції документів або корпусу. Вага деякого слова пропорційна кількості вживання цього слова в документі, і обернено пропорційна частоті вживання слова в інших документах колекції.

TF (term frequency – частота слова) – відношення числа входження деякого слова до загальної кількості слів документа. Отже, оцінюється важливість слова у межах окремого документа.

tf.png

Де ni то число входжень слова в документі, а в знаменникі — загальне число слів у цьому документі.

IDF (inverse document frequency – зворотна частота документа) – інверсія частоти, з якою деяке слово зустрічається в документах колекції. Облік IDF зменшує вагу широковживаних слів. Для кожного унікального слова в межах конкретної колекції документів існує лише значення IDF.

tf-idf.png

  • де | D | - Кількість документів у корпусі;
  • ti.png- кількість документів, у яких зустрічається ti (коли ti не дорівнює 0).

Вибір основи логарифму у формулі немає значення, оскільки зміна основи призводить до зміни ваги кожного слова на постійний множник, що не впливає на співвідношення ваг.

Таким чином, міра TF-IDF є твором двох співмножників: Алгоритм TF-IDF найчастіше використовують при аналізі текстів в інформаційному пошуку, наприклад, як один із критеріїв релевантності документа пошуковому запиту, при розрахунку міри близькості документів під час кластеризації.