
TF-IDF (від англ. TF - term frequency, IDF - inverse document frequency) - статистична міра, що використовується для оцінки важливості слова в контексті документа, що є частиною колекції документів або корпусу. Вага деякого слова пропорційна кількості вживання цього слова в документі, і обернено пропорційна частоті вживання слова в інших документах колекції.
TF (term frequency – частота слова) – відношення числа входження деякого слова до загальної кількості слів документа. Отже, оцінюється важливість слова у межах окремого документа.
Де ni то число входжень слова в документі, а в знаменникі — загальне число слів у цьому документі.
IDF (inverse document frequency – зворотна частота документа) – інверсія частоти, з якою деяке слово зустрічається в документах колекції. Облік IDF зменшує вагу широковживаних слів. Для кожного унікального слова в межах конкретної колекції документів існує лише значення IDF.
- де | D | - Кількість документів у корпусі;
- кількість документів, у яких зустрічається ti (коли ti не дорівнює 0).
Вибір основи логарифму у формулі немає значення, оскільки зміна основи призводить до зміни ваги кожного слова на постійний множник, що не впливає на співвідношення ваг.
Таким чином, міра TF-IDF є твором двох співмножників: Алгоритм TF-IDF найчастіше використовують при аналізі текстів в інформаційному пошуку, наприклад, як один із критеріїв релевантності документа пошуковому запиту, при розрахунку міри близькості документів під час кластеризації.