본문 바로가기
인공지능/랭체인

(궁금) TF-IDF (Term Frequency-Inverse Document Frequency)가 뭘까

by 으노으뇨 2025. 4. 1.
728x90
반응형
SMALL

1. TF-IDF 개요

TF-IDF(Term Frequency-Inverse Document Frequency)는 텍스트 마이닝(text mining) 및 자연어 처리(NLP, Natural Language Processing)에서 문서 내 특정 단어의 중요도를 평가하는 대표적인 방법입니다.

이를 통해 자연어 문서에서 중요한 단어를 추출하고, 키워드를 선별하며, 문서 간 유사도를 측정하는 등의 다양한 응용이 가능합니다.

📌 핵심 개념
  • TF(Term Frequency, 단어 빈도): 문서 내 특정 단어가 얼마나 자주 등장하는지 측정
  • IDF(Inverse Document Frequency, 역문서 빈도): 특정 단어가 전체 문서에서 얼마나 희귀한지를 평가

2. TF-IDF 공식

2.1. 기본 수식

TF-IDF는 아래와 같이 정의됩니다:

 

  • t: 특정 단어(term)
  • d: 특정 문서(document)
  • TF(t,d) : 문서 d에서 단어 t가 등장하는 빈도
  • IDF(t) : 단어 t 전체 문서 집합에서의 희귀성을 측정하는 지표

3. TF (Term Frequency) - 단어 빈도

3.1. 개념 및 정의

TF(Term Frequency)는 특정 문서에서 특정 단어가 얼마나 자주 등장하는지를 정량적으로 측정합니다.

여기서,

  • f(t,d) : 문서 d에서 단어 t의 등장 횟수
  • ∣d∣: 문서 d내 전체 단어 수

 

📌 TF의 의미
  • 자주 등장하는 단어일수록 해당 문서에서 중요할 가능성이 높음
  • 하지만 모든 문서에서 공통적으로 많이 등장하는 단어라면 의미 있는 키워드가 아닐 수도 있음 (예: "the", "is", "and" 등)

4. IDF (Inverse Document Frequency) - 역문서 빈도

4.1. 개념 및 정의

IDF(Inverse Document Frequency)는 특정 단어가 전체 문서 집합에서 얼마나 드문지를 평가하는 지표입니다.

여기서,

  • N: 전체 문서의 수
  • DF(t) : 특정 단어 t를 포함하는 문서의 수
  •  
  •  

 

📌 IDF의 의미
  • 특정 단어가 많은 문서에서 등장할수록 그 단어의 중요도를 낮춤
  • 특정 단어가 적은 문서에서 등장할수록 가중치를 높여줌

4.2. 로그 변환의 이유

IDF 계산에서 로그 함수를 사용하는 이유는 다음과 같습니다:

  1. 빈도 분포를 정규화 → 대부분의 단어는 특정 문서에 집중되어 있으므로, 로그를 사용해 과도한 빈도 차이를 완화
  2. 지수적 증가 방지 → 문서 수가 증가할수록 IDF 값이 지나치게 커지는 것을 방지

5. TF-IDF의 유도 과정과 가설 증명

TF-IDF는 어떤 단어가 특정 문서에서 얼마나 중요한지를 판단하기 위해 도입된 모델입니다.
이를 설명하는 주요 가설을 분석하면 다음과 같습니다.

5.1. 주요 가설 ①: 단어가 많이 등장하면 중요도가 높다

증명:

  • 만약 단어 t가 문서 d에서 매우 자주 등장한다면, 그 단어는 문서에서 중요한 개념을 나타낼 가능성이 높다.
  • 따라서, TF(t,d) 값이 클수록 해당 단어는 중요하다고 볼 수 있다.

5.2. 주요 가설 ②: 모든 문서에서 공통적으로 등장하는 단어는 중요하지 않다

증명:

  • 단어 t가 모든 문서에 등장한다면, 그 단어는 특정 문서에서만 의미 있는 개념이 아닐 가능성이 높다.
  • 예를 들어, "the", "is", "and" 같은 단어는 거의 모든 문서에서 등장하지만, 문서의 주제를 결정하는 데에는 도움이 되지 않는다.
  • 따라서, 전체 문서에서 많이 등장하는 단어는 IDF를 통해 가중치를 줄여야 한다.

5.3. 주요 가설 ③: 단어가 특정 문서에만 등장하면 중요성이 증가한다

증명:

  • 단어 t가 소수의 문서에서만 등장한다면, 이는 해당 문서에서만 사용되는 특수한 용어일 가능성이 높다.
  • 따라서 IDF 값이 증가하여 해당 단어의 가중치가 커진다.

6. TF-IDF의 결과 해석 및 기대값

6.1. 결과 해석

  • TF-IDF 값이 높을수록, 해당 단어가 문서에서 중요한 의미를 가지며, 특정 주제를 나타내는 키워드일 가능성이 크다.
  • TF-IDF 값이 낮으면, 그 단어는 문서에서 덜 중요한 단어이거나 일반적인 단어일 가능성이 높다.

6.2. 기대값

  • 정보 검색(Information Retrieval): 검색 엔진에서 특정 문서가 검색어(Query)와 얼마나 관련이 있는지 판단 가능
  • 문서 클러스터링(Document Clustering): 비슷한 내용의 문서를 자동으로 분류하는 데 활용 가능
  • 자연어 처리(NLP): 키워드 추출, 주제 분석 등에 활용

7. 결론: TF-IDF의 수학적 의의

  1. TF-IDF는 단순한 빈도수 기반 접근법을 넘어, 단어의 상대적 중요성을 고려하는 기법이다.
  2. TF와 IDF의 결합을 통해 특정 문서에서 중요한 단어를 자동으로 추출할 수 있다.
  3. 검색 엔진, 추천 시스템, 문서 분류, 자동 요약 등 다양한 NLP 응용 분야에서 핵심적인 역할을 한다.
✅ 핵심 정리
  • TF는 문서 내 단어 빈도를 측정하고, IDF는 문서 간의 단어 희귀도를 측정
  • 자주 등장하지만 너무 흔한 단어는 중요도가 낮고, 특정 문서에만 등장하는 단어는 중요도가 높아짐
  • 로그 변환을 통해 단어 분포를 정규화하고, 검색 및 NLP 응용에서 성능을 극대화함
728x90
반응형
LIST