(궁금) TF-IDF (Term Frequency-Inverse Document Frequency)가 뭘까

728x90

SMALL

1. TF-IDF 개요

TF-IDF(Term Frequency-Inverse Document Frequency)는 텍스트 마이닝(text mining) 및 자연어 처리(NLP, Natural Language Processing)에서 문서 내 특정 단어의 중요도를 평가하는 대표적인 방법입니다.

이를 통해 자연어 문서에서 중요한 단어를 추출하고, 키워드를 선별하며, 문서 간 유사도를 측정하는 등의 다양한 응용이 가능합니다.

📌 핵심 개념

TF(Term Frequency, 단어 빈도): 문서 내 특정 단어가 얼마나 자주 등장하는지 측정
IDF(Inverse Document Frequency, 역문서 빈도): 특정 단어가 전체 문서에서 얼마나 희귀한지를 평가

2. TF-IDF 공식

2.1. 기본 수식

TF-IDF는 아래와 같이 정의됩니다:

t: 특정 단어(term)
d: 특정 문서(document)
TF(t,d) : 문서 d에서 단어 t가 등장하는 빈도
IDF(t) : 단어 t 전체 문서 집합에서의 희귀성을 측정하는 지표

3. TF (Term Frequency) - 단어 빈도

3.1. 개념 및 정의

TF(Term Frequency)는 특정 문서에서 특정 단어가 얼마나 자주 등장하는지를 정량적으로 측정합니다.

여기서,

f(t,d) : 문서 d에서 단어 t의 등장 횟수
∣d∣: 문서 d내 전체 단어 수

📌 TF의 의미

자주 등장하는 단어일수록 해당 문서에서 중요할 가능성이 높음
하지만 모든 문서에서 공통적으로 많이 등장하는 단어라면 의미 있는 키워드가 아닐 수도 있음 (예: "the", "is", "and" 등)

4. IDF (Inverse Document Frequency) - 역문서 빈도

4.1. 개념 및 정의

IDF(Inverse Document Frequency)는 특정 단어가 전체 문서 집합에서 얼마나 드문지를 평가하는 지표입니다.

여기서,

N: 전체 문서의 수
DF(t) : 특정 단어 t를 포함하는 문서의 수

📌 IDF의 의미

특정 단어가 많은 문서에서 등장할수록 그 단어의 중요도를 낮춤
특정 단어가 적은 문서에서 등장할수록 가중치를 높여줌

4.2. 로그 변환의 이유

IDF 계산에서 로그 함수를 사용하는 이유는 다음과 같습니다:

빈도 분포를 정규화 → 대부분의 단어는 특정 문서에 집중되어 있으므로, 로그를 사용해 과도한 빈도 차이를 완화
지수적 증가 방지 → 문서 수가 증가할수록 IDF 값이 지나치게 커지는 것을 방지

5. TF-IDF의 유도 과정과 가설 증명

TF-IDF는 어떤 단어가 특정 문서에서 얼마나 중요한지를 판단하기 위해 도입된 모델입니다.
이를 설명하는 주요 가설을 분석하면 다음과 같습니다.

5.1. 주요 가설 ①: 단어가 많이 등장하면 중요도가 높다

증명:

만약 단어 t가 문서 d에서 매우 자주 등장한다면, 그 단어는 문서에서 중요한 개념을 나타낼 가능성이 높다.
따라서, TF(t,d) 값이 클수록 해당 단어는 중요하다고 볼 수 있다.

5.2. 주요 가설 ②: 모든 문서에서 공통적으로 등장하는 단어는 중요하지 않다

증명:

단어 t가 모든 문서에 등장한다면, 그 단어는 특정 문서에서만 의미 있는 개념이 아닐 가능성이 높다.
예를 들어, "the", "is", "and" 같은 단어는 거의 모든 문서에서 등장하지만, 문서의 주제를 결정하는 데에는 도움이 되지 않는다.
따라서, 전체 문서에서 많이 등장하는 단어는 IDF를 통해 가중치를 줄여야 한다.

5.3. 주요 가설 ③: 단어가 특정 문서에만 등장하면 중요성이 증가한다

증명:

단어 t가 소수의 문서에서만 등장한다면, 이는 해당 문서에서만 사용되는 특수한 용어일 가능성이 높다.
따라서 IDF 값이 증가하여 해당 단어의 가중치가 커진다.

6. TF-IDF의 결과 해석 및 기대값

6.1. 결과 해석

TF-IDF 값이 높을수록, 해당 단어가 문서에서 중요한 의미를 가지며, 특정 주제를 나타내는 키워드일 가능성이 크다.
TF-IDF 값이 낮으면, 그 단어는 문서에서 덜 중요한 단어이거나 일반적인 단어일 가능성이 높다.

6.2. 기대값

정보 검색(Information Retrieval): 검색 엔진에서 특정 문서가 검색어(Query)와 얼마나 관련이 있는지 판단 가능
문서 클러스터링(Document Clustering): 비슷한 내용의 문서를 자동으로 분류하는 데 활용 가능
자연어 처리(NLP): 키워드 추출, 주제 분석 등에 활용

7. 결론: TF-IDF의 수학적 의의

TF-IDF는 단순한 빈도수 기반 접근법을 넘어, 단어의 상대적 중요성을 고려하는 기법이다.
TF와 IDF의 결합을 통해 특정 문서에서 중요한 단어를 자동으로 추출할 수 있다.
검색 엔진, 추천 시스템, 문서 분류, 자동 요약 등 다양한 NLP 응용 분야에서 핵심적인 역할을 한다.

✅ 핵심 정리

TF는 문서 내 단어 빈도를 측정하고, IDF는 문서 간의 단어 희귀도를 측정
자주 등장하지만 너무 흔한 단어는 중요도가 낮고, 특정 문서에만 등장하는 단어는 중요도가 높아짐
로그 변환을 통해 단어 분포를 정규화하고, 검색 및 NLP 응용에서 성능을 극대화함

728x90

LIST

저작자표시 비영리 (새창열림)

'인공지능 > 랭체인' 카테고리의 다른 글

4. Retrieval-Augmented Generation (RAG): 대규모 언어 모델(LLM)과 정보 검색의 결합 (0)	2025.04.02
(궁금) 시맨틱 검색(Semantic Search)와 코사인 유사도(Cosine Similarity)이란 뭘까? (0)	2025.04.02
(궁금) BM25 (Best Matching 25) 이란 무엇일까? (0)	2025.04.01
3. LLM의 활용과 학습 과정: 이론적 접근과 응용 (0)	2025.04.01
2. LLM 생성 과정 (데이터 수집, 모델설계, 모델학습, 평가 및 검증, 배포 및 유지보수) (0)	2025.04.01

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

(궁금) TF-IDF (Term Frequency-Inverse Document Frequency)가 뭘까

1. TF-IDF 개요