728x90
반응형
SMALL
1. TF-IDF 개요
TF-IDF(Term Frequency-Inverse Document Frequency)는 텍스트 마이닝(text mining) 및 자연어 처리(NLP, Natural Language Processing)에서 문서 내 특정 단어의 중요도를 평가하는 대표적인 방법입니다.
이를 통해 자연어 문서에서 중요한 단어를 추출하고, 키워드를 선별하며, 문서 간 유사도를 측정하는 등의 다양한 응용이 가능합니다.
📌 핵심 개념
- TF(Term Frequency, 단어 빈도): 문서 내 특정 단어가 얼마나 자주 등장하는지 측정
- IDF(Inverse Document Frequency, 역문서 빈도): 특정 단어가 전체 문서에서 얼마나 희귀한지를 평가
2. TF-IDF 공식
2.1. 기본 수식
TF-IDF는 아래와 같이 정의됩니다:

- t: 특정 단어(term)
- d: 특정 문서(document)
- TF(t,d) : 문서 d에서 단어 t가 등장하는 빈도
- IDF(t) : 단어 t 전체 문서 집합에서의 희귀성을 측정하는 지표
3. TF (Term Frequency) - 단어 빈도
3.1. 개념 및 정의
TF(Term Frequency)는 특정 문서에서 특정 단어가 얼마나 자주 등장하는지를 정량적으로 측정합니다.

여기서,
- f(t,d) : 문서 d에서 단어 t의 등장 횟수
- ∣d∣: 문서 d내 전체 단어 수
📌 TF의 의미
- 자주 등장하는 단어일수록 해당 문서에서 중요할 가능성이 높음
- 하지만 모든 문서에서 공통적으로 많이 등장하는 단어라면 의미 있는 키워드가 아닐 수도 있음 (예: "the", "is", "and" 등)
4. IDF (Inverse Document Frequency) - 역문서 빈도
4.1. 개념 및 정의
IDF(Inverse Document Frequency)는 특정 단어가 전체 문서 집합에서 얼마나 드문지를 평가하는 지표입니다.

여기서,
- N: 전체 문서의 수
- DF(t) : 특정 단어 t를 포함하는 문서의 수
📌 IDF의 의미
- 특정 단어가 많은 문서에서 등장할수록 그 단어의 중요도를 낮춤
- 특정 단어가 적은 문서에서 등장할수록 가중치를 높여줌
4.2. 로그 변환의 이유
IDF 계산에서 로그 함수를 사용하는 이유는 다음과 같습니다:
- 빈도 분포를 정규화 → 대부분의 단어는 특정 문서에 집중되어 있으므로, 로그를 사용해 과도한 빈도 차이를 완화
- 지수적 증가 방지 → 문서 수가 증가할수록 IDF 값이 지나치게 커지는 것을 방지
5. TF-IDF의 유도 과정과 가설 증명
TF-IDF는 어떤 단어가 특정 문서에서 얼마나 중요한지를 판단하기 위해 도입된 모델입니다.
이를 설명하는 주요 가설을 분석하면 다음과 같습니다.
5.1. 주요 가설 ①: 단어가 많이 등장하면 중요도가 높다
증명:
- 만약 단어 t가 문서 d에서 매우 자주 등장한다면, 그 단어는 문서에서 중요한 개념을 나타낼 가능성이 높다.
- 따라서, TF(t,d) 값이 클수록 해당 단어는 중요하다고 볼 수 있다.
5.2. 주요 가설 ②: 모든 문서에서 공통적으로 등장하는 단어는 중요하지 않다
증명:
- 단어 t가 모든 문서에 등장한다면, 그 단어는 특정 문서에서만 의미 있는 개념이 아닐 가능성이 높다.
- 예를 들어, "the", "is", "and" 같은 단어는 거의 모든 문서에서 등장하지만, 문서의 주제를 결정하는 데에는 도움이 되지 않는다.
- 따라서, 전체 문서에서 많이 등장하는 단어는 IDF를 통해 가중치를 줄여야 한다.
5.3. 주요 가설 ③: 단어가 특정 문서에만 등장하면 중요성이 증가한다
증명:
- 단어 t가 소수의 문서에서만 등장한다면, 이는 해당 문서에서만 사용되는 특수한 용어일 가능성이 높다.
- 따라서 IDF 값이 증가하여 해당 단어의 가중치가 커진다.
6. TF-IDF의 결과 해석 및 기대값
6.1. 결과 해석
- TF-IDF 값이 높을수록, 해당 단어가 문서에서 중요한 의미를 가지며, 특정 주제를 나타내는 키워드일 가능성이 크다.
- TF-IDF 값이 낮으면, 그 단어는 문서에서 덜 중요한 단어이거나 일반적인 단어일 가능성이 높다.
6.2. 기대값
- 정보 검색(Information Retrieval): 검색 엔진에서 특정 문서가 검색어(Query)와 얼마나 관련이 있는지 판단 가능
- 문서 클러스터링(Document Clustering): 비슷한 내용의 문서를 자동으로 분류하는 데 활용 가능
- 자연어 처리(NLP): 키워드 추출, 주제 분석 등에 활용
7. 결론: TF-IDF의 수학적 의의
- TF-IDF는 단순한 빈도수 기반 접근법을 넘어, 단어의 상대적 중요성을 고려하는 기법이다.
- TF와 IDF의 결합을 통해 특정 문서에서 중요한 단어를 자동으로 추출할 수 있다.
- 검색 엔진, 추천 시스템, 문서 분류, 자동 요약 등 다양한 NLP 응용 분야에서 핵심적인 역할을 한다.
✅ 핵심 정리
- TF는 문서 내 단어 빈도를 측정하고, IDF는 문서 간의 단어 희귀도를 측정
- 자주 등장하지만 너무 흔한 단어는 중요도가 낮고, 특정 문서에만 등장하는 단어는 중요도가 높아짐
- 로그 변환을 통해 단어 분포를 정규화하고, 검색 및 NLP 응용에서 성능을 극대화함
728x90
반응형
LIST
'인공지능 > 랭체인' 카테고리의 다른 글
4. Retrieval-Augmented Generation (RAG): 대규모 언어 모델(LLM)과 정보 검색의 결합 (0) | 2025.04.02 |
---|---|
(궁금) 시맨틱 검색(Semantic Search)와 코사인 유사도(Cosine Similarity)이란 뭘까? (0) | 2025.04.02 |
(궁금) BM25 (Best Matching 25) 이란 무엇일까? (0) | 2025.04.01 |
3. LLM의 활용과 학습 과정: 이론적 접근과 응용 (0) | 2025.04.01 |
2. LLM 생성 과정 (데이터 수집, 모델설계, 모델학습, 평가 및 검증, 배포 및 유지보수) (0) | 2025.04.01 |
댓글