728x90

SMALL

1. LLM의 개념

LLM (Large Language Model)**은 대규모 데이터셋을 기반으로 학습하여 자연어를 이해하고 생성할 수 있는 심층 신경망 기반 AI 모델입니다. Transformer 아키텍처를 활용하여 텍스트 데이터의 문맥을 파악하고, 문장 생성, 기계 번역, 요약, 질의응답(QA) 등의 자연어 처리(NLP) 작업을 수행합니다.

이 모델은 기본적으로 확률적 언어 모델링(Probabilistic Language Modeling)에 기반하며, 특정 단어 또는 문장의 출현 확률을 예측하는 방식으로 작동합니다.
대표적인 LLM으로는 GPT (Generative Pre-trained Transformer), BERT (Bidirectional Encoder Representations from Transformers), T5 (Text-to-Text Transfer Transformer) 등이 있으며, 최근에는 Multi-Modal LLM이 등장하면서 이미지, 영상, 코드 등 텍스트 외의 데이터도 학습하는 방향으로 발전하고 있습니다.

1-1. 트랜스포머를 이용한 모델

LLM은 기본적으로 여러 가지 언어 모델 프레임워크(LLM Framework) 내에서 동작하며, 각 프레임워크는 자체적인 아키텍처(Architecture) 및 학습 방법론을 기반으로 여러 세부 모델을 포함하고 있습니다.

(1) GPT (Generative Pre-trained Transformer)

Transformer 기반의 Autoregressive 모델로, 주어진 문맥에서 다음 토큰을 예측하는 방식으로 작동합니다.
P(w_t | w_{t-1}, ..., w_1) 형태의 확률 분포를 기반으로 문장을 생성하며, 생성된 단어를 다시 입력으로 받아 반복적으로 문장을 확장합니다.

① 기본 개념

GPT는 Transformer의 Decoder 아키텍처만 사용하며, 순차적 생성(Auto-Regressive Decoding) 방식으로 작동합니다.
이를 통해 문맥을 이해하고 새로운 문장을 생성하는 데 강점을 보이며, Zero-shot, Few-shot, Fine-tuning을 통한 다양한 활용이 가능합니다.

② 확률 모델 수식

GPT는 자연어 문장을 확률적 생성 과정으로 모델링합니다.
즉, 주어진 문장에서 다음 단어 wtw_t 가 등장할 확률을 이전 단어들의 문맥을 고려하여 예측하는 방식입니다.

GPT의 목표는 전체 문장 P(w1,w2,...,wn)P(w_1, w_2, ..., w_n) 의 확률을 최대화하는 것입니다.
이를 위해 조건부 확률(Conditional Probability) 개념을 활용하여 다음과 같이 표현할 수 있습니다.

이 식을 일반화하면, GPT의 확률 모델은 다음과 같이 표현됩니다.

즉, 각 단어 는 이전 단어들의 확률 분포에 의해 결정됩니다.
이러한 방식은 Markov Assumption(마르코프 가정) 에 기반하여, 문맥(Context) 정보가 모델 내부에서 확률적으로 처리될 수 있도록 합니다.

2. 확률 모델 유도 과정

(1) 조건부 확률과 체인 룰 (Chain Rule)

자연어 문장은 단어들의 시퀀스(sequence)로 구성되며, 각 단어는 이전 단어들에 의존하는 확률 분포를 따릅니다.
이 개념을 확률 이론에서 체인 룰 (Chain Rule of Probability) 을 이용하여 설명할 수 있습니다.

체인 룰의 기본 형태는 다음과 같습니다.

이를 일반적인 단어 시퀀스에 적용하면,

즉, 각 단어는 앞의 단어들이 주어진 상태에서 조건부 확률을 가진다는 개념이 됩니다.

(2) 마르코프 가정 (Markov Assumption)

GPT는 Transformer 기반 모델이지만, 확률적 표현 방식에서 마르코프 과정(Markov Process) 의 개념을 적용할 수 있습니다.
마르코프 가정이란, 미래 상태(=다음 단어)는 현재 상태에만 의존하고, 과거의 모든 정보를 기억할 필요가 없다는 가정입니다.

이 가정을 적용하면, 위에서 도출한 확률 모델에서 이전 모든 단어가 아닌, 특정 개수의 이전 단어만 참고하여 확률을 계산할 수 있습니다.

하지만, Transformer 기반의 GPT는 이전 문맥 전체를 사용하여 학습하기 때문에, 일반적인 N-gram 모델과 달리 긴 문맥을 고려할 수 있습니다.

(3) 확률 분포 모델링

GPT는 각 단어 wtw_t 의 조건부 확률을 예측하기 위해 신경망을 사용하여 확률 분포를 직접 모델링합니다.

즉, 모델이 학습한 가중치 θ\theta 를 이용하여 확률 분포를 다음과 같이 정의합니다.

여기서

Function0 는 GPT의 Transformer 모델
softmax 함수를 이용하여 확률값을 출력

즉, GPT는 이전 문맥을 입력으로 받아, 다음 단어의 확률 분포를 예측하는 모델로 볼 수 있습니다.

3. 확률 모델을 통한 결과 예측 (Inference)

GPT는 학습이 완료된 후, 다음과 같은 과정으로 텍스트를 생성합니다.

초기 문장 입력
- 사용자가 “The cat sat” 라는 문장을 입력했다고 가정합니다.
다음 단어 예측
- 모델이 이전 단어들의 문맥을 고려하여 다음 단어 wtw_t 의 확률 분포를 예측합니다.
- 예를 들어, “on” 이 0.8의 확률, “under” 가 0.1의 확률을 가진다고 가정하면, “on”이 선택될 가능성이 큽니다.
단어 생성 및 반복
- “on”을 선택한 후, 다시 모델에 넣고 다음 단어를 예측합니다.
- 이러한 과정을 반복하여 문장을 완성합니다.

즉, 각 단어는 이전 단어들의 확률적 관계에 의해 선택되며, 문장이 자연스럽게 확장됩니다.

4. 결론 및 추론

이제 GPT의 확률 모델을 바탕으로 몇 가지 중요한 결론을 유추할 수 있습니다.

GPT는 시퀀스 데이터를 확률적 모델로 해석하여 단어를 생성한다.
각 단어는 이전 문맥의 확률적 관계를 기반으로 선택되며, 조건부 확률(Conditional Probability) 개념을 따른다.
Transformer 기반이므로 긴 문맥을 고려할 수 있으며, 일반적인 Markov 모델보다 강력한 문맥 학습이 가능하다.
GPT의 최적화는 Softmax를 기반으로 확률 분포를 학습하는 과정이며, 이는 대규모 데이터와 강력한 연산을 요구한다.
완전히 새로운 문장을 생성할 수 있으며, 확률적으로 자연스러운 문장을 만들지만, 완벽한 의미론적 이해는 어렵다.

③ 대표적인 세부 모델

모델명파라미터 수특징

GPT-2	1.5B	최초의 공개된 대규모 GPT 모델, Fine-tuning 없이 다양한 작업 가능
GPT-3	175B	Few-shot Learning을 통해 특정 작업 수행 가능
GPT-4	미공개 (1T+ 추정)	멀티모달 지원, 강화된 논리적 추론 성능

(2) BERT (Bidirectional Encoder Representations from Transformers)

GPT와 달리 Transformer의 Encoder 아키텍처를 기반으로 설계되었으며, 문맥을 양방향(Bidirectional) 으로 이해하는 것이 특징입니다.

① 기본 개념

Masking 기법을 활용하여 학습 진행 (MLM, Masked Language Modeling)
특정 단어를 마스킹한 후 이를 복원하는 방식으로 문맥 이해 능력을 학습
문장 간 관계 예측(NSP, Next Sentence Prediction) 기능 포함

② 학습 방식 수식

BERT의 MLM 학습 과정은 다음과 같은 확률 모델을 따릅니다.

즉, 전체 문장에서 특정 토큰을 마스킹(M)하고, 이를 올바르게 예측하는 확률을 최대화하는 방식입니다.

③ 대표적인 세부 모델

모델명파라미터 수특징

BERT-base	110M	기본적인 NLP 작업 수행 가능
BERT-large	340M	성능 향상을 위해 더 많은 레이어 사용
RoBERTa	355M	BERT의 학습 방식을 개선하여 성능을 최적화

(3) T5 (Text-to-Text Transfer Transformer)

기존 NLP 작업을 모두 Text-to-Text 형식으로 변환하여 학습하는 접근 방식을 채택합니다.

① 기본 개념

입력과 출력을 모두 텍스트 포맷으로 통일하여 다양한 NLP 작업을 수행할 수 있도록 설계
학습 태스크를 Text-to-Text 변환을 기반으로 일반화
GPT 및 BERT와 달리 Seq2Seq (Encoder-Decoder) 구조 사용

② 학습 방식 수식

T5는 일반적인 NLP 태스크를 다음과 같은 형태로 변환하여 학습합니다.

즉, 입력(X)과 출력(Y)을 Seq2Seq 방식으로 변환한 후, 조건부 확률을 최대화하는 방식입니다.

③ 대표적인 세부 모델

모델명파라미터 수특징

T5-Small	60M	소규모 파라미터로 빠른 응답 가능
T5-Base	220M	일반적인 NLP 작업 수행
T5-Large	770M	고성능 태스크 수행 가능

(4) XLNet

BERT의 단점을 보완하기 위해 등장한 모델로, Permutation-based Language Modeling 방식을 채택합니다.

① 기본 개념

GPT의 Autoregressive 특성과 BERT의 Bidirectional 특성을 결합
Masking 대신 Permutation 방식을 활용하여 문맥 이해 능력 강화
기존 BERT 모델보다 문맥을 더 깊이 반영 가능

② 학습 방식 수식

XLNet은 BERT의 MLM 방식과 달리, 토큰 순서를 변형하여 학습하는 방식을 적용합니다.

여기서 πt\pi_t는 랜덤한 순열을 의미하며, 순차적 학습을 피할 수 있습니다.

③ 대표적인 세부 모델

모델명파라미터 수특징

XLNet-base	110M	일반적인 NLP 작업 수행
XLNet-large	340M	문맥 이해 능력이 더 뛰어난 버전

(5) ALBERT (A Lite BERT)

BERT 모델을 경량화하여 더 적은 파라미터로 높은 성능을 유지하는 것이 특징입니다.

① 기본 개념

Factorized Embedding Parameterization 기법을 적용하여 가중치 공유
Sentence Order Prediction (SOP) 기법으로 문맥 이해 개선
기존 BERT 대비 연산량 감소, 메모리 효율성 증가

② 대표적인 세부 모델

모델명파라미터 수특징

ALBERT-base	12M	빠른 연산 속도
ALBERT-large	18M	성능과 속도 밸런스

GPT (Generative Pre-trained Transformer)	생성 능력에 특화, 미세 조정 없이도 강력한 성능 발휘	GPT-2, GPT-3, GPT-4
BERT (Bidirectional Encoder Representations from Transformers)	문맥을 양방향으로 이해, NLP 태스크에 최적화	BERT-base, BERT-large, RoBERTa
T5 (Text-to-Text Transfer Transformer)	입력을 텍스트로 받아 출력도 텍스트로 반환하는 구조	T5-Small, T5-Base, T5-Large
XLNet	BERT의 단점을 보완, 순차적 학습이 아닌 Permutation-based 학습	XLNet-base, XLNet-large
ALBERT (A Lite BERT)	BERT의 경량화 모델, 더 적은 파라미터로 높은 성능 제공	ALBERT-base, ALBERT-large

2. 통계적 언어 모델 (Statistical Language Model, SLM)

2.1 개념 및 기본 원리

통계적 언어 모델은 확률적 방법론을 사용하여 텍스트 데이터를 학습하고, 다음 단어가 등장할 확률을 기반으로 문장을 생성하거나 분석합니다.

2.2 N-그램 모델

N-그램(N-gram) 모델은 통계적 언어 모델의 대표적인 기법으로, 단어의 조건부 확률을 단순화하는 방법입니다.

(1) N-그램 확률 수식

언어 모델에서 특정 단어 시퀀스의 확률은 다음과 같이 근사됩니다.

예를 들어, Bigram(2-gram) 모델은 현재 단어가 이전 단어 하나에만 의존한다고 가정합니다.

Trigram(3-gram) 모델은 현재 단어가 이전 두 단어에 의존합니다.

이처럼 N이 커질수록 문맥 정보를 더 많이 반영할 수 있지만, 데이터가 부족하면 확률값이 0이 되는 희소성(Sparsity) 문제가 발생할 수 있습니다.

2.3 확률적 스무딩(Smoothing)

데이터 희소성을 해결하기 위해 다양한 스무딩 기법이 사용됩니다.

라플라스 스무딩 (Laplace Smoothing)

백오프(Back-off)와 인터폴레이션(Interpolation)

낮은 N-그램의 확률을 보정하는 방법입니다.

여기서 λ1+λ2+λ3=이 되도록 조정합니다.

3. 신경망 언어 모델 (Neural Language Model, NLM)

3.1 개념 및 발전 배경

N-그램 기반 통계적 언어 모델은 강력하지만, 다음과 같은 한계가 있습니다.

긴 문맥(Context) 처리 불가능 → N이 증가하면 학습 데이터 부족으로 인해 성능 저하
단어 간 의미적 관계 미반영 → 같은 의미의 단어라도 다르게 처리됨
희소성 문제(Sparsity) → 미등록 단어(OOV, Out-of-Vocabulary) 처리 어려움

이를 해결하기 위해 **신경망 언어 모델(Neural Language Model, NLM)**이 등장하였습니다.

3.2 인공 신경망 기반 언어 모델

(1) 확률 모델 수식

기본적으로 신경망 언어 모델은 주어진 문맥 (w1,w2,...,wt−1)(w_1, w_2, ..., w_{t-1})에서 다음 단어 wtw_t의 확률을 예측하는 함수 fθf_{\theta}를 학습합니다.

P(wt∣w1,w2,...,wt−1)=fθ(w1,w2,...,wt−1)P(w_t | w_1, w_2, ..., w_{t-1}) = f_{\theta}(w_1, w_2, ..., w_{t-1})

이 함수는 주로 **신경망(Neural Networks)**을 사용하여 모델링됩니다.

(2) 주요 신경망 모델 아키텍처

(i) 피드포워드 신경망 언어 모델 (Feedforward Neural Network, FNN-LM)

입력: 단어의 One-hot Encoding
은닉층: Fully Connected Layer
출력층: Softmax 함수

하지만, 문맥의 길이가 제한되며, 긴 문장에서 의미를 반영하기 어렵습니다.

(ii) 순환 신경망 (Recurrent Neural Network, RNN)

시간 축을 따라 이전 상태(hidden state)를 전달하여 문맥을 반영
하지만 기울기 소실(Vanishing Gradient) 문제 발생

(iii) LSTM/GRU 기반 모델

장기 의존성(Long-Term Dependency) 문제 해결
셀 상태(Cell State)와 게이트(Gate) 구조 활용

통계적 언어 모델 vs 신경망 언어 모델 비교

비교 항목통계적 언어 모델 (SLM)신경망 언어 모델 (NLM)

문맥 고려 범위	짧음 (N-그램 범위)	길고 유연함
희소성 문제	있음 (OOV 문제)	단어 임베딩으로 해결
일반화 성능	낮음	높음
계산량	상대적으로 적음	많음 (GPU 필요)
주요 모델	N-그램, HMM	RNN, LSTM, Transformer

728x90

LIST

저작자표시 비영리 (새창열림)

1. LLM (거대 언어 모델, Large Language Model) 개요

1. LLM의 개념

1-1. 트랜스포머를 이용한 모델

(1) GPT (Generative Pre-trained Transformer)

① 기본 개념

② 확률 모델 수식

2. 확률 모델 유도 과정

(1) 조건부 확률과 체인 룰 (Chain Rule)

(2) 마르코프 가정 (Markov Assumption)

(3) 확률 분포 모델링

3. 확률 모델을 통한 결과 예측 (Inference)

4. 결론 및 추론

③ 대표적인 세부 모델

(2) BERT (Bidirectional Encoder Representations from Transformers)

① 기본 개념

② 학습 방식 수식

③ 대표적인 세부 모델

(3) T5 (Text-to-Text Transfer Transformer)

① 기본 개념

② 학습 방식 수식

③ 대표적인 세부 모델

(4) XLNet

① 기본 개념

② 학습 방식 수식

③ 대표적인 세부 모델

(5) ALBERT (A Lite BERT)

① 기본 개념

② 대표적인 세부 모델

2. 통계적 언어 모델 (Statistical Language Model, SLM)

2.1 개념 및 기본 원리

2.2 N-그램 모델

(1) N-그램 확률 수식

2.3 확률적 스무딩(Smoothing)

3. 신경망 언어 모델 (Neural Language Model, NLM)

3.1 개념 및 발전 배경

3.2 인공 신경망 기반 언어 모델

(1) 확률 모델 수식

(2) 주요 신경망 모델 아키텍처

(i) 피드포워드 신경망 언어 모델 (Feedforward Neural Network, FNN-LM)

(ii) 순환 신경망 (Recurrent Neural Network, RNN)

(iii) LSTM/GRU 기반 모델

통계적 언어 모델 vs 신경망 언어 모델 비교

댓글

티스토리툴바