Transformer 자연어 처리 모델 개념 및 원리

Data Analysis Study

Transformer 자연어 처리 모델 개념 및 원리

Solbi Lee 2025. 8. 3. 13:54

1. 트랜스포머란?

트랜스포머(Transformer)는 2017년 구글이 발표한 논문 『Attention is All You Need』에서 소개된 딥러닝 모델

자연어 처리(Natural Language Processing, NLP) 분야의 혁신을 가져왔다.

기존의 RNN(Recurrent Neural Network)과 LSTM(Long Short-Term Memory)이 가진 문장의 순차적 처리로 인한 속도와 효율성 문제를 근본적으로 개선하여 등장한 모델

트랜스포머 모델은 현재 널리 사용되고 있는 BERT, GPT(예: ChatGPT), T5 등의 대표적인 NLP 모델에서 핵심적인 구조로 사용되고 있다.

2. 트랜스포머의 장점

* 기존 RNN과 LSTM은 문장을 단어 단위로 순차적으로 처리하기 때문에 처리 속도가 느리고 긴 문장에서 문맥을 유지하는 데 한계

* 트랜스포머는 아래와 같은 장점으로 이를 극복함

(1) 병렬처리 가능

- 문장을 토큰(단어 단위)으로 나누고, 이를 병렬로 처리함으로써 연산 속도가 크게 향상된다.

(2) Self-Attention 메커니즘

- 문장 내 각 단어가 다른 단어들과의 관계를 동시에 고려해 문맥을 정확하게 이해할 수 있게 된다.

3. 트랜스포머의 핵심 구성 요소

1. 입력 임베딩(Input Embedding)

- 단어를 수치적 벡터로 변환하여 컴퓨터가 연산할 수 있도록 함.

2. 위치 인코딩(Positional Encoding)

- 문장 내 단어의 순서 정보를 벡터에 추가하여, 단어의 위치에 따른 의미를 반영

3. 셀프 어텐션(Self-Attention)

- 문장 내 각 단어가 다른 단어들과 얼마나 관련되어 있는지 계산

- 예 : "나는" 이라는 단어가 "학교"와 얼마나 관련되어 있는지 파악

4.멀티 헤드 어텐션(Multi-Head Attention)

- 셀프 어텐션을 다양한 관점에서 여러 번 수행하여 더 풍부한 맥락 정보를 얻음

5. 피드포워드 레이어(Feed Forward Layer)

- 셀프 어텐션에서 얻은 결과를 한번 더 깊게 변형해 단어의 의미를 더 정제하고 세부적인 특징을 추출함.

6. 잔차 연결 및 레이어 정규화(Residual & Layer Normalization)

- 잔차 연결을 통해 학습 안정성을 높이고, 레이어 정규화를 통해 결과의 분포를 균일하게 유지해 학습을 용이하게 한다.

7. 인코더와 디코더(Encoder & Decoder)

- 인코더는 입력된 문장의 의미를 이해하고 정보를 압축

- 디코더는 압축된 정보를 바탕으로 새로운 문장을 생성하거나 번역 등 원하는 형태의 결과를 출력

4. 트랜스포머 작동 원리 예시

입력 문장 " 나는 학교에 간다 "

1. 입력 임베딩 : 각 단어를 수치 벡터로 변환

- 예시 : "나는" .... [0.2, 0.5, ...]

2. 위치 인코딩 : 각 단어 벡터에 위치 정보를 추가

- "나는" (첫 번째), "학교에" (두 번째) 등 단어 순서를 벡터 정보로 표현

3. 셀프 어텐션 : 각 단어가 다른 단어와 얼마나 관련 있는지 수치로 계산

- "나는" 과 "학교" 간의 연관성을 점수로 표현

4. 멀티 헤드 어텐션 : 다양한 관점에서 여러 번 셀프 어텐션을 반복 수행해 풍부한 문맥 정보를 만듦

5. 피드 포워드 레이어 : 어텐션 연산 결과를 다시 정제하고 깊이 있는 의미 표현을 생성함

최종적으로 문맥 정보를 충분히 반영한 단어 벡터가 생성되어 모델이 문장 내 단어의 정확한 의미를 이해하고, 번역이나 문장 생성과 같은 복잡한 작업을 수행할 수 있게됨.

https://wikidocs.net/31379

16-01 트랜스포머(Transformer)

* 이번 챕터는 앞서 설명한 어텐션 메커니즘 챕터에 대한 사전 이해가 필요합니다. 트랜스포머(Transformer)는 2017년 구글이 발표한 논문인 "Attention i…

wikidocs.net

'Data Analysis Study' 카테고리의 다른 글

TensorFlow Self-Attention 미니 데모 (4토큰) (5)	2025.08.11
TensorFlow로 구현한 Self-Attention 미니 트랜스포머 실습 (9)	2025.08.11
RNN, LSTM, GRU 모델 성능 비교 \| 하이퍼파라미터 구조 튜닝 및 피처 엔지니어링 (기상청 데이터) (3)	2025.07.30
LSTM모델을 이용한 삼성전자 주가 예측 (시계열 예측) (3)	2025.07.30
RNN, LSTM, GRU 세 가지 순환 신경망 성능 비교 (IMDB 리뷰 데이터 셋) (3)	2025.07.30

현재글Transformer 자연어 처리 모델 개념 및 원리

Solbi Lee님의 블로그

AI 활용 소프트웨어 개발과 데이터 분석을 공부합니다.

DBSCAN, AlexNet, 머신러닝, TensorFlow, RAG, 선형회귀, xgboost, 객체탐지, GNN, 데이터분석, rnn, LSTM, ai, ReLU, cnn, 순환신경망, 딥러닝, GRU, SVM, KNN,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Solbi Lee님의 블로그