Data Analysis Study

Transformer 자연어 처리 모델 개념 및 원리

Solbi Lee 2025. 8. 3. 13:54

1. 트랜스포머란?

트랜스포머(Transformer)는 2017년 구글이 발표한 논문 『Attention is All You Need』에서 소개된 딥러닝 모델

자연어 처리(Natural Language Processing, NLP) 분야의 혁신을 가져왔다. 

기존의 RNN(Recurrent Neural Network)과 LSTM(Long Short-Term Memory)이 가진 문장의 순차적 처리로 인한 속도와 효율성 문제를 근본적으로 개선하여 등장한 모델

트랜스포머 모델은 현재 널리 사용되고 있는 BERT, GPT(예: ChatGPT), T5 등의 대표적인 NLP 모델에서 핵심적인 구조로 사용되고 있다. 

 

2. 트랜스포머의 장점 

* 기존 RNN과 LSTM은 문장을 단어 단위로 순차적으로 처리하기 때문에 처리 속도가 느리고 긴 문장에서 문맥을 유지하는 데 한계

* 트랜스포머는 아래와 같은 장점으로 이를 극복함 

(1) 병렬처리 가능 

- 문장을 토큰(단어 단위)으로 나누고, 이를 병렬로 처리함으로써 연산 속도가 크게 향상된다. 

(2) Self-Attention 메커니즘 

- 문장 내 각 단어가 다른 단어들과의 관계를 동시에 고려해 문맥을 정확하게 이해할 수 있게 된다. 

 

3. 트랜스포머의 핵심 구성 요소 

1. 입력 임베딩(Input Embedding)

- 단어를 수치적 벡터로 변환하여 컴퓨터가 연산할 수 있도록 함.

 

2. 위치 인코딩(Positional Encoding)

- 문장 내 단어의 순서 정보를 벡터에 추가하여, 단어의 위치에 따른 의미를 반영

 

3. 셀프 어텐션(Self-Attention)

- 문장 내 각 단어가 다른 단어들과 얼마나 관련되어 있는지 계산

- 예 : "나는" 이라는 단어가 "학교"와 얼마나 관련되어 있는지 파악 

 

4.멀티 헤드 어텐션(Multi-Head Attention)

- 셀프 어텐션을 다양한 관점에서 여러 번 수행하여 더 풍부한 맥락 정보를 얻음 

 

5. 피드포워드 레이어(Feed Forward Layer)

- 셀프 어텐션에서 얻은 결과를 한번 더 깊게 변형해 단어의 의미를 더 정제하고 세부적인 특징을 추출함. 

 

6. 잔차 연결 및 레이어 정규화(Residual & Layer Normalization)

- 잔차 연결을 통해 학습 안정성을 높이고, 레이어 정규화를 통해 결과의 분포를 균일하게 유지해 학습을 용이하게 한다.

 

7. 인코더와 디코더(Encoder & Decoder)

- 인코더는 입력된 문장의 의미를 이해하고 정보를 압축

- 디코더는 압축된 정보를 바탕으로 새로운 문장을 생성하거나 번역 등 원하는 형태의 결과를 출력

 

4. 트랜스포머 작동 원리 예시 

입력 문장 " 나는 학교에 간다 " 

 

1. 입력 임베딩 : 각 단어를 수치 벡터로 변환 

- 예시 : "나는" .... [0.2, 0.5, ...]

 

2. 위치 인코딩 : 각 단어 벡터에 위치 정보를 추가

- "나는" (첫 번째), "학교에" (두 번째) 등 단어 순서를 벡터 정보로 표현 

 

3. 셀프 어텐션 : 각 단어가 다른 단어와 얼마나 관련 있는지 수치로 계산 

- "나는" 과 "학교" 간의 연관성을 점수로 표현 

 

4. 멀티 헤드 어텐션 : 다양한 관점에서 여러 번 셀프 어텐션을 반복 수행해 풍부한 문맥 정보를 만듦 

 

5. 피드 포워드 레이어 : 어텐션 연산 결과를 다시 정제하고 깊이 있는 의미 표현을 생성함 

 

최종적으로 문맥 정보를 충분히 반영한 단어 벡터가 생성되어 모델이 문장 내 단어의 정확한 의미를 이해하고, 번역이나 문장 생성과 같은 복잡한 작업을 수행할 수 있게됨. 

 

https://wikidocs.net/31379

 

16-01 트랜스포머(Transformer)

* 이번 챕터는 앞서 설명한 어텐션 메커니즘 챕터에 대한 사전 이해가 필요합니다. 트랜스포머(Transformer)는 2017년 구글이 발표한 논문인 "Attention i…

wikidocs.net