1. 트랜스포머란?
트랜스포머(Transformer)는 2017년 구글이 발표한 논문 『Attention is All You Need』에서 소개된 딥러닝 모델
자연어 처리(Natural Language Processing, NLP) 분야의 혁신을 가져왔다.
기존의 RNN(Recurrent Neural Network)과 LSTM(Long Short-Term Memory)이 가진 문장의 순차적 처리로 인한 속도와 효율성 문제를 근본적으로 개선하여 등장한 모델
트랜스포머 모델은 현재 널리 사용되고 있는 BERT, GPT(예: ChatGPT), T5 등의 대표적인 NLP 모델에서 핵심적인 구조로 사용되고 있다.
2. 트랜스포머의 장점
* 기존 RNN과 LSTM은 문장을 단어 단위로 순차적으로 처리하기 때문에 처리 속도가 느리고 긴 문장에서 문맥을 유지하는 데 한계
* 트랜스포머는 아래와 같은 장점으로 이를 극복함
(1) 병렬처리 가능
- 문장을 토큰(단어 단위)으로 나누고, 이를 병렬로 처리함으로써 연산 속도가 크게 향상된다.
(2) Self-Attention 메커니즘
- 문장 내 각 단어가 다른 단어들과의 관계를 동시에 고려해 문맥을 정확하게 이해할 수 있게 된다.
3. 트랜스포머의 핵심 구성 요소
1. 입력 임베딩(Input Embedding)
- 단어를 수치적 벡터로 변환하여 컴퓨터가 연산할 수 있도록 함.
2. 위치 인코딩(Positional Encoding)
- 문장 내 단어의 순서 정보를 벡터에 추가하여, 단어의 위치에 따른 의미를 반영
3. 셀프 어텐션(Self-Attention)
- 문장 내 각 단어가 다른 단어들과 얼마나 관련되어 있는지 계산
- 예 : "나는" 이라는 단어가 "학교"와 얼마나 관련되어 있는지 파악
4.멀티 헤드 어텐션(Multi-Head Attention)
- 셀프 어텐션을 다양한 관점에서 여러 번 수행하여 더 풍부한 맥락 정보를 얻음
5. 피드포워드 레이어(Feed Forward Layer)
- 셀프 어텐션에서 얻은 결과를 한번 더 깊게 변형해 단어의 의미를 더 정제하고 세부적인 특징을 추출함.
6. 잔차 연결 및 레이어 정규화(Residual & Layer Normalization)
- 잔차 연결을 통해 학습 안정성을 높이고, 레이어 정규화를 통해 결과의 분포를 균일하게 유지해 학습을 용이하게 한다.
7. 인코더와 디코더(Encoder & Decoder)
- 인코더는 입력된 문장의 의미를 이해하고 정보를 압축
- 디코더는 압축된 정보를 바탕으로 새로운 문장을 생성하거나 번역 등 원하는 형태의 결과를 출력
4. 트랜스포머 작동 원리 예시
입력 문장 " 나는 학교에 간다 "
1. 입력 임베딩 : 각 단어를 수치 벡터로 변환
- 예시 : "나는" .... [0.2, 0.5, ...]
2. 위치 인코딩 : 각 단어 벡터에 위치 정보를 추가
- "나는" (첫 번째), "학교에" (두 번째) 등 단어 순서를 벡터 정보로 표현
3. 셀프 어텐션 : 각 단어가 다른 단어와 얼마나 관련 있는지 수치로 계산
- "나는" 과 "학교" 간의 연관성을 점수로 표현
4. 멀티 헤드 어텐션 : 다양한 관점에서 여러 번 셀프 어텐션을 반복 수행해 풍부한 문맥 정보를 만듦
5. 피드 포워드 레이어 : 어텐션 연산 결과를 다시 정제하고 깊이 있는 의미 표현을 생성함
최종적으로 문맥 정보를 충분히 반영한 단어 벡터가 생성되어 모델이 문장 내 단어의 정확한 의미를 이해하고, 번역이나 문장 생성과 같은 복잡한 작업을 수행할 수 있게됨.
16-01 트랜스포머(Transformer)
* 이번 챕터는 앞서 설명한 어텐션 메커니즘 챕터에 대한 사전 이해가 필요합니다. 트랜스포머(Transformer)는 2017년 구글이 발표한 논문인 "Attention i…
wikidocs.net
'Data Analysis Study' 카테고리의 다른 글
| TensorFlow Self-Attention 미니 데모 (4토큰) (5) | 2025.08.11 |
|---|---|
| TensorFlow로 구현한 Self-Attention 미니 트랜스포머 실습 (9) | 2025.08.11 |
| RNN, LSTM, GRU 모델 성능 비교 | 하이퍼파라미터 구조 튜닝 및 피처 엔지니어링 (기상청 데이터) (3) | 2025.07.30 |
| LSTM모델을 이용한 삼성전자 주가 예측 (시계열 예측) (3) | 2025.07.30 |
| RNN, LSTM, GRU 세 가지 순환 신경망 성능 비교 (IMDB 리뷰 데이터 셋) (3) | 2025.07.30 |