1 . 목적과 역할 목적 : 4개 토큰으로 구성된 짧은 문장에 대해 Scaled Dot-Product Self-Attention을 계산각 토큰이 어떤 토큰을 얼마나 참조하는지 (어텐션 가중치)와 문맥 반영 벡터(output)를 확인 해결 문제 : RNN 처럼 순차 처리 없이 모든 토큰 쌍의 상호작용을 병렬 계산해 장거리 의존성/문맥을 효율적으로 포착 4단어짜리 문장에 self-attention 한 번을 적용해, 각 단어가 서로를 얼마나 참고해서 문맥이 섞인 새 표현을 만드는 미니 트랜스포머 데모 2. 주요 기능 / 이론 요점 - 임베딩 : 정수토큰 -> 실수 벡터 (d_model=8). 학습되면 의미를 품게 됨. - Q/K/V 투영(Dense): 입력 임베딩에서 질문(Q)/열쇠(K)/내용(V) 역할로 ..