0. 왜 이 논문이 나왔을까?
2012년, 딥러닝은 이론적으로는 가능성이 많았지만 실전에서 "정말 쓸 수 있는가?"에 대해서는 회의적인 시선이 많았다. 이미지 분류 분야에서는 SIFT + FV, HOG + SVM 등의 전통적인 feature 기반 방법들이 여전히 주류였고, CNN은 학습 데이터가 많아야 하고, 느리고, 과적합에 취약하다는 인식이 강했다.
저자들의 가설 및 문제 인식
대규모 이미지 데이터셋(ImageNet)과 고성능 GPU가 있다면, 깊고 큰 CNN 모델이 전통적인 방식보다 훨씬 뛰어난 성능을 낼 수 있다.
해결하고자 한 문제
기존 방식 한계
| 작은 CNN or shallow ML model | ImageNet처럼 1백만 장 이상의 고해상도 이미지에는 적용 어려움 (범주 간 구분 잘 못함) |
| SIFT, HOG 등 hand-crafted feature | 일반화가 어렵고, 객체의 위치/조명/각도 변화에 민감 |
| GPU 없이 학습 | 큰 모델을 학습시키는 데 현실적 시간/자원 한계 |
1. AlexNet의 전체 구조 설명
AlexNet의 전체 구조 요약 : CNN 아키텍처 도입
기존의 [수작업 특징 추출 + 분류기] 방식 대신 end to end 학습이 가능한 딥 CNN 구조 사용
- 총 8개 레이어: Conv(컨볼루션) 5 + FC(완전연결) 3
- 입력 이미지 크기: 224×224×3
- 출력 클래스 수: 1000개 (ImageNet ILSVRC 기준)
- 총 파라미터 수: 약 6천만 개
- 2개의 GPU를 활용해 병렬 분산 학습

| Conv1 | 11x11 필터 96개, stride=4, ReLU, LRN, MaxPooling 특징 : 큰 크기의 필터와 넓은 stride를 이용해 이미지의 전역적 특징을 초기 단계에서 빠르게 추출 |
| Conv2 | 5x5 필터 256개, ReLU, LRN, 추가 처리 : MaxPooling 특징 : 첫 번째 층 출력을 GPU 2개가 분리해 처리하므로 채널이 절반으로 나뉨 |
| Conv3 | 3x3 필터 384개, ReLU |
| Conv4 | 3x3 필터 384개, ReLU |
| Conv5 | 3x3 필터 256개, ReLU, 추가처리 : MaxPooling |
| FC1 | 4096 노드, Dropout |
| FC2 | 4096 노드, Dropout |
| FC3 | 1000 노드, Softmax를 통해 1000개 클래스에 대한 확률 생성 |
2. 주요 기술 요소 및 혁신
* ReLU (Rectified Linear Unit)
- 기존 tanh, sigmoid 대신 f(x) = max(0, x) 사용
- 학습 속도 획기적으로 향상 (6배 이상)
- Saturation 문제 없음 → 깊은 네트워크에 적합
* Dropout (과적합 방지)
- FC Layer에서 뉴런을 50% 확률로 비활성화
- 복잡한 파라미터 간 공모(co-adaptation) 방지 → 일반화 성능 향상
* LRN (Local Response Normalization)
- 인접한 채널 간의 경쟁 유도 → 과도한 활성 억제
- 밝기나 contrast 변화에 강인함
- 당시엔 효과적이었으나, 이후 모델들에선 잘 쓰이지 않음
* GPU 병렬 처리 (Dual-GPU)
- 당시 GPU 메모리 제한(3GB)을 극복하기 위해 모델을 반으로 나눠서 2개의 GPU에 분산 학습
- 일부 layer만 통신하도록 설계해 병렬 효율성 확보
* Overlapping Pooling
- 전통적인 non-overlapping pooling (stride=size) 대신, stride < size로 겹치게 풀링
- → 과적합 억제 + 성능 소폭 향상
* Data Augmentation (데이터 증강)
- Random Crop (256→224), Horizontal Flip, PCA-based Color Jitter
- 학습 데이터셋을 사실상 2048배 증가
- → 모델이 다양한 조명/위치/각도에 강해짐
* Weight Initialization
- Conv/FC Layer: 평균 0, 표준편차 0.01 정규분포에서 샘플
- 일부 bias는 1로 초기화해서 ReLU가 빠르게 활성화되도록 유도
* SGD with Momentum + Learning Rate Decay
- 옵티마이저: SGD + momentum(0.9)
- weight decay 0.0005 적용
- Validation Error 개선이 멈추면 → 학습률을 10배 줄이기
3. 성능 비교 결과 ( ImageNet ILSVRC 2010 )
모델 Top-1 Error Top-5 Error
| SIFT + FV | 45.7% | 25.7% |
| Sparse Coding | 47.1% | 28.2% |
| AlexNet | 37.5% | 17.0% |
4. 과거 모델과의 차별점
- End-to-End 학습 구조 도입
→ 기존 방식: SIFT, HOG 등 수작업 특징 추출 후 SVM
→ AlexNet: 특징 추출 + 분류까지 모두 CNN이 자동 학습 - 대용량 이미지 학습 가능
→ 기존: CIFAR-10, MNIST처럼 수천~수만 장 규모
→ AlexNet: ImageNet (120만 장)에서 학습 및 성능 입증 - 딥러닝 구조의 실전 적용
→ 기존: shallow net (2~3층 신경망)
→ AlexNet: 8층 깊이의 CNN, 깊은 구조를 실전에서 성공적으로 적용 - GPU를 이용한 병렬 학습 실현
→ 기존: CPU 기반 학습, 시간 소요 과다
→ AlexNet: Dual-GPU 구조로 대규모 모델 학습을 가능하게 함 - 성능 차이에서의 압도적인 격차
→ 기존 최고 Top-5 Error: 25~28%
→ AlexNet Top-5 Error: 17.0%, 2위보다 10%p 이상 차이
5. AlexNet의 영향력
1. 딥러닝 가능성을 실전에서 입증한 첫 모델
- AlexNet은 기계학습 기반 이미지 분류 시대의 종식을 알리고, 딥러닝의 시대를 개막한 모델이다.
- 특히 2012년 ILSVRC 대회에서의 압도적 성능 차이는 전 세계 연구자들에게 강한 충격을 주었고,
이후 컴퓨터 비전 분야는 물론, 음성 인식, 자연어 처리(NLP)까지 모든 AI 분야에서 딥러닝으로의 전환이 빠르게 진행되었다.
2. GPU 병렬 연산의 실용성 입증
- 논문은 단순히 "모델을 GPU로 돌렸다"가 아니라, 모델 구조를 2개의 GPU에 분산하여 효율적으로 병렬 학습되도록 설계되었다.
- 이는 단순한 속도 개선이 아니라, 대규모 딥러닝 모델을 실질적으로 학습시킬 수 있는 방법론을 제시한 것이다.
- 이후 NVIDIA, CUDA, PyTorch, TensorFlow 등 GPU 중심 생태계의 성장에 결정적인 영향을 끼쳤다.
3. 딥러닝 아키텍처의 표준화에 기여
- AlexNet이 사용한 ReLU, Dropout, Data Augmentation, SGD+Momentum 등은 이후 거의 모든 CNN에서 표준처럼 채택
- 이러한 구성은 VGGNet, GoogLeNet, ResNet 등 현대적 모델들에도 직간접적으로 계승되었다
4. 학계와 산업계의 관심을 동시에 폭발시킴
- 2012년 이후 딥러닝 논문, 오픈소스 프로젝트, GPU 하드웨어 투자, 스타트업 붐이 급격히 증가
- Google, Facebook, Microsoft, Baidu 등 빅테크들이 본격적으로 AI 투자에 뛰어드는 계기를 제공
6. AlexNet의 의의 요약
1. 딥러닝의 실전 가능성 입증 : 기존 방식보다 훨씬 뛰어난 정확도를 달성하며 CNN의 효용성을 대중에 각인시킴
2. GPU 기반 학습 체계 정립 : 이후 대형 모델 설계와 병렬 연산 최적화의 토대를 마련
3. 딥러닝 기술의 확산 기폭제 : 학계, 산업계 모두를 딥러닝 시대로 이끈 실질적인 촉매제
4. 현대적 CNN 설계의 원형 제공 : 오늘날 CNN 설계에서 당연하게 여겨지는 구성 요소들의 시작점이 된 모델
https://ffighting.net/deep-learning-paper-review/vision-model/alexnet/
'논문 리뷰' 카테고리의 다른 글
| [논문 구현] Deep Residual Learning for Image Recognition (3) | 2025.08.08 |
|---|---|
| [논문 리뷰] Deep Residual Learning for Image Recognition 논문 과제 (1) | 2025.08.07 |
| AlexNet 논문에서 ReLU를 사용한 이유 직접 실험해보기, Sigmoid 함수의 정확도는 왜 이렇게 나왔을까? (3) | 2025.08.04 |
| AlexNet 아키텍처 직접 구현 및 CPU vs GPU 실험 (정확도가 다르게 나온 이유?) (2) | 2025.08.04 |
| 딥러닝 논문 가이드 _ 딥러닝 전체 (1) | 2025.08.03 |