딥러닝 주요 논문 리뷰 시리즈 Deep learning milestone papers review series
통계 공부에 이어 또 캐글 예제나 풀어볼까 하다가, 다시 초심으로 돌아가자는 마음에 딥러닝의 주요 논문들을 뽑아서 읽어보기로 했습니다. GitHub과 웹사이트에서 Arxiv 논문을 찾아, 읽는 김에 요약도 해보기로 했습니다. 자세히 읽지는 않았으니 정확하지 않거나 핵심이 아닌 부분이 있을 수도 있고, 모든 딥러닝의 주요 논문이 있지도 않습니다. 혹시 공부하시다가 놓친 부분을 제 글에서 다시 잡으실 수라도 있으면 저는 뿌듯하겠습니다.
네번째 글은 이미지처리에 대한 논문들입니다. 이미지 분야는 머신러닝으로는 한계가 있던 ImageNet이라는 데이터셋을 분류하는 작업을 통해 발전해왔습니다. 최근 이슈가 되고있는 Stable Diffusion 생성 모델은 다음 글에서 다루겠습니다. 머신러닝이나 딥러닝 기초를 학습하시고 싶은 분들은 단단한 머신러닝 또는 심층 학습 같은 교과서를 먼저 읽고 오시면 좋습니다.
1. CNN (Convolutional Neural Networks)
- Ciresan, D., Meier, U., & Schmidhuber, J. (2012). Multi-column deep neural networks for image classification. In 2012 IEEE conference on computer vision and pattern recognition.
- "The DNN of this paper have 2-dimensional layers of winner-take-all neurons with overlapping receptive fields whose weights are shared."
- 동물의 시각피질이 겹겹이 쌓인 이미지를 어떻게 해석하는지에서 영감을 얻음.
- 이미지를 1차원으로 해석한 기존의 CNN과 달리, 이미지를 2차원 벡터로 나타낸 다음 일정 크기의 사각형 안의 값 중 가장 영향력이 큰 하나를 선택(max pooling)해서 저해상도의 이미지로 재해석하는 방법.
- Max pooling 시 영향력의 가중치를 주는 벡터를 filter라고 하고, 처음에는 filter를 무작위로 초기화함.
- 특정 영역의 픽셀 모음 중 가장 영향력이 큰 픽셀을 계속 가져다 씀으로써 filter가 뚜렷해지며 해당 영역을 대표하는 형태를 추출할 수 있음.
2. AlexNet
- Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. Communications of the ACM, 60(6), 84-90.
- 딱히 논문에서 이름을 붙이진 않았는데, 저자의 이름을 따서 명명됨.
- MNIST로 테스트해본 기존 CNN에서 더 발전해, 컬러로 된 더 큰 데이터셋인 ImageNet을 테스트하기 위해 더 좋은 구조가 제안됨.
- 2개의 GPU를 병렬적으로 사용하고, 나머지는 그냥 중첩된 CNN임. 딥러닝으로 처음 ImageNet 해석 대회 ILSVRC 우승을 했다는 데 의의가 있음.
- ReLUs(rectiifed linear units)를 활성화함수로 채용해 기존의 tanh보다 빠르게 수렴하면서 saturation하지 않는 효율을 추구함.
3. ResNet (Residual Networks)
- He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition.
- "Driven by the significance of depth, a question arises: Is learning better networks as easy as stacking more layers?"
- 마냥 layer를 쌓는 것이 능사가 아니라, 기울기가 소실되는걸 막아야 함.
- ResNet은 간단하게 한 층을 통과할 때마다 건너온 입력벡터를 결과에 더해줌(shortcut connections)으로써, 입력벡터를 잊어버리는 현상을 없애고자 함.
- 이런 방식으로 입력벡터를 계속 잊지 않는다면 더 깊은 층을 쌓아도 됨.
4. EffNet (Efficient Networks)
- Tan, M., & Le, Q. (2019). Efficientnet: Rethinking model scaling for convolutional neural networks. In International conference on machine learning.
- "… we are the first to empirically quantify the relationship among all three dimensions of network width, depth, and resolution."
- CNN이 넓어지거나, 깊어지거나, 해상도가 커지면 자연스레 성능은 증가함. 다만 연산이 비싸지는데 비해 점점 그 효과가 포화되어가긴 함.
- Compound scaling: 기존의 작은 모델을 넓이, 깊이, 해상도 측면에서 grid search하면서 최적의 큰 모델을 찾는 방법을 제시함.
- 정확도와 연산성능(FLOPS)의 최적화를 모두 고려함.
'과학 > 머신러닝' 카테고리의 다른 글
딥러닝 주요 논문 리뷰 (4) - 이미지 생성 (0) | 2022.12.17 |
---|---|
딥러닝 주요 논문 리뷰 (2) - 자연어 생성 (0) | 2022.12.04 |
딥러닝 주요 논문 리뷰 (1) - 자연어 (0) | 2022.11.26 |
딥러닝 주요 논문 리뷰 (0) - 기초 (0) | 2022.11.21 |
댓글