본문 바로가기
과학/머신러닝

딥러닝 주요 논문 리뷰 (1) - 자연어

by pandatta 2022. 11. 26.

딥러닝 주요 논문 리뷰 시리즈

딥러닝 주요 논문 리뷰 (0) - 기초
MTL, TL, GDO
딥러닝 주요 논문 리뷰 (1) - 자연어
BiRNN, LSTM, Skip-gram, Word2Vec
딥러닝 주요 논문 리뷰 (2) - 자연어 생성
Seq2Seq, Attention, Transformer, GPT, BERT
딥러닝 주요 논문 리뷰 (3) - 이미지
CNN, AlexNet, ResNet, EffNet
딥러닝 주요 논문 리뷰 (4) - 이미지 생성
VAE, GAN, StyleGAN, StableDiffusion

딥러닝 주요 논문 리뷰 시리즈 Deep learning milestone papers review series

통계 공부에 이어 또 캐글 예제나 풀어볼까 하다가, 다시 초심으로 돌아가자는 마음에 딥러닝의 주요 논문들을 뽑아서 읽어보기로 했습니다. GitHub 웹사이트에서 Arxiv 논문을 찾아, 읽는 김에 요약도 해보기로 했습니다. 자세히 읽지는 않았으니 정확하지 않거나 핵심이 아닌 부분이 있을 수도 있고, 모든 딥러닝의 주요 논문이 있지도 않습니다. 혹시 공부하시다가 놓친 부분을 제 글에서 다시 잡으실 수라도 있으면 저는 뿌듯하겠습니다.

두번째 글은 BiRNN, LSTM, Skip-gram, Word2Vec과 같은, Attention과 Transformer 등장 이전의 자연어처리에 대한 논문들입니다. Seq2Seq과 Attention 등 둘 이상의 언어를 pre-training하고 fine-tuning하는 내용은 다음 포스팅을 봐주세요. 머신러닝이나 딥러닝 기초를 학습하시고 싶은 분들은 단단한 머신러닝 또는 심층 학습 같은 교과서를 먼저 읽고 오시면 좋습니다.

1. BiRNN (Bidirectional Recurrent Neural Network)

2. LSTM (Long Short-Term Memory)

3. CBOW & Skip-gram

  • Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
  • "… it was shown for example that vector('King') - vector('Man') + vector('Woman') results in a vector that is closest to the vector representation of the word Queen."
  • N-gram: 문장을 단어 N개 길이의 window로 잘라서 생각하는 기존 방식.
  • 당연히 모든 domain data context를 다 고려해줄 수 없는 한계가 있었음.
  • 단어를 vector space 위에 띄워 서로 유사성을 계산할 수 있게끔 하는 것이 나음.
  • CBOW(continuous bag-of-words): 문서 내 단어 각각을 one-hot vector로 만든 뒤, 문장 앞뒤 N개의 단어가 가중치 벡터를 통과한 뒤의 벡터와 중앙 단어의 벡터 사이 엔트로피 차이를 가중치 업데이트.
  • Skip-gram: 문서 내 단어 각각을 one-hot vector로 만든 뒤, 각 단어가 앞뒤 N개의 위치 각각의 가중치 벡터를 통과한 뒤의 벡터와 각 위치의 실제 단어의 벡터 사이 엔트로피 차이를 가중치 업데이트.
  • 실제로 해보니 Skip-gram 방식이 위와 같이 유의어를 예측 가능한 벡터를 잘 만드는 것을 확인함.

4. Word2Vec

댓글