반응형
핵심 요약
[Challenge]
: BERT와 같은 Pre-trained language representation 모델은 일반적으로 모델의 크기가 커지면 성능이 향상됨. 하지만, 모델이 커짐에 따라 다음의 문제가 발생
- Memory Limitation - 모델의 크기가 메모리량에 비해 큰 경우 학습시 OOM(Out-Of Memory) 발생
- Training Time - 학습하는데 오랜 시간이 소요됨
- Memory Degradation - Layer의 수 혹은 Hidden size가 너무 커지면 모델 성능 감소
[ALBERT의 목표]
: 모델의 경량화 - 모델 크기 증가를 막는 메모리 한계를 극복하기 위해
[Contribution]
- Factorized Embedding Parameterization
- input layer를 분해하여 parameter 수를 줄임 → 모델 크기를 줄임
- 큰 단어 임베딩 행렬을 작은 두 행렬로 분해하고, 히든 레이어의 크기와 임베딩 크기를 각각 설정하도록 분리
- Cross-Layer Parameter Sharing
- Transformer의 각 Layer 간 같은 Parameter를 공유하여 사용 → 모델의 크기를 줄임
- 파라미터가 네트워크 깊이의 증가에 따라 계속 커지는 것을 막기 위해 적용
- Sentence-Order Prediction (SOP)
- BERT에서 사용하던 NSP 대신에 새로 적용하는 학습
- 문장 사이의 순서를 self-supervised loss 를 통해 학습시켜 문장간의 coherence(일관성)을 더 효율적으로 학습시키도록 한다.
[Conclusion]
- GLUE, SQuAD, RACE Task에서 BERT 보다 더 높은 성능
논문 링크
https://arxiv.org/abs/1909.11942
설명 링크
https://coding-moomin.notion.site/ALBERT-c94f702f4ba84a11abdbf013579f8a8a
반응형