핵심 요약

[Challenge]

: BERT와 같은 Pre-trained language representation 모델은 일반적으로 모델의 크기가 커지면 성능이 향상됨. 하지만, 모델이 커짐에 따라 다음의 문제가 발생

Memory Limitation - 모델의 크기가 메모리량에 비해 큰 경우 학습시 OOM(Out-Of Memory) 발생
Training Time - 학습하는데 오랜 시간이 소요됨
Memory Degradation - Layer의 수 혹은 Hidden size가 너무 커지면 모델 성능 감소

[ALBERT의 목표]

: 모델의 경량화 - 모델 크기 증가를 막는 메모리 한계를 극복하기 위해

[Contribution]

Factorized Embedding Parameterization
- input layer를 분해하여 parameter 수를 줄임 → 모델 크기를 줄임
- 큰 단어 임베딩 행렬을 작은 두 행렬로 분해하고, 히든 레이어의 크기와 임베딩 크기를 각각 설정하도록 분리
Cross-Layer Parameter Sharing
- Transformer의 각 Layer 간 같은 Parameter를 공유하여 사용 → 모델의 크기를 줄임
- 파라미터가 네트워크 깊이의 증가에 따라 계속 커지는 것을 막기 위해 적용
Sentence-Order Prediction (SOP)
- BERT에서 사용하던 NSP 대신에 새로 적용하는 학습
- 문장 사이의 순서를 self-supervised loss 를 통해 학습시켜 문장간의 coherence(일관성)을 더 효율적으로 학습시키도록 한다.
→ NSP 보다 SQUAD, MNLI, RACE task에서 성능 향상

[Conclusion]

GLUE, SQuAD, RACE Task에서 BERT 보다 더 높은 성능

논문 링크

https://arxiv.org/abs/1909.11942

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Increasing model size when pretraining natural language representations often results in improved performance on downstream tasks. However, at some point further model increases become harder due to GPU/TPU memory limitations and longer training times. To

arxiv.org

설명 링크

https://coding-moomin.notion.site/ALBERT-c94f702f4ba84a11abdbf013579f8a8a

ALBERT

content

coding-moomin.notion.site