NLP
[XLNet 논문 리뷰] XLNet: Generalized Autoregressive Pretraining for Language Understanding
코딩무민
2022. 3. 25. 14:36
반응형
핵심 요약
- XLNet : GPT로 대표되는 auto-regressive(AR) 모델 + BERT로 대표되는 auto-encoder(AE) 모델의 장점만을 합한 generalized AR pretraining model
- 이를 위해 permutation language modeling objective를 제안
- 위 방법론을 transformer 구조에 적용하기 위해 two-stream attention mechanism을 제안
- Transformer는 Transformer-XL에서 사용한 relative positioning encoding와 segment recurrence 사용
- 다양한 NLP 테스크에서 SOTA의 성능을 보임
논문 링크
XLNet: Generalized Autoregressive Pretraining for Language Understanding
https://arxiv.org/abs/1906.08237
XLNet: Generalized Autoregressive Pretraining for Language Understanding
With the capability of modeling bidirectional contexts, denoising autoencoding based pretraining like BERT achieves better performance than pretraining approaches based on autoregressive language modeling. However, relying on corrupting the input with mask
arxiv.org
설명 링크
https://coding-moomin.notion.site/XLNet-4a5794ad60194f9ebf1c6aa510128dd1
XLNet
content
coding-moomin.notion.site
반응형