핵심 요약

XLNet : GPT로 대표되는 auto-regressive(AR) 모델 + BERT로 대표되는 auto-encoder(AE) 모델의 장점만을 합한 generalized AR pretraining model
이를 위해 permutation language modeling objective를 제안
위 방법론을 transformer 구조에 적용하기 위해 two-stream attention mechanism을 제안
Transformer는 Transformer-XL에서 사용한 relative positioning encoding와 segment recurrence 사용
다양한 NLP 테스크에서 SOTA의 성능을 보임

논문 링크

XLNet: Generalized Autoregressive Pretraining for Language Understanding

https://arxiv.org/abs/1906.08237

XLNet: Generalized Autoregressive Pretraining for Language Understanding

With the capability of modeling bidirectional contexts, denoising autoencoding based pretraining like BERT achieves better performance than pretraining approaches based on autoregressive language modeling. However, relying on corrupting the input with mask

arxiv.org

설명 링크

https://coding-moomin.notion.site/XLNet-4a5794ad60194f9ebf1c6aa510128dd1

XLNet

content

coding-moomin.notion.site