NLP

[XLNet 논문 리뷰] XLNet: Generalized Autoregressive Pretraining for Language Understanding

코딩무민 2022. 3. 25. 14:36
반응형

핵심 요약 

  • XLNet : GPT로 대표되는 auto-regressive(AR) 모델 + BERT로 대표되는 auto-encoder(AE) 모델의 장점만을 합한 generalized AR pretraining model 
  • 이를 위해 permutation language modeling objective를 제안
  • 위 방법론을 transformer 구조에 적용하기 위해 two-stream attention mechanism을 제안
  • Transformer는 Transformer-XL에서 사용한 relative positioning encoding와 segment recurrence 사용
  • 다양한 NLP 테스크에서 SOTA의 성능을 보임

논문 링크

XLNet: Generalized Autoregressive Pretraining for Language Understanding

https://arxiv.org/abs/1906.08237

 

XLNet: Generalized Autoregressive Pretraining for Language Understanding

With the capability of modeling bidirectional contexts, denoising autoencoding based pretraining like BERT achieves better performance than pretraining approaches based on autoregressive language modeling. However, relying on corrupting the input with mask

arxiv.org

 

설명 링크

https://coding-moomin.notion.site/XLNet-4a5794ad60194f9ebf1c6aa510128dd1

 

XLNet

content

coding-moomin.notion.site

 

반응형