반응형
핵심 요약
- XLNet : GPT로 대표되는 auto-regressive(AR) 모델 + BERT로 대표되는 auto-encoder(AE) 모델의 장점만을 합한 generalized AR pretraining model
- 이를 위해 permutation language modeling objective를 제안
- 위 방법론을 transformer 구조에 적용하기 위해 two-stream attention mechanism을 제안
- Transformer는 Transformer-XL에서 사용한 relative positioning encoding와 segment recurrence 사용
- 다양한 NLP 테스크에서 SOTA의 성능을 보임
논문 링크
XLNet: Generalized Autoregressive Pretraining for Language Understanding
https://arxiv.org/abs/1906.08237
설명 링크
https://coding-moomin.notion.site/XLNet-4a5794ad60194f9ebf1c6aa510128dd1
반응형