NLP

[MPNet 논문 리뷰] MPNet: Masked and Permuted Pre-training for Language Understanding

코딩무민 2022. 3. 25. 14:56
반응형

핵심 요약

MLM(e.g. BERT)

  • [MASK] 토큰들 간의 dependency 파악이 불가능

PLM(e.g. XLNet)

  • MLM의 한계는 해결했으나, permuted sequence의 full sentence에 대한 정보가 있지는 않음.
  • e.g. x = [x1, x2, x3, x4] , z= [3,2,1,4] → [x3, x2, x1, x4] 
    → x1, x_4 와의 관계를 파악할 수 없음

MPNet = MLM(BERT) + PLM (XLNet)

  • 토큰을 non-predicted parts & predicted parts로 나눔
  • PLM 사용 : MLM의 dependency 문제 해결
  • input으로 모든 토큰의 Position Information을 넣음 ⇒ XLNet의 position discrepancy 해결

논문 링크

https://arxiv.org/abs/2004.09297

 

MPNet: Masked and Permuted Pre-training for Language Understanding

BERT adopts masked language modeling (MLM) for pre-training and is one of the most successful pre-training models. Since BERT neglects dependency among predicted tokens, XLNet introduces permuted language modeling (PLM) for pre-training to address this pro

arxiv.org

설명 링크

https://coding-moomin.notion.site/MPNet-266977f6a62c4c359959ec9eac9a2e1d

 

MPNet

contents

coding-moomin.notion.site

 

반응형