NLP

[RoBERTa 논문 리뷰] RoBERTa: A Robustly Optimized BERT Pretraining Approach

코딩무민 2022. 3. 25. 14:41
반응형

핵심 요약 

RoBERTa = BERT의 Replication Study

[문제]

  • BERT는 아직 under-trained 되어 있음

[해결]

→ BERT에 여러 가지 tuning 진행

(1) training the model longer, with bigger batches, over more data

(2) NSP task 제거

(3) Training on longer sequences

(4) Dynamic Masking 적용

(5) Collect a large new dataset (CC-News)

[Results]

  • 기존 BERT보다 우월한 성능
  • XLNet 등의 BERT 후속 모델 보다도 좋은 성능

[Contribution]

  • BERT Design Choice와 training 전략 등의 중요성을 보여줌
  • pre-training 시, 더 많은 dataset을 사용하는 것이 fine tuning 시 성능 향상에 큰 영향을 미침
  • MLM pre-training 시, 올바른 설계가 경쟁력 있다는 것을 보여줌

 

논문 링크

https://arxiv.org/abs/1907.11692

 

RoBERTa: A Robustly Optimized BERT Pretraining Approach

Language model pretraining has led to significant performance gains but careful comparison between different approaches is challenging. Training is computationally expensive, often done on private datasets of different sizes, and, as we will show, hyperpar

arxiv.org

 

설명 링크

https://coding-moomin.notion.site/RoBERTa-a21200ae48eb40ed9f01ff1905f81fd9

 

RoBERTa

contents

coding-moomin.notion.site

 

반응형