NLP

[RoBERTa 논문 리뷰] RoBERTa: A Robustly Optimized BERT Pretraining Approach

코딩무민 2022. 3. 25. 14:41

핵심 요약

RoBERTa = BERT의 Replication Study

[문제]

BERT는 아직 under-trained 되어 있음

[해결]

→ BERT에 여러 가지 tuning 진행

(1) training the model longer, with bigger batches, over more data

(2) NSP task 제거

(3) Training on longer sequences

(4) Dynamic Masking 적용

(5) Collect a large new dataset (CC-News)

[Results]

기존 BERT보다 우월한 성능
XLNet 등의 BERT 후속 모델 보다도 좋은 성능

[Contribution]

BERT Design Choice와 training 전략 등의 중요성을 보여줌
pre-training 시, 더 많은 dataset을 사용하는 것이 fine tuning 시 성능 향상에 큰 영향을 미침
MLM pre-training 시, 올바른 설계가 경쟁력 있다는 것을 보여줌

논문 링크

https://arxiv.org/abs/1907.11692

RoBERTa: A Robustly Optimized BERT Pretraining Approach

Language model pretraining has led to significant performance gains but careful comparison between different approaches is challenging. Training is computationally expensive, often done on private datasets of different sizes, and, as we will show, hyperpar

arxiv.org

설명 링크

https://coding-moomin.notion.site/RoBERTa-a21200ae48eb40ed9f01ff1905f81fd9

RoBERTa

contents

coding-moomin.notion.site

'NLP' 카테고리의 다른 글

[MPNet 논문 리뷰] MPNet: Masked and Permuted Pre-training for Language Understanding (0)	2022.03.25
[SpanBERT 논문 리뷰] SpanBERT : Improving Pretraining by Representing and Predicting Spans (0)	2022.03.25
[ALBERT 논문 리뷰] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations (0)	2022.03.25
[XLNet 논문 리뷰] XLNet: Generalized Autoregressive Pretraining for Language Understanding (0)	2022.03.25
[BERT 논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (0)	2022.03.25

현재글[RoBERTa 논문 리뷰] RoBERTa: A Robustly Optimized BERT Pretraining Approach

코딩무민의 슬기로운 코딩생활

[RoBERTa 논문 리뷰] RoBERTa: A Robustly Optimized BERT Pretraining Approach

핵심 요약

논문 링크

설명 링크

'NLP' 카테고리의 다른 글

'NLP'의 다른글

티스토리툴바

[RoBERTa 논문 리뷰] RoBERTa: A Robustly Optimized BERT Pretraining Approach

핵심 요약

논문 링크

설명 링크

'NLP' 카테고리의 다른 글

'NLP'의 다른글

관련글

티스토리툴바