NLP

[ELECTRA 논문 리뷰]ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

코딩무민 2022. 3. 25. 14:59

1. 핵심요약

기존의 Masked Language Modeling(MLM)

장점
- AR 모델과 비교했을 때, 양방향 학습이 가능
단점
- 전체 token 중 15%만 학습하기 때문에 지식 습득을 위해 많은 corpus가 필요 → 학습 시 Compute Cost 발생
- pre-training 할 때에는 [MASK] 토큰을 모델이 참고하여 예측하지만, fine-tuning 시 예측할때는 [MASK] 토큰을 참고하지 못함.

ELECTRA

MLM 대신 RTD(Replaced Token Detection) 이용
generator : input을 masking 하는 대신, 실제 입력의 일부 token을 replaced token으로 바꿈
discriminator : masking된 토큰을 예측하는 모델 대신, 각 token이 실제 입력에 있는 진짜(original) token인지 generator가 생성해낸 replaced token인지 이진 분류 (*가짜는 X → 유의어, 동의어일수 있음)
장점
- pre-training과 fine-tuning 사이의 [MASK] mismatch 해결
- 모든 토큰을 학습함으로 computational 효율 획득
GAN과 비슷한 구조이나 GAN은 아님

논문 링크

https://arxiv.org/abs/2003.10555

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

Masked language modeling (MLM) pre-training methods such as BERT corrupt the input by replacing some tokens with [MASK] and then train a model to reconstruct the original tokens. While they produce good results when transferred to downstream NLP tasks, the

arxiv.org

설명 링크

https://coding-moomin.notion.site/ELECTRA-c69dc30a4622471dbb9202bd8ef9798b

ELECTRA

contents

coding-moomin.notion.site

'NLP' 카테고리의 다른 글

[PaLM 논문 리뷰] PaLM: Scaling Language Modeling with Pathways (0)	2022.04.26
[SimCSE 논문 리뷰] SimCSE: Simple Contrastive Learning of Sentence Embeddings (0)	2022.04.01
[MPNet 논문 리뷰] MPNet: Masked and Permuted Pre-training for Language Understanding (0)	2022.03.25
[SpanBERT 논문 리뷰] SpanBERT : Improving Pretraining by Representing and Predicting Spans (0)	2022.03.25
[RoBERTa 논문 리뷰] RoBERTa: A Robustly Optimized BERT Pretraining Approach (0)	2022.03.25

현재글[ELECTRA 논문 리뷰]ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

코딩무민의 슬기로운 코딩생활

[ELECTRA 논문 리뷰]ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

1. 핵심요약

논문 링크

설명 링크

'NLP' 카테고리의 다른 글

'NLP'의 다른글

티스토리툴바

[ELECTRA 논문 리뷰]ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

1. 핵심요약

논문 링크

설명 링크

'NLP' 카테고리의 다른 글

'NLP'의 다른글

관련글

티스토리툴바