1. 핵심 요약 최근 모델들 BERT, T5 등의 encoder-only, encoder-decoder architectures 들이 MLM, span corruption 등을 활용하며 NLP tasks에서 좋은 성적을 냄. 위 모델의 한계점 model fine-tuning을 위해 상당한 양의 task-specific training examples를 필요로 함 task에 맞게 fitting 하는 과정에서 model parameter update가 필요함 → model finetuning & deployment에 complexity를 더함 GPT-3 Model few-shot predictions을 사용한 extremely large Autoregressive LMs → decoder-only Trans..