전체 글 45

[SimCSE 논문 리뷰] SimCSE: Simple Contrastive Learning of Sentence Embeddings

1. 핵심 요약 Simple Contrastive Sentence Embedding Framework Unsupervised method input을 받고 그 input 자체를 contrastive objective로 예측 ⇒ 같은 문장을 Dropout을 applying 한 후 두 번 반복해서 넣음 → 이렇게 나온 2개의 임베딩 = positive pairs ⇒ 다른 sentence(negatives)를 넣고 positive를 다시한번 predict dropout만 사용 ⇒ minimal data augmentation 효과 ⇒ dropout을 제거하면 representation collapse 생김 Supervised method NLI 데이터 사용 entailment pairs : Positive c..

NLP 2022.04.01

[ELECTRA 논문 리뷰]ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

1. 핵심요약 기존의 Masked Language Modeling(MLM) 장점 AR 모델과 비교했을 때, 양방향 학습이 가능 단점 전체 token 중 15%만 학습하기 때문에 지식 습득을 위해 많은 corpus가 필요 → 학습 시 Compute Cost 발생 pre-training 할 때에는 [MASK] 토큰을 모델이 참고하여 예측하지만, fine-tuning 시 예측할때는 [MASK] 토큰을 참고하지 못함. ELECTRA MLM 대신 RTD(Replaced Token Detection) 이용 generator : input을 masking 하는 대신, 실제 입력의 일부 token을 replaced token으로 바꿈 discriminator : masking된 토큰을 예측하는 모델 대신, 각 toke..

NLP 2022.03.25

[MPNet 논문 리뷰] MPNet: Masked and Permuted Pre-training for Language Understanding

핵심 요약 MLM(e.g. BERT) [MASK] 토큰들 간의 dependency 파악이 불가능 PLM(e.g. XLNet) MLM의 한계는 해결했으나, permuted sequence의 full sentence에 대한 정보가 있지는 않음. e.g. x = [x1, x2, x3, x4] , z= [3,2,1,4] → [x3, x2, x1, x4] → x1, x_4 와의 관계를 파악할 수 없음 MPNet = MLM(BERT) + PLM (XLNet) 토큰을 non-predicted parts & predicted parts로 나눔 PLM 사용 : MLM의 dependency 문제 해결 input으로 모든 토큰의 Position Information을 넣음 ⇒ XLNet의 position discrepanc..

NLP 2022.03.25

[SpanBERT 논문 리뷰] SpanBERT : Improving Pretraining by Representing and Predicting Spans

1. Introduction [BERT] BERT의 기존 MLM 방법은 individual word나 subword 단위에서 강력한 성능 2개 이상의 span(범위) 간의 관계를 추론하는 question answering, coreference resolution과 같은 NLP task들이 존재 [SpanBERT] span-level pre-training 방법(2) span boundary objective를 사용하여 boundary token을 이용해 masking된 전체 span을 예측(3) NSP를 사용하지 않고 single segment 사용 → BERT와 비교하여 다양한 downstream task에서 BERT를 능가하는 성능 → boundary token에 span-level 정보가 저장되어..

NLP 2022.03.25

[RoBERTa 논문 리뷰] RoBERTa: A Robustly Optimized BERT Pretraining Approach

핵심 요약 RoBERTa = BERT의 Replication Study [문제] BERT는 아직 under-trained 되어 있음 [해결] → BERT에 여러 가지 tuning 진행 (1) training the model longer, with bigger batches, over more data (2) NSP task 제거 (3) Training on longer sequences (4) Dynamic Masking 적용 (5) Collect a large new dataset (CC-News) [Results] 기존 BERT보다 우월한 성능 XLNet 등의 BERT 후속 모델 보다도 좋은 성능 [Contribution] BERT Design Choice와 training 전략 등의 중요성을 보여..

NLP 2022.03.25

[ALBERT 논문 리뷰] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

핵심 요약 [Challenge] : BERT와 같은 Pre-trained language representation 모델은 일반적으로 모델의 크기가 커지면 성능이 향상됨. 하지만, 모델이 커짐에 따라 다음의 문제가 발생 Memory Limitation - 모델의 크기가 메모리량에 비해 큰 경우 학습시 OOM(Out-Of Memory) 발생 Training Time - 학습하는데 오랜 시간이 소요됨 Memory Degradation - Layer의 수 혹은 Hidden size가 너무 커지면 모델 성능 감소 [ALBERT의 목표] : 모델의 경량화 - 모델 크기 증가를 막는 메모리 한계를 극복하기 위해 [Contribution] Factorized Embedding Parameterization input..

NLP 2022.03.25

[XLNet 논문 리뷰] XLNet: Generalized Autoregressive Pretraining for Language Understanding

핵심 요약 XLNet : GPT로 대표되는 auto-regressive(AR) 모델 + BERT로 대표되는 auto-encoder(AE) 모델의 장점만을 합한 generalized AR pretraining model 이를 위해 permutation language modeling objective를 제안 위 방법론을 transformer 구조에 적용하기 위해 two-stream attention mechanism을 제안 Transformer는 Transformer-XL에서 사용한 relative positioning encoding와 segment recurrence 사용 다양한 NLP 테스크에서 SOTA의 성능을 보임 논문 링크 XLNet: Generalized Autoregressive Pretra..

NLP 2022.03.25

[BERT 논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

1. Introduction 2018년 10월 논문 공개 당시, NLP 11개 task에 SOTA 달성 SQuAD v1.1에서 인간보다 더 높은 정확도를 보여 주목을 받음 논문 제목 BERT: Pre-trainig of Deep Bidirectional Transformers for Language Understanding 논문 링크 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transfo..

NLP 2022.03.25

텍스트 전처리(Text preprocessing) & 어휘분석 (Lexical Analysis)

0. 자연어 분석 4단계 어휘분석 : 입력된 문자열을 분석하여 형태소로 분리하는 단계 (품사 태깅 포함) 구문분석 : 문장의 구조를 분석하여 파싱(Parsing) 하는 단계 의미분석 : 구문 분석 결과 생성된 통사 구조에 의해 문장의 의미를 밝혀내는 작업을 수행하는 단계 화용분석 : 언어의 사용에 관련된 지식을 통해 문장을 해석함으로써 화자의 의도를 파악하는 작업 예시) 어휘분석을 진행하기 전에 텍스트 전처리 진행 1. 텍스트 전처리 (Text preprocessing) 0)비정형 데이터란? 💡 비정형 데이터 : 일정한 규격이나 형태를 지닌 숫자 데이터(Numeric data)와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화 되지 않은 데이터 비정형 데이터 예시) 음성정보, 동영상정보, 시각 ..

NLP 2022.03.24

[빅분기] 제 3회 빅데이터 분석기사 실기 합격 후기, 꿀팁 그리고 기출문제 복원

안녕하세요! 오늘은 빅분기 실기 합격 후기를 들고왔습니다! ㅎㅎ 일단 실기의 출제문항 및 배점에 대해서 알아보도록 하겠습니다. 출제문항 및 배점 시험은 총 180분 동안 치뤄집니다. 또한, 90분이 지난 이후 퇴실이 가능합니다. 직무분야 정보통신 중직무분야 정보기술 자격종목 빅데이터 분석기사 ○ 직무내용 대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업무를 수행한다. 실기검정방법 통합형(필답형, 작업형) 시험시간 180분 데이터자격시험 사이트에는 다음과 같이 나와있지만, 제가 실기 시험을 본 토대로 말씀드리면 다음과 같습니다. 시험 종류 문항수 배점 필답형 10문제 (단답..

etc/자격증 2021.12.30