PStage MRC 3강 - Generation-based MRC
Generation-based MRC
Generation-based MRC 문제 정의
Extraction-based mrc와 다르게 주어진 질문의 답이 지문 내에 존재하지 않을 수도 있기 때문에 기본적으로 답변을 ‘생성’하는 문제로 분류한다.
input은 Extraction-based mrc와 동일하지만, generation-based mrc에서는 fine-tuning 시 정답 text까지 생성하는 seq2seq 모델로 분류할 수 있다.
Generation-based MRC vs. Extraction-base MRC
- MRC 모델 구조
- Seq-to-Seq PLM 구조 (Generation) vs. PLM + Classifier 구조 (Extraction)
- Loss 계산을 위한 답의 형태 / Prediction의 형태
- Free-form text 형태 (Generation) vs. 지문 내 답의 위치 (Extraction)
- Extraction-based MRC는 f1 계산을 위해 text로의 별도의 전환 과정이 필요하다.
Pre-processing
Tokenize
Extraction과 같이 토큰화를 진행한 뒤 input_ids(또는 input_token_ids)를 생성한다.
Generation 모델에서는 PAD 토큰은 사용되지만, CLS와 SEP 토큰의 경우 사용할 수는 있지만 보통 자연어를 이용한 텍스트 포맷으로 대신하는 경우가 많다. ex) CLS -> Question, SEP -> Context