2. Fine-tune BERT for Extractive Summarization 논문 리뷰

심화 스터디/NLP 스터디2

by 오홍민 2021. 9. 19. 14:50

BERTSUM

: extractive summarization을 위한 BERT 변형 모델

Single-document summarization

- abstractive summarization

: text rewriting을 통해 원문에 없던 단어, 구 등을 이용해서 summary 생성

- extractive summarization

: 문서 내에 중요한 spans(주로 문장 단위) 그대로 가져와서 합치는 방식

방법론

d (document) : [sent₁, sent₂, …, sent_m]으로 구성된 문서

extractive summary는 sent_i마다 y_i ∈ {0,1} 로 summary에 포함시킬지 말지 assign

1) BERT

cf. 원래 BERT

masked-language model로 output vector가 문장이 아닌 토큰 형태
서로 다른 문장을 구분할 때는 2개의 label만 존재(sentence A, sentence B)

→ summarization을 위해서는 변형 필요

Encoding Multiple Sentences
- 문장의 시작에는 [CLS]토큰, 끝에는 [SEP] 토큰

(vanilla BERT에서는 한 개 또는 한 쌍의 문장의 features 종합 / 여기서는 use multiple [CLS] symbols to get features for sentences ascending the symbol)

→ [CLS]을 문장을 대표하는 토큰으로 사용해 문장의 특징을 추출할 것

Interval Segment Embeddings
- sent_i가 홀수, 짝수번째 문장인지에 따라 segment embedding E_A, E_B assign해서 서로 다른 문장 구분할 것
- BERT의 top layer의 [CLS]에 해당하는 벡터 T_i가 sent_i에 대한 representation으로 쓰임

2) Fine-tuning with Summarization Layers

BERT로부터 sentence vector T<sub>i</sub> 구한 뒤, 그 위에 document-level features 얻기 위한 summarization-specific layers 쌓음

각 문장에 대해 최종 예측 score hat Y_i 계산
전체 모델의 loss: gold label Y_i에 대한 Binary Classification Entropy of hat Y_i

Simple Classifier
- BERT output에 linear layer 추가 / predicted score 얻기 위해 sigmoid function 적용
- [수식 1] Simple Classifier
Intersentence Transformer
- sentence representations에만 더 많은 Transformer layers 적용 → 요약 태스크 위한 document-level features 추출
- h^l-1: (l-1)th depth stacked layer에서 BERT sentence vectors output T에 positional embeddings 더한 것 (PosEmb(T)) MHAtt: multi-head attention operation
- LN : layer normalization operation
- final output layer: sigmoid classifier
- [수식 2] Inter-sentence Transformer
  - : top layer(L-th)의 i번째 문장 벡터
  - → L=1,2,3으로 실험한 결과 Transformer with 2 layers의 성능이 가장 좋았음
Recurrent Neural Network
- Transformer와 RNN 합쳤을 때의 이점이 있기 때문에 summarization-specific features 학습을 위해 BERT outputs에 LSTM layer 추가
- 훈련과정을 안정화 시키기 위해 각 LSTM cell에 대해 pergate layer normalization 사용 (층 정규화라고 생각하면 될 듯)
- [수식 3] Recurrent Neural Network
- F_i : forget gate, I_i: input gate, O_i: output gate, G_i: hidden vector, C_i: memory vecor, h_i: output vector, LN_h, LN_x, LN_c: 서로 다른 layer normalization operations
- 여기서도 final output layer는 sigmoid classifier
- [수식 4] Sigmoid Classifier

Experiments

Trigram Blocking(요약 결과 중 이미 나온 결과를 필터링하기 위한 것)
- 예측 과정에서 redundancy 줄이기 위해 사용
- 이미 만들어진 summary와 후보 문장 c 간에 trigram overlapping 있으면 그 c는 건너뜀 (MMR; Maximal Marginal Relevance와 유사하지만 훨씬 간단)
사용한 데이터셋
- CNN/DailyMail Dataset : 뉴스 본문과 associated highlights 포함
- NYT dataset: 기사와 abstractive summaries 포함
- greedy algorithm 기반으로 요약 수행 : ROUGE score 최대화할 수 있는 문장들을 모두 oracle sentence로 간주 (0,1 labeling)

Experiment Results

cf. 비교 모델 정리

transformer
LEAD : 처음 3문장을 전체 문서의 요약으로 간주
REFRESH : globally optimizing the ROUGE metric
NEUSUM : jointly score and select sentences
PGN : encoder-decoder 구조 기반 abstractive summarization system
DCA : 문서 표현 위한 multiple agents 쓰는 abstractive summarization system + decoding에 대해서는 hierachical mechanism over the agents

[테스트 결과 1] CNN/DailyMail dataset using ROUGE F1

⇒ BERT-based model들의 성능이 좋음

[테스트 결과 2] Results of ablation studies of BERTSUM on CNN/Dailymail test set using ROUGE F1

⇒ interval segment와 trigram blocking 모두 base model의 성능 향상에 기여함

[테스트 결과 3] Test set results on the NYT50 dataset using ROUGE Recall.

Conclusion

BERTSUM with inter-sentence Transformer layers can achieve the best performance

저작자표시 (새창열림)

'심화 스터디 > NLP 스터디2' 카테고리의 다른 글

4. BertSum: Text Summarization with Pretrained Encoders 논문 리뷰 (0)	2021.09.28
3. BART: Denoising SequencetoSequence Pretraining for Natural Language Generation Translation and Comprehension 논문 리뷰 (0)	2021.09.25
0. [Paper Review] Transformer to T5 (XLNet, RoBERTa, MASS, BART, MT-DNN,T5) (0)	2021.09.19
1. Attention is all you need 논문 리뷰 (0)	2021.09.18
0. Machine Translation Survey(Vol1): Background 영상 후기 (0)	2021.09.18

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

BERTSUM

Single-document summarization

방법론

1) BERT

2) Fine-tuning with Summarization Layers

Experiments

Experiment Results

Conclusion

'심화 스터디 > NLP 스터디2' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바