문제 정의: Task가 해결하고자 하는 문제가 무엇인가?
Sentiment Analysis는 한국말로는 감정분석으로 텍스트에 들어가 있는 의견이나 감성, 평가, 태도 등의 주관적인 정보를 컴퓨터로 분석하는 것을 뜻한다. 특정 단어만 찾아서 그 문장이 긍정/부정을 분류하는 것이 아닌 문장을 문맥을 파악하여 감정을 분류하는 것이 매우 중요하다.
감정 분석은 크게 두가지로 이루어져있다.
첫 번째 단계로 문장의 어떤 부분에 의견이 담겨있는 지를 정의(Opinion definition)하며 그 다음으로는 첫 번째 단계를 통해 모아진 의견을 요약(Opinion summerization)을 하게 된다.
SOTA 모델 소개(대표적인 모델 1개)
- Task의 SOTA 모델은 무엇이며 해당 모델 논문의 요약에서 주요 키워드는 무엇인가?
- Summary picture:
SMART of Keyword
- Smoothness-Inducing Adversarial Regularization: "모델의 복잡도를 조절하겠다!"("Control Model Capacity)
- Bregman Proximal Point Optimization: "(경사하강법 중에) 급하게 Update하지 않겠다."(Prevent Aggressive Update)
What is Smoothness-Inducing Adversarial Regularization?
기본 아이디어는 데이터에 Noise(정확히는 Perturbation)을 주어 Generalization을 확보하겠다는 것에서 부터 시작한다.
이 모델은 특이하게 Loss Function을 구하기 위해 2번의 절차를 거치는데 첫번째는 noise(:=Perturbation)를 포함한 확률값과 noise를 부과하지 않은 확률값을 비교하여 이 loss function을 최대화시킨다. → 위의 그림에서 노란색 화살표를 포함한 네모
그리고 이를 다시 전체 Loss Function에 부과하는데 Language Model을 구하는데 발생하는 loss와 앞서 구한 1차 loss의 합을 최소로 하는 파라미터를 구하는 것이다. → 이 과정을 위의 그림에서 테두리가 부드럽게 표현하였다
What is Bregman Proximal Point Optimization?
우리가 교과서에서 배운 Gradient Decent는 왼쪽과 같이 완만한 기울기를 가지고 있었다. 하지만 현실의 언제나 그래왔듯이 Model의 기울기는 그렇지 않은데 그 이유는 파라미터들이 수없이 많기 때문이다.
learning rate를 조정하여도 급속적인 조정이 일어날 수가 있는데, SMART는 Bregman Proximal Point Optimization을 통해 원본과 가장 가깝게 Gradient Decent를 진행한다.
하지만 이러한 방법의 문제점은 원본과 가깝게 학습을 하면 학습이 아예 진행되지 않거나 느리게 되는 부작용을 발생시킨다. 이를 보완시키기 위해 Momentum의 원리를 차용하여 파라미터들을 갱신해 나간다.
결론: SMART는 규제를 통해서 Overfitting을 방지하는 모델이다. 규제는 크게 두가지로 이루어지는데 하나는 데이터에 노이즈를 주어 Generalization을 확보하는 것과 Gradient Decent의 속도를 줄여나가는 것이다.
데이터 소개(대표적인 데이터 1개)
- Task를 해결하기 위해 사용할 수 있는데 데이터가 무엇인가?
- 데이터의 구조는 어떻게 생겼는가?
SMART의 Dataset은 GLUE Benchmark을 사용하였다.
대부분의 경우에 타 모델들 보다 좋은 성능을 발휘했으며
앙상블을 한 경우와 단일 모델로 한 경우에서도 좋은 결과를 기록하였다.
'NLP > Paper Review' 카테고리의 다른 글
Day 3. 논문 리뷰 (4) | 2022.02.23 |
---|---|
Day 1. NLP task 탐색 (4) | 2022.02.21 |