EMNLP 21, Types of Out-of-Distribution Texts and How to Detect Them
이 논문은 자연어 처리 모델이 흔히 마주치는 out-of-distribution (OOD) 예제들을 배경 변화(background shift)와 의미 변화(semantic shift)로 분류하고, 이러한 유형의 OOD 데이터에 대해 모델 calibration 방법과 density estimation (언어 모델링) 방법이 어떻게 다른 행동을 보이는지 연구했습니다.
14개의 영어 자연어 이해 데이터셋 쌍(in-distribution, out-of-distribution)에 대한 실험 결과, density estimation 방법이 배경 변화 상황에서는 calibration 방법보다 일관되게 우수한 성능을 보인 반면, 의미 변화 상황에서는 성능이 떨어졌습니다.
또한 두 방법 모두 challenge 데이터셋의 예제들을 탐지하는 데 실패하는 경향을 보였는데, 이는 현재 방법들의 취약점을 보여줍니다.
한 가지 방법으로 모든 상황에서 잘 작동하지는 않기 때문에, 이 결과는 서로 다른 OOD 탐지 방법을 평가할 때 OOD 예제에 대한 명시적 정의가 필요함을 시사합니다. 즉, OOD의 유형에 따라 적절한 탐지 방법을 선택하고 그에 맞는 벤치마크를 만드는 것이 중요합니다.
요약하면 이 논문은 NLP 모델이 실제로 마주칠 수 있는 다양한 유형의 OOD 데이터를 분석하고, 그에 따른 탐지 방법의 장단점을 실험적으로 확인했다는 점에서 의의가 있습니다. 향후 OOD 탐지 기술 개발에 있어 OOD 유형에 대한 세부적인 정의와 그에 맞는 평가 지표 개발이 중요할 것으로 보입니다.
* background shift:
Background shift는 자연어 처리 모델이 학습 데이터와 다른 도메인 또는 배경의 데이터를 만났을 때 발생하는 distribution shift의 한 유형입니다. 좀 더 자세히 설명하면 다음과 같습니다:
1. 정의: Background shift는 입력 문장의 배경 특징(예: 장르, 문체, 토픽 등)의 분포가 학습 데이터와 테스트 데이터 사이에 큰 차이가 있을 때 발생합니다. 반면 의미적 특징(semantic feature)의 분포는 비교적 유사합니다.
2. 예시: 영화 리뷰 감성 분류 모델을 학습시킬 때 IMDB 데이터를 사용했다면, 이 모델을 Yelp의 식당 리뷰 데이터에 적용하는 것이 background shift에 해당합니다. 두 도메인 모두 sentiment label을 가지지만, 배경 단어(영화 vs. 음식점)의 분포가 다릅니다.
3. 탐지 방법: Background shift는 density estimation 방법(예: 언어 모델의 perplexity 이용)으로 비교적 잘 탐지되는 경향이 있습니다. 이는 배경 단어 분포의 변화를 언어 모델이 민감하게 포착할 수 있기 때문입니다.
4. Challenge: 때로는 background shift가 매우 subtly하게 발생할 수 있기 때문에(예: "and true is true" 문장 추가) 탐지가 쉽지 않을 수 있습니다.
5. 대응 방안: Background shift 데이터를 미리 학습에 포함시키거나(data augmentation), 모델의 일반화 능력을 높이는 방법(domain adaptation)으로 모델 성능을 개선할 수 있습니다. 하지만 고위험 응용 분야에서는 OOD 탐지를 통해 모델이 스스로 탐지하고 대응하는 것이 바람직합니다.
이처럼 background shift는 자연어 처리 모델이 실제로 자주 마주칠 수 있는 distribution shift의 중요한 유형 중 하나이며, 이를 효과적으로 탐지하고 대응하는 것이 모델의 실용성을 높이는 데 중요합니다. 이 논문은 background shift의 특성을 분석하고 그에 적합한 탐지 방법을 실험적으로 제시했다는 점에서 의의가 있습니다.
* 배경 변화(background shift)와 의미 변화(semantic shift)의 차이점:
Background shift와 semantic shift는 모두 자연어 처리 모델이 마주할 수 있는 out-of-distribution (OOD) 데이터의 유형이지만, 그 특성에 있어 몇 가지 중요한 차이점이 있습니다.
1. 정의의 차이:
- Background shift: 입력 문장의 배경 특징(예: 장르, 문체, 토픽 등)의 분포가 학습 데이터와 테스트 데이터 사이에 큰 차이가 있는 경우.
- Semantic shift: 입력 문장의 의미적 특징(예: 감성, 의도, 엔티티 유형 등)의 분포가 학습 데이터와 테스트 데이터 사이에 큰 차이가 있는 경우.
2. 레이블과의 관계:
- Background shift: 배경 특징은 일반적으로 레이블과 독립적입니다. 예를 들어 영화 리뷰와 식당 리뷰는 도메인은 다르지만 감성 레이블(긍정/부정)을 공유합니다.
- Semantic shift: 의미 특징은 레이블과 밀접한 연관이 있습니다. 예를 들어 학습에 없던 새로운 감성이나 의도가 테스트 데이터에 등장하는 경우입니다.
3. 탐지 방법의 차이:
- Background shift: Density estimation 방법(예: 언어 모델의 perplexity)이 배경 토큰 분포의 변화를 잘 포착할 수 있어 탐지에 효과적입니다.
- Semantic shift: Calibration 방법(예: 분류 모델의 confidence score)이 레이블 관련 특징 변화에 민감하게 반응하므로 탐지에 유리합니다.
4. 대응 방안의 차이:
- Background shift: 모델의 일반화 능력을 높이는 방법(domain adaptation)이 도움될 수 있습니다.
- Semantic shift: 미학습 클래스를 탐지하고 거절하는 방법(open-set recognition)이 필요할 수 있습니다.
이처럼 background shift와 semantic shift는 distribution shift를 일으키는 주된 원인(feature)과 레이블과의 관계, 그리고 효과적인 탐지/대응 방법 등에서 차이를 보입니다. 따라서 OOD 데이터의 유형을 구분하고 그 특성을 이해하는 것이 적절한 탐지 및 대응 전략을 수립하는 데 도움이 될 수 있습니다. 이 논문은 background shift와 semantic shift를 구분하는 프레임워크를 제시하고, 실험을 통해 각각에 적합한 탐지 방법을 분석했다는 점에서 의의가 있습니다.
* Calibration 방법
Calibration 방법은 모델의 예측 신뢰도(confidence)를 실제 정확도에 가깝게 조정하는 기법들을 말합니다. 신경망 모델은 종종 overconfident한 경향이 있기 때문에, 이를 보정하기 위해 다양한 calibration 방법이 연구되어 왔습니다. 특히 OOD 탐지 분야에서는 in-distribution 데이터에 대한 신뢰도는 높이고, OOD 데이터에 대한 신뢰도는 낮추는 것이 목표입니다. 대표적인 calibration 방법들은 다음과 같습니다:
1. Temperature Scaling:
- 모델의 로짓(logit)에 temperature 파라미터 T를 도입하여 softmax 확률을 조정하는 방법입니다.
- T > 1이면 확률 분포가 평평해져 신뢰도가 낮아지고, T < 1이면 확률 분포가 sharpening되어 신뢰도가 높아집니다.
- 간단하지만 효과적인 사후 처리 기법으로, 많이 사용되고 있습니다.
2. Platt Scaling:
- 로짓에 시그모이드 함수를 적용하고, 스케일과 바이어스 파라미터를 학습하여 확률을 조정하는 방법입니다.
- SVM의 calibration에 처음 제안되었지만, 신경망에도 적용 가능합니다.
3. Isotonic Regression:
- 모델의 예측 확률을 bin으로 나누어, 각 bin의 평균 정확도에 맞게 단조 함수를 학습하는 방법입니다.
- Platt scaling이 시그모이드 함수로 제한한 것과 달리, 더 유연한 함수를 사용할 수 있습니다.
4. Beta Calibration:
- 베타 분포를 이용하여 모델의 예측 확률을 조정하는 방법입니다.
- 베타 분포의 두 파라미터를 예측 확률의 함수로 모델링하여 유연성을 높였습니다.
5. Bayesian Binning into Quantiles (BBQ):
- 예측 확률을 quantile로 나누고, 각 quantile에서의 정확도에 따라 확률을 조정하는 방법입니다.
- Quantile 수를 조절하여 calibration의 강도를 조절할 수 있습니다.
6. Ensemble Temperature Scaling:
- 여러 개의 Temperature Scaling 모델을 앙상블하여 calibration 성능을 높이는 방법입니다.
- 각 모델의 temperature를 독립적으로 조절하여 다양성을 확보할 수 있습니다.
위의 방법들은 대부분 사후 처리 기법으로, 이미 학습된 모델의 출력을 조정하는 데 사용됩니다. 따라서 구현과 적용이 비교적 간단하다는 장점이 있습니다. 이 중 Temperature Scaling이 가장 널리 사용되는 방법이지만, 데이터의 특성에 따라 다른 방법이 더 효과적일 수 있습니다.
Calibration은 모델이 스스로의 예측에 대해 정직해지도록 만드는 기술로, OOD 탐지 외에도 시스템의 신뢰성과 안전성을 높이는 데 중요한 역할을 합니다. 최근에는 calibration을 향상시키기 위한 학습 목적함수(loss function)나 데이터 증강(augmentation) 기법 등도 활발히 연구되고 있습니다.
FACL 23, effient OOD detection for seq2seq models
이 논문은 sequence-to-sequence(seq2seq) 모델에서 out-of-domain(OOD) 샘플을 효율적으로 탐지하는 방법에 대한 연구입니다.
주요 내용은 다음과 같습니다:
1. 기계 번역, 텍스트 요약, 질의응답 등 3가지 sequence generation 태스크에 대해 실험을 수행했습니다.
2. In-domain 데이터와 out-of-domain 데이터 간 성능 차이를 비교했고, OOD 탐지의 필요성을 입증했습니다.
3. 다양한 uncertainty estimation 기법들을 비교 분석했습니다. 특히 기존의 ensemble 기반 방법들과 MC dropout 기반 방법들은 계산량이 많은 단점이 있음을 지적했습니다.
4. Density 기반의 방법인 Mahalanobis Distance(MD)와 Robust Density Estimation(RDE)을 처음으로 seq2seq 모델에 적용하고, 이들이 기존 방법 대비 성능과 계산 효율 측면에서 우수함을 보였습니다.
5. Encoder에서 추출한 representation으로 MD와 RDE를 계산하는 것이 가장 좋은 성능을 냈습니다.
6. 제안 방법은 번역, 요약, QA의 3가지 태스크에서 모두 ensemble 기반 방법보다 뛰어난 OOD 탐지 성능을 보였습니다.
7. 제안 방법은 계산 비용 측면에서도 효율적이어서 실제 적용 가능성이 높습니다.
이 연구는 seq2seq 모델의 uncertainty 추정과 OOD 탐지 분야에 density 기반 접근 방식을 도입해 의미있는 성과를 거두었다는 점에서 기여도가 높다고 평가할 수 있겠습니다.
AAAI 21, revisiting mahalanobis distance for transformer-based OOD detection
이 논문은 대화 시스템에서 중요한 역할을 하는 out-of-domain(OOD) 발화 탐지 방법에 대해 다룹니다. 주요 내용은 다음과 같습니다.
1. OOD 발화 탐지 방법 비교 실험을 위해 CLINC150, ROSTD, SNIPS 등 3개의 intent 분류 데이터셋을 사용했습니다. bag-of-words부터 최신 pre-trained Transformer 모델까지 다양한 text representation 모델을 활용했습니다.
2. 실험 결과, fine-tuning된 Transformer 모델에 Mahalanobis distance를 적용하는 것이 가장 우수한 OOD 탐지 성능을 보였습니다. 특히 in-domain(ID) 데이터로 fine-tuning하는 것이 embedding space를 재구성해 성능 향상에 중요한 역할을 합니다.
3. 제안 방법은 모델 경량화(distillation)에도 robust합니다. Distilled 모델의 성능이 full-size 모델과 유사했습니다.
4. Fine-tuning된 Transformer는 ID 발화를 균질한(homogeneous) representation으로 mapping할 수 있습니다. 이는 OOD 발화와 기하학적 차이(disparity)를 만들어내고, 이를 Mahalanobis distance가 쉽게 포착할 수 있게 합니다.
5. 의미적으로 유사한 발화 중 하나는 ID이고 다른 하나는 OOD인 경우에는 여전히 어려움이 있습니다. 향후 intent 분류의 정확도와 OOD 탐지 성능 간의 trade-off를 고려한 연구가 필요합니다.
즉, OOD 발화 탐지 성능 향상을 위해 Transformer 기반 모델을 ID 데이터로 fine-tuning하고, Mahalanobis distance를 활용하는 방법을 제안하고 있습니다.
ACL 22, unsupervised NLI using PHL triplet generation
이 논문은 자연어 추론(Natural Language Inference, NLI) 작업을 수행하는데 있어 레이블된 훈련 데이터가 전혀 없는 비지도 학습(unsupervised learning) 설정에서의 접근 방식을 다룹니다. 구체적으로 세 가지 비지도 학습 설정인 PH, P, NPH를 탐구하였는데, 이는 학습에 활용 가능한 레이블되지 않은 데이터의 정도에 따라 구분됩니다.
이에 대한 해결책으로 전제(premise), 가설(hypothesis), 레이블(label)로 구성된 PHL 트리플릿을 생성하기 위한 절차적 데이터 생성(procedural data generation) 방식을 제안합니다. 이는 문장 변환 기법을 활용해 사람이 주석한 훈련 데이터가 필요없이 NLI 모델을 학습시키는 방법입니다.
여러 NLI 데이터셋에 대한 실험을 통해 제안된 방식이 PH, P, NPH 설정에서 각각 66.75%, 65.9%, 65.39%의 정확도를 달성해 기존 비지도 학습 방식 대비 뛰어난 성능을 보였습니다.
또한 제안 모델을 소량의 레이블된 데이터(예: 500개)로 추가 학습시키는 것이 처음부터 해당 데이터로만 학습시키는 것보다 12.2% 더 높은 정확도를 달성함을 보였습니다.
이러한 결과를 바탕으로 적은 양의 양질의 데이터를 수집하는 것이 대량의 약한 품질 데이터를 수집하는 것보다 더 효과적이라는 제안을 하고 있습니다. 즉, 제안된 비지도 학습 방식으로 NLI 모델을 먼저 학습시킨 후, 소량의 adversarial한 데이터로 모델을 개선하는 것이 최선의 데이터 수집 전략이 될 수 있음을 시사합니다.
* PH, P, NPH의 차이점:
PH, P, NPH는 자연어 추론(NLI) 작업을 위한 비지도 학습 설정으로, 학습에 사용 가능한 레이블되지 않은 데이터의 정도에 따라 구분됩니다.
1. PH (Premise-Hypothesis) 설정:
- 전제(premise)와 가설(hypothesis) 쌍은 제공되지만, 정답 레이블은 제공되지 않습니다.
- 즉, 레이블되지 않은 전제-가설 쌍 데이터셋 {(P_i, H_i)}^M_i=1 이 주어집니다.
- 일반적인 비지도 학습 설정에 해당합니다.
2. P (Premise-only) 설정:
- 훈련 데이터셋의 전제(premise)만 제공됩니다. 즉, {(P_i)}^M_i=1 만 주어집니다.
- 가설이나 레이블은 제공되지 않아 PH 설정보다 더 어려운 조건입니다.
- 대규모 NLI 데이터셋 수집 과정을 반영한 설정으로, 크라우드 워커들에게 전제만 제공하고 각 레이블에 해당하는 가설을 작성하도록 하는 방식과 유사합니다.
3. NPH (No Premise-Hypothesis) 설정:
- 전제, 가설, 레이블 중 어떤 것도 제공되지 않습니다.
- 즉, 훈련 데이터셋의 어떤 부분도 주어지지 않아 세 가지 설정 중 가장 어려운 조건입니다.
- 테스트 데이터셋에 대한 추론은 필요하지만 그에 상응하는 훈련 데이터셋이 전혀 없는 상황을 가정합니다.
위 세 가지 설정은 PH에서 P, 그리고 NPH로 갈수록 주어지는 정보가 줄어들어 작업의 난이도가 높아집니다. 본 논문에서는 각 설정의 어려움을 해결하기 위해 제한된 정보로부터 PHL 트리플릿을 생성하는 절차적 방법을 제안하고 있습니다.
* 절차적 데이터 생성에 사용된 규칙의 개수:
논문에서는 PHL 트리플릿을 생성하기 위해 다음과 같은 세 가지 유형의 문장 변환 규칙을 사용했습니다.
1. Entailment (포함) 관계 생성을 위한 변환:
- Paraphrasing (PA)
- Extracting Snippets (ES)
- Hypernym Substitution (HS)
- Pronoun Substitution (PS)
- Counting (CT)
2. Contradiction (모순) 관계 생성을 위한 변환:
- Contradictory Words (CW)
- Contradictory Verb (CV)
- Subject Object Swap (SOS)
- Negation Introduction (NI)
- Number Substitution (NS)
- Irrelevant Hypothesis (IrH)
3. Neutral (중립) 관계 생성을 위한 변환:
- Adding Modifiers (AM)
- ConceptNet (Con)
- Same Subject but Non-Contradictory Verb (SSNCV)
위와 같이 Entailment 관계 생성을 위한 5가지, Contradiction을 위한 6가지, Neutral을 위한 3가지 등 총 14가지의 문장 변환 규칙이 사용되었습니다.
또한 동일한 문장에 여러 규칙을 조합해 적용함으로써 보다 다양한 PHL 트리플릿을 생성하는 복합 변환(composite transformations)도 활용되었습니다.
Journal of the American Medical Informatics Association, 2024, Improving large language models for clinical named entity recognition via prompt engineering
이 논문은 임상 Named Entity Recognition(NER) 작업을 위한 GPT-3.5와 GPT-4 언어 모델의 잠재력을 연구한 내용입니다. 주요 내용은 다음과 같습니다.
1. 연구자들은 2개의 임상 NER 데이터셋인 MTSamples과 VAERS를 사용하여 GPT-3.5와 GPT-4 모델의 성능을 평가했습니다.
2. 모델 성능 향상을 위해 prompt engineering 기법을 활용하여 어노테이션 가이드라인, 에러 분석 기반 지침, few-shot 예시를 프롬프트에 통합하는 임상 task-specific 프롬프트 프레임워크를 제안했습니다.
3. 제안된 프롬프트 전략을 사용할 경우 GPT 모델의 성능이 크게 향상되었고, 특히 GPT-4 모델은 기존 최신 BioClinicalBERT 모델과 유사한 성능을 보여주었습니다.
4. 대규모 언어 모델은 임상 NER 시스템 개발 방식에 패러다임적 변화를 가져올 것으로 예상되며, 전통적인 방식에 비해 데이터 레이블링 등의 비용을 크게 절감할 수 있을 것입니다.
5. 그러나 전문가의 역할은 여전히 중요하며, 가이드라인 작성, 초기 어노테이션, 검증 등에서 전문 지식이 필요할 것입니다. 또한 언어 모델 기반 시스템의 자원 요구 사항과 비용에 대한 추가 연구가 필요합니다.
6. 정확한 NER 모델 평가를 위해서는 언어 모델에 특화된 새로운 평가 체계 개발이 필요할 것으로 보입니다.
종합하면 이 연구는 프롬프트 엔지니어링을 통해 GPT 모델을 임상 NER에 활용할 수 있는 가능성을 제시하고, 언어 모델 기반 NER 시스템 개발을 위한 중요한 고려사항들을 논의하고 있습니다.