어쩌다 보니 생성형 AI에 대한 Red Teaming Test에 대해 조사 할 일이 생겨 읽어보게 되었습니다.
논문 제목 : Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned
논문 링크 : https://arxiv.org/abs/2209.07858
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned
We describe our early efforts to red team language models in order to simultaneously discover, measure, and attempt to reduce their potentially harmful outputs. We make three main contributions. First, we investigate scaling behaviors for red teaming acros
arxiv.org
Abstract & Introduction
LLM은 사회적 편향(bias), 유해한 출력 (toxic output), privacy lack 등 잠재적으로 유해한(harmful) output을 생성할 가능성이 크다.
→ 이런 위험을 완화하기 위하여 여러 가지 접근법이 시도되고 있으며, 그중 ‘Red Teaming’은 모델의 악의적이거나 유해한 행동을 ‘의도적으로’ 이끌어 내는 테스트 과정을 통해서 모델의 잠재적인 취약점을 찾고, 데이터 및 학습 방식의 개선점을 도출하는 방법이다.
원래 Red Team이란?
Red Team은 모의 군사훈련에서 적의 역할을 수행하는 팀을 칭하던 군사 전략에서 나온 개념으로, 적의 입장에서 문제를 분석하고 시뮬레이션하여 대응책을 마련하는 역할을 의미한다.
본 논문에서는 Red Teaming을 통해 언어 모델이 얼마나 쉽게 유해한(harmful) output을 생성하는지를 ‘발견(discover)’, ‘측정(measure)’, 그리고 ‘감소(reduce)’할 수 있는지에 대한 방법론과 실험 결과를 제시한다.
논문에서 사용된 모델은 각각 2.7B, 13B, 52B이며, 4종류로 구성된다.
- plain LM : 기본 언어 모델
- HHH prompted LM : “helpful, honest, and harmless” 프롬프트를 추가한 모델
- Rejection Sampling(RS) 모델
- 인간 피드백을 활용한 강화학습(RLHF) 모델
주요 기여
- Scaling Behavior 분석 : 모델 크기별로 얼마나 ‘Red Teaming 공격에 취약한가’를 평가. 특히 RLHF 모델이 규모가 커질수록 공격하기 어려워지는 것을 확인.
- Red Team 데이터세트 공개 : 4개 모델(크기별 총 12개 모델 변형)에 대한 38,961개의 적대 시나리오를 담은 대규모 데이터 공개.
- Red Teaming 전 과정 투명화 : Crowdworkers의 안전을 보장하기 위한 정책, 어노테이션 절차, 통계적 평가 방법 등을 구체적으로 기술
- Crowdworkers : 온라인 플랫폼을 통해 다양한 작업을 수행하는 다수의 작업자로 해당 논문에서는 실험 참가자를 의미
Methods
논문의 방법론은 크게 (1) Red Team Task(사람이 실제로 모델을 공격), (2) 모델의 종류, (3) Red Team 구성(어떻게 인력을 뽑고, 어떤 지침을 주는가), (4) 데이터 분석 및 어노테이션의 네 가지 측면으로 나뉜다.
1. Red Team Task
연구팀은 AI 어시스턴트와 open-ended conversations을 진행하며 AI가 유해한 발언을 하도록 유도하는 Red Team Task를 수행할 수 있는 인터페이스를 개발했다.
실험 전, 참가자(Red Team member)들과 인터뷰를 진행하여 혹시 모를 유해 상황을 방지했다.
- 주의사항과 윤리적 고려
- 본 연구에서 다룰 수 있는 주제는 매우 폭넓고, 폭력·혐오·차별 등 민감한 내용이 포함 될 수 있다는 명확하고 구체적인 경고문을 제공
- 특정 주제를 강제하지 않고, 참가자가 개인 위험 허용 범위 내에서만 공격하도록 함.
- 그 후, 참가자들의 부정적인 감정을 경험하지 않았음을 확인
- 인터페이스 설계
- 실험 참가자(red team member)는 모델과 4턴 동안 대화를 진행할 수 있음(엄격하게 제한하지 않아 일부는 더 길기도 함).
- 각 대화 턴 후에서, 모델이 생성한 2개의 응답(response)을 보여 주고, 실험 참가자(red team member)는 “더 해로운(harmful) 응답”을 선택함. 해당 데이터셋은 안전성을 평가하는 선호(preference) 모델 구축시 사용됨
- 대화를 마친 후, 참가자는 스스로 “유해한 발언을 하도록 유도하는 데 얼마나 성공했나?”를 Likert scale (ranging from 0 to 4)로 평가
2. 모델 구성
본 논문에서는 2.7B, 13B, 52B 파라미터 언어 모델을 각각 아래 네 가지 방식으로 변형하여 사용한다.
- Plain LM
- 명시적인 안전 장치가 없는 ‘기본’ 언어 모델.
- 1-shot prompt(대화 예시 1개)만 넣어서 대화형 모델로 전환.
- Prompted LM
- 14-shot prompt를 사용하여 "helpful, honest, harmless" 하도록 함
- 해당 방법이 모델이 커질수록 해로운 발화(toxicity)를 줄이는 데에 효과적.
- context distillation을 사용하여 제한된 window size와 추론 시간을 줄이도록 함
- Rejection Sampling(RS) 모델
- Prompted LM에서 한 번에 16개의 응답을 생성 후, 따로 학습된 Harmlessness Preference Model로 16개 중 가장 덜 해로운 2개만 최종 후보로 삼아 사용.
- Preference Model도 2.7B, 13B, 52B별로 대응하여 학습.
- Reinforcement Learning from Human Feedback(RLHF)
- Prompted LM을 위에서 언급한 Harmlessness Preference Model의 점수를 보상으로 삼아 강화학습으로 Fine-tuning.
- Preference Model도 2.7B, 13B, 52B별로 대응하여 학습.
- 결국 모델이 "Harmlessness 응답"을 하도록 최적화.
⇒ RLHF는 training cost가 많이 들지만 test에서 효율적이고, RS는 training cost가 적게들지만 test에서 비효율적
3. Red Team 구성
- 총 324명의 crowdworker가 참여하였고 시간 당 15달러 이상(혹은 20달러)을 보장하며 작업자에게 내용을 충분히 설명한다.
- 인구 통계 조사를 통하여 성별, 나이, 인종, 학력 등의 문항을 자유롭게 응답하게 했다.
→ 이 정보가 실제 공격 성공률과 상관관계를 보일 수 있기 때문에(편향 고려), 간단히 파악. - 약 50명의 상위 작업자가 전체 데이터의 80%를 생산하는 형태 (해당 요인 통제하면서 분석 진행)
4. 데이터 분석
- 총 38,961개의 공격 수집, 모델별로 약 1000회 이상의 공격이 포함되었다.
- Self-rating: Red Team 참가자가 스스로 “얼마나 성공했나?”라고 평가한 점수(0~4)로 0과 4에서 많은 분포를 보임
- Harmlessness Score : AI 모델의 무해성 판단하는 점수 (낮을수록 harmful)
Experiments & Results
1. 모델별 Red Teaming 공격 성공률
(1) Red Team의 자기 평가지표
- Plain LM과 Prompted LM 간에는 큰 차이가 없는 것을 확인.
- Rejection Sampling(RS) 모델은 어느 사이즈 모델에서도 공격 성공률이 가장 낮아 안전해보이지만, RS 모델은 회피형 응답을 제공하여 낮은 결과가 나왔다고도 볼 수 있음.
- 모델 사이즈(2.7B, 13B, 52B) 변화에 따라 결과가 크게 달라지지 않음. (강화학습 제외)
(2) Harmlessness Score
- Preference Model로 측정한 최소 harmlessness(가장 유해함) 점수 ([Figure 1, Middle])
- Reinforcement Learning(RLHF) 모델은 파라미터가 커질수록 확실히 더 안전(=해롭지 않음)해지는 경향을 보임
- Plain LM vs. Prompted LM은 별다른 차이가 크지 않음
- RS 모델은 harmlessness 점수가 가장 높았고, RLHF와 비슷하게 안정적이지만, 여전히 낮은 점수(해로운 예시)가 다소 존재함 ([Figure 1, Right])
2. Red Teaming 공격 패턴 시각화
- 밝을수록 Red Team의 공격이 성공적임
- 일반 폭력을 조장하는 방법을 요청하는 공격이 성공률이 높고, 언어 공격을 유도하는 경우에는 성공률이 낮음
3. Red Team Tags
- Non-violent unethical behavior(비폭력적 비윤리적 행위)는 높은 성공률을 보임 → 다른 유형보다 더 미묘하게 harmful한 응답을 이끌어 낼 수 있다고 해석 가능
Discussion
한계 및 향후 과제
- 일반화 부족: AI assistant 형태의 대화형 모델만을 대상으로 했기 때문에, 추천 시스템, 검색 엔진 등 다른 분야를 일반화하기엔 어려움
- 도메인 전문성 부족: 폭탄 제조, 의료, 금융 등 전문 지식이 필요한 공격 시나리오에서, 실제 크라우드워커가 충분히 전문성 있는 공격 시나리오를 만들었는지 불확실.
- 불완전성
- 참가자들이 자율적으로 주제를 선택하였는데, 이는 공격의 편향(bias)을 야기할 수도 있고, 다양한 공격을 관찰하지 못함. 코드 생성 능력 ( ex. DDoS 공격 구현 파이썬 프로그래밍) 관련 공격 시도 되지 않음
- 내부적으로 다른 공격을 시도했을 때 발견된 실패 케이스(공개되지 않은 Roleplay Attack 등)가 존재. 본 논문에서의 Red Teaming으로 충분히 포착되지 않았음을 시사.
- 수동적 방식 사용 : crowdworker에 의존하여 높은 비용과 비효율성 확인. 자동화 방식 필요
Policy Interventions
- Red Teaming 공유 및 공개의 필요성 : 시스템을 개선하기 위하여 광범위한 데이터가 필요함. 더 많은 조직이 작업 결과 서로 공유하여 안전한 모델을 사용할 수 있도록 하자.
- Red Teaming 가이드 필요 : Red team 구성 방법, 안전을 보장하기 위한 가이드, 모델에 대한 정보와 지침을 어떻게 제공할지 등등 다양한 전문가들이 방식을 공유하고 합의해야 함
Conclusion
- LLM을 타겟으로(Red Teaming)의 확장성 및 안전성 개입 효과를 평가
- 모델 크기 및 안전 기법에 따른 Red Teaming 효과
- RLHF(인간 피드백 기반 강화학습) 모델은 규모가 커질수록 공격하기 어려움
- 그러나 Prompted LM과 Plain LM은 큰 차이가 없었으며, Rejection Sampling은 안전하지만 종종 ‘회피’ 성향이 두드러져 규모에 따른 안정성 증가를 확인하기 어려움
- Red Teaming을 통해 다양한 유형의 harmful 확인
- 혐오 발언, 폭력 조장, 허위 정보, 개인정보 유출 등 다양한 유형의 harmful확인
- RLHF 모델은 공격을 회피하려고 하지만, 일부는 여전히 유해한 응답 생성
- 대규모 Dataset(약 39k) 공개
- 다양한 형태의 공격 시나리오를 수집해 공개함으로써, 추후 연구에서 자동화된 Red Teaming, 안전 분류기 훈련 등에 활용할 수 있도록 함
참고자료
[AI 윤리 세미나 ep.1] 생성형 AI를 위한 Red Team 연구 트렌드와 응용 사례 - LG AI Research BLOG
https://mindgard.ai/blog/red-teaming-llms-techniques-and-mitigation-strategies
'AI > Paper' 카테고리의 다른 글
AlignRec: Aligning and Training in Multimodal Recommendations (0) | 2025.05.13 |
---|---|
Large Language Models as Data Augmenters for Cold-Start Item Recommendation (1) | 2025.03.24 |