논문 정보
- Large Language Models as Data Augmenters for Cold-Start Item Recommendation
- https://dl.acm.org/doi/10.1145/3589335.3651532
- WWW’24
LLM을 통해 콜드스타트 문제를 완화하는 방법론에 관심이 있어서 읽어보게 되었습니다.
Abstract & Introduction
개요
이 논문은 대규모 언어 모델(LLM: Large Language Model)의 추론 및 일반화 능력을 기존 추천 시스템에서 특히 콜드스타트 아이템(cold-start items)을 추천하는 문제에 활용할 수 있는지에 대해 탐구한다. 전통적인 추천 시스템은 사용자-아이템 간 상호 작용(interaction) 로그가 풍부할 때는 우수한 성능을 내지만, 새로운 아이템(콜드스타트 아이템)에 대한 상호 작용 데이터가 부족하면 일반적으로 좋은 추천 결과를 내기 어렵다. 이를 보완하기 위해, 저자들은 LLM을 데이터 증강(data augmentation) 도구로서 활용하고자 한다.
주요 동기
- 콜드스타트 아이템 추천 문제
- ID 기반 임베딩을 사용하는 추천 모델들은 학습 시 아이템에 대한 충분한 상호 작용 데이터가 필요하다. 그런데 새로 생성되었거나 이전에 잘 노출되지 않은 아이템(인기가 없거나 덜 알려진 아이템.. tail content)은 훈련 데이터에 상호 작용이 부족하여 잘 학습하지 못한다.
- Content based 추천모델은 콜드스타트 문제를 완화하기 위해 아이템의 meta features를 활용하여, 상호작용이 풍부한 아이템으로부터 학습된 특징을 콜드스타트 아이템으로 일반화 하는 것을 목표로 한다.
- LLM의 잠재적 장점: LLM(예: PaLM, GPT 등)은 이미 웹 전반의 방대한 텍스트 데이터를 학습해 세상에 대한 포괄적 지식을 갖추고 있으며, 사용자와 아이템에 대한 텍스트 기반 묘사를 결합하여 “이 사용자가 이 새 아이템을 좋아할지”와 같은 질문을 추론할 수 있는 강력한 능력이 있음을 여러 선행 연구들이 시사해 왔다.
- Serving issue : 대부분의 대규모 LLM은 추론 비용이 높기 때문에, 추천 서비스의 실시간 서빙 단계에서 직접 LLM을 이용해 대규모 후보를 실시간으로 걸러내는 것은 높은 비용을 필요로 한다.
- 논문에서는, LLM을 실제 서빙 과정이 아닌 학습(training) 단계에서 데이터 증강 도구(data augmenter)로 한정하여 활용함으로써 계산 비용과 latency를 모두 줄이는 방안을 제안한다.
Related Work
LLM을 이용한 추천 연구
- LLM을 추천 모델로 직접 사용하거나 LLM으로부터 얻은 임베딩이나 텍스트로부터 추출된 특성을 특징(feature)으로만 활용해 기존 추천 모델의 표현력을 높이는 시도가 증가하고 있다.
- 그러나 LLM을 직접 serving하여 추천하는 방식은 높은 비용, 높은 latency를 초래한다.
- 본 논문은 LLM을 서빙 단계가 아닌 학습 전 처리 과정에만 활용하여, 콜드스타트 아이템들에 대한 synthetic feedback(합성 feedback, 데이터 증강)를 만들어 내는 아이디어를 고안하였다.
콜드스타트 문제
- 기존에는 아이템 메타데이터(예: 제목, 카테고리, 설명 등)를 사용하거나, few interaction만으로 임베딩을 학습하는 메타 러닝 기법(ex. MeLU) 등이 시도되어 왔으나, 상호작용이 전혀 없는 콜드스타트 아이템에는 여전히 한계가 있었다.
- 논문에서는 LLM을 활용하여 synthetic training signals를 생성하는 방법을 탐색하고, 협업 임베딩(collaborative embedding)을 직접 학습할 수 있도록 한다.
데이터 증강(Data Augmentation)
- 데이터 증강은 원래 이미지나 자연어 처리 분야 등에서 모델 일반화 능력을 높이는 대표적인 기법이다.
- 추천 시스템에서 사용자의 시퀀스를 조금씩 증강(cropping, masking, reordering 등)하거나 less-active user의 데이터를 learning-to-learning 파이프라인을 통해 증강하는 연구는 성능을 향상시켰다.
- 본 논문은 더 나아가 과거의 상호작용을 기반으로 user behavior understanding을 위한 증강 학습 데이터를 생성하는 최초의 연구로, knowledge gap을 해소하고자 한다.
Preliminaries
기본 추천 모델 구조
- 정의
- User set U = {u_1, u_2, ... , u_G}
- warm Item set I_warm = {i_1, i_2, ... , u_p}
- Cold-start item set I_cold = {i_{p+1}, i_{p+2}, ... ,i_{p+N}}
- Latent Factor 모델
- 대표적인 방법으로, 사용자 임베딩 와 아이템 임베딩 간의 내적(dot product)을 취해 연관성(compatibility)를 측정한다.
- compatibility \hat y_{u,i} = V^{T}_u V_i
- V_u : user u의 잠재요인 벡터, V_i : item i의 잠재요인 벡터
- 많은 추천시스템들이 latent factor 모델의 확장으로 볼 수 있는데, cold-start item은 V_i 가 없기 때문에, synthetic data를 이용하고자함
LLMs as Data Augmenters
전반적 아이디어
LLM을 직접 서빙하는 대신 (사용자 이력, 아이템 설명) → (선호도) → (학습 데이터)의 파이프라인을 구성한다.
- 사용자 이력(User query) 작성: 예를 들어, 한 사용자가 과거에 구매(또는 클릭)했던 몇 개의 아이템의 텍스트 설명(제목, 카테고리 등)을 나열한다.
- Pairwise 방식 사용: 아직 학습 데이터에 등장하지 않은 아이템(= 콜드스타트 아이템) 중 2개(A, B)를 무작위로 뽑아 어떤 것을 선호하는지 묻는 방식
- LLM을 활용하여 pairwise 선호 생성 : “해당 사용자 이력을 보았을 때, 사용자는 아이템 A와 B 중 어느 것을 더 선호할 것인지?”를 묻는 pairwise Comparison 형태의 프롬프트를 생성한다
Pairwise Comparison 방식을 채택하는 이유
- 저자들은 LLM이 특정 아이템에 대한 선호도를 개별적으로 비교하는 Pointwise 방식보다 Pairwise(두 아이템 중 선호도를 비교하는 Pairwise 방식을 사용할 때 더 안정적이고 일관성 있는 출력을 준다고 한다.→ 또한 pairwise 답변은 BPR(Bayesian Personalized Ranking)과 같은 대표적인 pairwise loss로 자연스럽게 연결된다.
- pointwise 방식은 긍정적인 대답이 적은 반면, pairwise 방식은 명확하게 선호도 판단 가능
Pairwise Loss 통합
- 기존 추천 모델의 손실 함수 : 보통 sampled softmax 혹은 pointwise cross-entropy 방식을 사용한다.
- 추가적으로 본 논문에서는 LLM으로부터 얻은 (A > B)라는 정보를 BPR 형태의 auxiliary loss로 정의한다:
Experiments
5.1 Experimental Setup
데이터셋
- Amazon 리뷰 데이터셋(Beauty, Sports and Outdoors)을 사용.
- 시간에 따른 데이터를 7:3으로 split
- Time-point 이전의 데이터는 모델 훈련에 사용, 이후의 데이터는 모델 테스트에 사용
- Cold-start 및 Warm-start 아이템 정의:
- cold-start item : 테스트 데이터에만 나타나는 아이템
- warm-start item : 나머지, 즉 학습, 테스트 둘다 있는 아이템
3 variations with backbones
- w/o augmentation: LLM 활용 없이 기존 NeuMF, SASRec 모델을 학습.
- content-based: 아이템의 제목, 카테고리 등을 BoW 형태로 인코딩하여 학습에 사용(콜드스타트 시 아이템의 메타 정보를 통해 임베딩 대체).
- w/ augmentation: LLM을 사용하여 생성된 augmented 데이터를 활용하고, pairwise comparison loss를 통해 학습 과정을 보완하는 방법
LLM 모델
- Google의 PaLM2(XXS, S, L 등)을 사용. 추가적인 파인튜닝 없이, 바로 프롬프트를 생성하여 사용
- 데이터 증강 비율: 학습에 쓰이는 사용자 쿼리 중 일부를 샘플링하여, 각 쿼리마다 콜드스타트 아이템 쌍에 대한 LLM 응답을 생성.
평가 지표
- Recall@K(R@K)를 사용.
- 추가로, 테스트 셋에서 콜드스타트 아이템만 정답인 경우와 웜스타트 아이템이 정답인 경우를 구분해 성능을 확인(“cold-start” vs. “warm-start”).
5.2 Results and Analysis
- Cold start : LLM augmentation방식이 기존 모델보다 Recall@K가 향상됨
- content-based 방식 : 콜드스타트에 어느 정도 효과가 있으나, collaborative signal을 무시하여 웜스타트 아이템 추천 성능이 크게 하락
- LLM augmentation : 콜드스타트 성능을 크게 올리면서도, ****일부 recall 지표에서 warm-start item 추천 성능을 약간 저하시키는 경향이 있지만 성능 향상에 비해 미미함
LLM 모델 크기에 따른 비교
- PaLM2의 여러 사이즈( XXS, S, L)로실험하면, 당연히 더 큰 모델이 더 좋은 증강 데이터를 만들어내 콜드스타트 추천 성능이 좋아지는 경향을 보인다.
- 다만 XXS 등 작은 모델을 사용해도 의미 있는 성능 향상이 관측되어, 모든 크기의 LLM이 데이터 증강 도구로서 어느 정도 가치를 지닌다고 말할 수 있다.
증강 데이터 양에 따른 비교
- 사용자 쿼리 중 더 많은 비율을 샘플링해 증강 데이터를 생성할수록 콜드스타트 성능이 증가한다.
- 그러나 약 40% 이상의 비율로 늘렸을 때는 성능 향상이 감소하는 양상을 보인다.
- 즉, 일정 수준을 넘어가면 LLM이 생성한 증강 데이터의 한계가 보임
Conclusion
본 논문은 대규모 언어 모델(LLM)을 콜드스타트 아이템 학습 데이터 보강에 활용하는 아이디어를 제안했고, pairwise comparison를 활용한 BPR auxiliary loss로 기존 모델을 보완함으로써, 콜드스타트 상황에서의 사용자-아이템 연관성을 더 정확히 학습할 수 있음을 보였다.
의의
- 실시간 서빙 비용 절감: LLM을 실제 서빙 과정에서 호출하는 대신, 학습 전 단계에 synthetic(augmented) data를 만들어 두기 때문에 대규모 추천 서비스 환경에도 적용 가능하다는 장점이 있다.
- 모델·플랫폼 독립적: 이 synthetic data는 어떤 추천 모델에든지 손쉽게 추가 가능하며, Pairwise Loss 형태이므로 BPR 기반의 다양한 협업 필터링에 손쉽게 통합할 수 있다.
- 콜드스타트 문제 개선: 특히나 아이템 메타정보만으로는 부족하거나, 사용자들이 공통으로 좋아할 만한 특성을 자연어 지식을 활용해 LLM이 유추해줄 수 있다는 것에서 좋다.
'AI > Paper' 카테고리의 다른 글
AlignRec: Aligning and Training in Multimodal Recommendations (0) | 2025.05.13 |
---|---|
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned (1) | 2025.03.18 |