논문 정보
- AlignRec: Aligning and Training in Multimodal Recommendations
- https://arxiv.org/abs/2403.12384
- https://dl.acm.org/doi/10.1145/3627673.3679626
- CIKM’24
추천시스템에서 멀티모달 alignment 문제를 어떤식으로 해결하는지 궁금해서 읽어보게 되었습니다.
Abstract & Introduction
개요
최신 추천 시스템은 추천 정확도를 높이기 위하여 멀티모달 데이터에 의존하는 경향이 있다. 그러나 기존 방법들은 멀티모달 정보를 보조적(auxiliary)으로 사용하며, ID 기반 feature와의 embedding misalignment 문제가 존재한다. 본 논문은 이를 해결하기 위하여 3가지 정렬 task를 제시하고, 효율적인 학습을 위한 2단계 학습 전략을 제안한다.
기존 문제점
- 멀티모달 정보(이미지·텍스트 등)와 ID 기반 임베딩의 분포가 서로 달라서 단순히 결합하거나 부가적(auxiliary)으로 사용하게 되면 추천 품질이 떨어진다.
- 멀티모달 임베딩(특히, 이미지·텍스트 각각) 사이의 의미 불일치, 그리고 멀티모달과 ID 임베딩 사이의 불일치가 존재하여 적절한 추천을 제공하기 어렵다.
- 학습 속도의 불균형, 각 특징들이 추천 품질에 실제로 얼마나 기여하는지 분석이 어렵다.
Related Work
Multimodal Recommendation
- 초기 방법론 : 콘텐츠와 ID 기반 특징을 결합하여 추천 품질을 높임
- ex. VBPR, MMGCN, GRCN, ACF
- 한계점 : 단순 concat, modality graph, attention fusion을 사용하지만 modality 간 misalignment 문제를 다루지 않음
- 최근 접근법
- Self-supervised learning(MMGCL, SLMRec, BM3)을 사용하거나 모달리티 similarity graph(LATTICE, FREEDOM, MGCN)를 사용하여 문제를 해결하려함
- 한계점 : 여러 loss 를 join하여 적절하게 맞추지 못하거나, explicit 하게 alignment 문제를 해결하지않아 제한적임
Vision-Language Pre-training
- CLIP, ALBEF, BLIP, BEiT3 : 이미지- 텍스트 alignment에 효과적이지만 추천에 직접적으로 활용되지 않음
- pre-trained feature로 주로 활용함
Methodology
Framework 구성 요소
1. Multimodal Encoder (MMEnc)
- Cross-attention 기반 Transformer(BEiT3) 사용하여 item의 이미지와 텍스트를 처리하고 정렬하여 통합된 콘텐츠 표현을 생성
- mask-then-predict( 이미지 일부 마스킹 후 텍스트 및 나머지 데이터로 복원) 하는 과정을 통해 사전 훈련됨
2. Aggregation Module
- LightGCN을 기반으로 ID feature 및 멀티모달 feature를 이웃 정보(neighbor)와 함께 집계하여 user, item별 representation 생성
- 협업 신호와 content similarity를 포착하는데 좋음
3. Fusion Module
- 2의 결과를 받아와 element-wise sum , concat 등을 사용하여 최종 user 및 item embedding을 생성함
Alignment 작업
1. Inter-Content Alignment (ICA)
- Vision-text 간 cross-attention 기반 mask-then-predict 학습
2. Content-Category Alignment (CCA)
- InfoNCE loss로 multimodal representation과 ID representation 정렬.
3. User-Item Alignment (UIA)
- 유저-아이템 간 cosine similarity를 maximize하는 alignment.
Training Strategy
다양한 학습 특성을 효과적으로 처리하기 위하여 2단계 훈련 전략을 사용함
- Pre-training 단계: ICA 학습 (Vision-Text 정렬 특화, 대규모 데이터 필요)
- Training 단계: BPR Loss + CCA + UIA + Regularizer 결합 학습.
- 이때 Regularizer는 CCA 과정에서 발생하는 representation collapse 방지를 위하여 사용하는 in-batch regularization으로 이를 활용하여 멀티모달 similarity 유지 가능
Experiments
Experimental Setup
데이터셋
- Amazon 리뷰 데이터셋( Baby, Sports, Electronics)을 사용 (5-core setting)
Evaluation protocols
멀티모달 특징의 품질을 평가하기 위하여 protocol 도입
- Zero-Shot Recommendation: ID 정보 사용 없이 상호작용한 item을 기반으로 멀티모달 임베딩이 유저의 취향을 잘 반영하는지
- Item-CF Recommendation: 멀티모달 임베딩이 item-similarity 기반 협업 필터링에서 잘 작동하는지
- Mask Modality Recommendation: 멀티모달 인코더가 특정 모달리티 누락, 노이즈에도 잘 작동하는지
Results and Analysis
- 모든 데이터셋에서 향상된 성능을 보임
- CLIP, Amazon feature 과 비교했을때 Zero-shot, Item-CF task에서 높은 성능을 보임
- 제안한 AlignRec의 멀티모달 임베딩이 clip보다 추천에서 적합하고, modality 결손 상황에서도 견고함
- 다른 feature 보다 AlignRec feature로 교체했을때 성능이 좋고, 메모리도 적게 사용함 (적은 자원 사용)
- Amazon 데이터셋엇 vision feature 없이 학습했을 때 성능이 같거나 더 좋은 것으로 보아 Amazon vision feature은 추천 품질에 영향을 주지 않거나, 성능을 약화시킴
- ablation study를 통해 모든 구성요소가 필요함을 보임
- 특히, Text modality가 vision 보다 영향을 더 크게 미침
- AlignRec이 content , ID alignment에 기여하는 것을 확인
- long-tail 추천에서 좋은 성능을 보임
- 사견 : 비교 모델이 long-tail, cold-start 특화 모델이 아닌게 아쉬움. 일반 멀티모달 추천 모델들보다는 롱테일 추천에 조금 더 강하다고 볼 수있음
Conclusion
본 논문은 멀티모달 추천에서 표현 정렬 문제를 체계적으로 분석하고, 세 가지 alignment 과제를 통해 해결하였다. 효율적 학습을 위해 2단계 전략을 사용하고, protocol을 도입하여 멀티모달 feature의 품질을 검증하여 추천 성능을 높이고자 하였다.
'AI > Paper' 카테고리의 다른 글
Large Language Models as Data Augmenters for Cold-Start Item Recommendation (1) | 2025.03.24 |
---|---|
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned (1) | 2025.03.18 |