Google이 텍스트와 영상 콘텐츠에 대한 AI 스팸 방어 시스템을 준비 중이에요
구글 연구원들이 새로운 논문, "확장 가능한 적대적 합성 슬롭 및 조정된 미디어 악용 탐지: LoRA 지원 멀티모달 방어 시스템"을 발표했는데, 품질 필터를 압도하는 AI 스팸을 잡아내는 새로운 방법을 다루고 있어요. 연구는 주로 영상 콘텐츠 스팸 식별에 초점을 맞추지만, 같은 기술을 웹 콘텐츠 스팸에도 적용할 수 있다고 해요. 논문에서는 텍스트 기반 생성형 AI 식별 시스템에 대해 언급하고, 새 시스템 이름은 확장 가능한 클러스터 종료 시스템(S-CTS)이라 하며, AI 스팸에 대한 매우 정확한 방어 시스템이라고 소개하고 있어요.
지금까지 알려진 점들 -
S-BERT(Sentence-BERT)를 사용해 AI 생성 콘텐츠 식별하기: 연구진은 의미가 유사한 문장을 찾아내기 위해 S-BERT를 사용했다고 밝혔어요. 이들은 논문의 핵심 가설을 검증하기 위해 S-BERT를 인용했는데, 자동으로 생성된 AI 텍스트는 distinct한 수학적 발자국(텍스트 임베딩)을 남겨서 탐지할 수 있다는 가정이에요.
클러스터 전체를 종료해요: 논문에서는 텍스트 임베딩, 중요한 단어들, 템플릿 내러티브를 콘텐츠 분류기의 일부로 사용한다고 설명했는데, 인프라 클러스터 내 계정 상당수가 같은 AI 생성 텍스트/미디어 템플릿을 사용하고 있다면 해당 클러스터 전체를 종료시킨다고 해요.
구글은 새로운 모델에 빠르게 적응할 수 있어요: 공격자가 새로운 생성형 모델을 채택할 때, 구글은 massive AI 모델을 다시 훈련시키는 대신 Low-Rank Adaptation(LoRA)과 Automatic Prompt Optimization(APO)를 이용해 스팸 탐지 시스템을 더 빠르게 업데이트할 수 있다고 논문에서 언급했어요.
AI 생성 스팸이 점점 위협이 되고 있고, 구글은 이에 대한 방어 시스템을 계속 개발할 예정이라고 해요. 그래서 AI 생성 스팸으로 사이트를 짓는 분들은 구글이 이러한 스팸 필터를 적용하기 전에 미리 전략을 세워두면 수동 제재 sweep을 피할 수 있을 거예요.
더 자세한 내용은 여기서 볼 수 있어요:
https://www.searchenginejournal.com/google-generated-ai-detected/579987/