GPT-2 XL, 이미지 한 장 보지 않고 'Bad Apple' 뮤직 비디오 구현 성공
학습 가능한 입력 임베딩을 최적화하여 이미지를 전혀 본 적 없는 GPT-2 XL 모델로 'Bad Apple' 뮤직 비디오의 프레임을 어텐션 맵으로 표현하는 데 성공했습니다.
연구자는 GPT-2 XL 모델 전체를 동결한 상태에서, 각 프레임에 대한 256x1600 크기의 임베딩 텐서만을 최적화했습니다. 목표는 단일 어텐션 헤드(head 0, layer 0)의 Q와 K 투영을 활용하여 'Bad Apple' 뮤직 비디오를 재현하는 것이었습니다. 특히, 소프트맥스 함수 적용 전 로짓 공간에서 평균 제곱 오차(MSE) 손실 함수를 사용하여 어텐션 가중치 대신에 약 250배 더 강력한 기울기를 얻을 수 있었습니다.
최적화 과정에서는 다중 시작 방식을 채택하여 3개의 랜덤 시드 값을 사용하고, 가장 좋은 결과를 보이는 임베딩을 선택하여 추가적으로 개선했습니다. 최종 결과물을 생성하기 위해 각 행에 대해 Z-score 정규화를 적용하고 가우시안 블러를 처리한 후 마그마 컬러맵을 사용하여 시각적인 효과를 높였습니다. 총 3286개의 프레임을 생성하는 데 RTX 5070 Ti 그래픽 카드(4.5GB VRAM)에서 약 12분이 소요되었습니다.
연구자는 해당 프로젝트에 대한 상세한 내용과 수학적 배경을 담은 블로그 게시글([https://brayevalerien.com/blog/bad-apple-but-its-gpt2/](https://brayevalerien.com/blog/bad-apple-but-its-gpt2/))과 코드를 공개했습니다([https://github.com/brayevalerien/bad-apple-but-its-gpt2](https://github.com/brayevalerien/bad-apple-but-its-gpt2)). 또한, 결과물을 담은 유튜브 영상도 확인할 수 있습니다([https://www.youtube.com/watch?v=UU14rQO6VzU](https://www.youtube.com/watch?v=UU14rQO6VzU)).
원문 제목
Bad Apple but it's GPT-2 XL Attention Maps
AI에게 물어보기
로그인하면 이 기사에 대해 AI에게 질문할 수 있습니다.