제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based StyleGAN2
21 Feb 2023•0 j'aime
0 j'aime
Soyez le premier à aimer ceci
afficher plus
•40 vues
vues
Nombre de vues
0
Sur Slideshare
0
À partir des intégrations
0
Nombre d'intégrations
0
Télécharger pour lire hors ligne
Signaler
Données & analyses
데이터 분석 프로젝트를 진행한 6시내고양포CAT몬 팀에서는 아래와 같은 프로젝트를 진행했습니다.
Cat Anti-aging Project based StyleGAN2
18기 박규연 국민대학교 소프트웨어학부
18기 김가영 숙명여자대학교 통계학과
18기 서은유 동덕여자대학교 정보통계학과
18기 이기원 고려대학교 식품자원경제학과
목차
프로젝트 소개
주제 및 주제 선정 배경
문제 정의
모델 및 데이터 모델 학습 실험
데이터 소개
모델 소개
StyleGAN2-ADA
StyleGAN2-ADA + Freeze D
Style mixing
특징 추출 실험
가설 및 방법론
Exploration latent space
실제 이미지에 적용
결론 Q&A
결론
추가 실험 소개
참고문헌
Q&A
데이터 소개
데이터 수집
이미지 리사이징
이미지 클리닝
2000장 이상의 아기 고양이 이미지 수집
256X256 사이즈로 이미지 리사이징
이미지 차원과 컬러 depth 통일
데이터 소개
데이터 수집
아기 고양이의 특징을 학습하기 위해
Python의 selenium과 Beautiful Soup 라이브러리를 활용한
웹 크롤링을 진행
2,205장의 고해상 아기 고양이 얼굴 사진을 확보하였으며,
러시안 블루, 샴, 노르웨이 숲 등 다양한 묘종의 데이터를 확보함
StyleGAN
Mapping Network를 추가하여 *Entanglement 문제 해결
latent vector인 z를 직접 input하여 start
저해상도에서 고해상도까지 upsampling 및 convolution을 거쳐
이미지로 변환 -> *Entanglement 문제
Traditional
StyleGAN
*Engtanglement: 특징들이 분리되지 않고 얽혀있는 상태, 즉 특징들을 독립적으로 컨트롤하기 어려운 상태
PPL(Perceptual Path Length)
줄이고 잠재공간을 매끄럽게 개선
StyleGAN vs StyleGAN2
StyleGAN2
CNN의 가중치 이용한 정규화
Progressive Growing 제거
Skip Connection을 갖고 있는
계층 생성자를 사용
*PPL : 우리가 봤을 때 잠재공간 상의 이미지가 부드럽게 변하고 있는지를 나타냄
StyleGAN2 vs StyleGAN2-ADA
Discriminator를
오직 augmentation으로 증강된 이미지만을 이용해 학습
수천장의 이미지만으로도 완성도 있는 결과물을 만들 수 있음
*Freeze D 와 함께 썼을 때 더 좋은 성능을 냄
기존 StyleGAN2 적은 양의 데이터셋을 사용해 학습했을 때 discriminator의 과적합 문제 발생
ADA
(Adaptive Discriminator Augmentation)
Style Mixing
Style Mixing
원하는 레이어에 특징을 적용하여
스타일들이 엮여있지 않고 독립적으로 작용하도록 하는 기술
통상적으로
Coarse (처음 4개 layer) - 자세 등, 이미지에 큰 변화
middle (중간 4개 layer) - 안경 유무 등, coarse보다 세밀한 부분
fine (마지막 10개 layer) - 머리색 등, detail
Coarse
middle
fine
Style Mixing
Result
Style Mixing 기술을 이용하여 특징 분리가 잘 이루어져 있음을 확인
Issue
Layer에 따라 변하는 특징들이 사람 얼굴과 다소 차이가 있음
사람 얼굴을 기준으로 연구가 진행되었기 때문에
통상적으로 알려진 방식으로 고양이 얼굴의 특징을 컨트롤하기 어려움
가설 및 방법론
아기 고양이 이미지들은 모두 비슷한 특징 분포를 가질 것이고
어른 고양이 이미지들의 특징 분포와는 분명 차이가 있을 것이다.
이 특징 분포들을 통계적으로 분석한 후 원하는 부분의 특징 추출하여
어른 고양이 이미지의 latent vector에 적용하면 아기 고양이 이미지 생성이
가능할 것이다.
가설
방법론
StyleGAN2
StyleGAN2
StyleGAN2
W W`
C
C
Add
projection
generate
generate
W is latent vector of a target image
projected into the latent space.
W` is latent vector adjusted by adding
components.
C are principal components found
through PCA. They can be one or more.
Anti-AginGAN for CAT, 2023
eyes
mouth
ears
face
features
C examples.
결론
의의
StyleGAN2-ADA model을 이용하여 아기 고양이 생성 모델 개발
모델의 latent space를 탐색하여 고양이 얼굴의 특정 부분에 영향을 미치는 latent vector를 찾아냄
이 vector를 이용하여 투영된 이미지의 latent vector를 추가로 조정하여 원하는 이미지 생성
추가 실험: StyleCLIP 개요
StyleGAN2와 CLIP이 결합한 모델로
Latent Vector를 Text로 제어해서 새로운 이미지를 생성하는 모델이기 때문에
직관적으로 Image Control이 가능하다는 특징이 있음
추가 실험: StyleCLIP 원리
Resnet과 Vision Transformer를 사용하는 Image Encoder와 Transformer 구조를 사용하는 Text Encoder를 같이 사용함
이미지와 텍스트가 주어졌을 때 각각의 Encoder를 거쳐 특정한 벡터로 변환이 되고, 두 벡터 사이의 유사도를 학습하는 방식으로
학습이 진행되기에 텍스트 벡터와 이미지 벡터는 유사한 Latent Space 상에 존재하는 모델이 됨
추가 실험: StyleCLIP Method, Latent Optimization
L2 Distance
LID
값이 클수록 원본 이미지와 유사하게, 값이 작을수록 Text와
유사해짐
Identity Loss (LID)는 값이 클수록 Object의 Identity가 크게
변형됨
추가 실험: StyleCLIP 훈련 결과
CLIP Loss = 0.6406
CLIP Loss = 0.71
L2 = 0.005
CLIP Loss = 0.6396
L2 = 0.0001 L2 = 0.00025
“A Baby Cat”
추가 실험: StyleCLIP 훈련 결과
CLIP Loss = 0.6831
CLIP Loss = 0.7026
L2 = 0.005
CLIP Loss = 0.6440
L2 = 0.0001 L2 = 0.00025
“Big Eyes, Small nose, Small Face, Short Legs, Short Body”