Publicité
Publicité

Contenu connexe

Plus de BOAZ Bigdata(20)

Publicité

Dernier(20)

제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based StyleGAN2

  1. Anti-AginGAN for Cat BOAZ 17th Big Data Conference 18기 6시내고양포CAT몬 팀
  2. 팀 소개 국민대학교 소프트웨어학부 18기 분석 박규연 동덕여자대학교 정보통계학과 18기 분석 서은유 6시내고양 포CAT몬 숙명여자대학교 통계학과 18기 분석 김가영 고려대학교 식품자원경제학과 18기 분석 이기원
  3. 목차 프로젝트 소개 주제 및 주제 선정 배경 문제 정의 모델 및 데이터 모델 학습 실험 데이터 소개 모델 소개 StyleGAN2-ADA StyleGAN2-ADA + Freeze D Style mixing 특징 추출 실험 가설 및 방법론 Exploration latent space 실제 이미지에 적용 결론 Q&A 결론 추가 실험 소개 참고문헌 Q&A
  4. 프로젝트 소개
  5. 주제 및 주제 선정 배경 펫샵의 사회적 문제
  6. 주제 및 주제 선정 배경 유기묘 입양 장려
  7. 주제 및 주제 선정 배경 유기묘는 대부분 성묘이기 때문에 어린 시절 추억 부족
  8. 주제 및 주제 선정 배경 고양이의 어린시절 모습을 선물하자! 유기묘를 입양한 집사들을 위한 프로젝트는 어떨까?
  9. 문제 정의 First Second Third 고양이의 종, 털 색깔 등이 변해서는 안 된다. Input 이미지와 output 이미지 속 고양이가 닮아있어야 한다. 어떤 종의 고양이라도 성공적으로 결과물이 어려보여야 한다.
  10. 모델 및 데이터
  11. 데이터 소개 데이터 수집 이미지 리사이징 이미지 클리닝 2000장 이상의 아기 고양이 이미지 수집 256X256 사이즈로 이미지 리사이징 이미지 차원과 컬러 depth 통일
  12. 데이터 소개 데이터 수집 아기 고양이의 특징을 학습하기 위해 Python의 selenium과 Beautiful Soup 라이브러리를 활용한 웹 크롤링을 진행 2,205장의 고해상 아기 고양이 얼굴 사진을 확보하였으며, 러시안 블루, 샴, 노르웨이 숲 등 다양한 묘종의 데이터를 확보함
  13. 1024X1024 데이터 소개 이미지 리사이징 이미지 클리닝 사용 가능한 GPU등의 컴퓨팅 리소스를 고려하여 이미지를 256X256으로 리사이징을 진행함 이미지 차원과 컬러 depth 통일 256X256
  14. GAN (Generative Adversarial Network) 가짜 데이터를 생성하는 Generator와 데이터의 진위여부를 판별하는 Discriminator로 구성
  15. StyleGAN *Progressive Growing: 저해상도의 이미지부터 시작해 고해상도의 생성자와 판별자를 추가하여 고해상도 이미지를 형성 Progressive Growing으로 고해상도 이미지 생성
  16. StyleGAN Mapping Network를 추가하여 *Entanglement 문제 해결 latent vector인 z를 직접 input하여 start 저해상도에서 고해상도까지 upsampling 및 convolution을 거쳐 이미지로 변환 -> *Entanglement 문제 Traditional StyleGAN *Engtanglement: 특징들이 분리되지 않고 얽혀있는 상태, 즉 특징들을 독립적으로 컨트롤하기 어려운 상태
  17. StyleGAN 데이터셋에서의 특징분포 가우시안 분포에 따라 mapping entangle disentangle Traditional StyleGAN
  18. StyleGAN vs StyleGAN2 StyleGAN 일부 특징들이 얼굴의 움직임을 따르지 않음 생성된 이미지에 노이즈 발생
  19. PPL(Perceptual Path Length) 줄이고 잠재공간을 매끄럽게 개선 StyleGAN vs StyleGAN2 StyleGAN2 CNN의 가중치 이용한 정규화 Progressive Growing 제거 Skip Connection을 갖고 있는 계층 생성자를 사용 *PPL : 우리가 봤을 때 잠재공간 상의 이미지가 부드럽게 변하고 있는지를 나타냄
  20. StyleGAN2 vs StyleGAN2-ADA Discriminator를 오직 augmentation으로 증강된 이미지만을 이용해 학습 수천장의 이미지만으로도 완성도 있는 결과물을 만들 수 있음 *Freeze D 와 함께 썼을 때 더 좋은 성능을 냄 기존 StyleGAN2 적은 양의 데이터셋을 사용해 학습했을 때 discriminator의 과적합 문제 발생 ADA (Adaptive Discriminator Augmentation)
  21. 모델 학습 실험
  22. Dataset 아기 고양이 데이터셋을 TF Records 형태로 변환하여 데이터셋 생성 StyleGAN2-ADA
  23. Projector cat image (target image) input Trained StyleGAN2 Generator Latent vector Optimize Loop Trained StyleGAN2 Generator StyleGAN2-ADA
  24. StyleGAN2-ADA 어른 고양이를 아기 고양이 형태로 변환 target target projected image Projected image Result 저해상도 이미지 Issue
  25. Freeze D Discriminator의 일부 layer들을 freezing시키고 학습시키는 Fine-tuning 방법 Pre-trained 모델 AHFQ-cat Dataset으로 사전학습된 StyleGAN2-ADA 모델 StyleGAN2-ADA + Freeze D
  26. Discriminator 끝 단의 5, 6 그리고 final layer만 학습 Freeze D = 2 StyleGAN2-ADA + Freeze D
  27. target target projected image Projected image StyleGAN2-ADA + Freeze D 더 고화질 형태의 이미지 생성 Result 특정 부분 컨트롤 어려움 Issue
  28. Style Mixing Style Mixing 원하는 레이어에 특징을 적용하여 스타일들이 엮여있지 않고 독립적으로 작용하도록 하는 기술 통상적으로 Coarse (처음 4개 layer) - 자세 등, 이미지에 큰 변화 middle (중간 4개 layer) - 안경 유무 등, coarse보다 세밀한 부분 fine (마지막 10개 layer) - 머리색 등, detail Coarse middle fine
  29. Style Mixing Result Style Mixing 기술을 이용하여 특징 분리가 잘 이루어져 있음을 확인 Issue Layer에 따라 변하는 특징들이 사람 얼굴과 다소 차이가 있음 사람 얼굴을 기준으로 연구가 진행되었기 때문에 통상적으로 알려진 방식으로 고양이 얼굴의 특징을 컨트롤하기 어려움
  30. 특징 추출 실험
  31. 가설 및 방법론 아기 고양이 이미지들은 모두 비슷한 특징 분포를 가질 것이고 어른 고양이 이미지들의 특징 분포와는 분명 차이가 있을 것이다. 이 특징 분포들을 통계적으로 분석한 후 원하는 부분의 특징 추출하여 어른 고양이 이미지의 latent vector에 적용하면 아기 고양이 이미지 생성이 가능할 것이다. 가설 방법론
  32. Exploration Latent Space PCA(Principal Component Analysis) 여러 데이터들이 모여 하나의 분포를 이룰 때,이 분포의 주성분을 분석해주는 방법 K = 32 아기 고양이 생성 모델의 latent space에서 총 32개의 주성분 추출
  33. Exploration Latent Space W W’ W’ W C C Mohican style
  34. Exploration Latent Space Truncation Scale 1.0 Start Layer End Layer 3 ~ 5 4 ~ 7 0.99
  35. Exploration Latent Space Eyes Mouth Ears Face Features Result 특정 부분에 영향을 미치는 components 확인 및 선정
  36. Exploration Latent Space eyes
  37. Exploration Latent Space ears
  38. Exploration Latent Space mouth
  39. Exploration Latent Space Face features
  40. 실제 이미지에 적용 Trained StyleGAN2 Generator
  41. 실제 이미지에 적용 Cat image Projected image Adjust latent vector
  42. StyleGAN2 StyleGAN2 StyleGAN2 W W` C C Add projection generate generate W is latent vector of a target image projected into the latent space. W` is latent vector adjusted by adding components. C are principal components found through PCA. They can be one or more. Anti-AginGAN for CAT, 2023 eyes mouth ears face features C examples.
  43. 결론
  44. 실험 과정 PCA Apply Freeze D StyleGAN2-ADA 저해상도 이미지 문제 해결 특징 추출 적용
  45. 결론 의의 StyleGAN2-ADA model을 이용하여 아기 고양이 생성 모델 개발 모델의 latent space를 탐색하여 고양이 얼굴의 특정 부분에 영향을 미치는 latent vector를 찾아냄 이 vector를 이용하여 투영된 이미지의 latent vector를 추가로 조정하여 원하는 이미지 생성
  46. 결론 한계 Training 시간과 GPU 리소스 부족으로 인해 고해상도 이미지를 학습할 수 없음 유의미한 component 선정이 주관적으로 이루어짐
  47. 추가연구:StyleCLIP
  48. 추가 실험: StyleCLIP 개요 StyleGAN2와 CLIP이 결합한 모델로 Latent Vector를 Text로 제어해서 새로운 이미지를 생성하는 모델이기 때문에 직관적으로 Image Control이 가능하다는 특징이 있음
  49. 추가 실험: StyleCLIP 원리 Resnet과 Vision Transformer를 사용하는 Image Encoder와 Transformer 구조를 사용하는 Text Encoder를 같이 사용함 이미지와 텍스트가 주어졌을 때 각각의 Encoder를 거쳐 특정한 벡터로 변환이 되고, 두 벡터 사이의 유사도를 학습하는 방식으로 학습이 진행되기에 텍스트 벡터와 이미지 벡터는 유사한 Latent Space 상에 존재하는 모델이 됨
  50. 추가 실험: StyleCLIP Method, Latent Optimization L2 Distance LID 값이 클수록 원본 이미지와 유사하게, 값이 작을수록 Text와 유사해짐 Identity Loss (LID)는 값이 클수록 Object의 Identity가 크게 변형됨
  51. 추가 실험: StyleCLIP 훈련 결과 CLIP Loss = 0.6406 CLIP Loss = 0.71 L2 = 0.005 CLIP Loss = 0.6396 L2 = 0.0001 L2 = 0.00025 “A Baby Cat”
  52. 추가 실험: StyleCLIP 훈련 결과 CLIP Loss = 0.6831 CLIP Loss = 0.7026 L2 = 0.005 CLIP Loss = 0.6440 L2 = 0.0001 L2 = 0.00025 “Big Eyes, Small nose, Small Face, Short Legs, Short Body”
  53. 참고 문헌 StyleGAN2-ADA github: https://github.com/NVlabs/stylegan2-ada GANSpace github:https://github.com/harskish/ganspace StyleCLIP github:https://github.com/orpatashnik/StyleCLIP PPT 템플릿: https://slidesgo.com/ko
  54. Q & A
Publicité