일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- GenerativeModel
- MachineLearning
- 캐나다 TD 한국인 직원 예약
- Flow
- 프라이탁 존버
- Docker
- 터미널꾸미기
- pytorch
- 캐나다 TD 예약
- EATS
- agnoster폰트꺠짐
- 캐나다 TD 한국인 예약
- 머신러닝
- 캐나다 은행계좌 개설
- 콘도렌트
- 딥러닝
- GAN
- iterm2자동완성
- Generative model
- 캐나다 은행 계좌 개설
- agnoster폰트
- 캐나다콘도렌트
- agnoster폰트깨짐
- 캐나다 TDBAnk
- iterm2꾸미기
- Normalizing flow
- iterm2환경설정
- DTW
- 프라이탁
- 캐나다월세
- Today
- Total
목록딥러닝 (4)
TechNOTE
요약 conditional information을 GAN의 discriminator에 합치는 것을 projection based 로 하는 것을 제안했다. 기존에 input conditional information을 concat 하는 방식과는 다르고, 이 방법으로 class conditional image generation task에서 SOTA 달성했다고 한다. https://github.com/pfnet-research/sngan_projection pfnet-research/sngan_projection GANs with spectral normalization and projection discriminator - pfnet-research/sngan_projection github.com 1. ..
공부할 겸, 되짚어볼 겸 GAN 리뷰 시작해 본다! 시작!! 1. Basic Idea Generative Model 을 Estimation 할 때 Adversarial 하게 학습을 시키는 새로운 framework을 제시했다. Sample을 생성해 내는 Generator와, generator에서 나온 sample이 실제인지 아니면 만들어진 것인지 분류하는 Discriminator를 함께 학습 시켜서, 이상적으로는, Generator가 training data distribution을 모델링 하여 discriminator가 모든 데이터에 대하여 1/2 확률을 가질 수 있도록.. 학습시키는 것이다. 2. Model 자 그럼 모델링을 어떻게 하면 좋을까? 데이터 x로부터 generator distribution..
음성 데이터를 raw data를 그대로 사용하면 파라미터가 너무 많아지기도 하고 데이터 용량이 너무 커지므로 보통 mel spectrogram을 많이 사용한다. 이게 뭔지 제대로 알아보도록 하자! 1. 음성파일 로드 sampling rate 24000 으로 구성된 wav 파일을 로드해 보면 다음과 같다. sampling rate가 24000이라는 말은 1초에 음성 신호를 24000번 sampling 했다는 뜻이다. 2.STFT(Short Time Fourier Transform) 이 데이터에, STFT(Short Time Fourier Transform)를 해 준다. STFT란 뭘까? 그 전에 푸리에변환이 뭔지부터 보자.. 푸리에 변환? (Fourier Transform) www.youtube.com/w..
딥마인드에서 음성 합성 관련해서 새 논문이 나왔다! 바로 END-TO-END ADVERSARIAL TEXT-TO-SPEECH 인데.. 사실 End to End 라는 말보다 (말의 정의가 너무 애매하다) 1 stage speech synthsis 라고 하는게 더 맞지 않나 싶다. 여튼 이번 뉴립스에는 떨어지고 ICLR 에 다시 낸 것 같다. deepmind.com/research/publications/End-to-End-Adversarial-Text-to-Speech End-to-End Adversarial Text-to-Speech Modern text-to-speech synthesis pipelines typically involve multiple processing stages, each of ..