일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 어텐션 행렬
- 트랜스포머 행렬
- Transformer 디코더
- seq2seq
- 네이버 부스트캠프 AI Tech 6기
- 어텐션
- self-attention
- 네이버 부스트캠프 코딩테스트 후기
- 네이버 부스트캠프
- 부스트캠프
- VAE 논문 리뷰 #
- AI Math
- Transformer Decoder
- Transformer 모델
- boostcamp
- VAE 설명
- Positional Encoding
- 트랜스포머
- 주간학습정리
- Auto-Encoding Variational Bayes
- transformer
- Transformer model
- 포지셔널 인코딩
- 트랜스포머 모델
- 셀프 어텐션
- pytorch
- 네이버 부스트캠프 KDT 전형
- 네이버 ai 부스트캠프
- VAE
- 네이버 부스트캠프 AI Tech
- Today
- Total
목록[딥러닝] (6)
DH. AI

데이터 셋은 MNIST를 이용한다. 전체 코드 VAE 논문 리뷰 VAE의 Encoder x를 입력받아 간단한 Linear Layer를 거친 후 z, mu, logvar를 내보낸다. z는 Decoder에 들어갈 값이고, mu와 logvar는 Regularization term을 계산할 때 쓰인다. logvar : log(σ²) def reparameterization(mu, logvar): std = torch.exp(logvar/2) # logvar : log(σ²) eps = torch.randn_like(std) return mu + eps * std class Encoder(nn.Module): def __init__(self, x_dim=img_size**2, h_dim=hidden_dim, z_..

디퓨전을 공부하기전에 VAE를 제대로 공부해보고 싶어서 정리한 글입니다. Smart Design Lab 강남우 교수님의 강의를 보고 정리한 글입니다. + Boost Camp 강의도 조금 참고하였습니다. : 수정 1 2 3 VAE는 생성모델이다. Decoder부분을 만들어내기 위해서 Encoder부분이 필요하다. VAE 논문에서 중요한 Contribution은 두가지이다. 1. 역전파가 되지 않는 단순 Sampling을 Reparameterization Trick을 사용하여 역전파가 가능하게 하였다. 2. Variational lower bound를 사용하여 interactable한 posterior의 근사치를 최적화 한다. VAE 구조 VAE의 전체적인 구조를 보면, 인코더 부분에서 𝜇(평균)와, 𝜎(분..

8. 포지션-와이즈 피드 포워드 신경망(Position-wise FFNN) 포지션 와이즈 FFNN은 인코더와 디코더에서 공통적으로 가지고 있는 서브층입니다. 포지션-와이즈 FFNN는 쉽게 말하면 완전 연결 FFNN(Fully-connected FFNN)이라고 해석할 수 있습니다. 아래는 포지션 와이즈 FFNN의 수식을 보여줍니다. 식을 그림으로 표현하면 아래와 같습니다. 여기서 x는 앞서 멀티 헤드 어텐션의 결과로 나온 (seq_len, d_model)의 크기를 가지는 행렬을 말합니다. 가중치 행렬 W1은 (d_model, d_ff)의 크기를 가지고, 가중치 행렬 W2은 (d_ff, d_model)의 크기를 가집니다. (논문에서 d_ff : 2048) 여기서 매개변수 W1, b1, W2, b2는 하나의 ..

* 트랜스포머가 처음이라면 이 글을 보기전에 이 링크를 클릭하세요. [딥러닝] 트랜스포머(Transformer) 하이퍼파라미터, 인코더와 디코더, 포지셔널 인코딩 "Attention is all you need"에서 나온 모델로 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, 논문의 이름처럼 어텐션(Attention)만으로 구현한 모델입니다. 이 모델은 RNN을 사용하지 않고, 인코더- dohwai-ai.tistory.com 5. 어텐션(Attention) 첫번째 그림인 셀프 어텐션은 인코더에서 이루어지지만, 두번째 그림인 Masked 셀프 어텐션과 세번째 그림인 인코더-디코더 어텐션은 디코더에서 이루어집니다. 셀프 어텐션은 본질적으로 Query, Key, Value가 동일한 경우를 말합니다...

"Attention is all you need"에서 나온 모델로 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, 논문의 이름처럼 어텐션(Attention)만으로 구현한 모델입니다. 이 모델은 RNN을 사용하지 않고, 인코더-디코더 구조를 설계하였음에도 번역 성능에서도 RNN보다 우수한 성능을 보여주었습니다. 1. 기존의 seq2seq 모델의 한계 기존의 seq2seq 모델은 인코더-디코더 구조로 구성되어져 있는데, 인코더는 입력 시퀀스를 하나의 벡터 표현으로 압축하고, 디코더는 이 벡터 표현을 통해서 출력 시퀀스를 만들어냈습니다. 하지만, 인코더 부분에서 입력 시퀀스를 하나의 벡터로 압축하는 과정에서 입력 시퀀스의 정보가 손실되는 문제가 있습니다. 그래서 이를 보정하기 위한 목적으로 어텐션이..