본문 바로가기

AI

(8)
배치 사이즈(batch_size), 반복(iteration), 에폭(epoch) 1. 배치 사이즈 (Batch size)학습 데이터가 큰 경우 한번에 모델에 넣어 학습하는 것이 메모리와 계산 측면에서 불가능할 수 있다. 따라서 데이터셋을 작은 단위로 나누어 모델에 입력하는데 이때 단위를 '배치'라고 한다.즉, 데이터를 일괄적으로 몇개를 모아 처리할 것인가를 나타내는 값이다. 예를 들어 전체 데이터가 3,000개 인데 한번에 300개씩 데이터를 학습시킨다면 Batch_size = 300 이다. 2. 반복 (Iteration)전체 데이터에 대한 총 batch의 수를 의미하고, step이라고도 한다. 위에서 전체 데이터가 3000개이고, batch = 300이라고 했는데 이때 모든 데이터를 학습 시키려면 batch는 총 10개가 필요하다. (300 x 10 = 3000) 이때 필요한 배치..
GPT 구조와 아키텍쳐 그리고 GPT를 알기 위해 알아야하는 것들 (1) GPT는 Transformer 아키텍쳐 기반으로 구축 & self-attention 레어어로 구성Transformer의 디코더 레이어를 쌓은 구조이며, 각 레이어는 두 개의 하위 레이어로 구성된다. 첫번째 하위 레이어는 다중 헤드 sefl-attention 메커니즘이고, 두번째 하위 레이어는 간단한 위치별 완전 연결 피드포워드 네트워크이다. 각 하위 레이어 전에 레이어 정규화가 적용되며, 각 레이어 뒤에는 잔차 연결이 이어진다. 이러한 적층 접근 방식을 통해 모델은 상당한 길이의 시퀀스를 처리 및 생성할 수 있게 되며, 탁월한 텍스트 생성 능력을 갖게 된다.위 글에서 그러면 transformer는 무엇이고, attention과 self-attention은 무엇이며, 왜 디코더만 사용했고, 정확하게 알지 ..
anaconda 설치 1. 아나콘다 페이지에서 환경에 맞는 아나콘다 다운 https://www.anaconda.com/download Free Download | Anaconda Anaconda's open-source Distribution is the easiest way to perform Python/R data science and machine learning on a single machine. www.anaconda.com 2. Next > I Agree Just Me - Next 저장위치는 기본설대로 - Next PATH 설정은 기본 PATH 설정과 꼬일 수 있다고 해서 체크 안하고 - Next 설치중 Next
Deep Learning for Coders with fastai & PyTorch 1장 1.6.4 신경망 소개 * 신경망 - 특징 : 유연함 * 일반 근사 정리 * 확률적 경사 하강법(Stochasic gradient desect, SGD) : (작업의 종류에 상관 없이) 신경망의 가중치를 갱신하며 결과를 개선해나가는 보편적인 방법 - 가중치 값을 자동으로 찾는 방법 제공 1.6.5 딥러닝 전문용어 모델의 함수 형태 : 구조(architecture) (모델이라도고 함) 가중치 : 파라미터 예측은 레이블을 포함하지 않는 데이터인 독립변수로 계산 모델의 결과 : 예측 성능 측정 : 손실 손실은 예측뿐만 아니라 올바른 레이블(타깃, 종속변수라고도 부름)로도 측정
[Deep Learning from Scratch] CHAPTER 7 합성곱 신경망(CNN) 합성곱 신경망(convolutional neural network, CNN) - 이미지 인식, 음성 인식 등 다양한 곳에서 사용 (특히 이미지 인식분야에서 딥러닝을 활용한 기법은 거의 다 CNN을 기초로 함) CNN의 매커니즘 설정 및 파이썬 구현 7.1 전체 구조 CNN 네트워크 구조 신경망과 같이 레고 블록처럼 계층을 조합하여 만들 수 있음 다만, 합성곱 계층(convolutional layer)과 풀링 계층(pooling layer)가 새롭게 등장 >> 계층들을 어떻게 조합하여 CNN을 만드는지 신경망은 인접하는 계층의 모든 뉴런과 결합 → 완전 결합(fully-connected, 전결합) 완전히 연결된 계층을 Affine 계층이라는 이름으로 구현 Affine 계층을 사용하면 예를 들어 아래와 같이..
[Deep Learning from Scratch] CHAPTER 6 학습 관련 기술들 신경망 학습의 핵심 개념 - 가중치 매개변수의 최적값을 탐색하는 최적화 방법 - 가중치 매개변수 초깃값 - 하이퍼파라미터 설정 방 오버피팅(overfitting, 과대적합)의 대응책 : 가중치 감소, 드롭 아웃 배치 정규화 → 딥러닝(신경망) 학습의 효율과 정확도를 높인다. 6.1 매개변수 갱신 신경망의 목적 : 손실 함수의 값을 가능한 한 낮추는 매개변수를 찾는 것 = 매개변수의 최적값 찾기 → 최적화(optimization) 이전까지 사용한 최적의 매개변수 값 찾는 방법 : 확률적 경사 하강법(SGD) 매개변수의 기울기(미분) 이용 매개변수의 기울기를 구해, 기울어진 방향으로 매개변수 값 갱신을 반복하여 최적의 값에 접근 6.1.1 모험가 이야기 최적의 매개변수를 탐색하는 것은 지도를 보지않고 눈을 ..
[Deep Learning from Scratch] CHAPTER 5 오차역전파법 이전 까지는 신경망의 가중치 매개변수에 대한 손실 함수의 기울기는 수치 미분을 사용하여 구했습니다. 그러나 수치 미분은 단순하고 구현하기도 쉽지만 계산이 오래 걸린다는 단점이 있습니다. 따라서 5장에서는 가중치 매개변수의 기울기를 효율적으로 계산하는 '오차역전파법(backpropagation)'을 소개합니다. 1) 계산 그래프를 사용하여 시각적인 이해를 한 후 2) 수식을 사용한 구현 5.1 계산 그래프 계산 그래프(computational graph) : 계산 과정을 그래프로 나타낸 것 → 노드(node)와 에지(edge)로 표현 (노드 : 원, 에지 : 노드 사이의 직선) 5.1.1 계산 그래프로 풀다 순전파(forward propagation) 계산 방향 : 왼쪽에서 오른쪽으로 진행 (출발점 → 종..
[Deep Learning from Scratch] CHAPTER 3 신경망 이 글은 '밑바닥부터 배우는 딥러닝 / 사이토 고키 저 / 한빛미디어 출판'을 공부하며 정리한 글입니다. 3.2.3 계단 함수의 그래프 위 코드 Line5 : np.int만 작성하면 오류 명확하게 int32 or int64로 작성해줘야함 https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations NumPy 1.20.0 Release Notes — NumPy v1.25.dev0 Manual NumPy 1.20.0 Release Notes This NumPy release is the largest so made to date, some 684 PRs contributed by 184 people have been merged. See the list..