Don Oh

SW Academy 2기 프론트엔드 과정

Dl05

less than 1 minute read

DL05

DNN

Hidden Units

최적의 hidden layer의 노드의 개수를 정하기는 어렵다.
activation function을 이용하여 output을 non-linear하게 만들어주어야 제대로 작동한다.

Activation Function

ReLu : y(x) = max{0,x}
Leaky ReLU : α가 0.01
PReLu : α가 학습의 대상이다.
Maxout unit : 임의의 직선들 중 더 큰 값을 출력하는 함수
Logistic sigmoid, Hyperbolic tangent

Backpropagation

미분의 chain rule을 이용하여 계속해서 loss를 weight에 반영한다.

Regularization

bias와 variance 사이의 trade-off가 존재한다.
큰 모델은 적절한 규제를 통하여 과적합을 막고 성능을 끌어올릴 수 있다.

weight decay in NN

Parameter regularization

LASSO regression

weight들 중 0의 비율을 높여서 node를 꺼버린다.

Ridge regression

weight들의 전체적인 크기를 줄인다.

L2 parameter regularization

weight를 최적으로 줄이지 못하게 한다.

L1 parameter regularization

weight의 부호를 바꾼다.

Dataset augmentation

fake data를 적절히 섞어줌으로서 학습을 방해한다.
object recognition, 샘플의 약간의 변화가 일반화 성능을 높일 수 있는 task, moving, rotating, scaling 등등

Noise robustness

input data or hidden units or weights에 잡음을 섞어서 학습을 방해한다.

Multitask learning

여러개의 task를 수행하는 학습을 같이하고 task층에 가까운 노드들은 각각의 task에 맞는 feature들만 학습하도록 하여 성능을 떨어뜨린다.

Early Stopping

최적의 결과로 도달하기 전에 학습을 끝낸다.

Share on

Twitter Facebook LinkedIn

You may also enjoy

Nextjs

less than 1 minute read

* 본 강의는 Udemy의 Next.js & React - 완벽 정복 가이드 (incl. Two Paths!)를 바탕으로 제작된 내용입니다. *

아이티센 Elk 구축04

less than 1 minute read

데이터 시각화 실습

Ds06

less than 1 minute read

DS06

Dl06

2 minute read

DL06