[딥러닝] Activation Function 활성함수 한번에 이해하기(Sigmoid, Softmax, Relu)

[딥러닝] Activation Function 활성화함수

딥러닝의 장점은 선형함수를 깊게 쌓을 수 잇는 것이 장점이다.

하지만 선형함수를 깊게 쌓아봤자 선형함수가 되어

복잡한 모델링을 하기가 어렵다.

이 문제를 해결하기 위해서

모델 레이어를 쌓을 때

선형 함수 사이사이에 선형함수가 아닌 것을

번갈아 넣어줌으로써

복잡한 문제를 풀 수 있다.

이 비선형 함수를 활성 함수(activation funtion)라고 하고,

relu, sigmoid, softmax 등이 있다.

위 설명대로 activation을 넣어서 모델링을 해보면

model = Sequential([
	tf.keras.layers.Flatten(input_shape = (28,28)),
    tf.kearas.layers.Dense(512)
    tf.kearas.layers.ReLU(),
    tf.kearas.layers.Dense(256)
    tf.kearas.layers.ReLU(),
    tf.kearas.layers.Dense(64)
    tf.kearas.layers.ReLU(),
    tf.kearas.layers.Dense(32)
    tf.kearas.layers.ReLU(),
    tf.kearas.layers.Dense(10)
    tf.kearas.layers.Softmax(),
  ])

이렇게 길게 쌓아야한다.

하지만 레이어가 너무 길어지고 보기에도 힘들기 때문에

model = Sequential([
	tf.keras.layers.Flatten(input_shape = (28,28)),
    tf.kearas.layers.Dense(512, activation = 'relu'),
    tf.kearas.layers.Dense(512, activation = 'relu'),
    tf.kearas.layers.Dense(512, activation = 'relu'),
    tf.kearas.layers.Dense(512, activation = 'relu'),
    tf.kearas.layers.Dense(512, activation = 'relu'),
    tf.kearas.layers.Dense(10, activation = 'softmax'),

  ])

이렇게 2줄을 1줄로 합쳐서 적어줄 수 있다.

보통

중간층에서는 activation funtion을 relu를 쓰고

마지막 층에는 softmax를 쓰면 좋은 성능을 낼 수 있다고한다.

마지막 출력층의 activation funtion에 따라서

모델 컴파일 할 때 loss의 값이 다르다.

1. 이진분류

이진분류에서는

sigmoid 함수를 사용한다.

이때

loss값은 binary_crossentropy를 사용.

2. 다중분류

다중분류에서는 softmax 함수를 사용하고

loss값은

onehot_encording이 되어있다면

categorical_crossentropy

onehot_encording이 되어있지 않다면

sparse_categorical_crossentropy

모델링을 하고 모델 컴파일을 할 때에

매우매우 중요한 부분이다.

Sigmoid함수

y = 1, y = 0

x = 무한대부터 무한대

x에 어떤 값이 들어가든, y는 무조건 0~1사이이다.

예를들어

뉴런이 하나가 sigmoid를 거치면 0~1 사이가 나온다.

뉴런의 확률이 0.3이 나왔다라고 치면

y의 중간값 0.5보다 작으니 classA이다.

뉴런의 확률이 0.7이 나왔다라고 치면

0.5보다 크니 classB이다

이런식으로 결정을 하는 것.

Softmax

softmax에 input 뉴런을 넣으면

그 값들이 모두 0,1 사이로 정규화가 된다.

따라서

모든 뉴런의 확률값의 합은 1.0이 나와야하고

가장 높은 확률을 가진 뉴런이 class가 된다.

저작자표시 비영리 (새창열림)

'Artificial Intelligence > Deep Learning' 카테고리의 다른 글

[딥러닝] Embeding Layer / 차원의 저주 (curse of dimensionality) /자연어 처리 / 단어 백터화 (13)	2022.02.23
[딥러닝] Windowed Dataset 구성 옵션 ( Tensorflow 시계열 데이터 분석) / 딥러닝 미래 예측하기 (2)	2022.02.22
[딥러닝] Convolution Neural Network (CNN) 합성곱 신경망 - 간단하고 쉽게 이해하기 (12)	2022.02.17
[논문리뷰] VGG Net - Very Deep Convolutional Networks for large-scale image recognit (4)	2022.02.16
[딥러닝] Dense Layer (Fully Connected Layer) 이해하기 (0)	2022.02.09

Eunji's Study

[딥러닝] Activation Function 활성함수 한번에 이해하기(Sigmoid, Softmax, Relu)

'Artificial Intelligence > Deep Learning' 카테고리의 다른 글

댓글

티스토리툴바

[딥러닝] Activation Function 활성함수 한번에 이해하기(Sigmoid, Softmax, Relu)

'Artificial Intelligence > Deep Learning' 카테고리의 다른 글

관련글

댓글

티스토리툴바