Yapay Sinir Ağlarında Aktivasyon Fonksiyonlarının Karşılaştırılması

Cenk Bircanoğlu, Nafiz Arıca
Bahçeşehir Üniversitesi, Bilgisayar Mühendisliği

Aktivasyon Fonksiyonu Tanımı
Aktivasyon Fonksiyonu Çeşitleri
Veri Kümeleri
Derin Mimariler
Deneyler
Sonuçlar
2

Herhangi bir sinir ağının çıkış ucuna eklediğiniz sadece
bir şey (düğüm) olarak tanımlanabilir
‘Doğrusal iki fonksiyonun birleşiminin yine doğrusal bir
fonksiyon olması’ sebebiyle daha kompleks fonksiyonlar
elde edebilmek için kullanılır
Eğitim aşamasını hızlandırabilir veya daha iyi sonucun
elde edilmesini sağlayabilir
3

Gerekli olmamasına rağmen şu özelliklere sahip olması
beklenir:
 Doğrusal olmaması
 Türevlenebilir olması
 Alt ve üst sınıra sahip olması
 Monoton artan veya azalan olması
 Orjin noktasında kendine yakınsaması
4

• Doğrusal
• Türevlenebilir
• Alt ve üst sınırı yoktur
• Monoton artan ve azalan
• Orjin noktasında kendine
yakınsar
5

• Doğrusal değil
• Türevlenebilir
• Alt sınır var
• Üst sınırı var
6

• Türevlenebilir
• Alt sınır var
yakınsar
7

• Doğrusal
• Türevlenebilir
• Alt sınır var
8

• Türevlenebilir
• Alt sınır yok
• Üst sınırı yoktur
yakınsar
9

• Doğrusal
• Türevlenebilir
• Alt sınır var
• Üst sınırı yoktur
yakınsar
10

• Türevlenebilir
• Alt sınır var
• Üst sınırı yok
yakınsamaz
11

• Türevlenebilir
• Alt sınır yok
yakınsar
12

• Türevlenebilir
• Alt sınır yok
yakınsar
13

• Türevlenebilir
• Alt sınır var
yakınsar
14

• Türevlenebilir
• Alt sınır var
yakınsar
15

Boston Evleri
Ames Evleri
MNIST
Fashion MNIST
CIFAR-10
IMDB
Reuters
16

 Problem Tipi: Regresyon
 Eğitim Verisi: 404
 Test Verisi: 102
 Öznitelik Sayısı: 13
 StatLib kitaplığından alındı
 Carnegie Mellon Üniversitesi'nde tarafında desteklenmekte
 13 sayısal veriden oluşan kolona sahip
17

 Problem Tipi: Regresyon
 Öznitelik Sayısı: 79
 20 sayısal veri
 13 sayısal kategorik veri
 46 kategorik veri
18

• Problem Tipi: Sınıflandırma
• Eğitim Verisi: 60000
• Test Verisi: 10000
• Öznitelik Sayısı: 28x28x1
• Sınıf Sayısı: 10
19

20

21

 Problem Tipi: Sınıflandırma
 Öznitelik Sayısı: Kelime
 Sınıf Sayısı: 2
22

 Problem Tipi: Sınıflandırma
 Öznitelik Sayısı: Kelime
 Sınıf Sayısı: 46
23

• CNN
• LSTM
• RNN
• MLP
24

 Kodlama işlemi Keras ile yapılmıştır
 GPU üzerinde deneylerin hepsi çalıştırılmıştır
 Regresyon problemleri için MLP modelleri kullanılmıştır
 Görüntü veri kümelerinde Convolution modelleri kullanılmıştır
 Text veri kümelerinde CNN ve LSTM tabanlı veri kümeleri kullanılmıştır.
25

 En iyi sonuçlar ReLU kullanımı ile elde edildi
 ReLU aktivasyon fonksiyonundan sonra en iyi sonuç Kare Aktivasyon fonksiyonu
kullanımlarında gözlemlendi
 ReLU aktivasyon fonksiyonu eğitimi hızlandırmaktadır
 Kare ile ReLU aktivasyon fonksiyonunun kısmi birleşimlerinden oluşan yeni bir
fonksiyon üzerinde deneyler devam etmektedir
33

 A. L. Maas, A. Y. Hannun, and A. Y. Ng, “Rectifier nonlinearities improve neural
network acoustic models,” 2013.
 A. Vehbi Olgac and B. Karlik, “Performance analysis of various activation
functions in generalized mlp architectures of neural networks,” vol. 1, pp. 111–
122, 02 2011
 J. Hu, J. Lu, and Y. P. Tan, “Discriminative deep metric learning for face
verification in the wild,” in 2014 IEEE Conference on Computer Vision and
Pattern Recognition, June 2014, pp. 1875–1882.
 K. He, X. Zhang, S. Ren, and J. Sun, “Delving deep into rectifiers: Surpassing
human-level performance on imagenet classification,” in Proceedings of the IEEE
international conference on computer vision, 2015, pp. 1026–1034.
34

 X. Glorot, A. Bordes, and Y. Bengio, “Deep sparse rectifier neural networks,” in
Proceedings of the Fourteenth International Conference on Artificial Intelligence
and Statistics, 2011, pp. 315–323.
 L. M. Zhang, “Genetic deep neural networks using different activation functions
for financial data mining,” in Big Data (Big Data), 2015 IEEE International
Conference on. IEEE, 2015, pp. 2849–2851.
 G. E. Dahl, T. N. Sainath, and G. E. Hinton, “Improving deep neural networks for
lvcsr using rectified linear units and dropout,” in Acoustics, Speech and Signal
Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013, pp.
8609–8613.
 D.-A. Clevert, T. Unterthiner, and S. Hochreiter, “Fast and accurate deep network
learning by exponential linear units (elus),” arXiv preprint arXiv:1511.07289,
2015.
 F. Agostinelli, M. Hoffman, P. Sadowski, and P. Baldi, “Learning activation
functions to improve deep neural networks,” 12 2014.
 E. A. M. A. Shenouda, “A quantitative comparison of different mlp activation
functions in classification,” in ISNN, 2006.
35

 G. Cybenko, “Approximation by superpositions of a sigmoidal function,”
Mathematics of Control, Signals, and Systems (MCSS), vol. 2, no. 4, pp. 303–314,
1989.
 K. Jarrett, K. Kavukcuoglu, Y. LeCun et al., “What is the best multistage
architecture for object recognition?” in Computer Vision, 2009 IEEE 12th
International Conference on. IEEE, 2009, pp. 2146–2153.
 J. Bergstra, G. Desjardins, P. Lamblin, and Y. Bengio, “Quadratic polynomials
learn better image features,” Technical Report 1337, Dé- partement
d’Informatique et de Recherche Opérationnelle, Université de Montréal, Tech.
Rep., 2009.
 V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltzmann
machines,” in Proceedings of the 27th international conference on machine
learning (ICML-10), 2010, pp. 807–814.
 G. Klambauer, T. Unterthiner, A. Mayr, and S. Hochreiter, “Selfnormalizing neural
networks,” arXiv preprint arXiv:1706.02515, 2017.
 E. A. M. A. Shenouda, “A quantitative comparison of different mlp activation
functions in classification,” in ISNN, 2006.
36

Yapay Sinir Ağlarında Aktivasyon Fonksiyonlarının Karşılaştırılması

Recommended

Recommended

More Related Content

Featured

Featured (20)

Yapay Sinir Ağlarında Aktivasyon Fonksiyonlarının Karşılaştırılması