A-IPLA: A symmetric, non-monotonic activation function for convolutional neural network
Các tác giả
Từ khóa:
Hàm kích hoạt, hàm tuyến tính nghịch đảo, kích hoạt không đơn điệu, mạng nơ-ron tích chậpTóm tắt
Trong bài viết này, một hàm kích hoạt đối xứng tâm, không bão hòa và không đơn điệu mới gọi là hàm kích hoạt tuyến tính nghịch đảo thích ứng (A-IPLA) được đề xuất để tránh vấn đề sai lệch ở đầu ra của các nơ-ron, cải thiện được hiệu quả nhận dạng và tốc độ hội tụ của mạng nơ-ron. Hàm này sử dụng phương pháp kích hoạt phân đoạn, đồng thời tùy theo sự thay đổi của điểm phân đoạn và hệ số góc, từng phân đoạn sử dụng các hành vi kích hoạt khác nhau bao gồm kích hoạt tuyến tính và kích hoạt nghịch đảo. Đầu tiên, hàm A-IPLA có ưu điểm về đối xứng tâm giúp tránh được giá trị trung bình đầu ra khác 0, do đó giải quyết được vấn đề dịch chuyển đầu ra. Thứ hai, hệ số góc của A-IPLA có thể tự động cập nhật thông qua quá trình huấn luyện giúp cải thiện tính linh hoạt của hàm kích hoạt. Các thử nghiệm sử dụng mô hình Lenet-5 được thực hiện trên các bộ dữ liệu chuẩn khác nhau (MNIST, CIFAR-10) cho thấy rằng hàm kích hoạt được đề xuất hoạt động tốt hơn các hàm kích hoạt hiện hành trong tất cả các thử nghiệm với mức cải thiện độ nhận dạng chính xác là 0.20% trên MNIST, 5.34% trên CIFAR-10. Đồng thời, trong điều kiện độ nhận dạng chính xác như nhau, tốc độ hội tụ của hàm được đề xuất nhanh hơn 3.55 lần trên MNIST và nhanh hơn 2.69 lần trên CIFAR-10.
Abstract
In this paper, a new symmetric origin, non-saturated, and non-monotonic activation function called adaptive inverse proportional linear activation (A-IPLA) is proposed to avoid the output deviation problem, improve the neural network recognition performance and convergence speed. The function uses the piecewise activation method which each segment has different activation behaviors including linear activation and inverse proportional activation according to the change of the piecewise point and the slope coefficient. Firstly, A-IPLA is the origin symmetry function that avoids the non-zero output mean, solving the output deviation problem. Secondly, the slope coefficient of A-IPLA can be learned in the training process. Experiments using the Lenet-5 models performed on various benchmark datasets show that the proposed activation functions outperform the state-of-the-art activation functions in all tests with recognition accuracy improvements of 0.20% on MNIST and 5.34% on CIFAR-10. Meanwhile, under the same accuracy requirement, the convergence rate of the proposed function is 3.55x faster on MNIST and 2.69x faster on CIFAR-10, respectively.
Tài liệu tham khảo
[1] Q. Chen, J. Xu, and V. Koltun, “Fast image processing with fully-convolutional networks,” 2017 IEEE International Conference on Computer Vision (ICCV), 2017, pp. 2497-2506.
[2] Y.M. Qian, M.X. Bi, T. Tan and K. Yu, “Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, pp. 2263-2276, Dec. 2016.
[3] R. Girshick, J. Donahue, T. Darrell and J. Malik, “Region-Based Convolutional Networks for Accurate Object Detection and Segmentation,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 38, pp. 142-158, 2016.
[4] N. Akhtar and A. Mian, “Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey,” IEEE Access, vol. 6, pp. 14410-14430, 2018.
[5] S.S. Liew, M. Khalil-Hani and R. Bakhteri, “Bounded activation functions for enhanced training stability of deep neural networks on visual pattern recognition problems,” Neurocomputing, vol. 216, pp. 718-734, 2016.
[6] Ö.F. Ertuğrul, “A novel type of activation function in artificial neural networks: Trained activation function,” Neural Networks, vol. 99, pp. 148-157, 2018.
[7] C.E. Nwankpa, W. Ijomah, A. Gachagan and S. Marshall, “Activation Functions: Comparison of Trends in Practice and Research for Deep Learning,” ArXiv e-prints, pp. 1-20, 2018.
[8] K. Hornik, “Approximation capabilities of multilayer feedforward networks,” Neural Networks, vol. 4, pp. 251-257, 1991.
[9] B.L. Kalman and S.C. Kwasny, “Why tanh: choosing a sigmoidal function,” IJCNN International Joint Conference on Neural Networks. doi:10.1109/ijcnn.1992.227257
[10] X. Wang, Y. Qin, Y. Wang, S. Xiang, and H. Chen, “ReLTanh: An activation function with vanishing gradient resistance for SAE-based DNNs and its application to rotating machinery fault diagnosis,” Neurocomputing, 2019.
[11] D. Elliot, “A better activation function for artificial neural networks, the National Science Foundation,” Institute for Systems Research, Washington, DC, ISR Technical Rep. TR-8, 1993.
[12] W. Duch and N. Jankowski, “Survey of neural transfer functions,” Neural Computing Surveys, vol. 2, pp. 163-212, 1999.
[13] K.V. Naresh Babu, and D.R. Edla, “ New Algebraic Activation Function for Multi-Layered Feed Forward Neural Networks,” IETE Journal of Research, vol. 63(1), pp. 71-79, 2016.
[14] V. Nair and G.E. Hinton, “Rectified linear units improve restricted boltzmann machines,” In Proc. 27th International Conference on International Conference on Machine Learning, 2010, pp. 807-814.
[15] D.A. Clevert, T. Unterthiner and S. Hochreiter, “Fast and accurate deep network learning by exponential linear units (elus),” International Conference on Learning Representations, 2016.
[16] Maas, A. L., Hannun, A. Y., & Ng, A. Y. (2013). Rectifier nonlinearities improve neural network acoustic models. 30 (1), 3.
[17] Qian, S., Liu, H., Liu, C., Wu, S., & Wong, H. S. (2018). Adaptive activation functions in convolutional neural networks. Neurocomputing, 272, 204-212. doi:10.1016/j.neucom.2017.06.070
[18] S.S. Liew, M. Khalil-Hani and R. Bakhteri, “Bounded activation functions for enhanced training stability of deep neural networks on visual pattern recognition problems,” Neurocomputing, vol. 216, pp. 718-734, 2016.
[19] M. Tanaka, “Weighted Sigmoid Gate Unit for an Activation Function of Deep Neural Network,” Pattern Recognition Letters, vol. 135, pp. 354-359, 2020.
[20] V. S. Bawa, and V. Kumar, “Linearized si moidal activation: A novel activation function with tractable non-linear characteristics to boost representation capability,” Expert Systems with Applications, vol. 120, pp. 346-356, 2019.
[21] P. Ramachandran, B. Zoph and V.Q. Le, “Swish: a Self-Gated activation function,” arXiv: Neural and Evolutionary Computing, 2017.
[22] Hock Hung Chieng, Noorhaniza Wahid, Pauline Ong, Sai Raj Kishore Perla, “Flatten-T Swish: a thresholded ReLU-Swish-like activation function for deep learning,” International Journal of Advances in Intelligent Informatics, vol 7, pp.76, 2018.
[23] S. Elfwing, E. Uchibe and K. Doya, “Sigmoid-weighted linear units for neural network function approximation in reinforcement learning,” Neural Networks, 2018.
[24] A.L. Maas and A.Y. Hannun, “Rectifier nonlinearities improve neural network acoustic models,” In Proc. International Conference on Machine Learning, vol 30(1), pp.3, 2013.
[25] K. He, X. Zhang, S. Ren and J. Sun, “Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification,” 2015 IEEE International Conference on Computer Vision (ICCV), 2015, pp. 1026-1034.
Tải xuống
Tải xuống: 27