ARTIKELDIGITAL.COM

VGGNet
VGGNet
Pengembang	Visual Geometry Group
Rilis awal	September 4, 2014; 11 tahun lalu
	Templat:Kotak info perangkat lunak/simple
Ditulis dalam	Caffe
Jenis	Jaringan saraf konvolusional
Lisensi	CC BY 4.0
Situs web	www.robots.ox.ac.uk/~vgg/research/very_deep/

VGGNet adalah serangkaian jaringan saraf konvolusional yang dikembangkan oleh Visual Geometry Group (VGG) Universitas Oxford.

Keluarga arsitektur VGG terdiri dari berbagai konfigurasi dengan kedalaman (depth) yang bervariasi. Setiap seri dalam keluarga ini dilambangkan dengan huruf "VGG" yang diikuti oleh jumlah lapisan pembobotnya. VGG-16 dan VGG-19 merupakan varian yang paling umum digunakan. VGG-16 terdiri dari 13 lapisan konvolusi dan 3 lapisan fully connected dengan total 138 juta parameter, sedangkan VGG-19 memiliki 16 lapisan konvolusi dan 3 lapisan fully connected dengan total 144 juta parameter.^[1]

Keluarga arsitektur VGG telah banyak diimplementasikan dalam berbagai bidang visi komputer.^[2] Model ensemble VGGNet berhasil mencapai hasil terbaik dalam ImageNet Large Scale Visual Recognition Challenge (ILSVRC) pada tahun 2014.^[1]^[3] Selain itu, VGG sering digunakan sebagai arsitektur dasar (baseline) dalam berbagai penelitian, seperti pada makalah ResNet untuk klasifikasi citra,^[4] sebagai tulang punggung (backbone) dalam Fast Region-based CNN untuk deteksi objek, dan sebagai model dasar dalam teknik transfer gaya neural.

Secara historis, seri VGG memiliki signifikansi besar sebagai arsitektur awal yang dirancang dengan menyusun modul-modul konvolusional yang berulang dan generik, sedangkan AlexNet (2012) yang dibangun dengan konfigurasi yang lebih spesifik. Inovasi utamanya terletak pada penggunaan kernel berukuran kecil (3x3) secara konsisten di semua lapisan konvolusi, berbeda dengan model sebelumnya yang menggunakan kernel besar (seperti 11x11 pada AlexNet). Strategi ini terbukti sangat efektif dalam meningkatkan kedalaman jaringan hingga akhirnya arsitektur ini mulai ditinjau kembali dan disempurnakan melalui model ConvNeXt (2022).^[5]^[6]

VGGNet kemudian baru menjadi usang dengan adanya Inception, ResNet, dan DenseNet. Adapun RepVGG (2021) adalah versi terbaru dari arsitektur ini.^[7]

Arsitektur

Prinsip arsitektur utama model VGG adalah penggunaan filter konvolusi berukuran kecil $3\times 3$ yang konsisten di seluruh jaringan. Pendekatan ini berbeda dengan arsitektur CNN sebelumnya yang menggunakan filter yang lebih besar, seperti $11\times 11$ di AlexNet.^[6]

Sebagai contoh, dua lapisan konvolusi berukuran ${\textstyle 3\times 3}$ yang ditumpuk bersama memiliki bidang reseptif yang setara dengan satu lapisan konvolusi berukuran ${\textstyle 5\times 5}$ . Namun, efisiensi parameternya sangat berbeda, sebab satu lapisan ${\textstyle 5\times 5}$ memerlukan ${\textstyle \left(25\cdot c^{2}\right)}$ parameter, sedangkan dua lapisan ${\textstyle 3\times 3}$ hanya membutuhkan ${\textstyle \left(18\cdot c^{2}\right)}$ parameter (dengan $c$ adalah jumlah kanal masukan dan luaran). Publikasi asli VGG membuktikan bahwa CNN yang lebih dalam dan sempit secara signifikan mengungguli CNN yang dangkal dan lebar dalam menangkap representasi fitur yang kompleks.^[6]

Seri model VGG merupakan arsitektur jaringan saraf dalam (deep neural networks) yang dirancang dengan menyusun modul-modul konvolusional generik secara berulang:

Modul konvolusi: Menggunakan filter konvolusi berukuran $3\times 3$ dengan langkah (stride) 1 yang diikuti oleh aktivasi ReLU.
Lapisan max-pooling: Setelah beberapa modul konvolusi, lapisan max-pooling dengan filter $2\times 2$ dan langkah 2 untuk melakukan downsampling pada peta fitur asli. Hasilnya, lebar dan tinggi dikurangi setengahnya, tetapi jumlah channel tetap dipertahankan.
Lapisan fully connected: Tiga lapisan terhubung penuh di ujung jaringan, dengan ukuran 4096-4096-1000. Lapisan terakhir memiliki 1000 saluran yang sesuai dengan 1000 kelas di ImageNet.
Lapisan Softmax: Lapisan Softmax menghasilkan distribusi probabilitas atas kelas-kelas tersebut.

Keluarga arsitektur VGG terdiri dari berbagai konfigurasi dengan kedalaman (depth) yang bervariasi. Setiap seri dalam keluarga ini dilambangkan dengan huruf "VGG" yang diikuti oleh jumlah lapisan pembobotnya. VGG-16 dan VGG-19 merupakan varian yang paling umum digunakan. VGG-16 terdiri dari 13 lapisan konvolusi dan 3 lapisan fully connected dengan total 138 juta parameter, sedangkan VGG-19 memiliki 16 lapisan konvolusi dan 3 lapisan fully connected dengan total 144 juta parameter, yang dilambangkan sebagai konfigurasi D dan E dalam makalah aslinya.^[9]

Sebagai contoh, 16 lapisan konvolusi VGG-19 disusun sebagai berikut: ${\begin{aligned}&3\to 64\to 64&\xrightarrow {\text{downsample}} \\&64\to 128\to 128&\xrightarrow {\text{downsample}} \\&128\to 256\to 256\to 256\to 256&\xrightarrow {\text{downsample}} \\&256\to 512\to 512\to 512\to 512&\xrightarrow {\text{downsample}} \\&512\to 512\to 512\to 512\to 512&\xrightarrow {\text{downsample}} \end{aligned}}$ dengan panah $c_{1}\to c_{2}$ artinya konvolusi 3x3 dengan $c_{1}$ saluran masukan dan $c_{2}$ saluran luaran dan langkah (stride) 1 dan diikuti oleh aktivasi ReLU. The $\xrightarrow {\text{downsample}}$ artinya lapisan down-sampling dengan maxpooling 2x2 dengan langkah 2.

Tabel model VGG
Nama	Jumlah lapisan konvolusi	Jumlah lapisan fully connected	Jumlah parameter
VGG-16	13	3	138 juta
VGG-19	16	3	144 juta

Pelatihan

Model VGG asli diimplementasikan dalam versi C++ Caffe yang telah dimodifikasi untuk pelatihan dan evaluasi multi-GPU dengan teknik paralelisme data. Pada sistem yang dilengkapi dengan 4 unit GPU NVIDIA Titan Black, pelatihan satu model jaringan membutuhkan waktu 2–3 minggu, tergantung pada arsitekturnya.^[1]

Referensi

^ ^a ^b ^c Simonyan, Karen; Zisserman, Andrew (2015-04-10), Very Deep Convolutional Networks for Large-Scale Image Recognition, arXiv:1409.1556
^ Dhillon, Anamika; Verma, Gyanendra K. (2020-06-01). "Convolutional neural network: a review of models, methodologies and applications to object detection". Progress in Artificial Intelligence (dalam bahasa Inggris). 9 (2): 85–112. doi:10.1007/s13748-019-00203-0. ISSN 2192-6360.
^ "ILSVRC2014 Results". image-net.org. Diakses tanggal 2024-09-06.
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Deep Residual Learning for Image Recognition". 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). hlm. 770–778. arXiv:1512.03385. Bibcode:2016cvpr.confE...1H. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
^ Liu, Zhuang; Mao, Hanzi; Wu, Chao-Yuan; Feichtenhofer, Christoph; Darrell, Trevor; Xie, Saining (2022). "A ConvNet for the 2020s". 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (dalam bahasa Inggris). hlm. 11976–11986. arXiv:2201.03545. doi:10.1109/CVPR52688.2022.01167. ISBN 978-1-6654-6946-3.
^ ^a ^b ^c Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "8.2. Networks Using Blocks (VGG)". Dive into deep learning. Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.
^ Ding, Xiaohan; Zhang, Xiangyu; Ma, Ningning; Han, Jungong; Ding, Guiguang; Sun, Jian (2021). "RepVGG: Making VGG-style ConvNets Great Again". 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (dalam bahasa Inggris). hlm. 13733–13742. arXiv:2101.03697. doi:10.1109/CVPR46437.2021.01352. ISBN 978-1-6654-4509-2.
^ Lin, Min; Chen, Qiang; Yan, Shuicheng (2013). "Network In Network". arΧiv:1312.4400 [cs.NE].
^ "Very Deep Convolutional Networks for Large-Scale Visual Recognition". Computer Vision group from the University of Oxford. Diakses tanggal 2024-09-06.

[:1-1] Simonyan, Karen; Zisserman, Andrew (2015-04-10), Very Deep Convolutional Networks for Large-Scale Image Recognition, arXiv:1409.1556

[2] Dhillon, Anamika; Verma, Gyanendra K. (2020-06-01). "Convolutional neural network: a review of models, methodologies and applications to object detection". Progress in Artificial Intelligence (dalam bahasa Inggris). 9 (2): 85–112. doi:10.1007/s13748-019-00203-0. ISSN 2192-6360.

[3] "ILSVRC2014 Results". image-net.org. Diakses tanggal 2024-09-06.

[4] He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Deep Residual Learning for Image Recognition". 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). hlm. 770–778. arXiv:1512.03385. Bibcode:2016cvpr.confE...1H. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.

[5] Liu, Zhuang; Mao, Hanzi; Wu, Chao-Yuan; Feichtenhofer, Christoph; Darrell, Trevor; Xie, Saining (2022). "A ConvNet for the 2020s". 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (dalam bahasa Inggris). hlm. 11976–11986. arXiv:2201.03545. doi:10.1109/CVPR52688.2022.01167. ISBN 978-1-6654-6946-3.

[:0-6] Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "8.2. Networks Using Blocks (VGG)". Dive into deep learning. Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.

[7] Ding, Xiaohan; Zhang, Xiangyu; Ma, Ningning; Han, Jungong; Ding, Guiguang; Sun, Jian (2021). "RepVGG: Making VGG-style ConvNets Great Again". 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (dalam bahasa Inggris). hlm. 13733–13742. arXiv:2101.03697. doi:10.1109/CVPR46437.2021.01352. ISBN 978-1-6654-4509-2.

[8] Lin, Min; Chen, Qiang; Yan, Shuicheng (2013). "Network In Network". arΧiv:1312.4400 [cs.NE].

[9] "Very Deep Convolutional Networks for Large-Scale Visual Recognition". Computer Vision group from the University of Oxford. Diakses tanggal 2024-09-06.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

VGGNet

Arsitektur

Pelatihan

Referensi

Content Disclaimer