VGGNet
| VGGNet | |
|---|---|
| Pengembang | Visual Geometry Group |
| Rilis awal | September 4, 2014 |
| Ditulis dalam | Caffe |
| Jenis | Jaringan saraf konvolusional |
| Lisensi | CC BY 4.0 |
| Situs web | www |

VGGNet adalah serangkaian jaringan saraf konvolusional yang dikembangkan oleh Visual Geometry Group (VGG) Universitas Oxford.
Keluarga arsitektur VGG terdiri dari berbagai konfigurasi dengan kedalaman (depth) yang bervariasi. Setiap seri dalam keluarga ini dilambangkan dengan huruf "VGG" yang diikuti oleh jumlah lapisan pembobotnya. VGG-16 dan VGG-19 merupakan varian yang paling umum digunakan. VGG-16 terdiri dari 13 lapisan konvolusi dan 3 lapisan fully connected dengan total 138 juta parameter, sedangkan VGG-19 memiliki 16 lapisan konvolusi dan 3 lapisan fully connected dengan total 144 juta parameter.[1]
Keluarga arsitektur VGG telah banyak diimplementasikan dalam berbagai bidang visi komputer.[2] Model ensemble VGGNet berhasil mencapai hasil terbaik dalam ImageNet Large Scale Visual Recognition Challenge (ILSVRC) pada tahun 2014.[1][3] Selain itu, VGG sering digunakan sebagai arsitektur dasar (baseline) dalam berbagai penelitian, seperti pada makalah ResNet untuk klasifikasi citra,[4] sebagai tulang punggung (backbone) dalam Fast Region-based CNN untuk deteksi objek, dan sebagai model dasar dalam teknik transfer gaya neural.
Secara historis, seri VGG memiliki signifikansi besar sebagai arsitektur awal yang dirancang dengan menyusun modul-modul konvolusional yang berulang dan generik, sedangkan AlexNet (2012) yang dibangun dengan konfigurasi yang lebih spesifik. Inovasi utamanya terletak pada penggunaan kernel berukuran kecil (3x3) secara konsisten di semua lapisan konvolusi, berbeda dengan model sebelumnya yang menggunakan kernel besar (seperti 11x11 pada AlexNet). Strategi ini terbukti sangat efektif dalam meningkatkan kedalaman jaringan hingga akhirnya arsitektur ini mulai ditinjau kembali dan disempurnakan melalui model ConvNeXt (2022).[5][6]
VGGNet kemudian baru menjadi usang dengan adanya Inception, ResNet, dan DenseNet. Adapun RepVGG (2021) adalah versi terbaru dari arsitektur ini.[7]
Arsitektur

Prinsip arsitektur utama model VGG adalah penggunaan filter konvolusi berukuran kecil yang konsisten di seluruh jaringan. Pendekatan ini berbeda dengan arsitektur CNN sebelumnya yang menggunakan filter yang lebih besar, seperti di AlexNet.[6]
Sebagai contoh, dua lapisan konvolusi berukuran yang ditumpuk bersama memiliki bidang reseptif yang setara dengan satu lapisan konvolusi berukuran . Namun, efisiensi parameternya sangat berbeda, sebab satu lapisan memerlukan parameter, sedangkan dua lapisan hanya membutuhkan parameter (dengan adalah jumlah kanal masukan dan luaran). Publikasi asli VGG membuktikan bahwa CNN yang lebih dalam dan sempit secara signifikan mengungguli CNN yang dangkal dan lebar dalam menangkap representasi fitur yang kompleks.[6]
Seri model VGG merupakan arsitektur jaringan saraf dalam (deep neural networks) yang dirancang dengan menyusun modul-modul konvolusional generik secara berulang:
- Modul konvolusi: Menggunakan filter konvolusi berukuran dengan langkah (stride) 1 yang diikuti oleh aktivasi ReLU.
- Lapisan max-pooling: Setelah beberapa modul konvolusi, lapisan max-pooling dengan filter dan langkah 2 untuk melakukan downsampling pada peta fitur asli. Hasilnya, lebar dan tinggi dikurangi setengahnya, tetapi jumlah channel tetap dipertahankan.
- Lapisan fully connected: Tiga lapisan terhubung penuh di ujung jaringan, dengan ukuran 4096-4096-1000. Lapisan terakhir memiliki 1000 saluran yang sesuai dengan 1000 kelas di ImageNet.
- Lapisan Softmax: Lapisan Softmax menghasilkan distribusi probabilitas atas kelas-kelas tersebut.
Keluarga arsitektur VGG terdiri dari berbagai konfigurasi dengan kedalaman (depth) yang bervariasi. Setiap seri dalam keluarga ini dilambangkan dengan huruf "VGG" yang diikuti oleh jumlah lapisan pembobotnya. VGG-16 dan VGG-19 merupakan varian yang paling umum digunakan. VGG-16 terdiri dari 13 lapisan konvolusi dan 3 lapisan fully connected dengan total 138 juta parameter, sedangkan VGG-19 memiliki 16 lapisan konvolusi dan 3 lapisan fully connected dengan total 144 juta parameter, yang dilambangkan sebagai konfigurasi D dan E dalam makalah aslinya.[9]
Sebagai contoh, 16 lapisan konvolusi VGG-19 disusun sebagai berikut: dengan panah artinya konvolusi 3x3 dengan saluran masukan dan saluran luaran dan langkah (stride) 1 dan diikuti oleh aktivasi ReLU. The artinya lapisan down-sampling dengan maxpooling 2x2 dengan langkah 2.
| Nama | Jumlah lapisan konvolusi | Jumlah lapisan fully connected | Jumlah parameter |
|---|---|---|---|
| VGG-16 | 13 | 3 | 138 juta |
| VGG-19 | 16 | 3 | 144 juta |
Pelatihan
Model VGG asli diimplementasikan dalam versi C++ Caffe yang telah dimodifikasi untuk pelatihan dan evaluasi multi-GPU dengan teknik paralelisme data. Pada sistem yang dilengkapi dengan 4 unit GPU NVIDIA Titan Black, pelatihan satu model jaringan membutuhkan waktu 2–3 minggu, tergantung pada arsitekturnya.[1]
Referensi
- ^ a b c Simonyan, Karen; Zisserman, Andrew (2015-04-10), Very Deep Convolutional Networks for Large-Scale Image Recognition, arXiv:1409.1556
- ^ Dhillon, Anamika; Verma, Gyanendra K. (2020-06-01). "Convolutional neural network: a review of models, methodologies and applications to object detection". Progress in Artificial Intelligence (dalam bahasa Inggris). 9 (2): 85–112. doi:10.1007/s13748-019-00203-0. ISSN 2192-6360.
- ^ "ILSVRC2014 Results". image-net.org. Diakses tanggal 2024-09-06.
- ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Deep Residual Learning for Image Recognition". 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). hlm. 770–778. arXiv:1512.03385. Bibcode:2016cvpr.confE...1H. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
- ^ Liu, Zhuang; Mao, Hanzi; Wu, Chao-Yuan; Feichtenhofer, Christoph; Darrell, Trevor; Xie, Saining (2022). "A ConvNet for the 2020s". 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (dalam bahasa Inggris). hlm. 11976–11986. arXiv:2201.03545. doi:10.1109/CVPR52688.2022.01167. ISBN 978-1-6654-6946-3.
- ^ a b c Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "8.2. Networks Using Blocks (VGG)". Dive into deep learning. Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.
- ^ Ding, Xiaohan; Zhang, Xiangyu; Ma, Ningning; Han, Jungong; Ding, Guiguang; Sun, Jian (2021). "RepVGG: Making VGG-style ConvNets Great Again". 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (dalam bahasa Inggris). hlm. 13733–13742. arXiv:2101.03697. doi:10.1109/CVPR46437.2021.01352. ISBN 978-1-6654-4509-2.
- ^ Lin, Min; Chen, Qiang; Yan, Shuicheng (2013). "Network In Network". arΧiv:1312.4400 [cs.NE].
- ^ "Very Deep Convolutional Networks for Large-Scale Visual Recognition". Computer Vision group from the University of Oxford. Diakses tanggal 2024-09-06.
Content Disclaimer
Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.
- The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
- There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
- It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
- Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
- Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.