METR

METR
Tanggal pendirian2022; 4 tahun lalu (2022)
PendiriBeth Barnes
JenisOrganisasi nirlaba, Lembaga penelitian
TujuanEvaluasi model dan keamanan kecerdasan buatan
Situs webmetr.org

METR (akronim untuk Model Evaluation and Threat Research, diucapkan "meter"), adalah sebuah lembaga penelitian nirlaba, yang berpusat di Berkeley, California, Amerika Serikat.[1] Lembaga ini berfokus pada evaluasi kemampuan model kecerdasan buatan dalam melaksanakan tugas jangka panjang yang bersifat otonom, yang menurut beberapa peneliti berpotensi menimbulkan risiko signifikan bagi masyarakat.[2][3]

METR bekerja sama dengan berbagai perusahaan kecerdasan buatan untuk melakukan evaluasi model sebelum implementasi dan turut berkontribusi dalam pembuatan system cards, yang mencakup model-model seperti o3 dari OpenAI, o4-mini, GPT-4o dan GPT-4.5, dan model Claude Anthropic.[3][4][5][6]

Direktur utama dan pendiri METR adalah Beth Barnes, yang sebelumnya merupakan peneliti pengendalian kecerdasan buatan di OpenAI . Pada tahun 2022, Barnes meninggalkan OpenAI untuk membentuk ARC Evals, divisi evaluasi dari Alignment Research Center yang didirikan oleh Paul Christiano. Pada Desember 2023, ARC Evals kemudian dipisahkan menjadi lembaga nirlaba independen berdasarkan 501(c)(3) dan berganti nama menjadi METR.[7][8][9]

Riset

Sebuah grafik menunjukkan bahwa durasi tugas yang dapat diselesaikan oleh model terkemuka dengan tingkat keberhasilan 50% meningkat dua kali lipat setiap tujuh bulan antara tahun 2019 hingga 2024. Wilayah yang diarsir pada grafik tersebut menggambarkan interval kepercayaan 95%.[10]

METR memusatkan sebagian besar penelitian pada kemampuan sistem kecerdasan buatan untuk melakukan penelitian dan pengembangan sistem. Salah satu inisiatif utama METR adalah RE-Bench, sebuah tolak ukur yang dirancang untuk menguji apakah kecerdasan buatan dapat menyelesaikan tugas-tugas teknik penelitian (research engineering) dan mempercepat proses penelitian serta pengembangan. RE-Bench bertujuan memberikan indikator tentang sejauh mana kecerdasan buatan dapat berkontribusi dalam pembuatan dan peningkatan sistem AI, termasuk pengujian kemampuan model dalam memecahkan masalah teknis yang kompleks dan mengotomatisasi beberapa aspek riset dan pengembangan.

Pada Maret 2025, METR menerbitkan sebuah makalah yang mencatat bahwa durasi tugas-tugas rekayasa perangkat lunak yang dapat diselesaikan oleh model kecerdasan buatan terkemuka menunjukkan pertumbuhan eksponensial (doubling time) sekitar tujuh bulan antara tahun 2019 hingga 2024. Temuan ini menunjukkan peningkatan kemampuan model dalam menangani tugas yang semakin kompleks dalam jangka waktu yang relatif singkat.[11]

Referensi

  1. ^ Witt, Stephen (2025-10-10). "The A.I. Prompt That Could End the World". The New York Times. Diakses tanggal 2025-10-29.
  2. ^ "About METR". METR. Diakses tanggal 2025-06-15.
  3. ^ a b "OpenAI o3 and o4-mini System Card". OpenAI. Diakses tanggal 2025-06-15.
  4. ^ "GPT-4.5 system card". OpenAI. Diakses tanggal 2025-06-15.
  5. ^ "Introducing Claude 3.5 Sonnet". Anthropic. Diakses tanggal 2025-06-15.
  6. ^ "Details about METR's preliminary evaluation of Claude 3.7". METR's Autonomy Evaluation Resources. 2025-04-04. Diakses tanggal 2025-06-15.
  7. ^ "ARC Evals is now METR". METR Blog (dalam bahasa Inggris). 2023-12-04.
  8. ^ Booth. TIME (dalam bahasa Inggris). ;
  9. ^ Henshall. TIME (dalam bahasa Inggris). ;
  10. ^ "Measuring AI Ability to Complete Long Tasks". METR Blog (dalam bahasa Inggris). 2025-03-19.
  11. ^ Lovely, Garrison (2025-03-19). "AI could soon tackle projects that take humans weeks". Nature (dalam bahasa Inggris). doi:10.1038/d41586-025-00831-8. ISSN 1476-4687.

Content Disclaimer

Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.

  1. The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
  2. There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
  3. It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
  4. Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
  5. Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.