ARTIKELDIGITAL.COM

METR
Tanggal pendirian	2022; 4 tahun lalu
Pendiri	Beth Barnes
Jenis	Organisasi nirlaba, Lembaga penelitian
Tujuan	Evaluasi model dan keamanan kecerdasan buatan
Situs web	metr.org

METR (akronim untuk Model Evaluation and Threat Research, diucapkan "meter"), adalah sebuah lembaga penelitian nirlaba, yang berpusat di Berkeley, California, Amerika Serikat.^[1] Lembaga ini berfokus pada evaluasi kemampuan model kecerdasan buatan dalam melaksanakan tugas jangka panjang yang bersifat otonom, yang menurut beberapa peneliti berpotensi menimbulkan risiko signifikan bagi masyarakat.^[2]^[3]

METR bekerja sama dengan berbagai perusahaan kecerdasan buatan untuk melakukan evaluasi model sebelum implementasi dan turut berkontribusi dalam pembuatan system cards, yang mencakup model-model seperti o3 dari OpenAI, o4-mini, GPT-4o dan GPT-4.5, dan model Claude Anthropic.^[3]^[4]^[5]^[6]

Direktur utama dan pendiri METR adalah Beth Barnes, yang sebelumnya merupakan peneliti pengendalian kecerdasan buatan di OpenAI . Pada tahun 2022, Barnes meninggalkan OpenAI untuk membentuk ARC Evals, divisi evaluasi dari Alignment Research Center yang didirikan oleh Paul Christiano. Pada Desember 2023, ARC Evals kemudian dipisahkan menjadi lembaga nirlaba independen berdasarkan 501(c)(3) dan berganti nama menjadi METR.^[7]^[8]^[9]

Riset

METR memusatkan sebagian besar penelitian pada kemampuan sistem kecerdasan buatan untuk melakukan penelitian dan pengembangan sistem. Salah satu inisiatif utama METR adalah RE-Bench, sebuah tolak ukur yang dirancang untuk menguji apakah kecerdasan buatan dapat menyelesaikan tugas-tugas teknik penelitian (research engineering) dan mempercepat proses penelitian serta pengembangan. RE-Bench bertujuan memberikan indikator tentang sejauh mana kecerdasan buatan dapat berkontribusi dalam pembuatan dan peningkatan sistem AI, termasuk pengujian kemampuan model dalam memecahkan masalah teknis yang kompleks dan mengotomatisasi beberapa aspek riset dan pengembangan.

Pada Maret 2025, METR menerbitkan sebuah makalah yang mencatat bahwa durasi tugas-tugas rekayasa perangkat lunak yang dapat diselesaikan oleh model kecerdasan buatan terkemuka menunjukkan pertumbuhan eksponensial (doubling time) sekitar tujuh bulan antara tahun 2019 hingga 2024. Temuan ini menunjukkan peningkatan kemampuan model dalam menangani tugas yang semakin kompleks dalam jangka waktu yang relatif singkat.^[11]

Referensi

^ Witt, Stephen (2025-10-10). "The A.I. Prompt That Could End the World". The New York Times. Diakses tanggal 2025-10-29.
^ "About METR". METR. Diakses tanggal 2025-06-15.
^ ^a ^b "OpenAI o3 and o4-mini System Card". OpenAI. Diakses tanggal 2025-06-15.
^ "GPT-4.5 system card". OpenAI. Diakses tanggal 2025-06-15.
^ "Introducing Claude 3.5 Sonnet". Anthropic. Diakses tanggal 2025-06-15.
^ "Details about METR's preliminary evaluation of Claude 3.7". METR's Autonomy Evaluation Resources. 2025-04-04. Diakses tanggal 2025-06-15.
^ "ARC Evals is now METR". METR Blog (dalam bahasa Inggris). 2023-12-04.
^ Booth. TIME (dalam bahasa Inggris). ;
^ Henshall. TIME (dalam bahasa Inggris). ;
^ "Measuring AI Ability to Complete Long Tasks". METR Blog (dalam bahasa Inggris). 2025-03-19.
^ Lovely, Garrison (2025-03-19). "AI could soon tackle projects that take humans weeks". Nature (dalam bahasa Inggris). doi:10.1038/d41586-025-00831-8. ISSN 1476-4687.

[1] Witt, Stephen (2025-10-10). "The A.I. Prompt That Could End the World". The New York Times. Diakses tanggal 2025-10-29.

[2] "About METR". METR. Diakses tanggal 2025-06-15.

[:0-3] "OpenAI o3 and o4-mini System Card". OpenAI. Diakses tanggal 2025-06-15.

[4] "GPT-4.5 system card". OpenAI. Diakses tanggal 2025-06-15.

[5] "Introducing Claude 3.5 Sonnet". Anthropic. Diakses tanggal 2025-06-15.

[6] "Details about METR's preliminary evaluation of Claude 3.7". METR's Autonomy Evaluation Resources. 2025-04-04. Diakses tanggal 2025-06-15.

[7] "ARC Evals is now METR". METR Blog (dalam bahasa Inggris). 2023-12-04.

[8] Booth. TIME (dalam bahasa Inggris). ;

[9] Henshall. TIME (dalam bahasa Inggris). ;

[10] "Measuring AI Ability to Complete Long Tasks". METR Blog (dalam bahasa Inggris). 2025-03-19.

[11] Lovely, Garrison (2025-03-19). "AI could soon tackle projects that take humans weeks". Nature (dalam bahasa Inggris). doi:10.1038/d41586-025-00831-8. ISSN 1476-4687.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Tanggal pendirian	2022; 4 tahun lalu (2022)
Pendiri	Beth Barnes
Jenis	Organisasi nirlaba, Lembaga penelitian
Tujuan	Evaluasi model dan keamanan kecerdasan buatan
Situs web	metr.org

METR

Riset

Referensi

Content Disclaimer