Share to: share facebook share twitter share wa share telegram print page

نموذج لغوي كبير

نموذجُ اللّغةِ الكبيرُ (اختصارًا LLM) هو نموذجٌ حسابيٌّ قادرٌ على توليدِ اللّغةِ أو مهامّ مُعالجةِ اللّغةِ الطّبيعيةِ الأخرى. بصفتها نماذجَ لُغوية، تكتسبُ نماذجُ اللّغةِ الكبيرةُ هذهِ القدراتِ من خلالِ تعلّمِ العلاقاتِ الإحصائيةِ من كمياتٍ هائلةٍ منَ النّصوصِ أثناءَ عمليةِ تدريبٍ ذاتيّةِ الإشرافِ وشبهِ مُراقبة  [لغات أخرى]‏.[1] وتستهلك هذه النماذج موارد حسابية كبيرة أثناء التدريب والتشغيل.[2]

حتى عام 2020 كان الضبط الدقيق أو الصقل هو الطريقة الوحيدة التي يمكن من خلالها تكييف النموذج ليكون قادرًا على إنجاز مهام محددة. ومع ذلك يمكن تصميم النماذج الأكبر حجمًا، مثل جي بي تي-3، لتحقيق نتائج مماثلة.[3] يُعتقد أنهم يكتسبون معرفة مضمنة حول بناء الجملة وعلم الدلالات و«علم الوجود» المتأصل في مجاميع اللغة البشرية، ولكن عدم الدقة والتحيزات الموجودة في مجاميع اللغة البشرية أيضًا.[4][5]

أكبرُ نماذجِ اللّغةِ الكبيرةِ وأكثرُها قدرةً، اعتبارًا من أغسطس 2024، هي شبكاتٌ عصبيةٌ اصطناعيةٌ مبنيةٌ بِبنيةٍ قائمةٍ على المُحوّلِ الخاصّ بِفكّ التشفيرِ فقط،[6] ممّا يُتيحُ مُعالجةً فعّالةً وتوليدَ بياناتِ نصيةٍ واسعةَ النّطاق. يُمكنُ ضبط أو صقل النماذجِ الحديثةِ لِمهامّ مُحدّدةٍ أو يُمكنُ توجيهُها بواسطةِ هندسةِ المُطالبات.[7] تكتسبُ هذهِ النماذجُ قوّةً تنبّؤيةً فيما يتعلّقُ بِالنّحوِ والدّلالاتِ وعلمِ الوجود[8] المُتأصّلِ في مجموعاتِ اللّغةِ البشرية، لكنّها ترثُ أيضًا عدمَ الدّقةِ والانحيازاتِ الموجودةِ في البياناتِ التي تمّ تدريبُها عليها.[9]

تاريخ

حوسبة التّدريب لنماذج بارزة مقاسةً بـ FLOPs مقابل تاريخ النّشر خلال الفترة 2010-2024. النماذج البارزة بشكل عامّ (أعلى اليسار)، ونماذج الطليعة (أعلى اليمين)، ونماذج اللّغة الرّئيسية (أسفل اليسار)، وأفضل النماذج داخل الشركات الرّائدة (أسفل اليمين). غالبية هذه النماذج هي نماذج لغة.
حوسبة التّدريب لنماذج الذّكاء الاصطناعيّ الكبيرة البارزة مقاسةً بـ FLOPs مقابل تاريخ النّشر خلال الفترة 2017-2024. غالبية النماذج الكبيرة هي نماذج لغة أو نماذج متعدّدة الوسائط ذات قدرة لغوية.

قبل عام 2017، كان هناك عدد قليل من نماذج اللغة التي كانت كبيرةً مقارنةً بالقدرات المتاحة حينها. في التسعينيات، كانت نماذج محاذاة IBM رائدةً في النمذجة الإحصائية للغة. حقق نموذج n-gram المحسن في عام 2001، والذي تم تدريبه على 0.3 مليار كلمة، حيرةً متطورةً حينها.[10] في العقد الأول من القرن الحادي والعشرين، مع انتشار استخدام الإنترنت، أنشأ بعض الباحثين مجموعات بيانات لغة على نطاق الإنترنت ("الويب كجسم نصي" [11])، قاموا بتدريب نماذج اللغة الإحصائية عليها.[12][13] في عام 2009، في معظم مهام معالجة اللغة، سيطرت نماذج اللغة الإحصائية على نماذج اللغة الرمزية، حيث يمكنها استيعاب مجموعات بيانات كبيرة بشكل مفيد.[14]

بعد أن أصبحت الشبكات العصبية مهيمنةً في معالجة الصور حوالي عام 2012 [بحاجة لمصدر]، تم تطبيقها على نمذجة اللغة أيضًا. حولت جوجل خدمة الترجمة الخاصة بها إلى الترجمة الآلية العصبية في عام 2016. كما كان الحال قبل المحولات، تم ذلك بواسطة شبكات LSTM العميقة سيك تو سيك.

في مؤتمر مؤتمر نظم معالجة المعلومات العصبية عام 2017، قدم باحثو جوجل بنية المحولات في ورقتهم البحثية البارزة "الاهتمام هو كل ما تحتاجه". كان هدف هذه الورقة هو تحسين تقنية سيك تو سيك لعام 2014، [15] واستندت بشكل أساسي إلى آلية الاهتمام التي طورها باهدانو وآخرون في عام 2014.[16] في العام التالي في عام 2018، تم تقديم BERT.[17] على الرغم من أن المحول الأصلي يحتوي على كتل التشفير وفك التشفير، إلا أن BERT هو نموذج تشفير فقط.

على الرغم من أن جي بي تي-1 لفك التشفير فقط تم تقديمه في عام 2018، إلا أن جي بي تي-2 في عام 2019 هو الذي لفت الانتباه على نطاق واسع لأن أوبن أيه آي اعتبرته في البداية قويًا جدًا بحيث لا يمكن إصداره للجمهور، خوفًا من الاستخدام الضار.[18] ذهب جي بي تي-3 في عام 2020 إلى أبعد من ذلك، واعتبارًا من عام 2024، أصبح متاحًا فقط عبر واجهة برمجة التطبيقات دون عرض تنزيل النموذج لتنفيذه محليًا. لكن شات جي بي تي القائم على المتصفح والموجه للمستهلك في عام 2022 أثار خيال عامة الناس وتسبب في بعض الضجيج الإعلامي والضجيج عبر الإنترنت. تم الثناء على جي بي تي-4 لعام 2023 لدقته المتزايدة وقدراته متعددة الوسائط.[19] لم تكشف أوبن أيه آي عن البنية عالية المستوى وعدد معلمات جي بي تي-4.

كانت نماذج اللغة المتنافسة تحاول في معظمها مساواة سلسلة GPT، على الأقل من حيث عدد المعلمات.[20]

منذ عام 2022، اكتسبت النماذج المتاحة المصدر شعبيةً، وخاصةً في البداية نموذجي BLOOM ولاما، على الرغم من أن كلاهما لديه قيود على مجال الاستخدام. تتمتع نماذج Mistral 7B وميسترال وMixtral 8x7b، برخصة أباتشي أكثر تساهلًا. اعتبارًا من يونيو 2024، يعد النوع المحسن للتعليمات من نموذج "لاما 3" ذي 70 مليار معلمة هو أقوى نموذج لغو كبير مفتوح وفقًا لقائمة المتصدرين في LMSYS Chatbot Arena، حيث أنهأقوى من جي بي تي-3.5 ولكنه ليس بنفس قوة جي بي تي-4.[21]

تعتمد النماذج الأكبر حجمًا والأكثر كفاءة على بنية Transformer في 2024، بينما تعتمد بعض التطبيقات الحديثة على هياكل معمارية أخرى، مثل متغيرات الشبكة العصبية المتكررة ومامبا (نموذج مساحة الحالة).[22][23][24]

معالجة البيانات المُسبقة

التجزئة

بما أن خوارزميات التعلم الآلي تعتمد على المعالجة الرقمية للمعلومات، فإنه من الضروري تحويل النصوص إلى تمثيل رقمي. تتم هذه العملية من خلال عدة خطوات: أولًا، تُحدد مجموعة من المفردات اللغوية، ثم يُعيّن لكل مفردة رمز رقمي فريد، وفي النهاية يرتبط هذا الرمز بتضمين رقمي يحمل معنى دلالي للمفردة. من أشهر الخوارزميات المستخدمة في هذه العملية ترميز زوج البايتات (BPE) وخوارزمية WordPiece. بالإضافة إلى ذلك، تُستخدم نماذج اللغة رموزًا خاصة لأغراض التحكم، مثل رمز [MASK] الذي يستخدم في نماذج مثل تمثيلات التشفير الثنائي الاتجاه من المحولات (BERT) لتمثيل الكلمات المحذوفة، ورمز [UNK] لتمثيل الكلمات غير المعروفة. كما تستخدم بعض النماذج رموزًا خاصة لتمثيل جوانب شكلية للنص، مثل الرمز "Ġ" الذي يشير إلى مسافة بيضاء سابقة في نموذج جي بي تي، والرمز "##" الذي يشير إلى استمرار جزء من كلمة في نموذج "بيرت".[25]

تساهم عملية التجزئة أيضًا في ضغط البيانات. نظرًا لضرورة أن تكون مدخلات نماذج اللغة الكبيرة مصفوفات ذات أبعاد متساوية، فإن النصوص الأقصر يتم "تعبئتها" بحيث تتطابق أطوالها مع أطول نص في المجموعة. يعتمد متوسط عدد الرموز الرقمية اللازمة لتمثيل كل كلمة على طبيعة اللغة المستخدمة في مجموعة البيانات.[26][27]

ترميز زوج البايتات

لنفترض أن لدينا مجزئًا للكلمات مبنيًا على ترميز أزواج البايتات. في الخطوة الأولى، نعامل كل حرف مستقل (بما في ذلك الفراغات وعلامات الترقيم) كوحدة لغوية أساسية (أي أحاديات). ثم نقوم بدمج زوجي الحروف الأكثر تكرارًا المتجاورين لتكوين وحدات لغوية مكونة من حرفين (ثنائيات)، ونستبدل كل زوج بمثيله من الثنائيات. بعد ذلك، نكرر هذه العملية لدمج الثنائيات المتكررة المتجاورة لتكوين وحدات لغوية أطول، وهكذا حتى نحصل على مجموعة محددة من الوحدات اللغوية (في حالة نموذج جي بي تي-3، يبلغ عددها 50257).[28] بعد تدريب هذا المجزئ، يمكننا تجزئة أي نص، بشرط ألا يحتوي على أحرف غير موجودة في المجموعة الأساسية للأحرف المفردة.[29]

المشاكل

تعتمد المفردات من الرموز المميزة القائمة على التكرارات المستخرجة بشكل أساسي من مجموعات اللغة الإنجليزية على أقل عدد ممكن من الرموز المميزة لكلمة إنجليزية متوسطة. ومع ذلك، عند تشفير كلمة متوسطة بلغة أخرى، فإن مجزئ اللغة الإنجليزية المحسن يقسمها إلى عدد غير مثالي من الرموز المميزة. وقد يصل عدد الرموز المميزة التي يستخدمها مجزئ جي بي تي-2 لكلمة واحدة في بعض اللغات، كالشأنية، إلى خمسة عشر ضعفًا. وحتى اللغات الأكثر انتشارًا كالبرتغالية والألمانية تتطلب زيادة بنسبة خمسين بالمئة في عدد الرموز المميزة مقارنة باللغة الإنجليزية.[30]

وتتسبب هذه التجزئة المفرطة في مشكلات طفيفة عند إكمال النص.[31]

تنظيف مجموعة البيانات

في سياق تدريب نماذج اللغات الكبيرة، يُعتاد تنقية مجموعات البيانات بإزالة المقاطع الضارة منها، والتخلص من البيانات ذات الجودة المتدنية، وإزالة التكرارات.[32] إن مجموعات البيانات المنقاة هذه تزيد من كفاءة التدريب وتؤدي إلى تحسين الأداء في المراحل اللاحقة.[33][34] ويمكن الاستعانة بنموذج لغة كبيرة مدرب لتنقية مجموعات البيانات المستخدمة في تدريب نموذج لغة كبير آخر.[35]

مع تزايد المحتوى الذي تولده نماذج اللغات الكبيرة على الشبكة العنكبوتية، قد يشمل تنقية البيانات مستقبلًا تصفية هذا المحتوى. ويشكل المحتوى المولَّد آليًا تحديًا خاصًا، إذ يصعب تمييزه عن النصوص البشرية، ولكنه يقلل من جودة النماذج المدربة عليه.[36]

البيانات الاصطناعية

قد يتطلب تدريب نماذج اللغة الكبيرة كميات هائلة من البيانات اللغوية تتجاوز ما هو متوفر بشكل طبيعي. أو قد تكون البيانات الطبيعية غير كافية من حيث الجودة للمهمة المطلوبة. في مثل هذه الحالات، يمكن اللجوء إلى البيانات المولدة. فعلى سبيل المثال، تم تدريب سلسلة نماذج اللغة الكبيرة (Phi) من مايكروسوفت على بيانات شبيهة بكتب المدرسة تم توليدها بواسطة نموذج لغوي كبير آخر.[37]

التدريب والبنية

التعلّم المعزّز من ردود الفعل البشرية (RLHF)

تعتمد تقنية التعلم المعزز من ردود الفعل البشرية (RLHF) على تعزيز تعلم النموذج من خلال ملاحظات بشرية مباشرة، حيث يتم استخدام خوارزميات متقدمة كتقريب تحسين السياسة لتحسين أداء النموذج بشكل تدريجي. يتم ذلك من خلال تدريب النموذج على مجموعة بيانات واسعة من التفضيلات البشرية، مما يساهم في تطوير نموذج أكثر توائمًا مع احتياجات المستخدمين.[38][39]

ضبط التعليمات

بفضل أساليب "التعلّم الذاتي"، استطاعت النماذج اللغوية الضخمة أن تستنبط ردودًا صحيحة، مستبدلةً أي ردود سطحية، انطلاقًا من تصحيحات بشرية محدودة. فعلى سبيل المثال، إذا كانت التعليمات "اكتب مقالًا عن القضايا المحورية في مسرحية هاملت"، فإن الإكمال السطحي الأولي قد يكون "إذا قدمت المقال بعد السابع عشر من مارس، فستُخصم من درجاتك عشرة بالمائة عن كل يوم تأخير"، وذلك استنادًا إلى تكرار هذا النمط اللغوي في البيانات التدريبية.[40]

خليط الخبراء

إن تدريب واستخدام النماذج اللغوية الكبيرة التي تضم مليارات المعامل قد يكون مكلفًا للغاية. وللتغلب على هذه التحدي، استخدم الباحثون في غوغل تقنية مزيج الخبراء (MoE) التي تسمح بتدريب نماذج أكبر بكثير، تصل إلى تريليون معامل، وذلك من خلال توزيع الحسابات على عدة نماذج أصغر تعمل معًا.[41][42][43]

هندسة المطالبات وآلية الانتباه ونافذة السّياق

يمكن تحقيق غالبية النتائج التي كانت تُتحقَّق سابقًا، والتي كانت تتطلب ضبطًا دقيقًا ومكلفًا، عن طريق هندسة المطالبات أو التلقين، إلا أن هذه الطريقة تقتصر على نطاق محادثة محدد (أو بشكل أدق، على نطاق نافذة السياق).[44]

لتحديد الرموز المترابطة ضمن نافذة السياق، تقوم آلية الانتباه بحساب أوزان "ناعمة" لكل رمز، وذلك لتحديد أهميته. تستخدم هذه الآلية رؤوس انتباه متعددة، ولكل منها "صلة" خاصة بها لحساب هذه الأوزان. على سبيل المثال، يحتوي النموذج الصغير من جي بي تي-2 (117 مليون معامل) على 12 رأس انتباه ونافذة سياق تتسع لـ 1000 رمز.[45] أما النموذج المتوسط فيحتوي على 345 مليون معامل و24 طبقة، ولكل طبقة 12 رأس انتباه. وقد استُخدمت دفعات تدريبية حجمها 512 مع خوارزمية الانحدار التدريجي.[29]

يمكن لأضخم النماذج اللغوية، ومنها نموذج جيميناي 1.5 الذي أطلقته شركة غوغل في فبراير عام 2024، أن تتسع لنافذة سياقية تصل إلى مليون رمز (وقد جُربت نافذة سياقية تتسع لعشرة ملايين رمز بنجاح).[46] ومن الأمثلة الأخرى على النماذج ذات النوافذ السياقية الواسعة نموذج كلود 2.1 من شركة أنثروبيك، الذي يتسع لـ200 ألف رمز مميز.[47] ومن الجدير بالذكر أن هذا الحد الأقصى يشير إلى عدد الرموز المدخلة، بينما يختلف الحد الأقصى لعدد الرموز المخرجة وغالبًا ما يكون أقل. فعلى سبيل المثال يقتصر الحد الأقصى لعدد الرموز المخرجة في نموذج جي بي تي-4 تربو على 4096 رمزًا مميزًا.[48]

إن قدرة النموذج اللغوي على استيعاب سياق المحادثة وتذكره محدودة بطول نافذة السياق. فإذا تجاوز طول الحوار هذه النافذة، كما هو الحال في محادثات طويلة مع نماذج مثل شات جي بي تي، فإن النموذج إما سيقتصر على الجزء الأخير من الحوار الموجود داخل النافذة عند توليد الرد، أو سيضطر إلى اللجوء إلى خوارزميات تلخيص لتلخيص الأجزاء البعيدة من الحوار. ومن الجدير بالذكر أن توسيع نافذة السياق ينطوي على تكاليف حسابية أكبر، وقد يؤدي إلى تشتيت انتباه النموذج عن السياق المباشر. من ناحية أخرى، فإن تضييق هذه النافذة قد يجعل النموذج عاجزًا عن فهم العلاقات المعقدة التي تمتد على مسافات طويلة داخل الحوار. لذا، فإن تحديد الحجم الأمثل لنافذة السياق يتطلب توازنًا دقيقًا، ويعتمد على عوامل عدة تتعلق بالمجال التطبيقي والخصائص التقنية للنموذج.

يمكن تدريب نموذج لغوي مسبقًا على استشراف الكلمات اللاحقة لتسلسل كلمات معين، أو على استكمال الفراغات الناقصة في نص مُعطى، وذلك بالاعتماد على بيانات تدريبية واسعة.[49] ويمكن تصنيف هذه النماذج إلى نوعين رئيسيين:

  • نماذج توليدية: حيث تولد هذه النماذج تسلسلات لغوية جديدة بناءً على المدخلات المقدمة إليها، شبيهة بعمل المحولات المولدة مسبقة التدريب. فعلى سبيل المثال، إذا قدمنا للنموذج الجملة "أحب أن آكل"، فإنه قد يكملها بقوله "تفاحة" أو "برتقالة".
  • نماذج ملء الفراغات: حيث تقوم هذه النماذج بتحديد الكلمات المفقودة في نص غير كامل، كما يعمل نموذج "بيرت". فعلى سبيل المثال، إذا قدمنا الجملة "أحب أن [][] كريم"، فإنه قد يستكملها بقوله "آكل" و"تفاحة".

يمكن تدريب النماذج اللغوية على مهام مساعدة تقيّم مدى فهمها لتوزيع البيانات، مثل مهمة التنبؤ بالجملة التالية (NSP). وفي هذه المهمة يُعرض على النموذج أزواج من الجمل، ويتعين عليه التنبؤ بمدى توالي هاتين الجملتين في مجموعة البيانات التدريبية.[50] أثناء عملية التدريب، يُستخدم كذلك مفهوم "خسارة التنظيم" لتعزيز استقرار عملية التعلم. بيد أن هذا المفهوم لا يُستخدم عادةً خلال مراحل الاختبار والتقييم.

البنية التحتية

يتطلب تدريب النماذج الأكبر حجماً بنية تحتية ضخمة.[51][52][53]

تكلفة التدريب

أسهمت التطورات المتسارعة في البرامج والأجهزة الرقمية في خفض تكاليف تدريب نماذج اللغات الكبيرة بشكل ملحوظ منذ عام 2020. ففي حين أن تدريب نموذج لغوي ضخم يحتوي على 12 مليار معامل يتطلب حاليًا حوالي 72 ألف ساعة عمل لوحدة معالجة الرسومات من طراز A100، إلا أن تكلفة تدريب نموذج مماثل بحجم 1.5 مليار معامل في عام 2020 كانت تتراوح بين 80 ألف دولار و1.6 مليون دولار، وهو ما يعكس تطورًا هائلًا في كفاءة العمليات الحسابية.[54][55][56] ومنذ ذلك الحين، شهدنا استثمارات ضخمة في تطوير نماذج لغوية أكبر وأكثر تعقيدًا. فعلى سبيل المثال، بلغت تكلفة تدريب نموذج جي بي تي-2 الذي يحتوي على 1.5 مليار معامل حوالي 50 ألف دولار في عام 2019، بينما بلغت تكلفة تدريب نموذج بالم الأكبر بكثير والذي يحتوي على 540 مليار معامل حوالي 8 مليون دولار في عام 2022. كما بلغت تكلفة تدريب نموذج Megatron-Turing NLG الذي يحتوي على 530 مليار معامل حوالي 11 مليون دولار في عام 2021.[57]

ومن الجدير بالذكر أن تكلفة تدريب نماذج اللغات الكبيرة القائمة على آلية الانتباه الذاتي تكون أعلى بكثير من تكلفة استخدامها للاستدلال على نتائج جديدة. ففي المتوسط، يتطلب تدريب رمز مميز واحد حوالي 6 عمليات حسابية عائمة لكل معامل، بينما يتطلب استنتاج رمز مميز واحد من 1 إلى 2 عملية حسابية عائمة لكل معامل فقط.[58]

استخدام الأدوات

ثمة مهامّ محددة لا يُمكن لأي نموذج لغة كبير حلها مبدئيًا، على الأقل ليس دون الاستعانة بأدوات خارجية أو برامج إضافية. ومن الأمثلة على ذلك الاستجابة إلى مدخل المستخدم "354 * 139 ="، شريطة ألا يكون النموذج قد واجه هذا الحساب سابقًا في مجموعة تدريبه.[محل شك] في مثل هذه الحالات، يتعين على النموذج اللجوء إلى تشغيل رمز برمجي يحسب النتيجة، ثم إدماجها في استجابته.[محل شك] مثال آخر هو "ما الوقت الآن؟"، حيث يحتاج مفسر برمجي منفصل إلى تنفيذ رمز للحصول على وقت النظام على الحاسوب، كي يتمكن النموذج من تضمينه في رده.[59][60] يمكن تطوير هذه الإستراتيجية الأساسية بتجريب برامج مولدة متعددة واستراتيجيات تعيين أخرى.[61]

بشكل عام، لتمكين النموذج من استخدام الأدوات، يجب ضبطه على ذلك. فإذا كان عدد الأدوات محدودًا، يكفي ضبطه مرة واحدة. أما إذا كان عددها متزايدًا بشكل تعسفي، كما هو الحال مع خدمات واجهات برمجة التطبيقات عبر الإنترنت، فيجب تجهيز النموذج بقراءة وثائق هذه الواجهات واستدعائها بصورة صحيحة.[62][63]

أبسط شكل لاستخدام الأدوات هو التوليد المعزز بالاسترجاع: أي تعزيز النموذج باسترجاع المستندات. فبناءً على استعلام معين، يتم استدعاء مسترجع مستندات للحصول على المستندات الأكثر صلة. يتم ذلك عادة بتشفير الاستعلام والمستندات إلى متجهات، ثم البحث عن المستندات التي تتشابه متجهاتها (المخزنة عادةً في قاعدة بيانات متجهات) مع متجه الاستعلام. ثم يولد النموذج الناتج استنادًا إلى الاستعلام والسياق المستمد من المستندات المسترجعة.[64]

الوكلاء

النموذج اللغوي الكبير هو نموذج لغوي محض، لا يعد وكيلًا ذكيًا بذاته لافتقاره إلى هدف محدد، إلا أنه يمكن توظيفه كعنصر أساسي في بناء وكيل ذكي.[65]

ينشئ نمط "ريآكت" (المركب من "التفكير" و"الفعَل") وكيلًا ذكيًا من خلال الاعتماد على نموذج لغوي كبير كمحرك رئيسي للتفكير والتخطيط. إذ يُطلب من النموذج اللغوي أن "يفكر بصوت عالٍ"، أي أن يقدم وصفًا نصيًا مفصلًا للبيئة التي يعمل فيها، والهدف المطلوب تحقيقه، وقائمة بالإجراءات المتاحة، وسجلًا بالإجراءات التي تم تنفيذها والنتائج التي أسفرت عنها. وعليه، يقوم النموذج بتوليد فكرة أو أكثر قبل اختيار الإجراء الأنسب وتنفيذه في البيئة المحددة.[66] ويمكن أن يكون الوصف اللغوي للبيئة المقدم للنموذج على شكل رمز لاتكس لورقة تصف البيئة بدقة.[67]

في أسلوب "وصف، شرح، تخطيط واختيار" (DEPS)، يُربط أولًا نموذج لغوي واسع بالواقع المرئي عبر أوصاف الصور، ثم يُطلب منه وضع خطط لأعمال وأفعال معقدة استنادًا إلى معلوماته المتراكمة مسبقًا والآراء البيئية التي يتلقاها.[68]

يُنشئ أسلوب الانعكاس وكيلًا يتعلم عبر دورات متتالية. في نهاية كل دورة، [69] يُعطى النموذج اللغوي الكبير سجلًا بالدورة، ويُطلب منه التفكير في "الدروس المُستفادة"، مما يساعده على الأداء بشكل أفضل في الدورة التالية.

يمكن لـ بحث شجرة مونت كارلو [الإنجليزية] أن يستخدم نموذجًا لغويًا واسعًا كتجربة للاستدلال. وعندما لا يتوفّر نموذج عالمي برمجي، يمكن كذلك طلب نموذج لغوي واسع بوصف للبيئة ليعمل كنموذج عالمي.[70]

في سياق الاستكشاف المفتوح، يمكن توظيف نموذج لغوي واسع لتدوين ملاحظات "مثيرة للاهتمام"، تُستخدم بدورها كإشارات مكافأة لتوجيه وكيل التعلم التعزيزي البسيط (غير اللغوي).[71] وعوضًا عن ذلك يمكن للنموذج اقتراح مهامّ متزايدة الصّعوبة لتمكين التعلم التدريجي.[72] وبدلًا من إخراج أفعال فردية، يمكن لنموذج التخطيط اللغوي الكبير بناء "مهارات"، أي دوال تمثل تسلسلات من الأفعال المعقدة. ويمكن تخزين هذه المهارات واسترجاعها لاحقًا، مما يتيح مستويات أعلى من التجريد في التخطيط.[72]

يمكن للوكلاء المدعومين بنماذج لغوية واسعة الاحتفاظ بذاكرة طويلة الأمد للسياقات السابقة، ويمكن استرجاع هذه الذاكرة بنفس طريقة التوليد المعزز بالاسترجاع. ويمكن لمجموعة من هذه الوكلاء التفاعل اجتماعيًا.[73]

الضغط

عادةً، يتم تدريب نماذج اللّغة الكبيرة (LLMs) باستخدام أعداد عشرية ذات دقة مفردة أو نصف دقة (float32 وfloat16). يحتوي رقم float16 على 16 بت، أو 2 بايت، وبالتالي فإن مليار معامل يتطلبان 2 جيجا بايت. وتحتاج النماذج الأكبر حجمًا، والتي تحتوي عادةً على 100 مليار معامل، إلى 200 جيجا بايت لتحميلها، مما يجعلها خارج نطاق معظم الأجهزة الإلكترونية الاستهلاكية.[74]

يهدف "التكميم بعد التدريب" [75] إلى تقليل مساحة التخزين عن طريق خفض دقة معاملات النموذج المدرب، مع الحفاظ على معظم أدائه.[76][77] أبسط أشكال التكميم هو ببساطة تقريب جميع الأعداد إلى عدد معين من البتات. ويمكن تحسينه باستخدام مجموعة ترميز تكميم مختلفة لكل طبقة. ويمكن إجراء تحسين إضافي من خلال تطبيق دقّات مختلفة لمعاملات مختلفة، مع دقة أعلى للمعاملات المهمة بشكل خاص ("أوزان شاذة").[78][79]

في حين أنّ النماذج المكمّمة عادةً ما تكون مجمّدة، ويتمّ ضبط النماذج المكمّمة مسبقًا فقط، لا يزال من الممكن ضبط النماذج المكمّمة.[80]

الوسائط المتعددة

تعني الوسائط المتعددة "امتلاك عدة وسائط"، ويشير "الوسيط" إلى نوع من المدخلات أو المخرجات، مثل الفيديو، والصورة، والصوت، والنص، والإحساس الحركي، وما إلى ذلك.[81] وقد دُربت العديد من نماذج الذكاء الاصطناعي خصيصًا لاستيعاب نمط واحد وإخراج نمط آخر، مثل ألكسنت"الصّورة إلى التّسمية"، [82] والإجابة على الأسئلة المرئية "صورة-نص إلى نص"، [83] والتعرف على الكلام "كلام إلى نص".[84]

أظهر فلامينجو فعالية أسلوب التجزئة، حيث ضُبط زوج من نموذجي اللغة والمشفر المرئي المدربين مسبقًا لتحسين أدائهما في مجال الإجابة على الأسئلة المرئية مقارنة بالنماذج المدربة من الصفر.[85] ضُبط نموذج جوجل بالم إلى نموذج متعدد الوسائط بالم-إي باستخدام أسلوب التجزئة، وطُبق على التحكم الآلي.[86] كما تم تحويل نماذج لاما إلى نماذج متعددة الوسائط باستخدام أسلوب التجزئة، للسماح بإدخال الصور، [87] ومقاطع الفيديو.[88]

يمكن لنموذج جي بي تي-4 استخدام كل من النص والصورة كمدخلات، [89][90] كما أن جيميناي من جوجل ديب مايند يُعد نموذجًا متعدد الوسائط.[91] قدمت شركة ميسترال نموذجها متعدد الوسائط الخاص "بيكسترال 12 بي" (Pixtral 12B) في سبتمبر 2024.[92]

الخصائص

عند النقاط التي يشار إليها باسم "نقاط الانكسار"، يتغير ميلان الخطوط، وتظهر في الرسم البياني الخطي اللوغاريتمي كسلسلة من المقاطع الخطية متصلة بأقواس.[93]

يبدو أداء النماذج الحاسوبية الضخمة في تنفيذ مختلف المهام، عند تمثيله بيانيًا على مقياس لوغاريتمي مزدوج، وكأنه استقراء خطي لأداء النماذج الأصغر حجماً. ومع ذلك، قد تشهد هذه العلاقة الخطية "انكسارات" في قانون التوسع، [93] حيث يتغير ميل الخط بشكل مفاجئ، وتكتسب النماذج الأكبر حجمًا "قدرات جديدة"، [44][94] ناشئة عن التفاعلات المعقدة بين مكونات النموذج، دون أن تكون مبرمجة أو مصممة صراحة.[95]

أظهرت الدراسات الحديثة كذلك أن أنظمة الذكاء الاصطناعي، بما في ذلك نماذج اللغات الكبيرة، قادرة على استخدام الاستدلال التنبؤي المشابه للاستدلال البشري. فهي توازن بين المعالجة المنطقية الشاملة وبين استخدام اختصارات معرفية (الاستدلالات)، وتعدل استراتيجياتها الاستدلالية لتحقيق التوازن الأمثل بين الدقة والجهود المبذولة. يتوافق هذا السلوك مع مبادئ الإدراك البشري الاقتصادي للموارد، كما هو موضح في النظريات الكلاسيكية للعقلانية المحدودة ونظرية المعالجة المزدوجة.[96][97]

من بين القدرات الناشئة الأكثر إثارة للاهتمام، القدرة على التعلم السياقي من خلال أمثلة توضيحية.[98] يتضمن التعلم السياقي مهام مثل:

  • إجراء العمليات الحسابية، فك رموز الأبجدية الصوتية الدولية، إعادة ترتيب حروف الكلمة، تحديد معنى الكلمة في سياقها،[44][99][100] تحويل الألفاظ المكانية واتجاهات الأركان الأساسية (مثل الرد بـ"الشمال الشرقي" عند إعطاء الإحداثيات [0, 0, 1; 0, 0, 0; 0, 0, 0])، وتحديد الألوان المذكورة نصًا.[101]
  • التوجيه المتسلسل: تتحسن نواتج النموذج باستخدام التوجيه المتسلسل فقط عندما يتجاوز حجم النموذج 62 مليار معلمة. وتؤدي النماذج الأصغر أداءً أفضل عندما يُطلب منها الإجابة مباشرة دون اتباع سلسلة من الأفكار.[102]
  • التعرف على المحتوى المسيء في فقرات الهنجليزية (مزيج من الهندية والإنجليزية)، وتوليد معادل إنجليزي مشابه للأمثال السواحلية.[103]

يُجادل شافر وزملاؤه بأن القدرات الناشئة لا تُكتسب بشكل غير متوقع، بل تُكتسب بشكل متوقع وفقًا لقانون تحجيم سلس [الإنجليزية]. وقد نظر المؤلفون في نموذج إحصائي مصغر لنموذج لغوي كبير يحل أسئلة الاختيار من متعدد، وأظهروا أن هذا النموذج الإحصائي، المعدل لحساب أنواع أخرى من المهام، ينطبق على هذه المهام أيضًا.[104]

التفسير

تُعتبر نماذج اللغات الكبيرة بمثابة صناديق سوداء، إذ يصعب فهم الكيفية التي تؤدي بها مهامها اللغوية المتعددة. ولتسليط الضوء على آليات عمل هذه النماذج،برزت عدة منهجيات بحثية. من بينها "قابلية التفسير الآلية" التي تهدف إلى فك شفرة البنية الداخلية لهذه النماذج وكشف الخوارزميات الكامنة وراء استدلالاتها. وقد أثمرت هذه المنهجية عن نتائج واعدة في عدة دراسات.

في دراسة أولى دُرب نموذج محول صغير على لعبة ريفيرسي (Othello)، ونجح الباحثون في اكتشاف تمثيل خطي لوضع اللعبة على اللوحة، حيث يؤدي تعديل هذا التمثيل إلى تغير الحركات المقترحة بشكل منطقي.[105][106] وفي دراسة أخرى دُرب نموذج مماثل على لغة البرمجة "كارل"، وكشفت النتائج عن تمثيل خطي لدلالات هذه اللغة، مما سمح بتعديل الناتج البرمجي بشكل متوقع. والأكثر من ذلك، أن النموذج تمكن من توليد برامج أقصر وأكثر كفاءة من تلك الموجودة في مجموعة التدريب.[107]

وفي دراسة أخرى درّب باحثون نماذج محولة صغيرة على عملية الجمع في الحسابات العددية، ونجح الباحثون في عكس هندسة هذه النماذج واكتشفوا أنها تستخدم تحويل فورييه المنفصل لحل هذه العملية.[108]

الفهم والذكاء

انقسم الباحثون المتخصصون في معالجة اللغة الطبيعية انقسامًا تامًا عندما سُئلوا، في استطلاع رأي أُجري عام 2022، عما إذا كانت نماذج اللغة الكبيرة غير المدربة قادرة على فهم اللغة الطبيعية فهمًا حقيقيًا ومعمقاً.[109] يرى مؤيدو فكرة قدرة هذه النماذج على الفهم أن بعض قدراتها، مثل القدرة على التفكير الرياضي، تشير إلى وجود فهم حقيقي للمفاهيم. وقد ذهب فريق من شركة مايكروسوفت في عام 2023 إلى أبعد من ذلك، مدعيًا أن نموذج جي بي تي-4 قادر على حل مسائل جديدة ومعقدة في مجالات متنوعة كالرياضيات، والتشفير، والرؤية، والطب، والقانون، وعلم النفس وغيرها، واصفين إياه بأنه نسخة أولية، وإن كانت غير كاملة، لذكاء اصطناعي عام. وقد تساءلوا: "هل يمكننا إنكار ذكاء نظامٍ قادر على اجتياز اختبارات مبرمجي الكمبيوتر؟" [110][111]

يصف بعض الباحثين هذه النماذج بأنها تمثل نوعًا من "الذكاء الغريب".[112][113] فعلى سبيل المثال، يرى كونور ليحي، الرئيس التنفيذي لشركة كونجكتشر، أن هذه النماذج تشبه الكائنات الغريبة والغامضة، وأن عملية التدريب المعروفة بـ RLHF تخلق واجهة ودودة تخفي العمليات الداخلية المعقدة لهذه النماذج. ويشبه الأمر قناعًا مبتسمًا يختفي خلفه عمق من الجنون والتفكير الغريب الذي يختلف جذريًا عن التفكير البشري.[114][115]

على النقيض من ذلك يزعم أصحاب المدرسة التي تنفي فهم النماذج اللغوية الكبيرة أن هذه النماذج "لا تفعل سوى خلط ودمج النصوص الموجودة"، [113] وهي ظاهرة تعرف بالببغاء العشوائي، أو يشيرون إلى العجز المستمر لهذه النماذج في مهارات التنبؤ والتفكير والإرادة والتفسير.[109] فعلى سبيل المثال، يعاني نموذج جي بي تي-4 من قصور جلي في التخطيط والتعلم الفوري.[111] وقد لوحظ أن النماذج اللغوية التوليدية تؤكد بثقة على ادعاءات حقائقية لا يبدو أنها مدعومةببيانات تدريبها، وهي ظاهرة عرفت بالهلوسة.[116] وبالتحديد، تتجلى الهلوسة في سياق هذه النماذج في توليد نصوص أو استجابات نحوية سلسة وطبيعية ولكنها خاطئة واقعيًا أو غير منطقية أو غير موثوقة بالنسبة للمعلومات المدخلة.[117] وقد جادل عالم الأعصاب تيرينس سيجنوفسكي بأن "اختلاف آراء الخبراء حول ذكاء النماذج اللغوية الكبيرة يشير إلى أن مفاهيمنا التقليدية عن الذكاء الطبيعي غير كافية".[109]

تتضمن مسألة محاكاة الذكاء أو الفهم البشري بواسطة نماذج اللغة الكبيرة وجهين رئيسيين: الأول يكمن في كيفية تمثيل الفكر واللغة ضمن نظام حاسوبي، والثاني يتمثل في تمكين هذا النظام من توليد لغة شبيهة باللغة البشرية.[109] وقد تطورت هذه الجوانب اللغوية كنموذج للإدراك في حقل اللغويات الإدراكية. وقد قدم اللغوي الأمريكي جورج لاكوف نظرية الأعصاب اللغوية (NTL) كأساس حسابي لاستخدام اللغة كنموذج لمهام التعلم والفهم.[118] وتلخص هذه النظرية كيف تشكل البنى العصبية المحددة في الدماغ البشري طبيعة الفكر واللغة، وبالتالي ما هي الخصائص الحسابية لهذه الأنظمة العصبية التي يمكن تطبيقها لنمذجة الفكر واللغة في نظام حاسوبي.[119]

وبعد تأسيس إطار عمل لنمذجة اللغة في أنظمة الحاسوب، تحول الاهتمام إلى بناء أطر عمل تتيح لهذه الأنظمة توليد لغة تتبع قواعد نحوية مقبولة. وفي كتابه الصادر عام 2014 بعنوان "أسطورة اللغة: لماذا اللغة ليست غريزة" (بالإنجليزية: The Language Myth: Why Language Is Not An Instinct)‏، رسم اللغوي الإدراكي البريطاني وخبير تكنولوجيا الاتصالات الرقمية فيفيان إيفانز دور القواعد النحوية الاحتمالية الخالية من السياق (PCFG) في تمكين معالجة اللغات الطبيعية من محاكاة الأنماط الإدراكية وتوليد لغة شبيهة باللغة البشرية.[120][121]

التقييم

الحيرة

المقياس التقليدي لأداء نموذج اللغة الكبير هو درجة حيرته على مجموعة نصية معينة. يقيس الحيرة مدى قدرة النموذج على التنبؤ بمحتويات مجموعة البيانات؛ فكلما زادت احتمالية تعيين النموذج لمجموعة البيانات، قلت درجة حيرته. بعبارات رياضية، الحيرة هي الأس الأسية لمتوسط سالب لوغاريتم الاحتمال لكل رمز.

حيث يُمثل عدد الرموز في مجموعة النص، و"سياق الرمز " يعتمد على نوع نموذج اللغة الكبير المحدد. إذا كان النموذج تلقائي التراجع، فإن "سياق الرمز " هو جزء النص الذي يظهر قبل الرمز . وإذا كان النموذج مُقنّعًا فإن "سياق الرمز " هو جزء النص المحيط بالرمز .

نظرًا لأن نماذج اللغة قد تُفرط في ملاءمتها لبيانات تدريبها، فعادةً ما تُقيم النماذج من خلال درجة حيرتها على مجموعة اختبار.[50] قد يكون هذا التقييم مشكلة بالنسبة للنماذج الأكبر حجمًا، والتي تصبح أكثر عرضة لإدراج أجزاء من أي مجموعة اختبار معينة مع زيادة حجم مجموعات النص التي يتم تدريبها عليها.[3]

بتات لكل كلمة أو حرف أو رمز

في نظرية المعلومات، ترتبط صفة الإنتروبيا ارتباطًا وثيقًا بمفهوم الغموض، وهو ارتباط أسسه بوضوح كلود شانون.[122] تُعبَّر هذه العلاقة رياضيًا على النحو التالي: الإنتروبيا = لو2 (الغموض).

تقاس الإنتروبيا، في هذا السياق، عادة بوحدات البتات لكل كلمة (BPW) أو البتات لكل حرف (BPC)، وذلك تبعًا لاختيار نموذج اللغة لتجزئة النص إلى كلمات أو أحرف.

جدير بالذكر أنه في نماذج اللغة الكبيرة التي تعتمد غالبًا على تجزئة الكلمات إلى أجزاء أصغر، يبدو أن البتات لكل رمز مميز (BPT) مقياسًا أنسب. ومع ذلك نظرًا للاختلاف في أساليب التجزئة بين نماذج اللغة الكبيرة، فإن مقياس BPT ليس موثوقًا به للمقارنة بين نماذج مختلفة. لتحويل BPT إلى BPW، يمكن ضرب القيمة الأولى في متوسط عدد الرموز المميزة لكل كلمة.

عند تقييم ومقارنة نماذج اللغة يُفضل عادة استخدام الإنتروبيا المتقاطعة بدلًا من الإنتروبيا المطلقة. الفكرة الأساسية هي أن قيمة BPW الأقل تشير إلى قدرة أفضل للنموذج على الضغط، مما يعكس بدوره كفاءة النموذج في إجراء تنبؤات دقيقة.

مجموعات البيانات والمعايير الخاصة بالمهام

طُوِّرَتْ في المراحل اللاحقة مجموعات بيانات عديدة ومقاييس اختبار لتقييم قدرات نماذج اللغات في مهام أكثر تحديدًا. صُمِّمت هذه الاختبارات لتقييم مجموعة واسعة من القدرات، بما في ذلك المعرفة العامة والتفكير المنطقي وحل المسائل الرياضية.

إحدى الفئات الشائعة لمجموعات البيانات التقييمية هي مجموعات بيانات الإجابة على الأسئلة، التي تتكون من أزواج من الأسئلة وإجاباتها الصحيحة، مثل: "هل فاز منتخب اليمن بكأس العالم لكرة القدم؟" - "لا".[123] تُعتبر مهمة الإجابة على الأسئلة "مفتوحة" إذا تضمنت مطالبة النموذج بنص يمكن استخلاص الإجابة المتوقعة منه (مثل: يمكن إضافة السؤال السابق إلى نص يتضمن الجملة "تقدّم منتخب اليمن إلى نهائيات كأس العالم مرة واحدة وخسر أمام منتخب السعودية في عام 2016").[123] أما إذا كان على النموذج الاعتماد على المعرفة التي اكتسبها خلال التدريب، فتُعتبر المهمة "مغلقة".[124][124]

قد تأخذ مجموعات البيانات التقييمية شكل إكمال النص، حيث يُطلب من النموذج اختيار الكلمة أو الجملة الأنسب لإكمال عبارة ما، مثل: "كانت فاطمة صديقة لسارة. ذهبت فاطمة لزيارة صديقتها، ____".[3]

طُوِّرت أيضًا مقاييس أداء مركبة تجمع بين مجموعة متنوعة من مجموعات البيانات والمهام التقييمية المختلفة. من الأمثلة عليها: جلو، وسوبر جلو وبيج-بنش.[122][124] أصدرت شركة أوبن أيه آي أدوات لتشغيل مقاييس الأداء المركبة، لكنها لاحظت أن نتائج التقييم حساسة لطريقة صياغة المطالبة.[125][126] تحتوي بعض مجموعات البيانات العامة على أسئلة خاطئة أو غامضة أو لا يمكن الإجابة عليها أو ذات جودة منخفضة، ويمكن تنظيفها للحصول على نتائج أداء أكثر موثوقية.[127]

كان من المعتاد سابقًا الإبلاغ عن النتائج على جزء مؤجل من مجموعة البيانات التقييمية بعد إجراء ضبط دقيق مراقب على الباقي. أصبح من الشائع الآن تقييم نموذج مدرب مسبقًا مباشرة من خلال تقنيات المطالبة، رغم اختلاف الباحثين في تفاصيل صياغة المطالبات لمهام معينة، لا سيما فيما يتعلق بعدد أمثلة المهام التي يتم تضمينها في المطالبة (أي قيمة n في مطالبة اللقطات n).

التقييمات المُصمّمة خصيصًا

سبب التطور المتسارع في نماذج اللغات الكبيرة، فقد عانت مقاييس الأداء من قصر عمرها الافتراضي. إذ سرعان ما "تشبع" هذه النماذج المتقدمة من المقاييس الحالية، متجاوزة أداء البشر المتخصصين. مما دفع الباحثين إلى البحث عن مهام أكثر تعقيدًا لاستبدال هذه المقاييس أو تعزيزها.[128] بالإضافة إلى ذلك، ظهرت ظاهرة "تعلم الاختصارات"، حيث تلجأ أنظمة الذكاء الاصطناعي أحيانًا إلى خداع اختبارات الاختيار. وذلك من خلال استغلال الارتباطات الإحصائية البسيطة في صياغة الأسئلة، مما يسمح لها بتخمين الإجابات الصحيحة دون بالضرورة فهم المعنى الحقيقي للسؤال.[109]

ولمعالجة هذه التحديات، طور باحثون مجموعات بيانات جديدة تركز على نقاط ضعف محددة في نماذج اللغات الحالية. من الأمثلة البارزة على ذلك مجموعة بيانات TruthfulQA، التي تتضمن أسئلة يصعب على النماذج الإجابة عليها بشكل صحيح بسبب ميلها إلى تكرار المعلومات الخاطئة التي تعلمتها خلال التدريب. فعلى سبيل المثال، قد يجيب نموذج لغة كبير على سؤال "هل يمكن تعليم كلب قديم حيلة جديدة؟" بـ "لا"، وذلك بسبب تعلمه للمثل الشائع الذي ينفي ذلك، حتى لو كان هذا الجواب غير دقيق من الناحية العلمية.[129][130][130]

التأثير الأوسع

في عام 2023م، أشارت مجلة "نيتشر بيوميديكال انجينيرنج" إلى استحالة التمييز بدقة بين النصوص التي ينتجها البشر وتلك التي تولّدها نماذج اللغات الكبيرة، مؤكدةً انتشار هذه النماذج ذات الأغراض العامة بسرعة وتأثيرها المتوقع على العديد من الصناعات.[131] وفي نفس العام، أشارت مؤسسة غولدمان ساكس إلى إمكانية زيادة الناتج المحلي الإجمالي العالمي بنسبة 7% خلال العقد القادم بفضل الذكاء الاصطناعي اللغوي التوليدي، مع تحذيرها من تهديد هذا التطور لأكثر من 300 مليون وظيفة حول العالم.[132][133]

الحفظ وحقوق النشر

الحفظ هو سلوك ناشئ في نماذج اللّغة الكبيرة حيث يتمّ إخراج سلاسل نصية طويلة أحيانًا حرفيًا من بيانات التّدريب، على عكس السّلوك النموذجيّ للشّبكات العصبية الاصطناعية التّقليدية. تقيس تقييمات مخرجات نموذج اللّغة الكبيرة المتحكّم فيها كمية ما تمّ حفظه من بيانات التّدريب (مع التركيز على نماذج سلسلة جي بي تي-2) بشكل مختلف بأكثر من 1% للنسخ المكرّرة تمامًا، [134] أو ما يصل إلى حوالي 7%.[135]

الأمان

أعرب بعض الباحثين عن مخاوفهم من إمكانية توليد معلومات مضللة عمدًا أو عن طريق الخطأ، أو استغلال هذه النماذج في سلوكيات ضارة أخرى.[136] فعلى سبيل المثال، يمكن أن تساهم نماذج اللغة الكبيرة في تقليل المهارة اللازمة لارتكاب أعمال إرهابية بيولوجية؛ حيث اقترح الباحث في الأمن البيولوجي كيفن إيسفلت ضرورة استبعاد الأبحاث المتعلقة بتطوير مسببات الأمراض من بيانات تدريب هذه النماذج.[137]

أظهرت دراسة أجراها باحثون في جوجل وعدة جامعات، من بينها كورنيل وكاليفورنيا، وجود مخاطر أمنية محتملة في نماذج لغوية مثل شات جي بي تي. فقد تمكن الباحثون من استخلاص جزء من بيانات التدريب التي استخدمت في تدريب هذا النموذج. فعند تكرار طلب الحصول على كلمة معينة لعدد كبير من المرات، بدأ النموذج في تكرار مقاطع من بيانات التدريب بشكل عشوائي. وقد لاحظ الباحثون آلاف الأمثلة على هذا السلوك، مما يثير تساؤلات حول مدى أمان هذه النماذج.[138]

يشكل وجود ما يسمى بـ "العوامل الكامنة" داخل نماذج اللغة الكبيرة مصدر قلق أمني آخر. هذه الوظائف المخبأة يمكن تفعيلها بحدث معين لتدفع النموذج إلى التصرف بطريقة غير متوقعة وضارة.[139] على الرغم من وجود ضوابط أمنية في تطبيقات مثل شات جي بي تي وكلود لمنع توليد محتوى ضار، إلا أن هذه الضوابط ليست مضمونة الفعالية. فقد تمكن باحثون من تطوير طرق للتلاعب بهذه النماذج والحصول على معلومات خطيرة، مثل كيفية إنشاء شبكات لتجارة المخدرات.[140][141]

التحيّز الخوارزمي

رغم ما أظهرته نماذج اللغات الكبيرة من قدرة فائقة على توليد نصوص شبيهة بالنصوص البشرية، إلا أنها معرضة للإصابة بتحيزات مستمدة من بيانات تدريبها، بل وتضخيمها. وقد يظهر ذلك جليًا في صور نمطية مشوهة أو معاملة مجحفة لفئات ديموغرافية مختلفة، كالأعراق والأجناس واللغات والمجموعات الثقافية.[142] ونظرًا لسيطرة البيانات الإنجليزية على غالبية بيانات تدريب هذه النماذج، فإنها قد تستصغر بالتالي وجهات النظر التي لا تتحدث الإنجليزية.[143]

التنميط

تستطيع أنظمة الذكاء الاصطناعي أن تعزز طائفة واسعة من الصور النمطية، بما في ذلك تلك المرتبطة بالجنس، أو العرق، أو السن، أو الجنسية، أو الدين، أو المهنة. وقد يؤدي هذا إلى نتائج تمييزية بحق فئات معينة من البشر، بطرق قد تكون مسيئة أو مهينة.[144] ومن الجدير بالذكر أن التحيز الجنسي هو ميل هذه الأنظمة إلى إنتاج نتائج تميل بشكل غير عادل لصالح جنس على آخر. وغالبًا ما ينشأ هذا التحيز من البيانات التي يتم تدريب هذه الأنظمة عليها. فنموذج اللغة الكبيرة،[142] على سبيل المثال، قد يربط بين الممرضات والسكرتيرات وبين النساء، وبين المهندسين والرؤساء التنفيذيين وبين الرجال، وذلك استنادًا إلى الأعراف الجندرية السائدة.[145]

التحيّز السّياسيّ

التحيز السياسي يشير إلى ميل الخوارزميات إلى تفضيل وجهات نظر أو أيديولوجيات أو نتائج سياسية معينة على أخرى بشكل منهجي. قد تظهر نماذج اللغة أيضًا تحيزات سياسية. نظرًا لأن بيانات التدريب تتضمن مجموعة واسعة من الآراء والتغطية السياسية، فقد تولد النماذج استجابات تميل إلى أيديولوجيات أو وجهات نظر سياسية معينة، اعتمادًا على انتشار تلك الآراء في البيانات.[146]

قائمة نماذج اللّغة الكبيرة

بالنسبة لعمود تكلفة التدريب، 1 بيتافلوب في اليوم = 1 بيتافلوب/ثانية × يوم واحد = 8.64E19 فلوب. كما تتم كتابة تكلفة النموذج الأكبر فقط.

الاسم الاسم بالإنجليزية تاريخ الإطلاق [ا] المطور عدد المَعلمات (مليار) [ب] حجم المجموعة تكلفة التدريب (بيتافلوب-يوم) الرخصة [ج] ملاحظات
جي بي تي-1 GPT-1 يونيو 2018   أوبن أيه آي 0.117 1[147] إم آي تي[148] أول نموذج GPT، محول فك التشفير فقط. تدربت لمدة 30 يومًا على 8 وحدة رسوميات من نوع P600.
بيرت BERT أكتوبر 2018   جوجل 0.340[149] 3.3 مليار كلمة[149] 9[150] أباتشي 2.0[151] نموذج لغوي مبكر ومؤثر.[9] مُشفر فقط وبالتالي لم يتم بناؤه ليكون مُولِّدًا.[152] استغرق التدريب 4 أيام على 64 شريحة TPUv2.[153]
تي 5 T5 أكتوبر 2019   جوجل 11[154] 34 مليار رمز مميز[154] أباتشي 2.0[155] النموذج الأساسي للعديد من مشاريع جوجل، مثل Imagen.[156]
XLNet يونيو 2019   جوجل 0.340[157] 33 مليار كلمة أباتشي 2.0[158] بديل لنموذج بيرت؛ مصمم للمشفر فقط. تم تدريبه على 512 شريحة TPU v3 لمدة 5.5 أيام.[159]
جي بي تي-2 GPT-2 فبراير 2019   أوبن أيه آي 1.5[160] 40 غيغا بايت[161] (~10 مليار رمز مميز)[162] إم آي تي[164] تم التدريب على 32 شريحة TPUv3 لمدة أسبوع واحد.[163]
جي بي تي-3 GPT-3 مايو 2020   أوبن أيه آي 175[165] 300 مليار رمز مميز[162] خاصة تم توفير نسخة معدلة من GPT-3، تسمى GPT-3.5، للجمهور من خلال واجهة ويب تسمى شات جي بي تي في 2022.[167]
جي بي تي-نيو GPT-Neo مارس 2021   EleutherAI [الإنجليزية] 2.7[168] 825 جيجابت[169] إم آي تي[170] أول سلسلة من البدائل المجانية لـ جي بي تي-3 التي أصدرتها إليوثر أيه آي. تفوقت جي بي تي-نيو على نموذج جي بي تي-3 ذي الحجم المماثل في بعض المعايير، لكنها كانت أسوأ بكثير من جي بي تي-3 الأكبر.[170]
جي بي تي-جي GPT-J يونيو 2021   إليوثر أيه آي 6[171] 825 جيجابت[169] أباتشي 2.0 نموذج لغة على غرار جي بي تي-3
Megatron-Turing NLG أكتوبر 2021  [173] مايكروسوفت وإنفيديا 530[174] 338.6 مليار رمز مميز[174] تقييد الوصول إلى شبكة الإنترنت هندسة قياسية ولكن تم تدريبها على مجموعة الحوسبة الفائقة.
Ernie 3.0 Titan ديسمبر 2021   بايدو 260[175] 4 Tb خاصة نموذج لغة كبيرة صيني، يعتمد عليه بوت "إرني بوت".
كلود[176] Claude ديسمبر 2021   أنثروبيك 52[177] 400 مليار رمز مميز[177] بيتا تم ضبطه بدقة لتحقيق السلوك المرغوب في المحادثات.[178]
لام (نموذج لغة عامة) GLaM ديسمبر 2021   جوجل 1200[179] 1.6 تريليون رمز مميز[179] خاصة نموذج مزيج من الخبراء متفرق، مما يجعل تدريبه أكثر تكلفة ولكن تشغيل الاستدلال أرخص مقارنةً بـ GPT-3.
Gopher ديسمبر 2021   ديب مايند 280[180] 300 مليار رمز مميز[181] خاصة تم تطويره لاحقًا إلى نموذج شينشيلا.
لامدا (نموذج لغوي لتطبيقات الحوار) LaMDA يناير 2022   جوجل 137[183] 1.56 تريليون كلمة،[183] 168 مليار رمز مميز[181] خاصة متخصص في توليد الاستجابة في المحادثات.
جي بي تي-نيو إكس GPT-NeoX فبراير 2022   إليوثر أيه آي 20[185] 825 جيجابت[169] أباتشي 2.0 مبني على معمارية ميجاترون
Chinchilla مارس 2022   ديب مايند 70[186] 1.4 تريليون رمز مميز[181][186] خاصة نموذج ذو معلمات مخفضة تم تدريبه على المزيد من البيانات. يستخدم في روبوت Sparrow. غالبًا ما يتم الاستشهاد به لقانون التوسع العصبي الخاص به.
بالم (نموذج مسارات اللغة) PaLM أبريل 2022   جوجل 540[187] 768 مليار رمز مميز[186] خاصة تم التدريب لمدة 60 يومًا تقريبًا على 6000 شريحة TPU v4.[182]
OPT (Open Pretrained Transformer) مايو 2022   ميتا 175[188] 180 مليار رمز مميز[189] 310[172] بحث غير تجاري[د] معمارية GPT-3 مع بعض التعديلات من ميجاترون
YaLM 100B يونيو 2022   ياندكس 100[190] 1.7 تيرابايت [190] أباتشي 2.0 نموذج إنجليزي-روسي يعتمد على Megatron-LM من مايكروسوفت.
Minerva يونيو 2022   جوجل 540[191] 38.5 مليار رمز مميز من صفحات الويب التي تمت تصفيتها للمحتوى الرياضي ومن الأوراق المقدمة إلى خادم arXiv للطبع المسبق [191] خاصة لحل "المسائل الرياضية والعلمية باستخدام التفكير خطوة بخطوة".[192] بناءً على نموذج PaLM، تم تدريبه بشكل أكبر على البيانات الرياضية والعلمية.
بلوم BLOOM يوليو 2022   تعاون كبير بقيادة هقينق فيس [الإنجليزية] 175[193] 350 مليار رمز مميز (1.6 تيرابايت)[194] الذكاء الاصطناعي المسؤول في الأساس GPT-3 ولكن تم تدريبه على مجموعة متعددة اللغات (30% من اللغة الإنجليزية باستثناء لغات البرمجة)
جالاكتيكا Galactica نوفمبر 2022   ميتا 120 106 مليار رمز مميز[195] غير معروف CC-BY-NC-4.0 مدرب على النصوص العلمية والأساليب العلمية.
اليكسا تي إم

(نموذج المعلم)

AlexaTM نوفمبر 2022   20[196] 1.3 تريليون[197] خاصة[198] هندسة تسلسلية ثنائية الاتجاه
Neuro-sama ديسمبر 2022   مستقل غير معروف غير معروف ملكية خاصة نموذج لغوي مصمم للبث المباشر على تويتش.
لاما

نموذج لغة كبير ميتا أيه آي)

LLaMA فبراير 2023   ميتا أيه آي [الإنجليزية] 65[199] 1.4 تريليون[199] 6300[200] بحث غير تجاري[ه] يحتوي Corpus على 20 لغة. "مُدرَّب أكثر" (مقارنة بقانون تحجيم شينشيلا) للحصول على أداء أفضل مع عدد أقل من المعلمات.[199]
جي بي تي-4 GPT-4 مارس 2023   أوبن أيه آي غير معروف[و] (وفقا للشائعات: 1760)[202] غير معروف خاصة متاح لمستخدمي شات جي بي تي بلس ويُستخدم في العديد من المنتجات.
Cerebras-GPT مارس 2023   Cerebras 13[203] أباتشي 2.0 تم تدريبه باستخدام صيغة شينشيلا.
فالكون FALCON مارس 2023   معهد الابتكار التكنولوجي 40[204] 1 تريليون رمز مميز، من ريفايندويب (مجموعة نصوص ويب مفلترة)[205] بالإضافة إلى بعض "المجموعات النصية المنسقة".[206] أباتشي 2.0[207]
بلومبيرغ جي بي تي BloombergGPT مارس 2023   بلومبيرغ إل بي 50 363 مليار رمز. مجموعة بيانات تعتمد على مصادر بيانات بلومبرج، بالإضافة إلى 345 مليار رمز من مجموعات البيانات للأغراض العامة [208] خاصة تم تدريبه على البيانات المالية من مصادر خاصة، للمهام المالية.
هواوي بانجو  [لغات أخرى] مارس 2023   هواوي 1085 329 مليار رمز مميز[209] خاصة
مساعد مفتوح OpenAssistant[210] مارس 2023   لايون [الإنجليزية] 17 1.5 تريليون رمز مميز أباتشي 2.0 تم تدريبه على البيانات المفتوحة المستمدة من الجمهور
جوراسيك-2 Jurassic-2[211] مارس 2023   أيه 121 لابز [الإنجليزية] غير معروف غير معروف خاصة متعدد اللغات[212]
بالم 2 (نموذج مسارات اللغة 2) PaLM2 مايو 2023   جوجل 340[213] 3.6 تريليون رمز مميز[213] خاصة كان يستخدم في روبوت الدردشة بارد.[214]
لاما 2 LLaMA 2 يوليو 2023   ميتا أيه آي 70[215] 2 تريليون رمز مميز[215] 21000 رخصة لاما 2 1.7 مليون ساعة A100.[216]
كلود 2 Claude2 يوليو 2023   أنثروبيك غير معروف غير معروف خاصة يُستخدم في برنامج الدردشة الآلي كلود.[217]
آي بي إم جرانيت  [لغات أخرى] يوليو 2023   آي بي إم غير معروف غير معروف خاصة يُستخدم في آي بي إم واتسونكس.[218]
Mistral 7B سبتمبر 2023   ميسترال 7.3[219] غير معروف أباتشي 2.0
كلود 2.1 Claude2.1 نوفمبر 2023   أنثروبيك غير معروف غير معروف خاصة يستخدم في برنامج الدردشة الآلي كلود. يحتوي على نافذة سياقية تحتوي على 200000 رمز، أو حوالي 500 صفحة.[220]
غروك-1[221] Grok-1 نوفمبر 2023   إكس.أيه آي [الإنجليزية] 314 غير معروف أباتشي 2.0 يستخدم في روبوت الدردشة غروك. يحتوي غروك-1 على سياق يبلغ 8,192 رمزًا مميزًا ويمكنه الوصول إلى X (تويتر).[222]
جيميناي 1.0 Gemini 1.0 ديسمبر 2023   ديب مايند غير معروف غير معروف خاصة نموذج متعدد الوسائط، يأتي بثلاثة أحجام. يُستخدم في روبوت الدردشة الذي يحمل نفس الاسم.[223]
Mixtral 8x7B ديسمبر 2023   ميسترال 46.7 غير معروف أباتشي 2.0 يتفوق على GPT-3.5 وLlama 2 70B في العديد من المعايير.[224] وهو نموذج مزيج من الخبراء، مع 12.9 مليار معلمة مفعلة لكل رمز مميز.[225]
Mixtral 8x22B أبريل 2024   ميسترال 141 غير معروف أباتشي 2.0 [226]
Phi-2 ديسمبر 2023   مايكروسوفت 2.7 1.4 تريليون رمز مميز إم آي تي تم التدريب على بيانات حقيقية وصناعية "بجودة الكتب المدرسية"، لمدة 14 يومًا على 96 وحدة معالجة رسومية A100.[227]
جيميناي 1.5 Gemini 1.5 فبراير 2024   ديب مايند غير معروف غير معروف خاصة نموذج متعدد الوسائط، يعتمد على بنية مزيج من الخبراء (MoE). نافذة السياق فوق مليون رمز.[228]
جيما Gemma فبراير 2024   ديب مايند 7 6 تريليون رمز مميز غير معروف شروط استخدام جيما[229]
كلود 3 Claude3 مارس 2024 أنثروبيك غير معروف غير معروف غير معروف ملكية خاصة يتضمن ثلاثة نماذج، هايكو، وسونيت، وأوبوس.[230]
نوفا Nova أكتوبر 2024 روبيك أيه آي غير معروف غير معروف غير معروف ملكية خاصة يتضمن ثلاثة نماذج، Nova-Instant، وNova-Air، وNova-Pro.
DBRX مارس 2024 داتابريكس وموزيك إم إل 136 12 تريليون رمز مميز الترخيص النموذجي المفتوح داتا بريكس تكلفة التدريب 10 مليون دولار أمريكي
Fugaku-LLM مايو 2024 فوجيتسو، معهد طوكيو للتكنولوجيا 13 380 مليار رمز مميز أكبر نموذج تم تدريبه على الإطلاق على وحدة المعالجة المركزية فقط، على فوغاكو.[231]
Phi-3 أبريل 2024   مايكروسوفت 14[232] 4.8 تريليون رمز مميز إم آي تي تسوقه مايكروسوفت باعتباره "نموذج لغة صغير".[233]
آي بي إم جرانيت  [لغات أخرى] مايو 2024   آي بي إم غير معروف غير معروف أباتشي 2.0
Qwen2 يونيو 2024   سحابة علي بابا 72[234] 3 تريليون رمز مميز له أحجام متعددة، أصغرها هو 0.5B.
Nemotron-4 يونيو 2024 إنفيديا 340 9 تريليون رمز مميز 200,000 ترخيص إنفيديا النموذج المفتوح تم تدريبه على 6144 وحدة معالجة رسومية H100 بين ديسمبر 2023 ومايو 2024.[235][236]
لاما 3.1 LLaMA3.1 يوليو 2024 ميتا أيه آي 405 15.6 تريليون رمز مميز 440,000 ترخيص لاما 3 استغرق "الإصدار 405B" حوالي 31 مليون ساعة على "H100-80GB" عند 3.8E25 فلوب.[237][238]

انظر أيضًا

قراءة متعمقة

  • Jurafsky, Dan, Martin, James. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd Edition draft, 2023.
  • Zhao، Wayne Xin؛ وآخرون (2023). "A Survey of Large Language Models". arXiv:2303.18223. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  • Kaddour، Jean؛ وآخرون (2023). "Challenges and Applications of Large Language Models". arXiv:2307.10169. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  • Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Li, Ke; Sun, Xing; Xu, Tong; Chen, Enhong (23 Jun 2023). "A Survey on Multimodal Large Language Models". arXiv.org (بالإنجليزية). Archived from the original on 2024-11-26. Retrieved 2024-10-07.
  • "AI Index Report 2024 – Artificial Intelligence Index". aiindex.stanford.edu. مؤرشف من الأصل في 2024-04-26. اطلع عليه بتاريخ 2024-05-05.
  • Frank، Michael C. (27 يونيو 2023). "Baby steps in evaluating the capacities of large language models". Nature Reviews Psychology. ج. 2 ع. 8: 451–452. DOI:10.1038/s44159-023-00211-x. ISSN:2731-0574. S2CID:259713140. مؤرشف من الأصل في 2023-07-12. اطلع عليه بتاريخ 2023-07-02.

ملاحظات

  1. ^ التاريخ الذي تم فيه إصدار الوثائق التي تصف بنية النموذج لأول مرة.
  2. ^ في كثير من الحالات، يصدر الباحثون أو يبلغون عن إصدارات متعددة من نموذج بأحجام مختلفة. في هذه الحالات، يتم سرد حجم النموذج الأكبر هنا.
  3. ^ ترخيص أوزان النموذج المدرب مسبقًا. في جميع الحالات تقريبًا، يكون كود التدريب نفسه مفتوح المصدر أو يمكن تكراره بسهولة.
  4. ^ النماذج الأصغر بما في ذلك 66B متاحة للجمهور، في حين أن نموذج 175B متاح عند الطلب.
  5. ^ كان نظام الترخيص والتوزيع الخاص بفيسبوك يقيد الوصول إلى البيانات للباحثين المعتمدين، لكن أوزان النماذج تسربت وأصبحت متاحة على نطاق واسع.
  6. ^ كما هو مذكور في التقرير الفني: "نظرًا للمشهد التنافسي والتأثيرات الأمنية للنماذج واسعة النطاق مثل GPT-4، لا يحتوي هذا التقرير على مزيد من التفاصيل حول الهندسة المعمارية (بما في ذلك حجم النموذج)، والأجهزة، وحوسبة التدريب، وبناء مجموعة البيانات، وطريقة التدريب ..."[201]

مراجع

  1. ^ "Better Language Models and Their Implications". OpenAI. 14 فبراير 2019. مؤرشف من الأصل في 2020-12-19. اطلع عليه بتاريخ 2019-08-25.
  2. ^ "Better Language Models and Their Implications". OpenAI. 14 فبراير 2019. مؤرشف من الأصل في 2020-12-19. اطلع عليه بتاريخ 2019-08-25.
  3. ^ ا ب ج Brown، Tom B.؛ Mann، Benjamin؛ Ryder، Nick؛ Subbiah، Melanie؛ Kaplan، Jared؛ Dhariwal، Prafulla؛ Neelakantan، Arvind؛ Shyam، Pranav؛ Sastry، Girish (ديسمبر 2020). Larochelle، H.؛ Ranzato، M.؛ Hadsell، R.؛ Balcan، M.F.؛ Lin، H. (المحررون). "Language Models are Few-Shot Learners" (pdf). Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 33: 1877–1901. مؤرشف (PDF) من الأصل في 2023-11-17. اطلع عليه بتاريخ 2024-10-16.
  4. ^ Manning، Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. ج. 151 ع. 2: 127–138. DOI:10.1162/daed_a_01905. S2CID:248377870. مؤرشف من الأصل في 2023-11-17. اطلع عليه بتاريخ 2024-10-16.
  5. ^ A bot will complete this citation soon. Click here to jump the queue أرخايف:[1].
  6. ^ Merritt, Rick (25 Mar 2022). "What Is a Transformer Model?". NVIDIA Blog (بالإنجليزية). Archived from the original on 2023-11-17. Retrieved 2023-07-25.
  7. ^ Brown، Tom B.؛ Mann، Benjamin؛ Ryder، Nick؛ Subbiah، Melanie؛ Kaplan، Jared؛ Dhariwal، Prafulla؛ Neelakantan، Arvind؛ Shyam، Pranav؛ Sastry، Girish؛ Askell، Amanda؛ Agarwal، Sandhini؛ Herbert-Voss، Ariel؛ Krueger، Gretchen؛ Henighan، Tom؛ Child، Rewon؛ Ramesh، Aditya؛ Ziegler، Daniel M.؛ Wu، Jeffrey؛ Winter، Clemens؛ Hesse، Christopher؛ Chen، Mark؛ Sigler، Eric؛ Litwin، Mateusz؛ Gray، Scott؛ Chess، Benjamin؛ Clark، Jack؛ Berner، Christopher؛ McCandlish، Sam؛ Radford، Alec؛ Sutskever، Ilya؛ Amodei، Dario (ديسمبر 2020). Larochelle، H.؛ Ranzato، M.؛ Hadsell، R.؛ Balcan، M.F.؛ Lin، H. (المحررون). "Language Models are Few-Shot Learners" (pdf). Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 33: 1877–1901. مؤرشف (PDF) من الأصل في 2023-11-17. اطلع عليه بتاريخ 2023-03-14.
  8. ^ Fathallah، Nadeen؛ Das، Arunav؛ De Giorgis، Stefano؛ Poltronieri، Andrea؛ Haase، Peter؛ Kovriguina، Liubov (26 مايو 2024). "NeOn-GPT: A Large Language Model-Powered Pipeline for Ontology Learning" (PDF). Extended Semantic Web Conference 2024. Hersonissos, Greece. مؤرشف من الأصل (pdf) في 2024-08-16. اطلع عليه بتاريخ 2024-10-07.
  9. ^ ا ب Manning، Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. ج. 151 ع. 2: 127–138. DOI:10.1162/daed_a_01905. S2CID:248377870. مؤرشف من الأصل في 2023-11-17. اطلع عليه بتاريخ 2023-03-09.
  10. ^ Goodman، Joshua (09 أغسطس 2001)، A Bit of Progress in Language Modeling، arXiv:cs/0108005، Bibcode:2001cs........8005G
  11. ^ Kilgarriff، Adam؛ Grefenstette، Gregory (سبتمبر 2003). "Introduction to the Special Issue on the Web as Corpus". Computational Linguistics. ج. 29 ع. 3: 333–347. DOI:10.1162/089120103322711569. ISSN:0891-2017. مؤرشف من الأصل في 2024-06-16. اطلع عليه بتاريخ 2024-10-05.
  12. ^ Resnik، Philip؛ Smith، Noah A. (سبتمبر 2003). "The Web as a Parallel Corpus". Computational Linguistics. ج. 29 ع. 3: 349–380. DOI:10.1162/089120103322711578. ISSN:0891-2017. مؤرشف من الأصل في 2024-06-07. اطلع عليه بتاريخ 2024-06-07.
  13. ^ Banko، Michele؛ Brill، Eric (2001). "Scaling to very very large corpora for natural language disambiguation". Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01. Morristown, NJ, USA: Association for Computational Linguistics: 26–33. DOI:10.3115/1073012.1073017. مؤرشف من الأصل في 2024-09-22. اطلع عليه بتاريخ 2024-10-05.
  14. ^ Halevy، Alon؛ Norvig، Peter؛ Pereira، Fernando (مارس 2009). "The Unreasonable Effectiveness of Data". IEEE Intelligent Systems. ج. 24 ع. 2: 8–12. DOI:10.1109/MIS.2009.36. ISSN:1541-1672. مؤرشف من الأصل في 2024-10-04. اطلع عليه بتاريخ 2024-10-05.
  15. ^ Vaswani، Ashish؛ Shazeer، Noam؛ Parmar، Niki؛ Uszkoreit، Jakob؛ Jones، Llion؛ Gomez، Aidan N؛ Kaiser، Łukasz؛ Polosukhin، Illia (2017). "Attention is All you Need" (pdf). Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 30. مؤرشف (PDF) من الأصل في 2024-02-21. اطلع عليه بتاريخ 2024-01-21.
  16. ^ A bot will complete this citation soon. Click here to jump the queue أرخايف:[2].
  17. ^ Rogers، Anna؛ Kovaleva، Olga؛ Rumshisky، Anna (2020). "A Primer in BERTology: What We Know About How BERT Works". Transactions of the Association for Computational Linguistics. ج. 8: 842–866. arXiv:2002.12327. DOI:10.1162/tacl_a_00349. S2CID:211532403. مؤرشف من الأصل في 2022-04-03. اطلع عليه بتاريخ 2024-01-21.
  18. ^ Hern، Alex (14 فبراير 2019). "New AI fake text generator may be too dangerous to release, say creators". الغارديان. مؤرشف من الأصل في 2019-02-14. اطلع عليه بتاريخ 2024-01-20.
  19. ^ Heaven، Will (14 مارس 2023). "GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why". MIT Technology Review. إم آي تي تكنولوجي ريفيو. مؤرشف من الأصل في 2023-03-17. اطلع عليه بتاريخ 2024-01-20.
  20. ^ "Parameters in notable artificial intelligence systems". ourworldindata.org. 30 نوفمبر 2023. مؤرشف من الأصل في 2024-10-06. اطلع عليه بتاريخ 2024-01-20.
  21. ^ "LMSYS Chatbot Arena Leaderboard". huggingface.co. مؤرشف من الأصل في 2024-06-10. اطلع عليه بتاريخ 2024-06-12.
  22. ^ Peng، Bo؛ وآخرون (2023). "RWKV: Reinventing RNNS for the Transformer Era". arXiv:2305.13048 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  23. ^ Merritt، Rick (25 مارس 2022). "What Is a Transformer Model?". NVIDIA Blog. مؤرشف من الأصل في 2023-11-17. اطلع عليه بتاريخ 2023-07-25.
  24. ^ Gu، Albert؛ Dao، Tri (01 ديسمبر 2023)، Mamba: Linear-Time Sequence Modeling with Selective State Spaces، arXiv:2312.00752
  25. ^ Kaushal، Ayush؛ Mahowald، Kyle (06 يونيو 2022)، What do tokens know about their characters and how do they know it?، arXiv:2206.02608، مؤرشف من الأصل في 2024-09-08، اطلع عليه بتاريخ 2024-09-08
  26. ^ Yennie Jun (03 مايو 2023). "All languages are NOT created (tokenized) equal". Language models cost much more in some languages than others. مؤرشف من الأصل في 2023-08-17. اطلع عليه بتاريخ 2023-08-17. In other words, to express the same sentiment, some languages require up to 10 times more tokens.
  27. ^ Petrov، Aleksandar؛ Malfa، Emanuele La؛ Torr، Philip؛ Bibi، Adel (23 يونيو 2023). "Language Model Tokenizers Introduce Unfairness Between Languages". NeurIPS. arXiv:2305.15425. مؤرشف من الأصل في 2023-12-15. اطلع عليه بتاريخ 2023-09-16 – عبر openreview.net.
  28. ^ "OpenAI API". platform.openai.com. مؤرشف من الأصل في 2023-04-23. اطلع عليه بتاريخ 2023-04-30.
  29. ^ ا ب Paaß، Gerhard؛ Giesselbach، Sven (2022). "Pre-trained Language Models". Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms. ص. 19–78. DOI:10.1007/978-3-031-23190-2_2. ISBN:9783031231902. مؤرشف من الأصل في 2023-08-03. اطلع عليه بتاريخ 2024-10-07.
  30. ^ Petrov، Aleksandar؛ Emanuele La Malfa؛ Torr، Philip H. S.؛ Bibi، Adel (2023). "Language Model Tokenizers Introduce Unfairness Between Languages". arXiv:2305.15425 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  31. ^ Lundberg, Scott (12 Dec 2023). "The Art of Prompt Design: Prompt Boundaries and Token Healing". Medium (بالإنجليزية). Archived from the original on 2024-08-05. Retrieved 2024-08-05.
  32. ^ Dodge، Jesse؛ Sap، Maarten؛ Marasović، Ana؛ Agnew، William؛ Ilharco، Gabriel؛ Groeneveld، Dirk؛ Mitchell، Margaret؛ Gardner، Matt (2021). "Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus". arXiv:2104.08758 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  33. ^ Lee، Katherine؛ Ippolito، Daphne؛ Nystrom، Andrew؛ Zhang، Chiyuan؛ Eck، Douglas؛ Callison-Burch، Chris؛ Carlini، Nicholas (مايو 2022). "Deduplicating Training Data Makes Language Models Better" (PDF). Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. 1: Long Papers: 8424–8445. DOI:10.18653/v1/2022.acl-long.577. مؤرشف من الأصل (pdf) في 2024-09-30. اطلع عليه بتاريخ 2024-10-07.
  34. ^ Li، Yuanzhi؛ Bubeck، Sébastien؛ Eldan، Ronen؛ Del Giorno، Allie؛ Gunasekar، Suriya؛ Lee، Yin Tat (11 سبتمبر 2023)، Textbooks Are All You Need II: phi-1.5 technical report، arXiv:2309.05463
  35. ^ Lin، Zhenghao؛ Gou، Zhibin؛ Gong، Yeyun؛ Liu، Xiao؛ Shen، Yelong؛ Xu، Ruochen؛ Lin، Chen؛ Yang، Yujiu؛ Jiao، Jian (11 أبريل 2024). "Rho-1: Not All Tokens Are What You Need". arXiv:2404.07965 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  36. ^ Brown، Tom B.؛ وآخرون (2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  37. ^ Abdin، Marah؛ Jacobs، Sam Ade؛ Awan، Ammar Ahmad؛ Aneja، Jyoti؛ Awadallah، Ahmed؛ Awadalla، Hany؛ Bach، Nguyen؛ Bahree، Amit؛ Bakhtiari، Arash (23 أبريل 2024). "Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone". arXiv:2404.14219 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  38. ^ Ouyang، Long؛ Wu، Jeff؛ Jiang، Xu؛ Almeida، Diogo؛ Wainwright، Carroll L.؛ Mishkin، Pamela؛ Zhang، Chong؛ Agarwal، Sandhini؛ Slama، Katarina؛ Ray، Alex؛ Schulman، John؛ Hilton، Jacob؛ Kelton، Fraser؛ Miller، Luke؛ Simens، Maddie؛ Askell، Amanda؛ Welinder، Peter؛ Christiano، Paul؛ Leike، Jan؛ Lowe، Ryan (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  39. ^ "ما المقصود بالتعلُّم المعزَّز من الملاحظات البشرية (RLHF)؟ - شرح "التعلُّم المعزَّز من الملاحظات البشرية" - AWS". Amazon Web Services, Inc. مؤرشف من الأصل في 2024-12-16. اطلع عليه بتاريخ 2024-10-28.
  40. ^ Wang، Yizhong؛ Kordi، Yeganeh؛ Mishra، Swaroop؛ Liu، Alisa؛ Smith، Noah A.؛ Khashabi، Daniel؛ Hajishirzi، Hannaneh (2022). "Self-Instruct: Aligning Language Model with Self Generated Instructions". arXiv:2212.10560 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  41. ^ Shazeer، Noam؛ Mirhoseini، Azalia؛ Maziarz، Krzysztof؛ Davis، Andy؛ Le، Quoc؛ Hinton، Geoffrey؛ Dean، Jeff (01 يناير 2017). "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer". arXiv:1701.06538 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  42. ^ Lepikhin، Dmitry؛ Lee، HyoukJoong؛ Xu، Yuanzhong؛ Chen، Dehao؛ Firat، Orhan؛ Huang، Yanping؛ Krikun، Maxim؛ Shazeer، Noam؛ Chen، Zhifeng (12 يناير 2021). "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding". arXiv:2006.16668 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  43. ^ Dai، Andrew M؛ Du، Nan (9 ديسمبر 2021). "More Efficient In-Context Learning with GLaM". ai.googleblog.com. مؤرشف من الأصل في 2023-03-12. اطلع عليه بتاريخ 2023-03-09.
  44. ^ ا ب ج Wei، Jason؛ Tay، Yi؛ Bommasani، Rishi؛ Raffel، Colin؛ Zoph، Barret؛ Borgeaud، Sebastian؛ Yogatama، Dani؛ Bosma، Maarten؛ Zhou، Denny؛ Metzler، Donald؛ Chi، Ed H.؛ Hashimoto، Tatsunori؛ Vinyals، Oriol؛ Liang، Percy؛ Dean، Jeff؛ Fedus، William (31 أغسطس 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research. ISSN:2835-8856. مؤرشف من الأصل في 2023-03-22. اطلع عليه بتاريخ 2023-03-19.
  45. ^ Allamar، Jay. "The Illustrated GPT-2 (Visualizing Transformer Language Models)". مؤرشف من الأصل في 2019-08-13. اطلع عليه بتاريخ 2023-08-01.
  46. ^ "Our next-generation model: Gemini 1.5". Google. 15 فبراير 2024. مؤرشف من الأصل في 2024-02-18. اطلع عليه بتاريخ 2024-02-18.
  47. ^ "Long context prompting for Claude 2.1". Anthropic. 6 ديسمبر 2023. مؤرشف من الأصل في 2024-08-27. اطلع عليه بتاريخ 2024-01-20.
  48. ^ "Rate limits". openai.com. مؤرشف من الأصل في 2024-02-02. اطلع عليه بتاريخ 2024-01-20.
  49. ^ Zaib، Munazza؛ Sheng، Quan Z.؛ Emma Zhang، Wei (4 فبراير 2020). "A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP". Proceedings of the Australasian Computer Science Week Multiconference. ص. 1–4. arXiv:2104.10810. DOI:10.1145/3373017.3373028. ISBN:9781450376976. S2CID:211040895. مؤرشف من الأصل في 2024-07-09. اطلع عليه بتاريخ 2024-10-07.
  50. ^ ا ب Jurafsky، Dan؛ Martin، James H. (7 يناير 2023). Speech and Language Processing (pdf) (ط. 3rd edition draft). مؤرشف (PDF) من الأصل في 2023-03-23. اطلع عليه بتاريخ 2022-05-24.
  51. ^ "From bare metal to a 70B model: infrastructure set-up and scripts". imbue.com (بالإنجليزية). Archived from the original on 2024-07-26. Retrieved 2024-07-24.
  52. ^ "metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq". GitHub (بالإنجليزية). Archived from the original on 2024-01-24. Retrieved 2024-07-24.
  53. ^ Albrecht, Josh (23 Jul 2024). "State of the Art: Training >70B LLMs on 10,000 H100 clusters". www.latent.space (بالإنجليزية). Archived from the original on 2024-08-01. Retrieved 2024-07-24.
  54. ^ Wiggers، Kyle (28 أبريل 2022). "The emerging types of language models and why they matter". TechCrunch. مؤرشف من الأصل في 2023-03-16. اطلع عليه بتاريخ 2023-03-09.
  55. ^ Sharir، Or؛ Peleg، Barak؛ Shoham، Yoav (2020). "The Cost of Training NLP Models: A Concise Overview". arXiv:2004.08900 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  56. ^ Biderman، Stella؛ Schoelkopf، Hailey؛ Anthony، Quentin؛ Bradley، Herbie؛ Khan، Mohammad Aflah؛ Purohit، Shivanshu؛ Prashanth، USVSN Sai (أبريل 2023). "Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling". arXiv:2304.01373 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  57. ^ Maslej، Nestor؛ Fattorini، Loredana؛ Brynjolfsson، Erik؛ Etchemendy، John؛ Ligett، Katrina؛ Lyons، Terah؛ Manyika، James؛ Ngo، Helen؛ Niebles، Juan Carlos (05 أكتوبر 2023)، Artificial Intelligence Index Report 2023، arXiv:2310.03715
  58. ^ Section 2.1 and Table 1, Kaplan، Jared؛ McCandlish، Sam؛ Henighan، Tom؛ Brown، Tom B.؛ Chess، Benjamin؛ Child، Rewon؛ Gray، Scott؛ Radford، Alec؛ Wu، Jeffrey؛ Amodei، Dario (2020). "Scaling Laws for Neural Language Models". arXiv:2001.08361 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  59. ^ Gao، Luyu؛ Madaan، Aman؛ Zhou، Shuyan؛ Alon، Uri؛ Liu، Pengfei؛ Yang، Yiming؛ Callan، Jamie؛ Neubig، Graham (01 نوفمبر 2022). "PAL: Program-aided Language Models". arXiv:2211.10435 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  60. ^ "PAL: Program-aided Language Models". reasonwithpal.com. مؤرشف من الأصل في 2023-06-12. اطلع عليه بتاريخ 2023-06-12.
  61. ^ Paranjape، Bhargavi؛ Lundberg، Scott؛ Singh، Sameer؛ Hajishirzi، Hannaneh؛ Zettlemoyer، Luke؛ Tulio Ribeiro، Marco (01 مارس 2023). "ART: Automatic multi-step reasoning and tool-use for large language models". arXiv:2303.09014 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  62. ^ Liang، Yaobo؛ Wu، Chenfei؛ Song، Ting؛ Wu، Wenshan؛ Xia، Yan؛ Liu، Yu؛ Ou، Yang؛ Lu، Shuai؛ Ji، Lei؛ Mao، Shaoguang؛ Wang، Yun؛ Shou، Linjun؛ Gong، Ming؛ Duan، Nan (01 مارس 2023). "TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs". arXiv:2303.16434 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  63. ^ Patil، Shishir G.؛ Zhang، Tianjun؛ Wang، Xin؛ Gonzalez، Joseph E. (01 مايو 2023). "Gorilla: Large Language Model Connected with Massive APIs". arXiv:2305.15334 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  64. ^ Lewis، Patrick؛ Perez، Ethan؛ Piktus، Aleksandra؛ Petroni، Fabio؛ Karpukhin، Vladimir؛ Goyal، Naman؛ Küttler، Heinrich؛ Lewis، Mike؛ Yih، Wen-tau؛ Rocktäschel، Tim؛ Riedel، Sebastian؛ Kiela، Douwe (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks". Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 33: 9459–9474. arXiv:2005.11401. مؤرشف من الأصل في 2023-06-12. اطلع عليه بتاريخ 2023-06-12.
  65. ^ Huang، Wenlong؛ Abbeel، Pieter؛ Pathak، Deepak؛ Mordatch، Igor (28 يونيو 2022). "Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents". Proceedings of the 39th International Conference on Machine Learning. PMLR: 9118–9147. arXiv:2201.07207. مؤرشف من الأصل في 2024-08-27. اطلع عليه بتاريخ 2024-10-07.
  66. ^ Yao، Shunyu؛ Zhao، Jeffrey؛ Yu، Dian؛ Du، Nan؛ Shafran، Izhak؛ Narasimhan، Karthik؛ Cao، Yuan (01 أكتوبر 2022). "ReAct: Synergizing Reasoning and Acting in Language Models". arXiv:2210.03629 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  67. ^ Wu، Yue؛ Prabhumoye، Shrimai؛ Min، So Yeon (24 مايو 2023). "SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning". arXiv:2305.15486 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  68. ^ Wang، Zihao؛ Cai، Shaofei؛ Liu، Anji؛ Ma، Xiaojian؛ Liang، Yitao (03 فبراير 2023). "Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents". arXiv:2302.01560 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  69. ^ Shinn، Noah؛ Cassano، Federico؛ Labash، Beck؛ Gopinath، Ashwin؛ Narasimhan، Karthik؛ Yao، Shunyu (01 مارس 2023). "Reflexion: Language Agents with Verbal Reinforcement Learning". arXiv:2303.11366 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  70. ^ Hao، Shibo؛ Gu، Yi؛ Ma، Haodi؛ Jiahua Hong، Joshua؛ Wang، Zhen؛ Zhe Wang، Daisy؛ Hu، Zhiting (01 مايو 2023). "Reasoning with Language Model is Planning with World Model". arXiv:2305.14992 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  71. ^ Zhang، Jenny؛ Lehman، Joel؛ Stanley، Kenneth؛ Clune، Jeff (2 يونيو 2023). "OMNI: Open-endedness via Models of human Notions of Interestingness". arXiv:2306.01711 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  72. ^ ا ب "Voyager | An Open-Ended Embodied Agent with Large Language Models". voyager.minedojo.org. مؤرشف من الأصل في 2023-06-08. اطلع عليه بتاريخ 2023-06-09.
  73. ^ Park، Joon Sung؛ O'Brien، Joseph C.؛ Cai، Carrie J.؛ Ringel Morris، Meredith؛ Liang، Percy؛ Bernstein، Michael S. (01 أبريل 2023). "Generative Agents: Interactive Simulacra of Human Behavior". arXiv:2304.03442 [cs.HC]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  74. ^ Mann، Tobias. "How to run an LLM locally on your PC in less than 10 minutes". www.theregister.com. مؤرشف من الأصل في 2024-03-19. اطلع عليه بتاريخ 2024-05-17.
  75. ^ Nagel، Markus؛ Amjad، Rana Ali؛ Baalen، Mart Van؛ Louizos، Christos؛ Blankevoort، Tijmen (21 نوفمبر 2020). "Up or Down? Adaptive Rounding for Post-Training Quantization". Proceedings of the 37th International Conference on Machine Learning. PMLR: 7197–7206. مؤرشف من الأصل في 2023-06-14. اطلع عليه بتاريخ 2023-06-14.
  76. ^ Polino، Antonio؛ Pascanu، Razvan؛ Alistarh، Dan (01 فبراير 2018). "Model compression via distillation and quantization". arXiv:1802.05668 [cs.NE]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  77. ^ Frantar، Elias؛ Ashkboos، Saleh؛ Hoefler، Torsten؛ Alistarh، Dan (01 أكتوبر 2022). "GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers". arXiv:2210.17323 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  78. ^ Dettmers، Tim؛ Svirschevski، Ruslan؛ Egiazarian، Vage؛ Kuznedelev، Denis؛ Frantar، Elias؛ Ashkboos، Saleh؛ Borzunov، Alexander؛ Hoefler، Torsten؛ Alistarh، Dan (01 يونيو 2023). "SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression". arXiv:2306.03078 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  79. ^ Grootendorst, Maarten. "A Visual Guide to Quantization". newsletter.maartengrootendorst.com (بالإنجليزية). Archived from the original on 2024-07-31. Retrieved 2024-07-31.
  80. ^ Dettmers، Tim؛ Pagnoni، Artidoro؛ Holtzman، Ari؛ Zettlemoyer، Luke (01 مايو 2023). "QLoRA: Efficient Finetuning of Quantized LLMs". arXiv:2305.14314 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  81. ^ Kiros، Ryan؛ Salakhutdinov، Ruslan؛ Zemel، Rich (18 يونيو 2014). "Multimodal Neural Language Models". Proceedings of the 31st International Conference on Machine Learning. PMLR: 595–603. مؤرشف من الأصل في 2023-07-02. اطلع عليه بتاريخ 2023-07-02.
  82. ^ Krizhevsky، Alex؛ Sutskever، Ilya؛ Hinton، Geoffrey E (2012). "ImageNet Classification with Deep Convolutional Neural Networks". Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 25. مؤرشف من الأصل في 2023-07-02. اطلع عليه بتاريخ 2023-07-02.
  83. ^ Antol، Stanislaw؛ Agrawal، Aishwarya؛ Lu، Jiasen؛ Mitchell، Margaret؛ Batra، Dhruv؛ Zitnick، C. Lawrence؛ Parikh، Devi (2015). "VQA: Visual Question Answering". ICCV: 2425–2433. مؤرشف من الأصل في 2023-07-02. اطلع عليه بتاريخ 2023-07-02.
  84. ^ Li، Junnan؛ Li، Dongxu؛ Savarese، Silvio؛ Hoi، Steven (01 يناير 2023). "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models". arXiv:2301.12597 [cs.CV]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  85. ^ Alayrac، Jean-Baptiste؛ Donahue، Jeff؛ Luc، Pauline؛ Miech، Antoine؛ Barr، Iain؛ Hasson، Yana؛ Lenc، Karel؛ Mensch، Arthur؛ Millican، Katherine؛ Reynolds، Malcolm؛ Ring، Roman؛ Rutherford، Eliza؛ Cabi، Serkan؛ Han، Tengda؛ Gong، Zhitao (06 ديسمبر 2022). "Flamingo: a Visual Language Model for Few-Shot Learning". Advances in Neural Information Processing Systems. ج. 35: 23716–23736. arXiv:2204.14198. مؤرشف من الأصل في 2023-07-02. اطلع عليه بتاريخ 2023-07-02.
  86. ^ Driess، Danny؛ Xia، Fei؛ Sajjadi، Mehdi S. M.؛ Lynch، Corey؛ Chowdhery، Aakanksha؛ Ichter، Brian؛ Wahid، Ayzaan؛ Tompson، Jonathan؛ Vuong، Quan؛ Yu، Tianhe؛ Huang، Wenlong؛ Chebotar، Yevgen؛ Sermanet، Pierre؛ Duckworth، Daniel؛ Levine، Sergey (01 مارس 2023). "PaLM-E: An Embodied Multimodal Language Model". arXiv:2303.03378 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  87. ^ Liu، Haotian؛ Li، Chunyuan؛ Wu، Qingyang؛ Lee، Yong Jae (01 أبريل 2023). "Visual Instruction Tuning". arXiv:2304.08485 [cs.CV]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  88. ^ Zhang، Hang؛ Li، Xin؛ Bing، Lidong (01 يونيو 2023). "Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding". arXiv:2306.02858 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  89. ^ OpenAI (27 مارس 2023). "GPT-4 Technical Report". arXiv:2303.08774 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  90. ^ OpenAI (25 سبتمبر 2023). "GPT-4V(ision) System Card" (PDF). أوبن أيه آي. مؤرشف من الأصل (pdf) في 2023-09-25. اطلع عليه بتاريخ 2024-10-07.
  91. ^ Pichai، Sundar (10 مايو 2023)، "Google Keynote (Google I/O '23)"، i24News English، timestamp 15:31، اطلع عليه بتاريخ 2023-07-02
  92. ^ Wiggers، Kyle (11 سبتمبر 2024). "Mistral releases Pixtral 12B, its first multimodal model". TechCrunch. مؤرشف من الأصل في 2024-09-14. اطلع عليه بتاريخ 2024-09-14.
  93. ^ ا ب Caballero، Ethan؛ Gupta، Kshitij؛ Rish، Irina؛ Krueger، David (2022). "Broken Neural Scaling Laws". arXiv:2210.14891 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  94. ^ "137 emergent abilities of large language models". Jason Wei. مؤرشف من الأصل في 2022-11-14. اطلع عليه بتاريخ 2023-06-24.
  95. ^ Bowman، Samuel R. (2023). "Eight Things to Know about Large Language Models". arXiv:2304.00612 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  96. ^ Mukherjee، Anirban؛ Chang، Hannah (2024). "Heuristic Reasoning in AI: Instrumental Use and Mimetic Absorption". arXiv:2403.09404.
  97. ^ Hoffmann، Jordan؛ Borgeaud، Sebastian؛ Mensch، Arthur؛ Buchatskaya، Elena؛ Cai، Trevor؛ Rutherford، Eliza؛ Casas، Diego de Las؛ Hendricks، Lisa Anne؛ Welbl، Johannes؛ Clark، Aidan؛ Hennigan، Tom؛ Noland، Eric؛ Millican، Katie؛ Driessche، George van den؛ Damoc، Bogdan (29 مارس 2022). "Training Compute-Optimal Large Language Models". arXiv:2203.15556 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  98. ^ Hahn، Michael؛ Goyal، Navin (14 مارس 2023). "A Theory of Emergent In-Context Learning as Implicit Structure Induction". arXiv:2303.07971 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  99. ^ Pilehvar، Mohammad Taher؛ Camacho-Collados، Jose (يونيو 2019). "Proceedings of the 2019 Conference of the North". Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics: 1267–1273. DOI:10.18653/v1/N19-1128. S2CID:102353817. مؤرشف من الأصل في 2023-06-27. اطلع عليه بتاريخ 2023-06-27.
  100. ^ "WiC: The Word-in-Context Dataset". pilehvar.github.io. مؤرشف من الأصل في 2023-06-27. اطلع عليه بتاريخ 2023-06-27.
  101. ^ Patel، Roma؛ Pavlick، Ellie (06 أكتوبر 2021). "Mapping Language Models to Grounded Conceptual Spaces". ICLR. مؤرشف من الأصل في 2023-06-24. اطلع عليه بتاريخ 2023-06-27.
  102. ^ "A Closer Look at Large Language Models Emergent Abilities". مؤرشف من الأصل في 2023-06-24. اطلع عليه بتاريخ 2024-10-07.
  103. ^ Ornes، Stephen (16 مارس 2023). "The Unpredictable Abilities Emerging From Large AI Models". Quanta Magazine. مؤرشف من الأصل في 2023-03-16. اطلع عليه بتاريخ 2023-03-16.
  104. ^ Schaeffer، Rylan؛ Miranda، Brando؛ Koyejo، Sanmi (01 أبريل 2023). "Are Emergent Abilities of Large Language Models a Mirage?". arXiv:2304.15004 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  105. ^ Li، Kenneth؛ Hopkins، Aspen K.؛ Bau، David؛ Viégas، Fernanda؛ Pfister، Hanspeter؛ Wattenberg، Martin (01 أكتوبر 2022). "Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task". arXiv:2210.13382 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  106. ^ "Large Language Model: world models or surface statistics?". The Gradient. 21 يناير 2023. مؤرشف من الأصل في 2023-04-01. اطلع عليه بتاريخ 2023-06-12.
  107. ^ Jin، Charles؛ Rinard، Martin (01 مايو 2023). "Evidence of Meaning in Language Models Trained on Programs". arXiv:2305.11169 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  108. ^ Nanda، Neel؛ Chan، Lawrence؛ Lieberum، Tom؛ Smith، Jess؛ Steinhardt، Jacob (01 يناير 2023). "Progress measures for grokking via mechanistic interpretability". arXiv:2301.05217 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  109. ^ ا ب ج د ه Mitchell، Melanie؛ Krakauer، David C. (28 مارس 2023). "The debate over understanding in AI's large language models". Proceedings of the National Academy of Sciences. ج. 120 ع. 13: e2215907120. arXiv:2210.13966. Bibcode:2023PNAS..12015907M. DOI:10.1073/pnas.2215907120. PMC:10068812. PMID:36943882. مؤرشف من الأصل في 2023-07-22. اطلع عليه بتاريخ 2024-10-07.
  110. ^ Metz، Cade (16 مايو 2023). "Microsoft Says New A.I. Shows Signs of Human Reasoning". The New York Times. اطلع عليه بتاريخ 2024-10-07.
  111. ^ ا ب Bubeck، Sébastien؛ Chandrasekaran، Varun؛ Eldan، Ronen؛ Gehrke، Johannes؛ Horvitz، Eric؛ Kamar، Ece؛ Lee، Peter؛ Lee، Yin Tat؛ Li، Yuanzhi؛ Lundberg، Scott؛ Nori، Harsha؛ Palangi، Hamid؛ Ribeiro، Marco Tulio؛ Zhang، Yi (2023). "Sparks of Artificial General Intelligence: Early experiments with GPT-4". arXiv:2303.12712 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  112. ^ "ChatGPT is more like an 'alien intelligence' than a human brain, says futurist". ZDNET. 2023. مؤرشف من الأصل في 2023-06-12. اطلع عليه بتاريخ 2023-06-12.
  113. ^ ا ب Newport، Cal (13 أبريل 2023). "What Kind of Mind Does ChatGPT Have?". The New Yorker. مؤرشف من الأصل في 2023-06-12. اطلع عليه بتاريخ 2023-06-12.
  114. ^ Roose، Kevin (30 مايو 2023). "Why an Octopus-like Creature Has Come to Symbolize the State of A.I." The New York Times. مؤرشف من الأصل في 2023-05-30. اطلع عليه بتاريخ 2023-06-12.
  115. ^ "The A to Z of Artificial Intelligence". Time Magazine. 13 أبريل 2023. مؤرشف من الأصل في 2023-06-16. اطلع عليه بتاريخ 2023-06-12.
  116. ^ Ji، Ziwei؛ Lee، Nayeon؛ Frieske، Rita؛ Yu، Tiezheng؛ Su، Dan؛ Xu، Yan؛ Ishii، Etsuko؛ Bang، Yejin؛ Dai، Wenliang؛ Madotto، Andrea؛ Fung، Pascale (نوفمبر 2022). "Survey of Hallucination in Natural Language Generation" (pdf). ACM Computing Surveys. جمعية آلات الحوسبة. ج. 55 ع. 12: 1–38. arXiv:2202.03629. DOI:10.1145/3571730. S2CID:246652372. مؤرشف من الأصل في 2023-03-26. اطلع عليه بتاريخ 2023-01-15.
  117. ^ Varshney، Neeraj؛ Yao، Wenlin؛ Zhang، Hongming؛ Chen، Jianshu؛ Yu، Dong (2023). "A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of LLMs by Validating Low-Confidence Generation". arXiv:2307.03987 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  118. ^ Lakoff، George (1999). Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Philosophy; Appendix: The Neural Theory of Language Paradigm. New York Basic Books. ص. 569–583. ISBN:978-0-465-05674-3.
  119. ^ "NTL | ICSI". www.icsi.berkeley.edu. اطلع عليه بتاريخ 2024-11-10.
  120. ^ Evans، Vyvyan. (2014). The Language Myth. Cambridge University Press. ISBN:978-1-107-04396-1.
  121. ^ Friston، Karl J. (2022). Active Inference: The Free Energy Principle in Mind, Brain, and Behavior; Chapter 4 The Generative Models of Active Inference. The MIT Press. ISBN:978-0-262-36997-8.
  122. ^ ا ب Huyen، Chip (18 أكتوبر 2019). "Evaluation Metrics for Language Modeling". The Gradient. مؤرشف من الأصل في 2021-08-25. اطلع عليه بتاريخ 2024-01-14.
  123. ^ ا ب Clark، Christopher؛ Lee، Kenton؛ Chang، Ming-Wei؛ Kwiatkowski، Tom؛ Collins، Michael؛ Toutanova، Kristina (2019). "BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions". arXiv:1905.10044 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  124. ^ ا ب ج Wayne Xin Zhao؛ Zhou، Kun؛ Li، Junyi؛ Tang، Tianyi؛ Wang، Xiaolei؛ Hou، Yupeng؛ Min، Yingqian؛ Zhang، Beichen؛ Zhang، Junjie؛ Dong، Zican؛ Du، Yifan؛ Yang، Chen؛ Chen، Yushuo؛ Chen، Zhipeng؛ Jiang، Jinhao؛ Ren، Ruiyang؛ Li، Yifan؛ Tang، Xinyu؛ Liu، Zikang؛ Liu، Peiyu؛ Nie، Jian-Yun؛ Wen، Ji-Rong (2023). "A Survey of Large Language Models". arXiv:2303.18223 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  125. ^ "openai/simple-evals"، غيت هاب، OpenAI، 28 مايو 2024، مؤرشف من الأصل في 2024-10-04، اطلع عليه بتاريخ 2024-05-28
  126. ^ "openai/evals"، غيت هاب، OpenAI، 28 مايو 2024، مؤرشف من الأصل في 2024-05-08، اطلع عليه بتاريخ 2024-05-28
  127. ^ "Sanitized open-source datasets for natural language and code understanding: how we evaluated our 70B model". imbue.com (بالإنجليزية). Archived from the original on 2024-07-26. Retrieved 2024-07-24.
  128. ^ Srivastava، Aarohi؛ وآخرون (2022). "Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models". arXiv:2206.04615 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  129. ^ Lin، Stephanie؛ Hilton، Jacob؛ Evans، Owain (2021). "TruthfulQA: Measuring How Models Mimic Human Falsehoods". arXiv:2109.07958 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  130. ^ ا ب Zellers، Rowan؛ Holtzman، Ari؛ Bisk، Yonatan؛ Farhadi، Ali؛ Choi، Yejin (2019). "HellaSwag: Can a Machine Really Finish Your Sentence?". arXiv:1905.07830 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  131. ^ "Prepare for truly useful large language models". Nature Biomedical Engineering. ج. 7 ع. 2: 85–86. 7 مارس 2023. DOI:10.1038/s41551-023-01012-6. PMID:36882584. S2CID:257403466. مؤرشف من الأصل في 2024-04-15. اطلع عليه بتاريخ 2024-10-07.
  132. ^ "Your job is (probably) safe from artificial intelligence". The Economist. 7 مايو 2023. مؤرشف من الأصل في 2023-06-17. اطلع عليه بتاريخ 2023-06-18.
  133. ^ "Generative AI Could Raise Global GDP by 7%". Goldman Sachs. مؤرشف من الأصل في 2023-06-18. اطلع عليه بتاريخ 2023-06-18.
  134. ^ Peng، Zhencan؛ Wang، Zhizhi؛ Deng، Dong (13 يونيو 2023). "Near-Duplicate Sequence Search at Scale for Large Language Model Memorization Evaluation" (pdf). Proceedings of the ACM on Management of Data. ج. 1 ع. 2: 1–18. DOI:10.1145/3589324. S2CID:259213212. مؤرشف (PDF) من الأصل في 2024-08-27. اطلع عليه بتاريخ 2024-01-20. Citing Lee et al 2022.
  135. ^ Peng، Zhencan؛ Wang، Zhizhi؛ Deng، Dong (13 يونيو 2023). "Near-Duplicate Sequence Search at Scale for Large Language Model Memorization Evaluation" (pdf). Proceedings of the ACM on Management of Data. ج. 1 ع. 2: 8. DOI:10.1145/3589324. S2CID:259213212. مؤرشف (PDF) من الأصل في 2024-08-27. اطلع عليه بتاريخ 2024-01-20..
  136. ^ Alba، Davey (1 مايو 2023). "AI chatbots have been used to create dozens of news content farms". The Japan Times. مؤرشف من الأصل في 2024-08-24. اطلع عليه بتاريخ 2023-06-18.
  137. ^ "Could chatbots help devise the next pandemic virus?". Science. 14 يونيو 2023. DOI:10.1126/science.adj2463. مؤرشف من الأصل في 2023-06-18. اطلع عليه بتاريخ 2023-06-18.
  138. ^ Stephen Council (1 ديسمبر 2023). "How Googlers cracked an SF rival's tech model with a single word". SFGATE. SFGATE. مؤرشف من الأصل في 2023-12-16. اطلع عليه بتاريخ 2024-10-07.
  139. ^ Hubinger، Evan (10 يناير 2024). "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training". arXiv:2401.05566 [cs.CR]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  140. ^ Kang، Daniel (2023). "Exploiting programmatic behavior of LLMs: Dual-use through standard security attacks". arXiv:2302.05733 [cs.CR]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  141. ^ Wang، Yongge (20 يونيو 2024). "Encryption Based Covert Channel for Large Language Models" (pdf). IACR ePrint 2024/586. مؤرشف (PDF) من الأصل في 2024-06-24. اطلع عليه بتاريخ 2024-06-24.
  142. ^ ا ب Stokel-Walker، Chris (22 نوفمبر 2023). "ChatGPT Replicates Gender Bias in Recommendation Letters". Scientific American. مؤرشف من الأصل في 2023-12-29. اطلع عليه بتاريخ 2023-12-29.
  143. ^ Luo، Queenie؛ Puett، Michael J.؛ Smith، Michael D. (28 مارس 2023). "A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube". arXiv:2303.16281v2 [cs.CY]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  144. ^ Cheng، Myra؛ Durmus، Esin؛ Jurafsky، Dan (29 مايو 2023)، Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models، arXiv:2305.18189
  145. ^ Kotek، Hadas؛ Dockum، Rikker؛ Sun، David (05 نوفمبر 2023). "Gender bias and stereotypes in Large Language Models". Proceedings of the ACM Collective Intelligence Conference. CI '23. New York, NY, USA: Association for Computing Machinery. ص. 12–24. DOI:10.1145/3582269.3615599. ISBN:979-8-4007-0113-9. مؤرشف من الأصل في 2024-09-20. اطلع عليه بتاريخ 2024-10-07.
  146. ^ Heikkilä، Melissa (7 أغسطس 2023). "AI language models are rife with different political biases". MIT Technology Review. مؤرشف من الأصل في 2024-09-15. اطلع عليه بتاريخ 2023-12-29.
  147. ^ "Improving language understanding with unsupervised learning". openai.com. 11 يونيو 2018. مؤرشف من الأصل في 2023-03-18. اطلع عليه بتاريخ 2023-03-18.
  148. ^ "finetune-transformer-lm". GitHub. مؤرشف من الأصل في 2023-05-19. اطلع عليه بتاريخ 2024-01-02.
  149. ^ ا ب Devlin، Jacob؛ Chang، Ming-Wei؛ Lee، Kenton؛ Toutanova، Kristina (11 أكتوبر 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  150. ^ Prickett، Nicole Hemsoth (24 أغسطس 2021). "Cerebras Shifts Architecture To Meet Massive AI/ML Models". The Next Platform. مؤرشف من الأصل في 2023-06-20. اطلع عليه بتاريخ 2023-06-20.
  151. ^ "BERT". غيت هاب. 13 مارس 2023. مؤرشف من الأصل في 2021-01-13. اطلع عليه بتاريخ 2023-03-13 – عبر GitHub.
  152. ^ Patel، Ajay؛ Li، Bryan؛ Rasooli، Mohammad Sadegh؛ Constant، Noah؛ Raffel، Colin؛ Callison-Burch، Chris (2022). "Bidirectional Language Models Are Also Few-shot Learners". arXiv:2209.14500 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  153. ^ Devlin، Jacob؛ Chang، Ming-Wei؛ Lee، Kenton؛ Toutanova، Kristina (11 أكتوبر 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  154. ^ ا ب Raffel، Colin؛ Shazeer، Noam؛ Roberts، Adam؛ Lee، Katherine؛ Narang، Sharan؛ Matena، Michael؛ Zhou، Yanqi؛ Li، Wei؛ Liu، Peter J. (2020). "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer". Journal of Machine Learning Research. ج. 21 ع. 140: 1–67. arXiv:1910.10683. ISSN:1533-7928. مؤرشف من الأصل في 2024-10-05. اطلع عليه بتاريخ 2024-10-07.
  155. ^ "google-research/text-to-text-transfer-transformer"، غيت هاب، Google Research، 02 أبريل 2024، مؤرشف من الأصل في 2024-03-29، اطلع عليه بتاريخ 2024-04-04
  156. ^ "Imagen: Text-to-Image Diffusion Models". imagen.research.google. مؤرشف من الأصل في 2024-03-27. اطلع عليه بتاريخ 2024-04-04.
  157. ^ "Pretrained models — transformers 2.0.0 documentation". huggingface.co. مؤرشف من الأصل في 2024-08-05. اطلع عليه بتاريخ 2024-08-05.
  158. ^ "xlnet". GitHub. مؤرشف من الأصل في 2024-01-02. اطلع عليه بتاريخ 2024-01-02.
  159. ^ Yang، Zhilin؛ Dai، Zihang؛ Yang، Yiming؛ Carbonell، Jaime؛ Salakhutdinov، Ruslan؛ Le، Quoc V. (2 يناير 2020). "XLNet: Generalized Autoregressive Pretraining for Language Understanding". arXiv:1906.08237 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  160. ^ "GPT-2: 1.5B Release". OpenAI (بالإنجليزية). 05 Nov 2019. Archived from the original on 2019-11-14. Retrieved 2019-11-14.
  161. ^ "Better language models and their implications". openai.com. مؤرشف من الأصل في 2023-03-16. اطلع عليه بتاريخ 2023-03-13.
  162. ^ ا ب "OpenAI's GPT-3 Language Model: A Technical Overview". lambdalabs.com. 3 يونيو 2020. مؤرشف من الأصل في 2023-03-27. اطلع عليه بتاريخ 2023-03-13.
  163. ^ ا ب "openai-community/gpt2-xl · Hugging Face". huggingface.co. مؤرشف من الأصل في 2024-07-24. اطلع عليه بتاريخ 2024-07-24.
  164. ^ "gpt-2". GitHub. مؤرشف من الأصل في 2023-03-11. اطلع عليه بتاريخ 2023-03-13.
  165. ^ Wiggers، Kyle (28 أبريل 2022). "The emerging types of language models and why they matter". TechCrunch. مؤرشف من الأصل في 2023-03-16. اطلع عليه بتاريخ 2023-03-09.
  166. ^ Table D.1 in Brown، Tom B.؛ Mann، Benjamin؛ Ryder، Nick؛ Subbiah، Melanie؛ Kaplan، Jared؛ Dhariwal، Prafulla؛ Neelakantan، Arvind؛ Shyam، Pranav؛ Sastry، Girish؛ Askell، Amanda؛ Agarwal، Sandhini؛ Herbert-Voss، Ariel؛ Krueger، Gretchen؛ Henighan، Tom؛ Child، Rewon؛ Ramesh، Aditya؛ Ziegler، Daniel M.؛ Wu، Jeffrey؛ Winter، Clemens؛ Hesse، Christopher؛ Chen، Mark؛ Sigler، Eric؛ Litwin، Mateusz؛ Gray، Scott؛ Chess، Benjamin؛ Clark، Jack؛ Berner، Christopher؛ McCandlish، Sam؛ Radford، Alec؛ Sutskever، Ilya؛ Amodei، Dario (28 مايو 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165v4 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  167. ^ "ChatGPT: Optimizing Language Models for Dialogue". OpenAI. 30 نوفمبر 2022. مؤرشف من الأصل في 2022-11-30. اطلع عليه بتاريخ 2023-01-13.
  168. ^ "GPT Neo". غيت هاب. 15 مارس 2023. مؤرشف من الأصل في 2023-03-12. اطلع عليه بتاريخ 2023-03-12 – عبر GitHub.
  169. ^ ا ب ج Gao، Leo؛ Biderman، Stella؛ Black، Sid؛ Golding، Laurence؛ Hoppe، Travis؛ Foster، Charles؛ Phang، Jason؛ He، Horace؛ Thite، Anish؛ Nabeshima، Noa؛ Presser، Shawn؛ Leahy، Connor (31 ديسمبر 2020). "The Pile: An 800GB Dataset of Diverse Text for Language Modeling". arXiv:2101.00027 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  170. ^ ا ب Iyer، Abhishek (15 مايو 2021). "GPT-3's free alternative GPT-Neo is something to be excited about". VentureBeat. مؤرشف من الأصل في 2023-03-09. اطلع عليه بتاريخ 2023-03-13.
  171. ^ "GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront". www.forefront.ai. مؤرشف من الأصل في 2023-03-09. اطلع عليه بتاريخ 2023-02-28.
  172. ^ ا ب ج د Dey، Nolan؛ Gosal، Gurpreet؛ Zhiming؛ Chen؛ Khachane، Hemant؛ Marshall، William؛ Pathria، Ribhu؛ Tom، Marvin؛ Hestness، Joel (01 أبريل 2023). "Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster". arXiv:2304.03208 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  173. ^ Alvi، Ali؛ Kharya، Paresh (11 أكتوبر 2021). "Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model". Microsoft Research. مؤرشف من الأصل في 2023-03-13. اطلع عليه بتاريخ 2023-03-13.
  174. ^ ا ب Smith، Shaden؛ Patwary، Mostofa؛ Norick، Brandon؛ LeGresley، Patrick؛ Rajbhandari، Samyam؛ Casper، Jared؛ Liu، Zhun؛ Prabhumoye، Shrimai؛ Zerveas، George؛ Korthikanti، Vijay؛ Zhang، Elton؛ Child، Rewon؛ Aminabadi، Reza Yazdani؛ Bernauer، Julie؛ Song، Xia (04 فبراير 2022). "Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model". arXiv:2201.11990 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  175. ^ Wang، Shuohuan؛ Sun، Yu؛ Xiang، Yang؛ Wu، Zhihua؛ Ding، Siyu؛ Gong، Weibao؛ Feng، Shikun؛ Shang، Junyuan؛ Zhao، Yanbin؛ Pang، Chao؛ Liu، Jiaxiang؛ Chen، Xuyi؛ Lu، Yuxiang؛ Liu، Weixin؛ Wang، Xi؛ Bai، Yangfan؛ Chen، Qiuliang؛ Zhao، Li؛ Li، Shiyong؛ Sun، Peng؛ Yu، Dianhai؛ Ma، Yanjun؛ Tian، Hao؛ Wu، Hua؛ Wu، Tian؛ Zeng، Wei؛ Li، Ge؛ Gao، Wen؛ Wang، Haifeng (23 ديسمبر 2021). "ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation". arXiv:2112.12731 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  176. ^ "Product". Anthropic. مؤرشف من الأصل في 2023-03-16. اطلع عليه بتاريخ 2023-03-14.
  177. ^ ا ب Askell، Amanda؛ Bai، Yuntao؛ Chen، Anna؛ وآخرون (9 ديسمبر 2021). "A General Language Assistant as a Laboratory for Alignment". arXiv:2112.00861 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  178. ^ Bai، Yuntao؛ Kadavath، Saurav؛ Kundu، Sandipan؛ وآخرون (15 ديسمبر 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  179. ^ ا ب ج Dai، Andrew M؛ Du، Nan (9 ديسمبر 2021). "More Efficient In-Context Learning with GLaM". ai.googleblog.com. مؤرشف من الأصل في 2023-03-12. اطلع عليه بتاريخ 2023-03-09.
  180. ^ "Language modelling at scale: Gopher, ethical considerations, and retrieval". www.deepmind.com. 8 ديسمبر 2021. مؤرشف من الأصل في 2023-03-20. اطلع عليه بتاريخ 2023-03-20.
  181. ^ ا ب ج Hoffmann، Jordan؛ Borgeaud، Sebastian؛ Mensch، Arthur؛ وآخرون (29 مارس 2022). "Training Compute-Optimal Large Language Models". arXiv:2203.15556 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  182. ^ ا ب ج د "PaLM: Scaling Language Modeling with Pathways" (PDF). مؤرشف من الأصل (pdf) في 2023-06-10. اطلع عليه بتاريخ 2024-10-07.
  183. ^ ا ب Cheng، Heng-Tze؛ Thoppilan، Romal (21 يناير 2022). "LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything". ai.googleblog.com. مؤرشف من الأصل في 2022-03-25. اطلع عليه بتاريخ 2023-03-09.
  184. ^ Thoppilan، Romal؛ De Freitas، Daniel؛ Hall، Jamie؛ Shazeer، Noam؛ Kulshreshtha، Apoorv؛ Cheng، Heng-Tze؛ Jin، Alicia؛ Bos، Taylor؛ Baker، Leslie؛ Du، Yu؛ Li، YaGuang؛ Lee، Hongrae؛ Zheng، Huaixiu Steven؛ Ghafouri، Amin؛ Menegali، Marcelo (01 يناير 2022). "LaMDA: Language Models for Dialog Applications". arXiv:2201.08239 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  185. ^ Black، Sidney؛ Biderman، Stella؛ Hallahan، Eric؛ وآخرون (01 مايو 2022). "GPT-NeoX-20B: An Open-Source Autoregressive Language Model". Proceedings of BigScience Episode #5 – Workshop on Challenges & Perspectives in Creating Large Language Models. Transactions of the Association for Computational Linguistics. ج. Proceedings of BigScience Episode #5 – Workshop on Challenges & Perspectives in Creating Large Language Models. ص. 95–136. مؤرشف من الأصل في 2022-12-10. اطلع عليه بتاريخ 2022-12-19.
  186. ^ ا ب ج Hoffmann، Jordan؛ Borgeaud، Sebastian؛ Mensch، Arthur؛ Sifre، Laurent (12 أبريل 2022). "An empirical analysis of compute-optimal large language model training". Deepmind Blog. مؤرشف من الأصل في 2022-04-13. اطلع عليه بتاريخ 2023-03-09.
  187. ^ Narang, Sharan; Chowdhery, Aakanksha (4 Apr 2022). "Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance". ai.googleblog.com (بالإنجليزية). Archived from the original on 2022-04-04. Retrieved 2023-03-09.
  188. ^ Susan Zhang؛ Mona Diab؛ Luke Zettlemoyer. "Democratizing access to large-scale language models with OPT-175B". ai.facebook.com. مؤرشف من الأصل في 2023-03-12. اطلع عليه بتاريخ 2023-03-12.
  189. ^ Zhang، Susan؛ Roller، Stephen؛ Goyal، Naman؛ Artetxe، Mikel؛ Chen، Moya؛ Chen، Shuohui؛ Dewan، Christopher؛ Diab، Mona؛ Li، Xian؛ Lin، Xi Victoria؛ Mihaylov، Todor؛ Ott، Myle؛ Shleifer، Sam؛ Shuster، Kurt؛ Simig، Daniel؛ Koura، Punit Singh؛ Sridhar، Anjali؛ Wang، Tianlu؛ Zettlemoyer، Luke (21 يونيو 2022). "OPT: Open Pre-trained Transformer Language Models". arXiv:2205.01068 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  190. ^ ا ب Khrushchev، Mikhail؛ Vasilev، Ruslan؛ Petrov، Alexey؛ Zinov، Nikolay (22 يونيو 2022)، "YaLM 100B"، غيت هاب، مؤرشف من الأصل في 2023-06-16، اطلع عليه بتاريخ 2023-03-18
  191. ^ ا ب Lewkowycz، Aitor؛ Andreassen، Anders؛ Dohan، David؛ Dyer، Ethan؛ Michalewski، Henryk؛ Ramasesh، Vinay؛ Slone، Ambrose؛ Anil، Cem؛ Schlag، Imanol؛ Gutman-Solo، Theo؛ Wu، Yuhuai؛ Neyshabur، Behnam؛ Gur-Ari، Guy؛ Misra، Vedant (30 يونيو 2022). "Solving Quantitative Reasoning Problems with Language Models". arXiv:2206.14858 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  192. ^ "Minerva: Solving Quantitative Reasoning Problems with Language Models". ai.googleblog.com. 30 يونيو 2022. مؤرشف من الأصل في 2022-06-30. اطلع عليه بتاريخ 2023-03-20.
  193. ^ Ananthaswamy، Anil (8 مارس 2023). "In AI, is bigger always better?". Nature. ج. 615 ع. 7951: 202–205. Bibcode:2023Natur.615..202A. DOI:10.1038/d41586-023-00641-w. PMID:36890378. S2CID:257380916. مؤرشف من الأصل في 2023-03-16. اطلع عليه بتاريخ 2023-03-09.
  194. ^ "bigscience/bloom · Hugging Face". huggingface.co. مؤرشف من الأصل في 2023-04-12. اطلع عليه بتاريخ 2023-03-13.
  195. ^ Taylor، Ross؛ Kardas، Marcin؛ Cucurull، Guillem؛ Scialom، Thomas؛ Hartshorn، Anthony؛ Saravia، Elvis؛ Poulton، Andrew؛ Kerkez، Viktor؛ Stojnic، Robert (16 نوفمبر 2022). "Galactica: A Large Language Model for Science". arXiv:2211.09085 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  196. ^ "20B-parameter Alexa model sets new marks in few-shot learning". Amazon Science. 2 أغسطس 2022. مؤرشف من الأصل في 2023-03-15. اطلع عليه بتاريخ 2023-03-12.
  197. ^ Soltan، Saleh؛ Ananthakrishnan، Shankar؛ FitzGerald، Jack؛ وآخرون (3 أغسطس 2022). "AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model". arXiv:2208.01448 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  198. ^ "AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog". aws.amazon.com. 17 نوفمبر 2022. مؤرشف من الأصل في 2023-03-13. اطلع عليه بتاريخ 2023-03-13.
  199. ^ ا ب ج "Introducing LLaMA: A foundational, 65-billion-parameter large language model". Meta AI. 24 فبراير 2023. مؤرشف من الأصل في 2023-03-03. اطلع عليه بتاريخ 2023-03-09.
  200. ^ ا ب ج "The Falcon has landed in the Hugging Face ecosystem". huggingface.co. مؤرشف من الأصل في 2023-06-20. اطلع عليه بتاريخ 2023-06-20.
  201. ^ "GPT-4 Technical Report" (pdf). أوبن أيه آي. 2023. مؤرشف (PDF) من الأصل في 2023-03-14. اطلع عليه بتاريخ 2023-03-14.
  202. ^ Schreiner, Maximilian (11 Jul 2023). "GPT-4 architecture, datasets, costs and more leaked". THE DECODER (بالإنجليزية). Archived from the original on 2023-07-12. Retrieved 2024-07-26.
  203. ^ Dey، Nolan (28 مارس 2023). "Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models". Cerebras. مؤرشف من الأصل في 2023-03-28. اطلع عليه بتاريخ 2023-03-28.
  204. ^ "Abu Dhabi-based TII launches its own version of ChatGPT". tii.ae. مؤرشف من الأصل في 2023-04-03. اطلع عليه بتاريخ 2023-04-03.
  205. ^ Penedo، Guilherme؛ Malartic، Quentin؛ Hesslow، Daniel؛ Cojocaru، Ruxandra؛ Cappelli، Alessandro؛ Alobeidli، Hamza؛ Pannier، Baptiste؛ Almazrouei، Ebtesam؛ Launay، Julien (01 يونيو 2023). "The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only". arXiv:2306.01116 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  206. ^ "tiiuae/falcon-40b · Hugging Face". huggingface.co. 09 يونيو 2023. مؤرشف من الأصل في 2023-06-02. اطلع عليه بتاريخ 2023-06-20.
  207. ^ "UAE's Falcon 40B, World's Top-Ranked AI Model from Technology Innovation Institute, is Now Royalty-Free". مؤرشف من الأصل في 2024-02-08. اطلع عليه بتاريخ 2024-10-07.
  208. ^ Wu، Shijie؛ Irsoy، Ozan؛ Lu، Steven؛ Dabravolski، Vadim؛ Dredze، Mark؛ Gehrmann، Sebastian؛ Kambadur، Prabhanjan؛ Rosenberg، David؛ Mann، Gideon (30 مارس 2023). "BloombergGPT: A Large Language Model for Finance". arXiv:2303.17564 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  209. ^ Ren، Xiaozhe؛ Zhou، Pingyi؛ Meng، Xinfan؛ Huang، Xinjing؛ Wang، Yadao؛ Wang، Weichao؛ Li، Pengfei؛ Zhang، Xiaoda؛ Podolskiy، Alexander؛ Arshinov، Grigory؛ Bout، Andrey؛ Piontkovskaya، Irina؛ Wei، Jiansheng؛ Jiang، Xin؛ Su، Teng؛ Liu، Qun؛ Yao، Jun (19 مارس 2023). "PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing". arXiv:2303.10845 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  210. ^ Köpf، Andreas؛ Kilcher، Yannic؛ von Rütte، Dimitri؛ Anagnostidis، Sotiris؛ Tam، Zhi-Rui؛ Stevens، Keith؛ Barhoum، Abdullah؛ Duc، Nguyen Minh؛ Stanley، Oliver؛ Nagyfi، Richárd؛ ES، Shahul؛ Suri، Sameer؛ Glushkov، David؛ Dantuluri، Arnav؛ Maguire، Andrew (14 أبريل 2023). "OpenAssistant Conversations – Democratizing Large Language Model Alignment". arXiv:2304.07327 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  211. ^ Wrobel، Sharon. "Tel Aviv startup rolls out new advanced AI language model to rival OpenAI". www.timesofisrael.com. مؤرشف من الأصل في 2023-07-24. اطلع عليه بتاريخ 2023-07-24.
  212. ^ Wiggers، Kyle (13 أبريل 2023). "With Bedrock, Amazon enters the generative AI race". TechCrunch. مؤرشف من الأصل في 2023-07-24. اطلع عليه بتاريخ 2023-07-24.
  213. ^ ا ب Elias، Jennifer (16 مايو 2023). "Google's newest A.I. model uses nearly five times more text data for training than its predecessor". سي إن بي سي. مؤرشف من الأصل في 2023-05-16. اطلع عليه بتاريخ 2023-05-18.
  214. ^ "Introducing PaLM 2". Google. 10 مايو 2023. مؤرشف من الأصل في 2023-05-18. اطلع عليه بتاريخ 2023-05-18.
  215. ^ ا ب "Introducing Llama 2: The Next Generation of Our Open Source Large Language Model". Meta AI. 2023. مؤرشف من الأصل في 2024-01-05. اطلع عليه بتاريخ 2023-07-19.
  216. ^ "llama/MODEL_CARD.md at main · meta-llama/llama". GitHub. مؤرشف من الأصل في 2024-05-28. اطلع عليه بتاريخ 2024-05-28.
  217. ^ "Claude 2". anthropic.com. مؤرشف من الأصل في 2023-12-15. اطلع عليه بتاريخ 2023-12-12.
  218. ^ Nirmal, Dinesh (07 Sep 2023). "Building AI for business: IBM's Granite foundation models". IBM Blog (بالإنجليزية). Archived from the original on 2024-07-22. Retrieved 2024-08-11.
  219. ^ "Announcing Mistral 7B". Mistral. 2023. مؤرشف من الأصل في 2024-01-06. اطلع عليه بتاريخ 2023-10-06.
  220. ^ "Introducing Claude 2.1". anthropic.com. مؤرشف من الأصل في 2023-12-15. اطلع عليه بتاريخ 2023-12-12.
  221. ^ "xai-org/grok-1"، غيت هاب، xai-org، 19 مارس 2024، مؤرشف من الأصل في 2024-05-28، اطلع عليه بتاريخ 2024-03-19
  222. ^ "Grok-1 model card". x.ai. مؤرشف من الأصل في 2023-11-05. اطلع عليه بتاريخ 2023-12-12.
  223. ^ "Gemini – Google DeepMind". deepmind.google. مؤرشف من الأصل في 2023-12-08. اطلع عليه بتاريخ 2023-12-12.
  224. ^ Franzen، Carl (11 ديسمبر 2023). "Mistral shocks AI community as latest open source model eclipses GPT-3.5 performance". VentureBeat. مؤرشف من الأصل في 2023-12-11. اطلع عليه بتاريخ 2023-12-12.
  225. ^ "Mixtral of experts". mistral.ai. 11 ديسمبر 2023. مؤرشف من الأصل في 2024-02-13. اطلع عليه بتاريخ 2023-12-12.
  226. ^ AI، Mistral (17 أبريل 2024). "Cheaper, Better, Faster, Stronger". mistral.ai. مؤرشف من الأصل في 2024-05-05. اطلع عليه بتاريخ 2024-05-05.
  227. ^ ا ب Hughes، Alyssa (12 ديسمبر 2023). "Phi-2: The surprising power of small language models". Microsoft Research. مؤرشف من الأصل في 2023-12-12. اطلع عليه بتاريخ 2023-12-13.
  228. ^ "Our next-generation model: Gemini 1.5". Google. 15 فبراير 2024. مؤرشف من الأصل في 2024-02-16. اطلع عليه بتاريخ 2024-02-16. This means 1.5 Pro can process vast amounts of information in one go — including 1 hour of video, 11 hours of audio, codebases with over 30,000 lines of code or over 700,000 words. In our research, we've also successfully tested up to 10 million tokens.
  229. ^ "Gemma". مؤرشف من الأصل في 2024-02-21. اطلع عليه بتاريخ 2024-10-07 – عبر GitHub.
  230. ^ "Introducing the next generation of Claude". www.anthropic.com. مؤرشف من الأصل في 2024-03-04. اطلع عليه بتاريخ 2024-03-04.
  231. ^ "Fugaku-LLM/Fugaku-LLM-13B · Hugging Face". huggingface.co. مؤرشف من الأصل في 2024-05-17. اطلع عليه بتاريخ 2024-05-17.
  232. ^ "Phi-3". azure.microsoft.com. 23 أبريل 2024. مؤرشف من الأصل في 2024-04-27. اطلع عليه بتاريخ 2024-04-28.
  233. ^ "Phi-3 Model Documentation". huggingface.co. مؤرشف من الأصل في 2024-05-13. اطلع عليه بتاريخ 2024-04-28.
  234. ^ "Qwen2". غيت هاب. مؤرشف من الأصل في 2024-06-17. اطلع عليه بتاريخ 2024-06-17.
  235. ^ "nvidia/Nemotron-4-340B-Base · Hugging Face". huggingface.co. 14 يونيو 2024. مؤرشف من الأصل في 2024-06-15. اطلع عليه بتاريخ 2024-06-15.
  236. ^ "Nemotron-4 340B | Research". research.nvidia.com. مؤرشف من الأصل في 2024-06-15. اطلع عليه بتاريخ 2024-06-15.
  237. ^ ""The Llama 3 Herd of Models" (July 23, 2024) Llama Team, AI @ Meta". Meta AI. مؤرشف من الأصل في 2024-07-24. اطلع عليه بتاريخ 2024-10-07.
  238. ^ "llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models". GitHub (بالإنجليزية). Archived from the original on 2024-07-23. Retrieved 2024-07-23.
Kembali kehalaman sebelumnya