حتى عام 2020 كان الضبط الدقيق أو الصقل هو الطريقة الوحيدة التي يمكن من خلالها تكييف النموذج ليكون قادرًا على إنجاز مهام محددة. ومع ذلك يمكن تصميم النماذج الأكبر حجمًا، مثل جي بي تي-3، لتحقيق نتائج مماثلة.[3] يُعتقد أنهم يكتسبون معرفة مضمنة حول بناء الجملة وعلم الدلالات و«علم الوجود» المتأصل في مجاميع اللغة البشرية، ولكن عدم الدقة والتحيزات الموجودة في مجاميع اللغة البشرية أيضًا.[4][5]
أكبرُ نماذجِ اللّغةِ الكبيرةِ وأكثرُها قدرةً، اعتبارًا من أغسطس 2024، هي شبكاتٌ عصبيةٌ اصطناعيةٌ مبنيةٌ بِبنيةٍ قائمةٍ على المُحوّلِ الخاصّ بِفكّ التشفيرِ فقط،[6] ممّا يُتيحُ مُعالجةً فعّالةً وتوليدَ بياناتِ نصيةٍ واسعةَ النّطاق. يُمكنُ ضبط أو صقل النماذجِ الحديثةِ لِمهامّ مُحدّدةٍ أو يُمكنُ توجيهُها بواسطةِ هندسةِ المُطالبات.[7] تكتسبُ هذهِ النماذجُ قوّةً تنبّؤيةً فيما يتعلّقُ بِالنّحوِ والدّلالاتِ وعلمِ الوجود[8] المُتأصّلِ في مجموعاتِ اللّغةِ البشرية، لكنّها ترثُ أيضًا عدمَ الدّقةِ والانحيازاتِ الموجودةِ في البياناتِ التي تمّ تدريبُها عليها.[9]
تاريخ
قبل عام 2017، كان هناك عدد قليل من نماذج اللغة التي كانت كبيرةً مقارنةً بالقدرات المتاحة حينها. في التسعينيات، كانت نماذج محاذاة IBM رائدةً في النمذجة الإحصائية للغة. حقق نموذج n-gram المحسن في عام 2001، والذي تم تدريبه على 0.3 مليار كلمة، حيرةً متطورةً حينها.[10] في العقد الأول من القرن الحادي والعشرين، مع انتشار استخدام الإنترنت، أنشأ بعض الباحثين مجموعات بيانات لغة على نطاق الإنترنت ("الويب كجسم نصي" [11])، قاموا بتدريب نماذج اللغة الإحصائية عليها.[12][13] في عام 2009، في معظم مهام معالجة اللغة، سيطرت نماذج اللغة الإحصائية على نماذج اللغة الرمزية، حيث يمكنها استيعاب مجموعات بيانات كبيرة بشكل مفيد.[14]
بعد أن أصبحت الشبكات العصبية مهيمنةً في معالجة الصور حوالي عام 2012 [بحاجة لمصدر]، تم تطبيقها على نمذجة اللغة أيضًا. حولت جوجل خدمة الترجمة الخاصة بها إلى الترجمة الآلية العصبية في عام 2016. كما كان الحال قبل المحولات، تم ذلك بواسطة شبكات LSTM العميقة سيك تو سيك.
في مؤتمر مؤتمر نظم معالجة المعلومات العصبية عام 2017، قدم باحثو جوجل بنية المحولات في ورقتهم البحثية البارزة "الاهتمام هو كل ما تحتاجه". كان هدف هذه الورقة هو تحسين تقنية سيك تو سيك لعام 2014، [15] واستندت بشكل أساسي إلى آلية الاهتمام التي طورها باهدانو وآخرون في عام 2014.[16] في العام التالي في عام 2018، تم تقديم BERT.[17] على الرغم من أن المحول الأصلي يحتوي على كتل التشفير وفك التشفير، إلا أن BERT هو نموذج تشفير فقط.
على الرغم من أن جي بي تي-1 لفك التشفير فقط تم تقديمه في عام 2018، إلا أن جي بي تي-2 في عام 2019 هو الذي لفت الانتباه على نطاق واسع لأن أوبن أيه آي اعتبرته في البداية قويًا جدًا بحيث لا يمكن إصداره للجمهور، خوفًا من الاستخدام الضار.[18] ذهب جي بي تي-3 في عام 2020 إلى أبعد من ذلك، واعتبارًا من عام 2024، أصبح متاحًا فقط عبر واجهة برمجة التطبيقات دون عرض تنزيل النموذج لتنفيذه محليًا. لكن شات جي بي تي القائم على المتصفح والموجه للمستهلك في عام 2022 أثار خيال عامة الناس وتسبب في بعض الضجيج الإعلامي والضجيج عبر الإنترنت. تم الثناء على جي بي تي-4 لعام 2023 لدقته المتزايدة وقدراته متعددة الوسائط.[19] لم تكشف أوبن أيه آي عن البنية عالية المستوى وعدد معلمات جي بي تي-4.
كانت نماذج اللغة المتنافسة تحاول في معظمها مساواة سلسلة GPT، على الأقل من حيث عدد المعلمات.[20]
منذ عام 2022، اكتسبت النماذج المتاحة المصدر شعبيةً، وخاصةً في البداية نموذجي BLOOM ولاما، على الرغم من أن كلاهما لديه قيود على مجال الاستخدام. تتمتع نماذج Mistral 7B وميسترال وMixtral 8x7b، برخصة أباتشي أكثر تساهلًا. اعتبارًا من يونيو 2024، يعد النوع المحسن للتعليمات من نموذج "لاما 3" ذي 70 مليار معلمة هو أقوى نموذج لغو كبير مفتوح وفقًا لقائمة المتصدرين في LMSYS Chatbot Arena، حيث أنهأقوى من جي بي تي-3.5 ولكنه ليس بنفس قوة جي بي تي-4.[21]
تعتمد النماذج الأكبر حجمًا والأكثر كفاءة على بنية Transformer في 2024، بينما تعتمد بعض التطبيقات الحديثة على هياكل معمارية أخرى، مثل متغيرات الشبكة العصبية المتكررة ومامبا (نموذج مساحة الحالة).[22][23][24]
معالجة البيانات المُسبقة
التجزئة
بما أن خوارزميات التعلم الآلي تعتمد على المعالجة الرقمية للمعلومات، فإنه من الضروري تحويل النصوص إلى تمثيل رقمي. تتم هذه العملية من خلال عدة خطوات: أولًا، تُحدد مجموعة من المفردات اللغوية، ثم يُعيّن لكل مفردة رمز رقمي فريد، وفي النهاية يرتبط هذا الرمز بتضمين رقمي يحمل معنى دلالي للمفردة. من أشهر الخوارزميات المستخدمة في هذه العملية ترميز زوج البايتات (BPE) وخوارزمية WordPiece. بالإضافة إلى ذلك، تُستخدم نماذج اللغة رموزًا خاصة لأغراض التحكم، مثل رمز [MASK] الذي يستخدم في نماذج مثل تمثيلات التشفير الثنائي الاتجاه من المحولات (BERT) لتمثيل الكلمات المحذوفة، ورمز [UNK] لتمثيل الكلمات غير المعروفة. كما تستخدم بعض النماذج رموزًا خاصة لتمثيل جوانب شكلية للنص، مثل الرمز "Ġ" الذي يشير إلى مسافة بيضاء سابقة في نموذج جي بي تي، والرمز "##" الذي يشير إلى استمرار جزء من كلمة في نموذج "بيرت".[25]
تساهم عملية التجزئة أيضًا في ضغط البيانات. نظرًا لضرورة أن تكون مدخلات نماذج اللغة الكبيرة مصفوفات ذات أبعاد متساوية، فإن النصوص الأقصر يتم "تعبئتها" بحيث تتطابق أطوالها مع أطول نص في المجموعة. يعتمد متوسط عدد الرموز الرقمية اللازمة لتمثيل كل كلمة على طبيعة اللغة المستخدمة في مجموعة البيانات.[26][27]
لنفترض أن لدينا مجزئًا للكلمات مبنيًا على ترميز أزواج البايتات. في الخطوة الأولى، نعامل كل حرف مستقل (بما في ذلك الفراغات وعلامات الترقيم) كوحدة لغوية أساسية (أي أحاديات). ثم نقوم بدمج زوجي الحروف الأكثر تكرارًا المتجاورين لتكوين وحدات لغوية مكونة من حرفين (ثنائيات)، ونستبدل كل زوج بمثيله من الثنائيات. بعد ذلك، نكرر هذه العملية لدمج الثنائيات المتكررة المتجاورة لتكوين وحدات لغوية أطول، وهكذا حتى نحصل على مجموعة محددة من الوحدات اللغوية (في حالة نموذج جي بي تي-3، يبلغ عددها 50257).[28] بعد تدريب هذا المجزئ، يمكننا تجزئة أي نص، بشرط ألا يحتوي على أحرف غير موجودة في المجموعة الأساسية للأحرف المفردة.[29]
المشاكل
تعتمد المفردات من الرموز المميزة القائمة على التكرارات المستخرجة بشكل أساسي من مجموعات اللغة الإنجليزية على أقل عدد ممكن من الرموز المميزة لكلمة إنجليزية متوسطة. ومع ذلك، عند تشفير كلمة متوسطة بلغة أخرى، فإن مجزئ اللغة الإنجليزية المحسن يقسمها إلى عدد غير مثالي من الرموز المميزة. وقد يصل عدد الرموز المميزة التي يستخدمها مجزئ جي بي تي-2 لكلمة واحدة في بعض اللغات، كالشأنية، إلى خمسة عشر ضعفًا. وحتى اللغات الأكثر انتشارًا كالبرتغالية والألمانية تتطلب زيادة بنسبة خمسين بالمئة في عدد الرموز المميزة مقارنة باللغة الإنجليزية.[30]
وتتسبب هذه التجزئة المفرطة في مشكلات طفيفة عند إكمال النص.[31]
في سياق تدريب نماذج اللغات الكبيرة، يُعتاد تنقية مجموعات البيانات بإزالة المقاطع الضارة منها، والتخلص من البيانات ذات الجودة المتدنية، وإزالة التكرارات.[32] إن مجموعات البيانات المنقاة هذه تزيد من كفاءة التدريب وتؤدي إلى تحسين الأداء في المراحل اللاحقة.[33][34] ويمكن الاستعانة بنموذج لغة كبيرة مدرب لتنقية مجموعات البيانات المستخدمة في تدريب نموذج لغة كبير آخر.[35]
مع تزايد المحتوى الذي تولده نماذج اللغات الكبيرة على الشبكة العنكبوتية، قد يشمل تنقية البيانات مستقبلًا تصفية هذا المحتوى. ويشكل المحتوى المولَّد آليًا تحديًا خاصًا، إذ يصعب تمييزه عن النصوص البشرية، ولكنه يقلل من جودة النماذج المدربة عليه.[36]
البيانات الاصطناعية
قد يتطلب تدريب نماذج اللغة الكبيرة كميات هائلة من البيانات اللغوية تتجاوز ما هو متوفر بشكل طبيعي. أو قد تكون البيانات الطبيعية غير كافية من حيث الجودة للمهمة المطلوبة. في مثل هذه الحالات، يمكن اللجوء إلى البيانات المولدة. فعلى سبيل المثال، تم تدريب سلسلة نماذج اللغة الكبيرة (Phi) من مايكروسوفت على بيانات شبيهة بكتب المدرسة تم توليدها بواسطة نموذج لغوي كبير آخر.[37]
تعتمد تقنية التعلم المعزز من ردود الفعل البشرية (RLHF) على تعزيز تعلم النموذج من خلال ملاحظات بشرية مباشرة، حيث يتم استخدام خوارزميات متقدمة كتقريب تحسين السياسة لتحسين أداء النموذج بشكل تدريجي. يتم ذلك من خلال تدريب النموذج على مجموعة بيانات واسعة من التفضيلات البشرية، مما يساهم في تطوير نموذج أكثر توائمًا مع احتياجات المستخدمين.[38][39]
ضبط التعليمات
بفضل أساليب "التعلّم الذاتي"، استطاعت النماذج اللغوية الضخمة أن تستنبط ردودًا صحيحة، مستبدلةً أي ردود سطحية، انطلاقًا من تصحيحات بشرية محدودة. فعلى سبيل المثال، إذا كانت التعليمات "اكتب مقالًا عن القضايا المحورية في مسرحية هاملت"، فإن الإكمال السطحي الأولي قد يكون "إذا قدمت المقال بعد السابع عشر من مارس، فستُخصم من درجاتك عشرة بالمائة عن كل يوم تأخير"، وذلك استنادًا إلى تكرار هذا النمط اللغوي في البيانات التدريبية.[40]
إن تدريب واستخدام النماذج اللغوية الكبيرة التي تضم مليارات المعامل قد يكون مكلفًا للغاية. وللتغلب على هذه التحدي، استخدم الباحثون في غوغل تقنية مزيج الخبراء (MoE) التي تسمح بتدريب نماذج أكبر بكثير، تصل إلى تريليون معامل، وذلك من خلال توزيع الحسابات على عدة نماذج أصغر تعمل معًا.[41][42][43]
يمكن تحقيق غالبية النتائج التي كانت تُتحقَّق سابقًا، والتي كانت تتطلب ضبطًا دقيقًا ومكلفًا، عن طريق هندسة المطالبات أو التلقين، إلا أن هذه الطريقة تقتصر على نطاق محادثة محدد (أو بشكل أدق، على نطاق نافذة السياق).[44]
لتحديد الرموز المترابطة ضمن نافذة السياق، تقوم آلية الانتباه بحساب أوزان "ناعمة" لكل رمز، وذلك لتحديد أهميته. تستخدم هذه الآلية رؤوس انتباه متعددة، ولكل منها "صلة" خاصة بها لحساب هذه الأوزان. على سبيل المثال، يحتوي النموذج الصغير من جي بي تي-2 (117 مليون معامل) على 12 رأس انتباه ونافذة سياق تتسع لـ 1000 رمز.[45] أما النموذج المتوسط فيحتوي على 345 مليون معامل و24 طبقة، ولكل طبقة 12 رأس انتباه. وقد استُخدمت دفعات تدريبية حجمها 512 مع خوارزمية الانحدار التدريجي.[29]
يمكن لأضخم النماذج اللغوية، ومنها نموذج جيميناي 1.5 الذي أطلقته شركة غوغل في فبراير عام 2024، أن تتسع لنافذة سياقية تصل إلى مليون رمز (وقد جُربت نافذة سياقية تتسع لعشرة ملايين رمز بنجاح).[46] ومن الأمثلة الأخرى على النماذج ذات النوافذ السياقية الواسعة نموذج كلود 2.1 من شركة أنثروبيك، الذي يتسع لـ200 ألف رمز مميز.[47] ومن الجدير بالذكر أن هذا الحد الأقصى يشير إلى عدد الرموز المدخلة، بينما يختلف الحد الأقصى لعدد الرموز المخرجة وغالبًا ما يكون أقل. فعلى سبيل المثال يقتصر الحد الأقصى لعدد الرموز المخرجة في نموذج جي بي تي-4 تربو على 4096 رمزًا مميزًا.[48]
إن قدرة النموذج اللغوي على استيعاب سياق المحادثة وتذكره محدودة بطول نافذة السياق. فإذا تجاوز طول الحوار هذه النافذة، كما هو الحال في محادثات طويلة مع نماذج مثل شات جي بي تي، فإن النموذج إما سيقتصر على الجزء الأخير من الحوار الموجود داخل النافذة عند توليد الرد، أو سيضطر إلى اللجوء إلى خوارزميات تلخيص لتلخيص الأجزاء البعيدة من الحوار. ومن الجدير بالذكر أن توسيع نافذة السياق ينطوي على تكاليف حسابية أكبر، وقد يؤدي إلى تشتيت انتباه النموذج عن السياق المباشر. من ناحية أخرى، فإن تضييق هذه النافذة قد يجعل النموذج عاجزًا عن فهم العلاقات المعقدة التي تمتد على مسافات طويلة داخل الحوار. لذا، فإن تحديد الحجم الأمثل لنافذة السياق يتطلب توازنًا دقيقًا، ويعتمد على عوامل عدة تتعلق بالمجال التطبيقي والخصائص التقنية للنموذج.
يمكن تدريب نموذج لغوي مسبقًا على استشراف الكلمات اللاحقة لتسلسل كلمات معين، أو على استكمال الفراغات الناقصة في نص مُعطى، وذلك بالاعتماد على بيانات تدريبية واسعة.[49] ويمكن تصنيف هذه النماذج إلى نوعين رئيسيين:
نماذج توليدية: حيث تولد هذه النماذج تسلسلات لغوية جديدة بناءً على المدخلات المقدمة إليها، شبيهة بعمل المحولات المولدة مسبقة التدريب. فعلى سبيل المثال، إذا قدمنا للنموذج الجملة "أحب أن آكل"، فإنه قد يكملها بقوله "تفاحة" أو "برتقالة".
نماذج ملء الفراغات: حيث تقوم هذه النماذج بتحديد الكلمات المفقودة في نص غير كامل، كما يعمل نموذج "بيرت". فعلى سبيل المثال، إذا قدمنا الجملة "أحب أن [][] كريم"، فإنه قد يستكملها بقوله "آكل" و"تفاحة".
يمكن تدريب النماذج اللغوية على مهام مساعدة تقيّم مدى فهمها لتوزيع البيانات، مثل مهمة التنبؤ بالجملة التالية (NSP). وفي هذه المهمة يُعرض على النموذج أزواج من الجمل، ويتعين عليه التنبؤ بمدى توالي هاتين الجملتين في مجموعة البيانات التدريبية.[50] أثناء عملية التدريب، يُستخدم كذلك مفهوم "خسارة التنظيم" لتعزيز استقرار عملية التعلم. بيد أن هذا المفهوم لا يُستخدم عادةً خلال مراحل الاختبار والتقييم.
البنية التحتية
يتطلب تدريب النماذج الأكبر حجماً بنية تحتية ضخمة.[51][52][53]
تكلفة التدريب
أسهمت التطورات المتسارعة في البرامج والأجهزة الرقمية في خفض تكاليف تدريب نماذج اللغات الكبيرة بشكل ملحوظ منذ عام 2020. ففي حين أن تدريب نموذج لغوي ضخم يحتوي على 12 مليار معامل يتطلب حاليًا حوالي 72 ألف ساعة عمل لوحدة معالجة الرسومات من طراز A100، إلا أن تكلفة تدريب نموذج مماثل بحجم 1.5 مليار معامل في عام 2020 كانت تتراوح بين 80 ألف دولار و1.6 مليون دولار، وهو ما يعكس تطورًا هائلًا في كفاءة العمليات الحسابية.[54][55][56] ومنذ ذلك الحين، شهدنا استثمارات ضخمة في تطوير نماذج لغوية أكبر وأكثر تعقيدًا. فعلى سبيل المثال، بلغت تكلفة تدريب نموذج جي بي تي-2 الذي يحتوي على 1.5 مليار معامل حوالي 50 ألف دولار في عام 2019، بينما بلغت تكلفة تدريب نموذج بالم الأكبر بكثير والذي يحتوي على 540 مليار معامل حوالي 8 مليون دولار في عام 2022. كما بلغت تكلفة تدريب نموذج Megatron-Turing NLG الذي يحتوي على 530 مليار معامل حوالي 11 مليون دولار في عام 2021.[57]
ومن الجدير بالذكر أن تكلفة تدريب نماذج اللغات الكبيرة القائمة على آلية الانتباه الذاتي تكون أعلى بكثير من تكلفة استخدامها للاستدلال على نتائج جديدة. ففي المتوسط، يتطلب تدريب رمز مميز واحد حوالي 6 عمليات حسابية عائمة لكل معامل، بينما يتطلب استنتاج رمز مميز واحد من 1 إلى 2 عملية حسابية عائمة لكل معامل فقط.[58]
استخدام الأدوات
ثمة مهامّ محددة لا يُمكن لأي نموذج لغة كبير حلها مبدئيًا، على الأقل ليس دون الاستعانة بأدوات خارجية أو برامج إضافية. ومن الأمثلة على ذلك الاستجابة إلى مدخل المستخدم "354 * 139 ="، شريطة ألا يكون النموذج قد واجه هذا الحساب سابقًا في مجموعة تدريبه.[محل شك] في مثل هذه الحالات، يتعين على النموذج اللجوء إلى تشغيل رمز برمجي يحسب النتيجة، ثم إدماجها في استجابته.[محل شك] مثال آخر هو "ما الوقت الآن؟"، حيث يحتاج مفسر برمجي منفصل إلى تنفيذ رمز للحصول على وقت النظام على الحاسوب، كي يتمكن النموذج من تضمينه في رده.[59][60] يمكن تطوير هذه الإستراتيجية الأساسية بتجريب برامج مولدة متعددة واستراتيجيات تعيين أخرى.[61]
بشكل عام، لتمكين النموذج من استخدام الأدوات، يجب ضبطه على ذلك. فإذا كان عدد الأدوات محدودًا، يكفي ضبطه مرة واحدة. أما إذا كان عددها متزايدًا بشكل تعسفي، كما هو الحال مع خدمات واجهات برمجة التطبيقات عبر الإنترنت، فيجب تجهيز النموذج بقراءة وثائق هذه الواجهات واستدعائها بصورة صحيحة.[62][63]
أبسط شكل لاستخدام الأدوات هو التوليد المعزز بالاسترجاع: أي تعزيز النموذج باسترجاع المستندات. فبناءً على استعلام معين، يتم استدعاء مسترجع مستندات للحصول على المستندات الأكثر صلة. يتم ذلك عادة بتشفير الاستعلام والمستندات إلى متجهات، ثم البحث عن المستندات التي تتشابه متجهاتها (المخزنة عادةً في قاعدة بيانات متجهات) مع متجه الاستعلام. ثم يولد النموذج الناتج استنادًا إلى الاستعلام والسياق المستمد من المستندات المسترجعة.[64]
الوكلاء
النموذج اللغوي الكبير هو نموذج لغوي محض، لا يعد وكيلًا ذكيًا بذاته لافتقاره إلى هدف محدد، إلا أنه يمكن توظيفه كعنصر أساسي في بناء وكيل ذكي.[65]
ينشئ نمط "ريآكت" (المركب من "التفكير" و"الفعَل") وكيلًا ذكيًا من خلال الاعتماد على نموذج لغوي كبير كمحرك رئيسي للتفكير والتخطيط. إذ يُطلب من النموذج اللغوي أن "يفكر بصوت عالٍ"، أي أن يقدم وصفًا نصيًا مفصلًا للبيئة التي يعمل فيها، والهدف المطلوب تحقيقه، وقائمة بالإجراءات المتاحة، وسجلًا بالإجراءات التي تم تنفيذها والنتائج التي أسفرت عنها. وعليه، يقوم النموذج بتوليد فكرة أو أكثر قبل اختيار الإجراء الأنسب وتنفيذه في البيئة المحددة.[66] ويمكن أن يكون الوصف اللغوي للبيئة المقدم للنموذج على شكل رمز لاتكس لورقة تصف البيئة بدقة.[67]
في أسلوب "وصف، شرح، تخطيط واختيار" (DEPS)، يُربط أولًا نموذج لغوي واسع بالواقع المرئي عبر أوصاف الصور، ثم يُطلب منه وضع خطط لأعمال وأفعال معقدة استنادًا إلى معلوماته المتراكمة مسبقًا والآراء البيئية التي يتلقاها.[68]
يُنشئ أسلوب الانعكاس وكيلًا يتعلم عبر دورات متتالية. في نهاية كل دورة، [69] يُعطى النموذج اللغوي الكبير سجلًا بالدورة، ويُطلب منه التفكير في "الدروس المُستفادة"، مما يساعده على الأداء بشكل أفضل في الدورة التالية.
يمكن لـ بحث شجرة مونت كارلو[الإنجليزية] أن يستخدم نموذجًا لغويًا واسعًا كتجربة للاستدلال. وعندما لا يتوفّر نموذج عالمي برمجي، يمكن كذلك طلب نموذج لغوي واسع بوصف للبيئة ليعمل كنموذج عالمي.[70]
في سياق الاستكشاف المفتوح، يمكن توظيف نموذج لغوي واسع لتدوين ملاحظات "مثيرة للاهتمام"، تُستخدم بدورها كإشارات مكافأة لتوجيه وكيل التعلم التعزيزي البسيط (غير اللغوي).[71] وعوضًا عن ذلك يمكن للنموذج اقتراح مهامّ متزايدة الصّعوبة لتمكين التعلم التدريجي.[72] وبدلًا من إخراج أفعال فردية، يمكن لنموذج التخطيط اللغوي الكبير بناء "مهارات"، أي دوال تمثل تسلسلات من الأفعال المعقدة. ويمكن تخزين هذه المهارات واسترجاعها لاحقًا، مما يتيح مستويات أعلى من التجريد في التخطيط.[72]
يمكن للوكلاء المدعومين بنماذج لغوية واسعة الاحتفاظ بذاكرة طويلة الأمد للسياقات السابقة، ويمكن استرجاع هذه الذاكرة بنفس طريقة التوليد المعزز بالاسترجاع. ويمكن لمجموعة من هذه الوكلاء التفاعل اجتماعيًا.[73]
الضغط
عادةً، يتم تدريب نماذج اللّغة الكبيرة (LLMs) باستخدام أعداد عشرية ذات دقة مفردة أو نصف دقة (float32 وfloat16). يحتوي رقم float16 على 16 بت، أو 2 بايت، وبالتالي فإن مليار معامل يتطلبان 2 جيجا بايت. وتحتاج النماذج الأكبر حجمًا، والتي تحتوي عادةً على 100 مليار معامل، إلى 200 جيجا بايت لتحميلها، مما يجعلها خارج نطاق معظم الأجهزة الإلكترونية الاستهلاكية.[74]
يهدف "التكميم بعد التدريب" [75] إلى تقليل مساحة التخزين عن طريق خفض دقة معاملات النموذج المدرب، مع الحفاظ على معظم أدائه.[76][77] أبسط أشكال التكميم هو ببساطة تقريب جميع الأعداد إلى عدد معين من البتات. ويمكن تحسينه باستخدام مجموعة ترميز تكميم مختلفة لكل طبقة. ويمكن إجراء تحسين إضافي من خلال تطبيق دقّات مختلفة لمعاملات مختلفة، مع دقة أعلى للمعاملات المهمة بشكل خاص ("أوزان شاذة").[78][79]
في حين أنّ النماذج المكمّمة عادةً ما تكون مجمّدة، ويتمّ ضبط النماذج المكمّمة مسبقًا فقط، لا يزال من الممكن ضبط النماذج المكمّمة.[80]
الوسائط المتعددة
تعني الوسائط المتعددة "امتلاك عدة وسائط"، ويشير "الوسيط" إلى نوع من المدخلات أو المخرجات، مثل الفيديو، والصورة، والصوت، والنص، والإحساس الحركي، وما إلى ذلك.[81] وقد دُربت العديد من نماذج الذكاء الاصطناعي خصيصًا لاستيعاب نمط واحد وإخراج نمط آخر، مثل ألكسنت"الصّورة إلى التّسمية"، [82] والإجابة على الأسئلة المرئية "صورة-نص إلى نص"، [83] والتعرف على الكلام "كلام إلى نص".[84]
أظهر فلامينجو فعالية أسلوب التجزئة، حيث ضُبط زوج من نموذجي اللغة والمشفر المرئي المدربين مسبقًا لتحسين أدائهما في مجال الإجابة على الأسئلة المرئية مقارنة بالنماذج المدربة من الصفر.[85] ضُبط نموذج جوجل بالم إلى نموذج متعدد الوسائط بالم-إي باستخدام أسلوب التجزئة، وطُبق على التحكم الآلي.[86] كما تم تحويل نماذج لاما إلى نماذج متعددة الوسائط باستخدام أسلوب التجزئة، للسماح بإدخال الصور، [87] ومقاطع الفيديو.[88]
يمكن لنموذج جي بي تي-4 استخدام كل من النص والصورة كمدخلات، [89][90] كما أن جيميناي من جوجل ديب مايند يُعد نموذجًا متعدد الوسائط.[91] قدمت شركة ميسترال نموذجها متعدد الوسائط الخاص "بيكسترال 12 بي" (Pixtral 12B) في سبتمبر 2024.[92]
الخصائص
يبدو أداء النماذج الحاسوبية الضخمة في تنفيذ مختلف المهام، عند تمثيله بيانيًا على مقياس لوغاريتمي مزدوج، وكأنه استقراء خطي لأداء النماذج الأصغر حجماً. ومع ذلك، قد تشهد هذه العلاقة الخطية "انكسارات" في قانون التوسع، [93] حيث يتغير ميل الخط بشكل مفاجئ، وتكتسب النماذج الأكبر حجمًا "قدرات جديدة"، [44][94] ناشئة عن التفاعلات المعقدة بين مكونات النموذج، دون أن تكون مبرمجة أو مصممة صراحة.[95]
أظهرت الدراسات الحديثة كذلك أن أنظمة الذكاء الاصطناعي، بما في ذلك نماذج اللغات الكبيرة، قادرة على استخدام الاستدلال التنبؤي المشابه للاستدلال البشري. فهي توازن بين المعالجة المنطقية الشاملة وبين استخدام اختصارات معرفية (الاستدلالات)، وتعدل استراتيجياتها الاستدلالية لتحقيق التوازن الأمثل بين الدقة والجهود المبذولة. يتوافق هذا السلوك مع مبادئ الإدراك البشري الاقتصادي للموارد، كما هو موضح في النظريات الكلاسيكية للعقلانية المحدودة ونظرية المعالجة المزدوجة.[96][97]
من بين القدرات الناشئة الأكثر إثارة للاهتمام، القدرة على التعلم السياقي من خلال أمثلة توضيحية.[98] يتضمن التعلم السياقي مهام مثل:
إجراء العمليات الحسابية، فك رموز الأبجدية الصوتية الدولية، إعادة ترتيب حروف الكلمة، تحديد معنى الكلمة في سياقها،[44][99][100] تحويل الألفاظ المكانية واتجاهات الأركان الأساسية (مثل الرد بـ"الشمال الشرقي" عند إعطاء الإحداثيات [0, 0, 1; 0, 0, 0; 0, 0, 0])، وتحديد الألوان المذكورة نصًا.[101]
التوجيه المتسلسل: تتحسن نواتج النموذج باستخدام التوجيه المتسلسل فقط عندما يتجاوز حجم النموذج 62 مليار معلمة. وتؤدي النماذج الأصغر أداءً أفضل عندما يُطلب منها الإجابة مباشرة دون اتباع سلسلة من الأفكار.[102]
التعرف على المحتوى المسيء في فقرات الهنجليزية (مزيج من الهندية والإنجليزية)، وتوليد معادل إنجليزي مشابه للأمثال السواحلية.[103]
يُجادل شافر وزملاؤه بأن القدرات الناشئة لا تُكتسب بشكل غير متوقع، بل تُكتسب بشكل متوقع وفقًا لقانون تحجيم سلس[الإنجليزية]. وقد نظر المؤلفون في نموذج إحصائي مصغر لنموذج لغوي كبير يحل أسئلة الاختيار من متعدد، وأظهروا أن هذا النموذج الإحصائي، المعدل لحساب أنواع أخرى من المهام، ينطبق على هذه المهام أيضًا.[104]
التفسير
تُعتبر نماذج اللغات الكبيرة بمثابة صناديق سوداء، إذ يصعب فهم الكيفية التي تؤدي بها مهامها اللغوية المتعددة. ولتسليط الضوء على آليات عمل هذه النماذج،برزت عدة منهجيات بحثية. من بينها "قابلية التفسير الآلية" التي تهدف إلى فك شفرة البنية الداخلية لهذه النماذج وكشف الخوارزميات الكامنة وراء استدلالاتها. وقد أثمرت هذه المنهجية عن نتائج واعدة في عدة دراسات.
في دراسة أولى دُرب نموذج محول صغير على لعبة ريفيرسي (Othello)، ونجح الباحثون في اكتشاف تمثيل خطي لوضع اللعبة على اللوحة، حيث يؤدي تعديل هذا التمثيل إلى تغير الحركات المقترحة بشكل منطقي.[105][106] وفي دراسة أخرى دُرب نموذج مماثل على لغة البرمجة "كارل"، وكشفت النتائج عن تمثيل خطي لدلالات هذه اللغة، مما سمح بتعديل الناتج البرمجي بشكل متوقع. والأكثر من ذلك، أن النموذج تمكن من توليد برامج أقصر وأكثر كفاءة من تلك الموجودة في مجموعة التدريب.[107]
وفي دراسة أخرى درّب باحثون نماذج محولة صغيرة على عملية الجمع في الحسابات العددية، ونجح الباحثون في عكس هندسة هذه النماذج واكتشفوا أنها تستخدم تحويل فورييه المنفصل لحل هذه العملية.[108]
انقسم الباحثون المتخصصون في معالجة اللغة الطبيعية انقسامًا تامًا عندما سُئلوا، في استطلاع رأي أُجري عام 2022، عما إذا كانت نماذج اللغة الكبيرة غير المدربة قادرة على فهم اللغة الطبيعية فهمًا حقيقيًا ومعمقاً.[109] يرى مؤيدو فكرة قدرة هذه النماذج على الفهم أن بعض قدراتها، مثل القدرة على التفكير الرياضي، تشير إلى وجود فهم حقيقي للمفاهيم. وقد ذهب فريق من شركة مايكروسوفت في عام 2023 إلى أبعد من ذلك، مدعيًا أن نموذج جي بي تي-4 قادر على حل مسائل جديدة ومعقدة في مجالات متنوعة كالرياضيات، والتشفير، والرؤية، والطب، والقانون، وعلم النفس وغيرها، واصفين إياه بأنه نسخة أولية، وإن كانت غير كاملة، لذكاء اصطناعي عام. وقد تساءلوا: "هل يمكننا إنكار ذكاء نظامٍ قادر على اجتياز اختبارات مبرمجي الكمبيوتر؟" [110][111]
يصف بعض الباحثين هذه النماذج بأنها تمثل نوعًا من "الذكاء الغريب".[112][113] فعلى سبيل المثال، يرى كونور ليحي، الرئيس التنفيذي لشركة كونجكتشر، أن هذه النماذج تشبه الكائنات الغريبة والغامضة، وأن عملية التدريب المعروفة بـ RLHF تخلق واجهة ودودة تخفي العمليات الداخلية المعقدة لهذه النماذج. ويشبه الأمر قناعًا مبتسمًا يختفي خلفه عمق من الجنون والتفكير الغريب الذي يختلف جذريًا عن التفكير البشري.[114][115]
على النقيض من ذلك يزعم أصحاب المدرسة التي تنفي فهم النماذج اللغوية الكبيرة أن هذه النماذج "لا تفعل سوى خلط ودمج النصوص الموجودة"، [113] وهي ظاهرة تعرف بالببغاء العشوائي، أو يشيرون إلى العجز المستمر لهذه النماذج في مهارات التنبؤ والتفكير والإرادة والتفسير.[109] فعلى سبيل المثال، يعاني نموذج جي بي تي-4 من قصور جلي في التخطيط والتعلم الفوري.[111] وقد لوحظ أن النماذج اللغوية التوليدية تؤكد بثقة على ادعاءات حقائقية لا يبدو أنها مدعومةببيانات تدريبها، وهي ظاهرة عرفت بالهلوسة.[116] وبالتحديد، تتجلى الهلوسة في سياق هذه النماذج في توليد نصوص أو استجابات نحوية سلسة وطبيعية ولكنها خاطئة واقعيًا أو غير منطقية أو غير موثوقة بالنسبة للمعلومات المدخلة.[117] وقد جادل عالم الأعصاب تيرينس سيجنوفسكي بأن "اختلاف آراء الخبراء حول ذكاء النماذج اللغوية الكبيرة يشير إلى أن مفاهيمنا التقليدية عن الذكاء الطبيعي غير كافية".[109]
تتضمن مسألة محاكاة الذكاء أو الفهم البشري بواسطة نماذج اللغة الكبيرة وجهين رئيسيين: الأول يكمن في كيفية تمثيل الفكر واللغة ضمن نظام حاسوبي، والثاني يتمثل في تمكين هذا النظام من توليد لغة شبيهة باللغة البشرية.[109] وقد تطورت هذه الجوانب اللغوية كنموذج للإدراك في حقل اللغويات الإدراكية. وقد قدم اللغوي الأمريكي جورج لاكوف نظرية الأعصاب اللغوية (NTL) كأساس حسابي لاستخدام اللغة كنموذج لمهام التعلم والفهم.[118] وتلخص هذه النظرية كيف تشكل البنى العصبية المحددة في الدماغ البشري طبيعة الفكر واللغة، وبالتالي ما هي الخصائص الحسابية لهذه الأنظمة العصبية التي يمكن تطبيقها لنمذجة الفكر واللغة في نظام حاسوبي.[119]
وبعد تأسيس إطار عمل لنمذجة اللغة في أنظمة الحاسوب، تحول الاهتمام إلى بناء أطر عمل تتيح لهذه الأنظمة توليد لغة تتبع قواعد نحوية مقبولة. وفي كتابه الصادر عام 2014 بعنوان "أسطورة اللغة: لماذا اللغة ليست غريزة" (بالإنجليزية: The Language Myth: Why Language Is Not An Instinct)، رسم اللغوي الإدراكي البريطاني وخبير تكنولوجيا الاتصالات الرقمية فيفيان إيفانز دور القواعد النحوية الاحتمالية الخالية من السياق (PCFG) في تمكين معالجة اللغات الطبيعية من محاكاة الأنماط الإدراكية وتوليد لغة شبيهة باللغة البشرية.[120][121]
التقييم
الحيرة
المقياس التقليدي لأداء نموذج اللغة الكبير هو درجة حيرته على مجموعة نصية معينة. يقيس الحيرة مدى قدرة النموذج على التنبؤ بمحتويات مجموعة البيانات؛ فكلما زادت احتمالية تعيين النموذج لمجموعة البيانات، قلت درجة حيرته. بعبارات رياضية، الحيرة هي الأس الأسية لمتوسط سالب لوغاريتم الاحتمال لكل رمز.
حيث يُمثل عدد الرموز في مجموعة النص، و"سياق الرمز " يعتمد على نوع نموذج اللغة الكبير المحدد. إذا كان النموذج تلقائي التراجع، فإن "سياق الرمز " هو جزء النص الذي يظهر قبل الرمز . وإذا كان النموذج مُقنّعًا فإن "سياق الرمز " هو جزء النص المحيط بالرمز .
نظرًا لأن نماذج اللغة قد تُفرط في ملاءمتها لبيانات تدريبها، فعادةً ما تُقيم النماذج من خلال درجة حيرتها على مجموعة اختبار.[50] قد يكون هذا التقييم مشكلة بالنسبة للنماذج الأكبر حجمًا، والتي تصبح أكثر عرضة لإدراج أجزاء من أي مجموعة اختبار معينة مع زيادة حجم مجموعات النص التي يتم تدريبها عليها.[3]
بتات لكل كلمة أو حرف أو رمز
في نظرية المعلومات، ترتبط صفة الإنتروبيا ارتباطًا وثيقًا بمفهوم الغموض، وهو ارتباط أسسه بوضوح كلود شانون.[122] تُعبَّر هذه العلاقة رياضيًا على النحو التالي: الإنتروبيا = لو2 (الغموض).
تقاس الإنتروبيا، في هذا السياق، عادة بوحدات البتات لكل كلمة (BPW) أو البتات لكل حرف (BPC)، وذلك تبعًا لاختيار نموذج اللغة لتجزئة النص إلى كلمات أو أحرف.
جدير بالذكر أنه في نماذج اللغة الكبيرة التي تعتمد غالبًا على تجزئة الكلمات إلى أجزاء أصغر، يبدو أن البتات لكل رمز مميز (BPT) مقياسًا أنسب. ومع ذلك نظرًا للاختلاف في أساليب التجزئة بين نماذج اللغة الكبيرة، فإن مقياس BPT ليس موثوقًا به للمقارنة بين نماذج مختلفة. لتحويل BPT إلى BPW، يمكن ضرب القيمة الأولى في متوسط عدد الرموز المميزة لكل كلمة.
عند تقييم ومقارنة نماذج اللغة يُفضل عادة استخدام الإنتروبيا المتقاطعة بدلًا من الإنتروبيا المطلقة. الفكرة الأساسية هي أن قيمة BPW الأقل تشير إلى قدرة أفضل للنموذج على الضغط، مما يعكس بدوره كفاءة النموذج في إجراء تنبؤات دقيقة.
مجموعات البيانات والمعايير الخاصة بالمهام
طُوِّرَتْ في المراحل اللاحقة مجموعات بيانات عديدة ومقاييس اختبار لتقييم قدرات نماذج اللغات في مهام أكثر تحديدًا. صُمِّمت هذه الاختبارات لتقييم مجموعة واسعة من القدرات، بما في ذلك المعرفة العامة والتفكير المنطقي وحل المسائل الرياضية.
إحدى الفئات الشائعة لمجموعات البيانات التقييمية هي مجموعات بيانات الإجابة على الأسئلة، التي تتكون من أزواج من الأسئلة وإجاباتها الصحيحة، مثل: "هل فاز منتخب اليمن بكأس العالم لكرة القدم؟" - "لا".[123] تُعتبر مهمة الإجابة على الأسئلة "مفتوحة" إذا تضمنت مطالبة النموذج بنص يمكن استخلاص الإجابة المتوقعة منه (مثل: يمكن إضافة السؤال السابق إلى نص يتضمن الجملة "تقدّم منتخب اليمن إلى نهائيات كأس العالم مرة واحدة وخسر أمام منتخب السعودية في عام 2016").[123] أما إذا كان على النموذج الاعتماد على المعرفة التي اكتسبها خلال التدريب، فتُعتبر المهمة "مغلقة".[124][124]
قد تأخذ مجموعات البيانات التقييمية شكل إكمال النص، حيث يُطلب من النموذج اختيار الكلمة أو الجملة الأنسب لإكمال عبارة ما، مثل: "كانت فاطمة صديقة لسارة. ذهبت فاطمة لزيارة صديقتها، ____".[3]
طُوِّرت أيضًا مقاييس أداء مركبة تجمع بين مجموعة متنوعة من مجموعات البيانات والمهام التقييمية المختلفة. من الأمثلة عليها: جلو، وسوبر جلو وبيج-بنش.[122][124] أصدرت شركة أوبن أيه آي أدوات لتشغيل مقاييس الأداء المركبة، لكنها لاحظت أن نتائج التقييم حساسة لطريقة صياغة المطالبة.[125][126] تحتوي بعض مجموعات البيانات العامة على أسئلة خاطئة أو غامضة أو لا يمكن الإجابة عليها أو ذات جودة منخفضة، ويمكن تنظيفها للحصول على نتائج أداء أكثر موثوقية.[127]
كان من المعتاد سابقًا الإبلاغ عن النتائج على جزء مؤجل من مجموعة البيانات التقييمية بعد إجراء ضبط دقيق مراقب على الباقي. أصبح من الشائع الآن تقييم نموذج مدرب مسبقًا مباشرة من خلال تقنيات المطالبة، رغم اختلاف الباحثين في تفاصيل صياغة المطالبات لمهام معينة، لا سيما فيما يتعلق بعدد أمثلة المهام التي يتم تضمينها في المطالبة (أي قيمة n في مطالبة اللقطات n).
التقييمات المُصمّمة خصيصًا
سبب التطور المتسارع في نماذج اللغات الكبيرة، فقد عانت مقاييس الأداء من قصر عمرها الافتراضي. إذ سرعان ما "تشبع" هذه النماذج المتقدمة من المقاييس الحالية، متجاوزة أداء البشر المتخصصين. مما دفع الباحثين إلى البحث عن مهام أكثر تعقيدًا لاستبدال هذه المقاييس أو تعزيزها.[128] بالإضافة إلى ذلك، ظهرت ظاهرة "تعلم الاختصارات"، حيث تلجأ أنظمة الذكاء الاصطناعي أحيانًا إلى خداع اختبارات الاختيار. وذلك من خلال استغلال الارتباطات الإحصائية البسيطة في صياغة الأسئلة، مما يسمح لها بتخمين الإجابات الصحيحة دون بالضرورة فهم المعنى الحقيقي للسؤال.[109]
ولمعالجة هذه التحديات، طور باحثون مجموعات بيانات جديدة تركز على نقاط ضعف محددة في نماذج اللغات الحالية. من الأمثلة البارزة على ذلك مجموعة بيانات TruthfulQA، التي تتضمن أسئلة يصعب على النماذج الإجابة عليها بشكل صحيح بسبب ميلها إلى تكرار المعلومات الخاطئة التي تعلمتها خلال التدريب. فعلى سبيل المثال، قد يجيب نموذج لغة كبير على سؤال "هل يمكن تعليم كلب قديم حيلة جديدة؟" بـ "لا"، وذلك بسبب تعلمه للمثل الشائع الذي ينفي ذلك، حتى لو كان هذا الجواب غير دقيق من الناحية العلمية.[129][130][130]
التأثير الأوسع
في عام 2023م، أشارت مجلة "نيتشر بيوميديكال انجينيرنج" إلى استحالة التمييز بدقة بين النصوص التي ينتجها البشر وتلك التي تولّدها نماذج اللغات الكبيرة، مؤكدةً انتشار هذه النماذج ذات الأغراض العامة بسرعة وتأثيرها المتوقع على العديد من الصناعات.[131] وفي نفس العام، أشارت مؤسسة غولدمان ساكس إلى إمكانية زيادة الناتج المحلي الإجمالي العالمي بنسبة 7% خلال العقد القادم بفضل الذكاء الاصطناعي اللغوي التوليدي، مع تحذيرها من تهديد هذا التطور لأكثر من 300 مليون وظيفة حول العالم.[132][133]
الحفظ هو سلوك ناشئ في نماذج اللّغة الكبيرة حيث يتمّ إخراج سلاسل نصية طويلة أحيانًا حرفيًا من بيانات التّدريب، على عكس السّلوك النموذجيّ للشّبكات العصبية الاصطناعية التّقليدية. تقيس تقييمات مخرجات نموذج اللّغة الكبيرة المتحكّم فيها كمية ما تمّ حفظه من بيانات التّدريب (مع التركيز على نماذج سلسلة جي بي تي-2) بشكل مختلف بأكثر من 1% للنسخ المكرّرة تمامًا، [134] أو ما يصل إلى حوالي 7%.[135]
الأمان
أعرب بعض الباحثين عن مخاوفهم من إمكانية توليد معلومات مضللة عمدًا أو عن طريق الخطأ، أو استغلال هذه النماذج في سلوكيات ضارة أخرى.[136] فعلى سبيل المثال، يمكن أن تساهم نماذج اللغة الكبيرة في تقليل المهارة اللازمة لارتكاب أعمال إرهابية بيولوجية؛ حيث اقترح الباحث في الأمن البيولوجي كيفن إيسفلت ضرورة استبعاد الأبحاث المتعلقة بتطوير مسببات الأمراض من بيانات تدريب هذه النماذج.[137]
أظهرت دراسة أجراها باحثون في جوجل وعدة جامعات، من بينها كورنيل وكاليفورنيا، وجود مخاطر أمنية محتملة في نماذج لغوية مثل شات جي بي تي. فقد تمكن الباحثون من استخلاص جزء من بيانات التدريب التي استخدمت في تدريب هذا النموذج. فعند تكرار طلب الحصول على كلمة معينة لعدد كبير من المرات، بدأ النموذج في تكرار مقاطع من بيانات التدريب بشكل عشوائي. وقد لاحظ الباحثون آلاف الأمثلة على هذا السلوك، مما يثير تساؤلات حول مدى أمان هذه النماذج.[138]
يشكل وجود ما يسمى بـ "العوامل الكامنة" داخل نماذج اللغة الكبيرة مصدر قلق أمني آخر. هذه الوظائف المخبأة يمكن تفعيلها بحدث معين لتدفع النموذج إلى التصرف بطريقة غير متوقعة وضارة.[139] على الرغم من وجود ضوابط أمنية في تطبيقات مثل شات جي بي تي وكلود لمنع توليد محتوى ضار، إلا أن هذه الضوابط ليست مضمونة الفعالية. فقد تمكن باحثون من تطوير طرق للتلاعب بهذه النماذج والحصول على معلومات خطيرة، مثل كيفية إنشاء شبكات لتجارة المخدرات.[140][141]
رغم ما أظهرته نماذج اللغات الكبيرة من قدرة فائقة على توليد نصوص شبيهة بالنصوص البشرية، إلا أنها معرضة للإصابة بتحيزات مستمدة من بيانات تدريبها، بل وتضخيمها. وقد يظهر ذلك جليًا في صور نمطية مشوهة أو معاملة مجحفة لفئات ديموغرافية مختلفة، كالأعراق والأجناس واللغات والمجموعات الثقافية.[142] ونظرًا لسيطرة البيانات الإنجليزية على غالبية بيانات تدريب هذه النماذج، فإنها قد تستصغر بالتالي وجهات النظر التي لا تتحدث الإنجليزية.[143]
التنميط
تستطيع أنظمة الذكاء الاصطناعي أن تعزز طائفة واسعة من الصور النمطية، بما في ذلك تلك المرتبطة بالجنس، أو العرق، أو السن، أو الجنسية، أو الدين، أو المهنة. وقد يؤدي هذا إلى نتائج تمييزية بحق فئات معينة من البشر، بطرق قد تكون مسيئة أو مهينة.[144] ومن الجدير بالذكر أن التحيز الجنسي هو ميل هذه الأنظمة إلى إنتاج نتائج تميل بشكل غير عادل لصالح جنس على آخر. وغالبًا ما ينشأ هذا التحيز من البيانات التي يتم تدريب هذه الأنظمة عليها. فنموذج اللغة الكبيرة،[142] على سبيل المثال، قد يربط بين الممرضات والسكرتيرات وبين النساء، وبين المهندسين والرؤساء التنفيذيين وبين الرجال، وذلك استنادًا إلى الأعراف الجندرية السائدة.[145]
التحيّز السّياسيّ
التحيز السياسي يشير إلى ميل الخوارزميات إلى تفضيل وجهات نظر أو أيديولوجيات أو نتائج سياسية معينة على أخرى بشكل منهجي. قد تظهر نماذج اللغة أيضًا تحيزات سياسية. نظرًا لأن بيانات التدريب تتضمن مجموعة واسعة من الآراء والتغطية السياسية، فقد تولد النماذج استجابات تميل إلى أيديولوجيات أو وجهات نظر سياسية معينة، اعتمادًا على انتشار تلك الآراء في البيانات.[146]
قائمة نماذج اللّغة الكبيرة
بالنسبة لعمود تكلفة التدريب، 1 بيتافلوب في اليوم = 1 بيتافلوب/ثانية × يوم واحد = 8.64E19 فلوب. كما تتم كتابة تكلفة النموذج الأكبر فقط.
أول سلسلة من البدائل المجانية لـ جي بي تي-3 التي أصدرتها إليوثر أيه آي. تفوقت جي بي تي-نيو على نموذج جي بي تي-3 ذي الحجم المماثل في بعض المعايير، لكنها كانت أسوأ بكثير من جي بي تي-3 الأكبر.[170]
Kaddour، Jean؛ وآخرون (2023). "Challenges and Applications of Large Language Models". arXiv:2307.10169. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Li, Ke; Sun, Xing; Xu, Tong; Chen, Enhong (23 Jun 2023). "A Survey on Multimodal Large Language Models". arXiv.org (بالإنجليزية). Archived from the original on 2024-11-26. Retrieved 2024-10-07.
^التاريخ الذي تم فيه إصدار الوثائق التي تصف بنية النموذج لأول مرة.
^في كثير من الحالات، يصدر الباحثون أو يبلغون عن إصدارات متعددة من نموذج بأحجام مختلفة. في هذه الحالات، يتم سرد حجم النموذج الأكبر هنا.
^ترخيص أوزان النموذج المدرب مسبقًا. في جميع الحالات تقريبًا، يكون كود التدريب نفسه مفتوح المصدر أو يمكن تكراره بسهولة.
^النماذج الأصغر بما في ذلك 66B متاحة للجمهور، في حين أن نموذج 175B متاح عند الطلب.
^كان نظام الترخيص والتوزيع الخاص بفيسبوك يقيد الوصول إلى البيانات للباحثين المعتمدين، لكن أوزان النماذج تسربت وأصبحت متاحة على نطاق واسع.
^كما هو مذكور في التقرير الفني: "نظرًا للمشهد التنافسي والتأثيرات الأمنية للنماذج واسعة النطاق مثل GPT-4، لا يحتوي هذا التقرير على مزيد من التفاصيل حول الهندسة المعمارية (بما في ذلك حجم النموذج)، والأجهزة، وحوسبة التدريب، وبناء مجموعة البيانات، وطريقة التدريب ..."[201]
^Brown، Tom B.؛ Mann، Benjamin؛ Ryder، Nick؛ Subbiah، Melanie؛ Kaplan، Jared؛ Dhariwal، Prafulla؛ Neelakantan، Arvind؛ Shyam، Pranav؛ Sastry، Girish؛ Askell، Amanda؛ Agarwal، Sandhini؛ Herbert-Voss، Ariel؛ Krueger، Gretchen؛ Henighan، Tom؛ Child، Rewon؛ Ramesh، Aditya؛ Ziegler، Daniel M.؛ Wu، Jeffrey؛ Winter، Clemens؛ Hesse، Christopher؛ Chen، Mark؛ Sigler، Eric؛ Litwin، Mateusz؛ Gray، Scott؛ Chess، Benjamin؛ Clark، Jack؛ Berner، Christopher؛ McCandlish، Sam؛ Radford، Alec؛ Sutskever، Ilya؛ Amodei، Dario (ديسمبر 2020). Larochelle، H.؛ Ranzato، M.؛ Hadsell، R.؛ Balcan، M.F.؛ Lin، H. (المحررون). "Language Models are Few-Shot Learners"(pdf). Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 33: 1877–1901. مؤرشف(PDF) من الأصل في 2023-11-17. اطلع عليه بتاريخ 2023-03-14.
^Fathallah، Nadeen؛ Das، Arunav؛ De Giorgis، Stefano؛ Poltronieri، Andrea؛ Haase، Peter؛ Kovriguina، Liubov (26 مايو 2024). "NeOn-GPT: A Large Language Model-Powered Pipeline for Ontology Learning"(PDF). Extended Semantic Web Conference 2024. Hersonissos, Greece. مؤرشف من الأصل(pdf) في 2024-08-16. اطلع عليه بتاريخ 2024-10-07.
^Vaswani، Ashish؛ Shazeer، Noam؛ Parmar، Niki؛ Uszkoreit، Jakob؛ Jones، Llion؛ Gomez، Aidan N؛ Kaiser، Łukasz؛ Polosukhin، Illia (2017). "Attention is All you Need"(pdf). Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 30. مؤرشف(PDF) من الأصل في 2024-02-21. اطلع عليه بتاريخ 2024-01-21.
^Yennie Jun (03 مايو 2023). "All languages are NOT created (tokenized) equal". Language models cost much more in some languages than others. مؤرشف من الأصل في 2023-08-17. اطلع عليه بتاريخ 2023-08-17. In other words, to express the same sentiment, some languages require up to 10 times more tokens.
^Dodge، Jesse؛ Sap، Maarten؛ Marasović، Ana؛ Agnew، William؛ Ilharco، Gabriel؛ Groeneveld، Dirk؛ Mitchell، Margaret؛ Gardner، Matt (2021). "Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus". arXiv:2104.08758 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Lee، Katherine؛ Ippolito، Daphne؛ Nystrom، Andrew؛ Zhang، Chiyuan؛ Eck، Douglas؛ Callison-Burch، Chris؛ Carlini، Nicholas (مايو 2022). "Deduplicating Training Data Makes Language Models Better"(PDF). Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. 1: Long Papers: 8424–8445. DOI:10.18653/v1/2022.acl-long.577. مؤرشف من الأصل(pdf) في 2024-09-30. اطلع عليه بتاريخ 2024-10-07.
^Li، Yuanzhi؛ Bubeck، Sébastien؛ Eldan، Ronen؛ Del Giorno، Allie؛ Gunasekar، Suriya؛ Lee، Yin Tat (11 سبتمبر 2023)، Textbooks Are All You Need II: phi-1.5 technical report، arXiv:2309.05463
^Lin، Zhenghao؛ Gou، Zhibin؛ Gong، Yeyun؛ Liu، Xiao؛ Shen، Yelong؛ Xu، Ruochen؛ Lin، Chen؛ Yang، Yujiu؛ Jiao، Jian (11 أبريل 2024). "Rho-1: Not All Tokens Are What You Need". arXiv:2404.07965 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ ابجWei، Jason؛ Tay، Yi؛ Bommasani، Rishi؛ Raffel، Colin؛ Zoph، Barret؛ Borgeaud، Sebastian؛ Yogatama، Dani؛ Bosma، Maarten؛ Zhou، Denny؛ Metzler، Donald؛ Chi، Ed H.؛ Hashimoto، Tatsunori؛ Vinyals، Oriol؛ Liang، Percy؛ Dean، Jeff؛ Fedus، William (31 أغسطس 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research. ISSN:2835-8856. مؤرشف من الأصل في 2023-03-22. اطلع عليه بتاريخ 2023-03-19.
^ ابJurafsky، Dan؛ Martin، James H. (7 يناير 2023). Speech and Language Processing(pdf) (ط. 3rd edition draft). مؤرشف(PDF) من الأصل في 2023-03-23. اطلع عليه بتاريخ 2022-05-24.
^Sharir، Or؛ Peleg، Barak؛ Shoham، Yoav (2020). "The Cost of Training NLP Models: A Concise Overview". arXiv:2004.08900 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Biderman، Stella؛ Schoelkopf، Hailey؛ Anthony، Quentin؛ Bradley، Herbie؛ Khan، Mohammad Aflah؛ Purohit، Shivanshu؛ Prashanth، USVSN Sai (أبريل 2023). "Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling". arXiv:2304.01373 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Maslej، Nestor؛ Fattorini، Loredana؛ Brynjolfsson، Erik؛ Etchemendy، John؛ Ligett، Katrina؛ Lyons، Terah؛ Manyika، James؛ Ngo، Helen؛ Niebles، Juan Carlos (05 أكتوبر 2023)، Artificial Intelligence Index Report 2023، arXiv:2310.03715
^Paranjape، Bhargavi؛ Lundberg، Scott؛ Singh، Sameer؛ Hajishirzi، Hannaneh؛ Zettlemoyer، Luke؛ Tulio Ribeiro، Marco (01 مارس 2023). "ART: Automatic multi-step reasoning and tool-use for large language models". arXiv:2303.09014 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Liang، Yaobo؛ Wu، Chenfei؛ Song، Ting؛ Wu، Wenshan؛ Xia، Yan؛ Liu، Yu؛ Ou، Yang؛ Lu، Shuai؛ Ji، Lei؛ Mao، Shaoguang؛ Wang، Yun؛ Shou، Linjun؛ Gong، Ming؛ Duan، Nan (01 مارس 2023). "TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs". arXiv:2303.16434 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Patil، Shishir G.؛ Zhang، Tianjun؛ Wang، Xin؛ Gonzalez، Joseph E. (01 مايو 2023). "Gorilla: Large Language Model Connected with Massive APIs". arXiv:2305.15334 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Lewis، Patrick؛ Perez، Ethan؛ Piktus، Aleksandra؛ Petroni، Fabio؛ Karpukhin، Vladimir؛ Goyal، Naman؛ Küttler، Heinrich؛ Lewis، Mike؛ Yih، Wen-tau؛ Rocktäschel، Tim؛ Riedel، Sebastian؛ Kiela، Douwe (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks". Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 33: 9459–9474. arXiv:2005.11401. مؤرشف من الأصل في 2023-06-12. اطلع عليه بتاريخ 2023-06-12.
^Yao، Shunyu؛ Zhao، Jeffrey؛ Yu، Dian؛ Du، Nan؛ Shafran، Izhak؛ Narasimhan، Karthik؛ Cao، Yuan (01 أكتوبر 2022). "ReAct: Synergizing Reasoning and Acting in Language Models". arXiv:2210.03629 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Wu، Yue؛ Prabhumoye، Shrimai؛ Min، So Yeon (24 مايو 2023). "SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning". arXiv:2305.15486 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Wang، Zihao؛ Cai، Shaofei؛ Liu، Anji؛ Ma، Xiaojian؛ Liang، Yitao (03 فبراير 2023). "Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents". arXiv:2302.01560 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Shinn، Noah؛ Cassano، Federico؛ Labash، Beck؛ Gopinath، Ashwin؛ Narasimhan، Karthik؛ Yao، Shunyu (01 مارس 2023). "Reflexion: Language Agents with Verbal Reinforcement Learning". arXiv:2303.11366 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Hao، Shibo؛ Gu، Yi؛ Ma، Haodi؛ Jiahua Hong، Joshua؛ Wang، Zhen؛ Zhe Wang، Daisy؛ Hu، Zhiting (01 مايو 2023). "Reasoning with Language Model is Planning with World Model". arXiv:2305.14992 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Zhang، Jenny؛ Lehman، Joel؛ Stanley، Kenneth؛ Clune، Jeff (2 يونيو 2023). "OMNI: Open-endedness via Models of human Notions of Interestingness". arXiv:2306.01711 [cs.AI]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Nagel، Markus؛ Amjad، Rana Ali؛ Baalen، Mart Van؛ Louizos، Christos؛ Blankevoort، Tijmen (21 نوفمبر 2020). "Up or Down? Adaptive Rounding for Post-Training Quantization". Proceedings of the 37th International Conference on Machine Learning. PMLR: 7197–7206. مؤرشف من الأصل في 2023-06-14. اطلع عليه بتاريخ 2023-06-14.
^Polino، Antonio؛ Pascanu، Razvan؛ Alistarh، Dan (01 فبراير 2018). "Model compression via distillation and quantization". arXiv:1802.05668 [cs.NE]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Frantar، Elias؛ Ashkboos، Saleh؛ Hoefler، Torsten؛ Alistarh، Dan (01 أكتوبر 2022). "GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers". arXiv:2210.17323 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Dettmers، Tim؛ Svirschevski، Ruslan؛ Egiazarian، Vage؛ Kuznedelev، Denis؛ Frantar، Elias؛ Ashkboos، Saleh؛ Borzunov، Alexander؛ Hoefler، Torsten؛ Alistarh، Dan (01 يونيو 2023). "SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression". arXiv:2306.03078 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Kiros، Ryan؛ Salakhutdinov، Ruslan؛ Zemel، Rich (18 يونيو 2014). "Multimodal Neural Language Models". Proceedings of the 31st International Conference on Machine Learning. PMLR: 595–603. مؤرشف من الأصل في 2023-07-02. اطلع عليه بتاريخ 2023-07-02.
^Antol، Stanislaw؛ Agrawal، Aishwarya؛ Lu، Jiasen؛ Mitchell، Margaret؛ Batra، Dhruv؛ Zitnick، C. Lawrence؛ Parikh، Devi (2015). "VQA: Visual Question Answering". ICCV: 2425–2433. مؤرشف من الأصل في 2023-07-02. اطلع عليه بتاريخ 2023-07-02.
^Li، Junnan؛ Li، Dongxu؛ Savarese، Silvio؛ Hoi، Steven (01 يناير 2023). "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models". arXiv:2301.12597 [cs.CV]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Alayrac، Jean-Baptiste؛ Donahue، Jeff؛ Luc، Pauline؛ Miech، Antoine؛ Barr، Iain؛ Hasson، Yana؛ Lenc، Karel؛ Mensch، Arthur؛ Millican، Katherine؛ Reynolds، Malcolm؛ Ring، Roman؛ Rutherford، Eliza؛ Cabi، Serkan؛ Han، Tengda؛ Gong، Zhitao (06 ديسمبر 2022). "Flamingo: a Visual Language Model for Few-Shot Learning". Advances in Neural Information Processing Systems. ج. 35: 23716–23736. arXiv:2204.14198. مؤرشف من الأصل في 2023-07-02. اطلع عليه بتاريخ 2023-07-02.
^Driess، Danny؛ Xia، Fei؛ Sajjadi، Mehdi S. M.؛ Lynch، Corey؛ Chowdhery، Aakanksha؛ Ichter، Brian؛ Wahid، Ayzaan؛ Tompson، Jonathan؛ Vuong، Quan؛ Yu، Tianhe؛ Huang، Wenlong؛ Chebotar، Yevgen؛ Sermanet، Pierre؛ Duckworth، Daniel؛ Levine، Sergey (01 مارس 2023). "PaLM-E: An Embodied Multimodal Language Model". arXiv:2303.03378 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Zhang، Hang؛ Li، Xin؛ Bing، Lidong (01 يونيو 2023). "Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding". arXiv:2306.02858 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Mukherjee، Anirban؛ Chang، Hannah (2024). "Heuristic Reasoning in AI: Instrumental Use and Mimetic Absorption". arXiv:2403.09404.
^Hoffmann، Jordan؛ Borgeaud، Sebastian؛ Mensch، Arthur؛ Buchatskaya، Elena؛ Cai، Trevor؛ Rutherford، Eliza؛ Casas، Diego de Las؛ Hendricks، Lisa Anne؛ Welbl، Johannes؛ Clark، Aidan؛ Hennigan، Tom؛ Noland، Eric؛ Millican، Katie؛ Driessche، George van den؛ Damoc، Bogdan (29 مارس 2022). "Training Compute-Optimal Large Language Models". arXiv:2203.15556 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Hahn، Michael؛ Goyal، Navin (14 مارس 2023). "A Theory of Emergent In-Context Learning as Implicit Structure Induction". arXiv:2303.07971 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Pilehvar، Mohammad Taher؛ Camacho-Collados، Jose (يونيو 2019). "Proceedings of the 2019 Conference of the North". Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics: 1267–1273. DOI:10.18653/v1/N19-1128. S2CID:102353817. مؤرشف من الأصل في 2023-06-27. اطلع عليه بتاريخ 2023-06-27.
^Jin، Charles؛ Rinard، Martin (01 مايو 2023). "Evidence of Meaning in Language Models Trained on Programs". arXiv:2305.11169 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Nanda، Neel؛ Chan، Lawrence؛ Lieberum، Tom؛ Smith، Jess؛ Steinhardt، Jacob (01 يناير 2023). "Progress measures for grokking via mechanistic interpretability". arXiv:2301.05217 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Varshney، Neeraj؛ Yao، Wenlin؛ Zhang، Hongming؛ Chen، Jianshu؛ Yu، Dong (2023). "A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of LLMs by Validating Low-Confidence Generation". arXiv:2307.03987 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Lakoff، George (1999). Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Philosophy; Appendix: The Neural Theory of Language Paradigm. New York Basic Books. ص. 569–583. ISBN:978-0-465-05674-3.
^"NTL | ICSI". www.icsi.berkeley.edu. اطلع عليه بتاريخ 2024-11-10.
^Evans، Vyvyan. (2014). The Language Myth. Cambridge University Press. ISBN:978-1-107-04396-1.
^Friston، Karl J. (2022). Active Inference: The Free Energy Principle in Mind, Brain, and Behavior; Chapter 4 The Generative Models of Active Inference. The MIT Press. ISBN:978-0-262-36997-8.
^Srivastava، Aarohi؛ وآخرون (2022). "Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models". arXiv:2206.04615 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Lin، Stephanie؛ Hilton، Jacob؛ Evans، Owain (2021). "TruthfulQA: Measuring How Models Mimic Human Falsehoods". arXiv:2109.07958 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ ابZellers، Rowan؛ Holtzman، Ari؛ Bisk، Yonatan؛ Farhadi، Ali؛ Choi، Yejin (2019). "HellaSwag: Can a Machine Really Finish Your Sentence?". arXiv:1905.07830 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Luo، Queenie؛ Puett، Michael J.؛ Smith، Michael D. (28 مارس 2023). "A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube". arXiv:2303.16281v2 [cs.CY]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Cheng، Myra؛ Durmus، Esin؛ Jurafsky، Dan (29 مايو 2023)، Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models، arXiv:2305.18189
^"Product". Anthropic. مؤرشف من الأصل في 2023-03-16. اطلع عليه بتاريخ 2023-03-14.
^ ابAskell، Amanda؛ Bai، Yuntao؛ Chen، Anna؛ وآخرون (9 ديسمبر 2021). "A General Language Assistant as a Laboratory for Alignment". arXiv:2112.00861 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Bai، Yuntao؛ Kadavath، Saurav؛ Kundu، Sandipan؛ وآخرون (15 ديسمبر 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^Black، Sidney؛ Biderman، Stella؛ Hallahan، Eric؛ وآخرون (01 مايو 2022). "GPT-NeoX-20B: An Open-Source Autoregressive Language Model". Proceedings of BigScience Episode #5 – Workshop on Challenges & Perspectives in Creating Large Language Models. Transactions of the Association for Computational Linguistics. ج. Proceedings of BigScience Episode #5 – Workshop on Challenges & Perspectives in Creating Large Language Models. ص. 95–136. مؤرشف من الأصل في 2022-12-10. اطلع عليه بتاريخ 2022-12-19.
^ ابKhrushchev، Mikhail؛ Vasilev، Ruslan؛ Petrov، Alexey؛ Zinov، Nikolay (22 يونيو 2022)، "YaLM 100B"، غيت هاب، مؤرشف من الأصل في 2023-06-16، اطلع عليه بتاريخ 2023-03-18
^"Our next-generation model: Gemini 1.5". Google. 15 فبراير 2024. مؤرشف من الأصل في 2024-02-16. اطلع عليه بتاريخ 2024-02-16. This means 1.5 Pro can process vast amounts of information in one go — including 1 hour of video, 11 hours of audio, codebases with over 30,000 lines of code or over 700,000 words. In our research, we've also successfully tested up to 10 million tokens.
^"Gemma". مؤرشف من الأصل في 2024-02-21. اطلع عليه بتاريخ 2024-10-07 – عبر GitHub.