المُحول المُولّد مسبق التدريب (جي بي تي)[1] أو المحول المُولّد المدرب مسبقا (بالإنجليزية: Generative pre-trained transformers (GPT)) هي نوع من النماذج اللغوية الكبيرة[2][3][4] وإطار بارز للذكاء الاصطناعي التوليدي. قدمت شركة أوبن أيه آي الجي بي تي الأول في عام 2018. نماذج الجي بي تي هي شبكات عصبية اصطناعية تعتمد على هيكلية محولات، مدربة مسبقا على مجموعات بيانات كبيرة من النصوص غير الموسومة، وقادرة على توليد محتوى جديد يشبه المحتوى البشري.[3][4] أصبحت لمعظم النماذج اللغوية الكبيرة بحلول عام 2023 هذه الخصائص وتشار إليها أحيانا على نطاق واسع بصفتها جي بي تيز (بالإنجليزية: GPTs).[5][6]
أصدرت أوبن أيه آي نماذج أساسية لـ جي بي تي ذات تأثير كبير والتي رُقمت بتسلسل، لتشكل سلسلتها جي بي تي-إن .[7][8] كل من هذه النماذج كان أكثر قدرة من السابق، بسبب الحجم المتزايد (عدد المعاملات التي يمكن تدريبها) والتدريب. أحدث هذه النماذج، جي بي تي-4، أُصدر في مارس 2023.[9] هذه النماذج كانت الأساس لأنظمة جي بي تي الخاصة بهذه النماذج المخصصة للمهام الأكثر تحديدًا، بما في ذلك النماذج المعدلة لمتابعة الإرشادات - التي بدورها تُشغل خدمة الدردشةشات جي بي تي.[10]
يُستخدم مصطلح "جي بي تي" أيضًا في أسماء وأوصاف النماذج التي طورها الآخرون. على سبيل المثال، تشمل النماذج الأساسية الأخرى لـ جي بي تي سلسلة من النماذج التي أنشأتها إي لوثر إي آي[الإنجليزية]، [11] ومؤخراً سبعة نماذج أنشأتها سيريبراس[الإنجليزية] في 2023. [12] بالإضافة إلى ذلك، قامت شركات في صناعات مختلفة بتطوير جي بي تيز محددة للمهام في مجالاتها المختلفة، مثل نموذج سيلز فورس المُسمى "أينشتاين جي بي تي - (بالإنجليزية: EinsteinGPT)" (لإدارة علاقات العملاء)، [13] ونموذج بلومبيرغ المُسمى "برومبيرج جي بي تي - (بالإنجليزية: BloombergGPT)" (للتمويل). [14]
التاريخ
التطورات الأولية
كان التدريب التوليدي المسبق (GP) مفهومًا راسخًا منذ فترة طويلة في تطبيقات التعلم الآلي. [15][16] وكان يُستخدم أساسًا كشكل من أشكال التعلم شبه المُراقب، حيث يُدرب النموذج على مجموعة بيانات غير مُعلّمة (خطوة التدريب المسبق) من خلال تعلم توليد نقاط البيانات في مجموعة البيانات، ثم يُدرب على تصنيف مجموعة بيانات مُعلّمة. [17] وكانت هناك 3 أنواع رئيسية من التدريب التوليدي المُبكر.
تتعلم نماذج ماركوف المخفية نموذجًا توليديًا للتسلسلات للتطبيقات اللاحقة. على سبيل المثال، في التعرف على الكلام، يستنتج نموذج ماركوف المخفي المُدرب التسلسل المخفي الأكثر احتمالية لإشارة الكلام، ويُؤخذ التسلسل المخفي على أنه أصوات إشارة الكلام. طُورت هذه النماذج في السبعينيات وطُبقت في التعرف على الكلام في الثمانينيات. [18][19]
تتعلم أدوات الضغط ضغط البيانات مثل الصور والتسلسلات النصية، وتُعتبر البيانات المضغوطة تمثيلًا جيدًا للتطبيقات اللاحقة مثل التعرف على الوجه. [20][21][22] وبالمثل تتعلم أجهزة التشفير التلقائي تمثيلًا كامنًا للبيانات لتطبيقات لاحقة مثل التعرف على الكلام. [23][24] لُوحظت العلاقة بين أجهزة التشفير التلقائي وأدوات الضغط الخوارزمية في عام 1993.[25]
خلال العقد الثاني من القرن الحادي والعشرين، حلت الشبكات العصبية المتكررة مشكلة الترجمة الآلية مع إضافة آلية الانتباه. تم تحسين ذلك في بنية المحولات، التي نشرها باحثو جوجل في "الانتباه هو كل ما تحتاجه" (2017). [26] أدى هذا التطور إلى ظهور نماذج لغوية كبيرة مثل BERT في 2018. [27] الذي كان عبارة عن محول مُدرّب مُسبقًا (PT) ولكن لم يتم تصميمه ليكون توليديًا (كان BERT نموذجًا "للتشفير فقط"). أيضًا في عام 2018 نشرت أوبن أيه آي "تحسين فهم اللغة من خلال التدريب التوليدي المسبق"، والذي قدم نموذج جي بي تي-1 وهو أول نماذج سلسلة جي بي تي. [28]
في عام 2017 عمل بعض المؤلفين الذين سيعملون لاحقًا على جي بي تي-1 على التدريب التوليدي المسبق للغة باستخدام الذاكرة القصيرة المدى المطولة (LSTM)، مما أدى إلى نموذج يُمكنه تمثيل النص باستخدام متجهات يُمكن ضبطها بسهولة للتطبيقات اللاحقة. [29]
قبل البنى القائمة على المحولات، كانت نماذج البرمجة اللغوية العصبية (معالجة اللغة الطبيعية) الأفضل أداءً تستخدم التعلم المُراقب من كميات كبيرة من البيانات المُعلّمة يدويًا. حد الاعتماد على التعلم المُراقب من استخدامها في مجموعات البيانات التي لم تكن مُعلّمة جيدًا، كما جعل تدريب نماذج اللغات الكبيرة للغاية مُكلفًا ويستغرق وقتًا طويلاً بشكل باهظ. [28]
تضمن النهج شبه المُراقب الذي استخدمته أوبن أيه آي لإنشاء نظام توليدي واسع النطاق - وكان أول من فعل ذلك باستخدام نموذج محول - مرحلتين: مرحلة "تدريب مُسبق" توليديةغير مُراقبة لتعيين المعلمات الأولية باستخدام هدف نمذجة اللغة، ومرحلة "ضبط دقيق" تمييزية مُراقبة لتكييف هذه المعلمات مع مهمة مُستهدفة. [28]
التطورات اللاحقة
نشرت أوبن أيه آي الإصدارات الأولى من جي بي تي-3 في يوليو 2020. وكانت له ثلاثة نماذج: باباج (بالإنجليزية: babbage) بواقع 1 مليار مُعلمة، وكوري - (بالإنجليزية: curie) بواقع 6.7 مليار مُعلمة، ودافنشي - (بالإنجليزية: davinci) بواقع 175 مليار مُعلمة.
في يوليو 2021، نشرت أوبن أيه آي نموذج "كوديكس - (بالإنجليزية: Codex)"، وهو نموذج جي بي تي مُخصص للمهام مُستهدف لتطبيقات البرمجة. طُور عن طريق الضبط الدقيق لإصدار 12 مليار مُعلمة من جي بي تي-3 (يختلف عن نماذج جي بي تي-3 السابقة) باستخدام التعليمات البرمجية من غيت هاب. [30]
في مارس 2022، نشرت أوبن أيه آي إصدارين من جي بي تي-3 ضُبطا بدقة لاتباع التعليمات (ضبط التعليمات)، ويُسمى (بالإنجليزية: davinci-instruct-beta) (175 مليار) ونموذج "دافنشي النصي الأول - (بالإنجليزية: text-davinci-001)"، [31] ثم بدأت اختبار بيتا لنموذج "كود دافنشي الثاني - (بالإنجليزية: code-davinci-002)". [33] ضُبط نموذج "دافنشي النصي الثاني" لاتباع التعليمات من نموذج "كود دافنشي الثاني". في نوفمبر 2022 أصدرت الشركة نموذجي "دافنشي النصي الثالث - (بالإنجليزية: text-davinci-003)" وشات جي بي تي، وكلاهما مبني على "دافنشي النصي الثاني" عبر التعلم المعزز من التغذية الراجعة البشرية (RLHF). دُرب نموذج "دافنشي النصي الثالث" على اتباع التعليمات (مثل سابقاتها)، بينما دُرب "شات جي بي تي" بشكل أكبر على التفاعل الحواري مع مُستخدم بشري. [32][33]
أصدرت شركة أوبن أيه آي نموذج جي بي تي-4 وهو أحدث نموذج جي بي تي أساسي في 14 مارس 2023. وأتاحت للمستخدمين الوصول إليه مُباشرةً من خلال إصدار مُميز من "شات جي بي تي"، وأتاحت للمطورين دمجه في المنتجات والخدمات الأخرى عبر واجهة برمجة التطبيقات. من بين المُنتجين الآخرين لنماذج جي بي تي الأساسية شركة "إليوثير أيه آي" ولها سلسلة من النماذج بدأت إصدارها في مارس 2021، [11] وشركة "سيريبراس" ولها سبعة نماذج بدأت اصدارها في مارس 2023. [12]
النماذج الأساسية
النموذج الأساسي هو نموذج ذكاء اصطناعي دُرب على بيانات واسعة النطاق ويمكن تكييفه لمجموعة متنوعة من المهام اللاحقة. [34][35]
تُعتبر هذه النماذج الأساسية الأكثر بروزًا في سلسلة نماذج "جي بي تي" من أوبن أيه آي، وأحدثها هو جي بي تي-4 الذي رفضت أوبن أيه آي نشر حجم النموذج أو تفاصيل تدريبه مشيرة إلى "البيئة التنافسية والآثار الأمنية للنماذج الكبيرة". [36]
من النماذج الأخرى نموذج بالم من جوجل، وهو نموذج أساسي شامل يُقارن بجي بي تي-3، وهو متاح للمطورين عبر واجهة برمجة التطبيقات (API)،[43][44] ونموذج "جي بي تي-جي تي - (بالإنجليزية: GPT-JT)" من توقيذر، والذي يُعتبره البعض أقرب بديل مفتوح المصدر لجي بي تي-3 وهو مشتق من نماذج جي بي تي مفتوحة المصدر السابقة.[45] كما أن لدى "ميتا أيه آي" (المعروفة سابقًا باسم فيسبوك) نموذجًا كبيرًا قائمًا على التحويلات التوليدية، يُعرف باسم لاما[الإنجليزية]. [46]
يمكن أن تستخدم النماذج الأساسية أنماطًا أخرى غير النصوص كمدخلات أو مخرجات. ويعد نموذج جي بي تي-4 نموذجًا متعدد الوسائط له القدرة على مُعالجة المدخلات كنص أو صورة، وتقتصر مخرجاته على النصوص. [47] فيما يتعلق بالإخراج متعدد الوسائط، تُستخدم بعض النماذج التوليدية القائمة على المحولات لتقنيات في تقنيات تحويل النص إلى صورة، مثل نماذج الانتشار وفك التشفير المتوازي. [48][49] يمكن أن تكون هذه الأنواع من النماذج بمثابة نماذج أساسية مرئية (VFMs) لتطوير أنظمة لاحقة يُمكنها العمل مع الصور. [50]
النماذج المخصصة للمهام
يمكن تكييف نموذج جي بي تي الأساسي بشكل أكبر لإنتاج أنظمة أكثر استهدافًا موجهة إلى مهام مُحددة و/أو مجالات موضوعية. يمكن أن تتضمن أساليب هذا التكييف ضبطًا دقيقًا إضافيًا (إلى جانب ما يُجرى للنموذج الأساسي) بالإضافة إلى أشكال مُعينة من هندسة المُطالبات. [51]
من الأمثلة المهمة على ذلك ضبط النماذج بدقة لاتباع التعليمات، وهي بالطبع مهمة واسعة إلى حد ما ولكنها أكثر استهدافًا من النموذج الأساسي. في يناير 2022، قدمت أوبن أيه آي "انستركت جي بي تي - (بالإنجليزية: InstructGPT)" - وهي سلسلة من النماذج التي ضُبطت بدقة لاتباع التعليمات باستخدام مزيج من التدريب المُراقب والتعلم المعزز من التغذية الراجعة البشرية (RLHF) على نماذج لغة جي بي تي-3 الأساسية. [52][53] تشمل المزايا التي يتمتع بها هذا على النماذج الأساسية المجردة دقة أعلى، ومشاعر سلبية/سامة أقل، ومحاذاة أفضل بشكل عام مع احتياجات المستخدم. لذلك، بدأت أوبن أيه آي في استخدام هذا كأساس لعروض خدمة واجهة برمجة التطبيقات الخاصة بها. [54] تم إصدار نماذج أخرى مُضبوطة للتعليمات من قبل آخرين، بما في ذلك إصدار مفتوح بالكامل. [55][56]
نوع آخر (ذو صلة) من النماذج المُخصصة للمهام هو روبوتات الدردشة، التي تُشارك في محادثة تُشبه الإنسان. في نوفمبر 2022 أطلقت أوبن أيه آي "شات جي بي تي" - وهي واجهة دردشة عبر الإنترنت تعمل بواسطة نموذج لغة مُضبوط للتعليمات دُرب بطريقة مُشابهة لـ "انستركت جي بي تي". [57] قاموا بتدريب هذا النموذج باستخدام التعلم المعزز من التغذية الراجعة البشرية، حيث يُجري مُدربو الذكاء الاصطناعي البشري محادثات يلعبون فيها دور كل من المستخدم والذكاء الاصطناعي، وخلطوا مجموعة بيانات الحوار الجديدة هذه مع مجموعة بيانات "انستركت جي بي تي" للحصول على تنسيق محادثة مُناسب لروبوت الدردشة. تشمل روبوتات الدردشة الرئيسية الأخرى حاليًا بينغ شات من مايكروسوفت، الذي يستخدم جي بي تي-4 من أوبن أيه آي (كجزء من تعاون وثيق أوسع بين أوبن أيه آي ومايكروسوفت)، [58] وروبوت الدردشة المُنافس من جوجل، بارد الذي أعتمد في البداية على عائلة لامدا من نماذج اللغات المُدربة على المحادثة، مع خطط لتحويله إلى نماذج بالم. [59]
نوع آخر من المهام التي يُمكن استخدام جي بي تي من أجلها هو المهمة الفوقية المتمثلة في إنشاء تعليماته الخاصة، مثل تطوير سلسلة من المُطالبات "لنفسها" لتكون قادرة على تحقيق هدف أكثر عمومية يُحدده مُستخدم بشري. [60] يُعرف هذا باسم وكيل الذكاء الاصطناعي، وبشكل أكثر تحديدًا وكيل تكراري لأنه يستخدم نتائج تعليماته الذاتية السابقة لمساعدته في تشكيل مُطالباته اللاحقة؛ كان المثال الرئيسي الأول على ذلك هو أوتو جي بي تي[الإنجليزية] (الذي يستخدم نماذج جي بي تي من أوبن أيه آي)، ومنذ ذلك الحين طُورت نماذج أخرى أيضًا. [61]
تعددية الوسائط
يمكن أيضًا استهداف الأنظمة التوليدية القائمة على المحولات للمهام التي تتضمن أساليب تتجاوز النص. على سبيل المثال يجمع "شات جي بي تي المرئي" من مايكروسوفت بين "شات جي بي تي" ونماذج الرؤية الأساسية (VFMs) لتمكين الإدخال أو الإخراج الذي يشتمل على صور بالإضافة إلى نص. [62] أيضًا تُوفر التطورات في تقنية تحويل النص إلى كلام أدوات لإنشاء محتوى صوتي عند استخدامها جنبًا إلى جنب مع نماذج لغة جي بي تي الأساسية. [63]
تخصص المجال
يمكن توجيه أنظمة جي بي تي نحو مجالات أو نطاقات مُعينة. فيما يلي بعض الأمثلة لهذه النماذج والتطبيقات:
EinsteinGPT - لمجالات المبيعات والتسويق، للمساعدة في إدارة علاقات العملاء (يستخدم جي بي تي-3.5). [13][64]
BloombergGPT - للمجال المالي، للمساعدة في الأخبار والمعلومات المالية (يستخدم أساليب الذكاء الاصطناعي "المُتاحة مجانًا"، جنبًا إلى جنب مع بياناتهم الخاصة). [65]
Khanmigo - يُوصف بأنه إصدار جي بي تي للتدريس، يُساعد الطلاب الذين يستخدمون أكاديمية خان من خلال إرشادهم خلال دراساتهم دون تقديم إجابات مُباشرة (مدعوم من جي بي تي-4). [66][67]
SlackGPT - لخدمة المراسلة الفورية سلاك، للمساعدة في التنقل وتلخيص المُناقشات عليها (يستخدم واجهة برمجة تطبيقات أوبن أيه آي). [68]
BioGPT - للمجال الطبي الحيوي، للمساعدة في توليد النصوص واستخراج البيانات من الأدبيات الطبية الحيوية (يستخدم جي بي تي-2). [69]
في بعض الأحيان، تُحقق خصوصية المجال عبر المكونات الإضافية للبرامج أو الإضافات. على سبيل المثال، طورت العديد من الشركات المختلفة مكونات إضافية مُعينة تتفاعل مُباشرةً مع واجهة "شات جي بي تي" من أوبن أيه آي، [70][71] ولدى جوجل ورك سبيس إضافات مُتاحة مثل (بالإنجليزية: GPT for Sheets and Docs) والتي يُقال إنها تُساعد في استخدام وظائف جداول البيانات في جداول بيانات جوجل. [72][73]
في نوفمبر 2023، أعلنت أوبن أيه آي أنها ستُتيح لمُشتركي "شات جي بي تي بلس" إنشاء إصدارات مُخصصة من "شات جي بي تي" تُسمى "جي بي تيز - (بالإنجليزية: GPTs)". [74][75] بحيث يُمكن تخصيصها لمجالات مُحددة عبر هندسة المُطالبات، ومجموعات البيانات المُنسقة، والتفاعل المُستهدف مع الأدوات الخارجية. ويمكن للمستخدمين الذين يُسجلون كمُنشئين مُتحققين إتاحة الـ "جي بي تيز" للمستخدمين آخرين، مع إمكانية تحقيق الدخل منها. (هذا يختلف بشكل ملحوظ عن خدمة واجهة برمجة تطبيقات أوبن أيه آي، حيث يعتمد هذا داخليًا على منصة أوبن أيه آي.)[76]
قضايا العلامة التجارية
أكدت شركة أوبن أيه آي، التي أنشأت أول محول توليدي مُدرّب مُسبقًا (GPT) في عام 2018، مؤخرًا أنه يجب اعتبار "جي بي تي" علامة تجارية خاصة بها. [77] وفي أبريل 2023 عدلت إرشادات العلامة التجارية في شروط الخدمة[الإنجليزية] الخاصة بها للإشارة إلى أن الشركات الأخرى التي تستخدم واجهة برمجة التطبيقات الخاصة بها لتشغيل خدمات الذكاء الاصطناعي الخاصة بها لن تتمكن بعد الآن من تضمين "جي بي تي" في مثل هذه الأسماء أو العلامات التجارية. [36] في مايو 2023 تعاقدت أوبن أيه آي مع خدمة إدارة العلامات التجارية لإخطار عملاء واجهة برمجة التطبيقات الخاصة بها بهذه السياسة، على الرغم من أن هذه الإخطارات لم تصل إلى حد تقديم مُطالبات قانونية علنية (مثل مزاعم انتهاك العلامات التجارية[الإنجليزية] أو خطاب التوقف والكف[الإنجليزية]). [7] في نوفمبر 2023 بدأت في تمكين مُشتركي "شات جي بي تي بلس" من إنشاء إصدارات مُخصصة من "شات جي بي تي" والتي تُسمى "جي بي تيز - GPTs" على موقع أوبن أيه آي. [78][79] تنص شروط خدمة أوبن أيه آي على أنه يجوز لمُشتركيها استخدام "جي بي تي" في أسماء هذه الإصدارات، على الرغم من أنه "غير مُشجع". [11]
وبشكل مُتصل، تقدمت أوبن أيه آي إلى مكتب الولايات المتحدة لبراءات الاختراع والعلامات التجارية (USPTO) للحصول على تسجيل علامة تجارية محلية لمُصطلح "جي بي تي - GPT" في مجال الذكاء الاصطناعي. [7] سعت أوبن أيه آي إلى تسريع معالجة طلبها، لكن مكتب البراءات رفض هذا الطلب في أبريل 2023. [80] في مايو 2023 رد مكتب البراءات على الطلب بتحديد أن "جي بي تي" كان وصفًا عامًا. [81] اعتبارًا من نوفمبر 2023، تُواصل أوبن أيه آي مُتابعة حجتها من خلال العمليات المُتاحة. بغض النظر عن ذلك، فإن عدم الحصول على علامة تجارية أمريكية مُسجلة لا يحول دون مستوى مُعين من حقوق العلامات التجارية بموجب القانون العام في الولايات المتحدة، [82] و/أو حقوق العلامات التجارية في دول أخرى. [83]
بالنسبة لأي نوع أو نطاق من حماية العلامات التجارية في الولايات المتحدة، ستحتاج أوبن أيه آي إلى إثبات أن المصطلح "مُميز" بالفعل لعروضها المُحددة بالإضافة إلى كونه مُصطلحًا تقنيًا أوسع لنوع التكنولوجيا. أشارت بعض التقارير الإعلامية إلى أن أوبن أيه آي قد تتمكن من الحصول على تسجيل علامة تجارية بشكل غير مُباشر بناءً على شهرة منتج روبوت الدردشة "شات جي بي تي"، [12][84] الذي سعت أوبن أيه آي للحصول على حماية له بشكل مُنفصل وسعت لفرضه بقوة أكبر. [85]
تُشير تقارير أخرى إلى أنه من غير المرجح منح تسجيلًا للعلامة التجارية "GPT وحده، [7][86] نظرًا للاستخدام المتكرر للمصطلح للإشارة ببساطة إلى أنظمة الذكاء الاصطناعي التي تنطوي على المحولات التوليدية المدربة مسبقًا. [4][87][88][89] وفي كل الأحوال سيحتاج الآخرون إلى تجنب استخدام المصطلح لمنتجات أو خدمات مُماثلة بطرق يُحتمل أن تُسبب ارتباكًا. [28][90] لكن إذا أصبحت هذه الحقوق واسعة النطاق بما يكفي لتوريط استخدامات أخرى راسخة في هذا المجال، فإن مبدأ الاستخدام العادل الوصفي للعلامات التجارية لا يزال يُمكن أن يُواصل الاستخدام غير المُتعلق بالعلامة التجارية. [91]
قائمة المراجع المُختارة
فيما يلي قائمة بالإصدارات الرسمية الرئيسية من "أوبن أيه آي"، ومايكروسوفت حول نماذج GPT الخاصة بهم:
Devlin، Jacob؛ Chang، Ming-Wei؛ Lee، Kenton؛ Toutanova، Kristina (24 مايو 2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". Association for Computational Linguistics. arXiv:1810.04805v2.
Erhan, Dumitru; Courville, Aaron; Bengio, Yoshua; Vincent, Pascal (31 Mar 2010). "Why Does Unsupervised Pre-training Help Deep Learning?". Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics (بالإنجليزية). JMLR Workshop and Conference Proceedings. Retrieved 2024-10-28.
Nakano، Reiichiro؛ Hilton، Jacob؛ Balaji، Suchir؛ Wu، Jeff؛ Ouyang، Long؛ Kim، Christina؛ Hesse، Christopher؛ Jain، Shantanu؛ Kosaraju، Vineet؛ Saunders، William؛ Jiang، Xu؛ Cobbe، Karl؛ Eloundou، Tyna؛ Krueger، Gretchen؛ Button، Kevin (01 ديسمبر 2021). "WebGPT: Browser-assisted question-answering with human feedback". CoRR. arXiv:2112.09332. اطلع عليه بتاريخ 2024-10-28.
Ouyang، Long؛ Wu، Jeff؛ Jiang، Xu؛ وآخرون (4 نوفمبر 2022). "Training language models to follow instructions with human feedback". NeurIPS. arXiv:2203.02155.
Vaswani، Ashish؛ Shazeer، Noam؛ Parmar، Niki؛ Uszkoreit، Jakob؛ Jones، Llion؛ Gomez، Aidan N؛ Kaiser، Łukasz؛ Polosukhin، Illia (2017). "Attention is All you Need"(PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 30. مؤرشف من الأصل(pdf) في 2024-02-21. اطلع عليه بتاريخ 2024-10-28.