يتم تدريب نموذج chatGPT على التنبؤ بالكلمة التالية في الجملة بناءً على الكلمات السابقة، لذلك فهو قادر على إنشاء إجابات متماسكة وصحيحة نحويًا استجابةً للاستعلامات. ويستخدم تقنية تسمى بنية المحولات المعروفة بقدرتها على التعامل مع كميات كبيرة من البيانات وقدرتها على نمذجة التبعيات بين الكلمات في الجملة. يتيح ذلك لـ ChatGPT إنشاء استجابات أكثر دقة وذات صلة بالسياق.
تم تدريب نموذج chatGPT ليعمل وفقًا لنية المستخدم. يستخدم نموذج GPT-3، والذي تم تطوير chatGPT عليه، التعلم المعزز من ردود الفعل البشرية (RLHF). تستخدم هذه التقنية التفضيلات البشرية كإشارة مكافأة، تُستخدم لضبط نماذج GPT. لإنشاء نموذج مكافأة للتعلم المعزز، يتم جمع بيانات المقارنة. تشتمل بيانات المقارنة على استجابتين نموذجيتين أو أكثر مرتبة حسب الجودة. يتم التصنيف بواسطة مدربي الذكاء الاصطناعي بناءً على الاستجابة الناتجة عن الرسائل المكتوبة بالنموذج. واستنادًا إلى عملية الحصد، يتم تدريب نماذج المكافآت للرد على استعلامات الإدخال. تظهر العملية في الشكل 1.