التوثيق
خلاصة
في الآونة الأخيرة، اكتسبت برامج المحادثة الآلية اهتمامًا كبيرًا بفضل تفاعلاتها باللغة الطبيعية. ومع ذلك، لا يزال تطوير برامج المحادثة الآلية التي تتمتع بوعي سياقي واستجابات متنوعة أمرًا صعبًا.
يهدف مشروعنا إلى تطوير وكلاء المحادثة الذين يتمتعون بصفات فريدة. سيتم تمثيل هؤلاء الوكلاء بصريًا من خلال تجسيدات لشخصيات تاريخية مثل نابليون بونابرت وألبرت أينشتاين. سيعزز هذا النهج التفاعل ويعكس السياق التاريخي. نخطط للتوسع إلى ما هو أبعد من التفاعلات القائمة على النص واستكشاف دمج طرق إضافية، مثل الصوت أو الكاميرات. يهدف هذا الجهد إلى خلق تجربة اتصال أكثر شمولاً وطبيعية.
لتحقيق ذلك، سنستخدم نماذج لغوية مُدرَّبة مسبقًا مثل Microsoft Phi-2 كأساس ونقوم بضبطها بشكل فردي لكل شخصية. ستتضمن هذه العملية تصميم نماذج لغوية وفقًا للسياق التاريخي المحدد والشخصية وقاعدة المعرفة لكل شخصية. يعتمد نهجنا على استخدام نقاط القوة في LLMs لتوليد نص يشبه الإنسان. نخطط لضبط النماذج الفردية لكل شخصية لضمان توافق كل استجابة مع سماتها الفريدة وأنماط كلامها. يساعد هذا في إنشاء محادثات أكثر جاذبية وغامرة.
إن تطبيقات وكلاء الذكاء الاصطناعي الذين يحاكيون الشخصيات التاريخية واسعة النطاق وتقدم قيمة كبيرة في مختلف المجالات. ففي التعليم، يمكن أن تعمل هذه الوكلاء كمعلمين افتراضيين شخصيين، حيث يجلبون الشخصيات التاريخية إلى الحياة ويسهلون تجارب التعلم التفاعلية التي تعزز الفهم والتفكير النقدي. وفي صناعة الترفيه، تخلق هذه الوكلاء تجارب غامرة وآسرة من خلال تمكين الجماهير من المشاركة في سرد القصص التفاعلية والألعاب وتجارب الواقع الافتراضي مع شخصيات شهيرة من التاريخ. ويمكن للمتاحف والمواقع التاريخية استخدامها لتزويد الزوار بتجربة أكثر تفاعلية وإثراءً من خلال دمج التفاعلات الافتراضية مع الشخصيات التاريخية في المعارض.
وإلى جانب هذه المجالات المحددة، تمتد تطبيقات هذه العوامل إلى أي مجال قد يكون فيه التفاعل مع الشخصيات التاريخية مفيدًا، مثل الرعاية الصحية والأعمال التجارية.
وبشكل عام، فإن هؤلاء الوكلاء لديهم القدرة على تعميق فهمنا للماضي، وإعلامنا بالحاضر، وإلهام مستقبلنا.
مقدمة
تعريف المشكلة
تساعدنا دراسة التاريخ على التعلم من الماضي، واتخاذ خيارات أفضل للمستقبل، وتطوير مهارات التفكير النقدي. قد لا تكون دراسة التاريخ ممتعة، وقد يكون البحث يدويًا عن شخصيات أو أحداث تاريخية محددة أمرًا مرهقًا. وقد تكون هذه مهمة شاقة.
تحفيز
هدفنا من هذا المشروع هو استخدام التكنولوجيا المتقدمة لتحسين قدرة برامج المحادثة الآلية على فهم الاستفسارات التاريخية والرد عليها بمستوى أعلى من الدقة السياقية. وبفضل هذا التحسين، سيحظى الطلاب بتجربة تعليمية أكثر جاذبية ومتعة أثناء دراسة التاريخ بمساعدة برامج المحادثة الآلية.
التطبيقات
تتنوع تطبيقات وكلاء الذكاء الاصطناعي الذين يحاكيون الشخصيات التاريخية وتقدم قيمة كبيرة في مختلف المجالات، بما في ذلك:
- التعليم : يمكن لهؤلاء الوكلاء أن يعملوا كمعلمين افتراضيين مخصصين، حيث يجلبون الشخصيات التاريخية إلى الحياة ويسهلون تجارب التعلم التفاعلية التي تعزز الفهم والتفكير النقدي. يمكن لهؤلاء المعلمين نسج سرد، بدلاً من الحقائق الجافة والبحث في العديد من الموارد، يمكنهم غمرك في الأحداث التاريخية من خلال سرد القصص التفاعلية في مكان واحد. تخيل يوليوس قيصر يرشدك عبر ساحات المعارك في بلاد الغال، أو ماري كوري تشارك اكتشافاتها العلمية في مختبرها. يمكن لهؤلاء المعلمين إثارة الفضول، وتقديم وجهات نظر متنوعة وقصص مخفية واتصالات غير متوقعة، مما يثير اهتمامك ويحفزك على الخوض بشكل أعمق. ينبض التاريخ بالحياة، ويكشف عن تعقيداته وأسراره. يمكن لهؤلاء المعلمين تعزيز الفهم، وتخصيص تفسيراتهم لفهمك، وتقديم معلومات إضافية، أو توضيح المفاهيم المعقدة. فكر فيهم كمعلمين صبورين وقادرين على التكيف يضبطون وتيرتهم بناءً على احتياجاتك.
- الترفيه : يمكنهم خلق تجارب غامرة وآسرة من خلال تمكين الجماهير من المشاركة في سرد القصص التفاعلية والألعاب وتجارب الواقع الافتراضي مع شخصيات بارزة من التاريخ.
- المتاحف والمواقع التاريخية : يمكنها أن توفر للزوار تجربة أكثر تفاعلية وإثراءً من خلال دمج التفاعلات الافتراضية مع الشخصيات التاريخية في المعروضات.
من خلال الاستفادة من نهج النماذج المتعددة، يمكن لأنظمة الحوار تحقيق مستوى أعلى من التوصيف، مما يوفر للمستخدمين تجارب أكثر تخصيصًا وغامرة. من خلال الالتزام بهذه الإرشادات، يمكن للمطورين إنشاء روبوتات محادثة تقدم تجربة مستخدم سلسة وبديهية، مما يجعلها أدوات لا غنى عنها لتطبيقات مختلفة، بما في ذلك خدمة العملاء واسترجاع المعلومات والترفيه.
أعمال ذات صلة
يتطور مجال وكلاء المحادثة بسرعة، مع التركيز المتزايد على تعزيز فهمهم للسياق، وتوليد الاستجابة، والمشاركة الشاملة. يستكشف هذا المشروع نهجًا متعدد الجوانب لتحقيق هذه الأهداف.
نماذج لغوية كبيرة
وكلاء المحادثة مع الصور الرمزية المجسدة
- FurChat: استكشف هذا المشروع نهجًا مشابهًا للجمع بين نموذج لغوي كبير (LLM) ورمز مجسد للتفاعل البشري. أظهر FurChat إمكانية إجراء محادثات جذابة ومفيدة في بيئة مادية. ومع ذلك، فقد ركز على استرجاع المعلومات العامة، وليس المساعدة الخاصة بمجال محدد.
- إيريكا: طور هذا المشروع روبوتًا اجتماعيًا مجسدًا يتمتع بقدرات حوار متقدمة. ورغم عدم استخدام الروبوتات المجسمة، سلطت إيريكا الضوء على إمكانات الوكلاء المجسدين في المشاركة العاطفية والتفاعل الاجتماعي.
نماذج اللغة الكبيرة في الوكلاء المحادثة
- LaMDA: يوضح مشروع الذكاء الاصطناعي من Google قوة برامج الماجستير في القانون في توليد حوار يشبه الحوار البشري. ومع ذلك، يركز LaMDA على سيناريوهات المحادثة المفتوحة ولا يتناول الخبرة في مجال محدد.
- Phi-2: يوفر هذا أساسًا متاحًا بسهولة لبناء سلطات التصديق المتقدمة (على سبيل المثال، [Radford et al.، 2022]). إنه محول يحتوي على 2.7 مليار معلمة. تم تدريبه باستخدام نفس مصادر البيانات مثل Phi-1.5، مع تعزيزه بمصدر بيانات جديد يتكون من نصوص اصطناعية مختلفة لمعالجة اللغة الطبيعية ومواقع ويب مفلترة (للسلامة والقيمة التعليمية). عند تقييمه مقابل معايير اختبار الفطرة السليمة وفهم اللغة والمنطق، سلط Phi-2 الضوء على أداء متطور بين النماذج التي تحتوي على أقل من 13 مليار معلمة. كما أنه يستخدم موتر الأمان لتقليل السمية والتحيز في النص الناتج. يحتوي على 24 طبقة و32 رأس انتباه وحجم مخفي يبلغ 40962 مع طول سياق يبلغ 2048 رمزًا. يستخدم هدف التنبؤ بالكلمة التالية للتعلم من بيانات التدريب. أثناء التدريب، تم تدريبه على مجموعة بيانات بحجم 250B من الرموز على وحدة معالجة رسومية 96xA100-80G لمدة 14 يومًا (حوالي أسبوعين)، وهي عبارة عن مزيج من بيانات NLP الاصطناعية التي تم إنشاؤها بواسطة AOAI GPT-3.5 وبيانات الويب المفلترة من Falcon RefinedWeb وSlimPajama، والتي تم تقييمها بواسطة AOAI GPT-4.
- Llama-2: هذه عائلة من نماذج اللغة الكبيرة المدربة مسبقًا والمُضبوطة جيدًا والتي أصدرتها Meta AI في عام 2023. هذه النماذج متاحة مجانًا لأغراض البحث والأغراض التجارية، مما جذب اهتمامًا كبيرًا في مجتمع الذكاء الاصطناعي. يشير إلى عائلة من نماذج اللغة الكبيرة من الجيل الثاني التي طورتها Meta. تم تصميم هذه النماذج لمهام معالجة اللغة الطبيعية المختلفة، بما في ذلك إنشاء الحوار وإكمال النص. وهي متاحة للاستخدام البحثي والتجاري. Llama 2 هو محول محسن للغة بالانحدار التلقائي. تستخدم الإصدارات المضبوطة الضبط الدقيق الخاضع للإشراف (SFT) والتعلم التعزيزي مع ردود الفعل البشرية (RLHF) للتوافق مع التفضيلات البشرية للمساعدة والسلامة. لديها إصدارات متعددة، وهي 7B و13B و70B بطول سياق يبلغ 4K رمز.
- Megatron-Turing NLG: يسلط هذا النموذج من NVIDIA الضوء على إمكانات LLMs في توليد لغة واقعية. ومع ذلك، فهو يركز في المقام الأول على تلخيص الحقائق ويفتقر إلى قدرات الحوار التفاعلي اللازمة للوكيل المحادث.
- BlenderBot: يستكشف مشروع الذكاء الاصطناعي هذا التابع لفيسبوك برامج الماجستير في القانون للحوار في المجالات المفتوحة مع التركيز على الأسس الواقعية. ورغم إحرازه تقدمًا، فإنه لا يزال يواجه تحديات في تحقيق مساعدة قوية ومتسقة في مجالات محددة.
وكلاء المحادثة المحددين للمجال
لقد طورت العديد من الصناعات روبوتات الدردشة لأداء مهام محددة مثل خدمة العملاء أو الدعم الفني. ومع ذلك، غالبًا ما تفتقر هذه الروبوتات إلى التجسيد والقدرات المتعددة الوسائط التي يتمتع بها مشروعك.
- ميتسوكو: يُظهِر روبوت المحادثة هذا أداءً رائعًا في مهام المحادثة في المجال المفتوح. ومع ذلك، فإنه يفتقر إلى التجسيد والتركيز على المجال المحدد لمشروعك
- Cleverbot: يتعلم روبوت المحادثة عبر الإنترنت هذا من خلال تفاعلات المستخدم ولكنه لا يستفيد من المعرفة الخاصة بالمجال أو درجات الماجستير في القانون.
رؤية الكمبيوتر
توليد فيديو Talking Head
إن إنشاء مقاطع فيديو لرأس متحدث من صورة وجه واحد وصوت كلام محفوف بالتحديات، مثل حركات الرأس غير الطبيعية، وتعبيرات الوجه المشوهة، والتعديلات على هوية الموضوع. تُعزى هذه المشكلات إلى الاعتماد على التعلم من حقول الحركة ثنائية الأبعاد المقترنة، والتي يمكن أن تؤدي إلى نتائج غير طبيعية وغير متماسكة. علاوة على ذلك، وجد أن استخدام المعلومات ثلاثية الأبعاد الصريحة يؤدي إلى مجموعة خاصة به من المشاكل، مثل التعبيرات الجامدة ومقاطع الفيديو التي تفتقر إلى التماسك. أحد أقوى النماذج هو SadTalker. لمعالجة هذه التحديات، تم تطوير SadTalker. يولد هذا النظام معاملات حركة ثلاثية الأبعاد، بما في ذلك وضع الرأس وتعبيرات الوجه، من الصوت باستخدام نموذج قابل للتشكيل ثلاثي الأبعاد (3DMM) ويعدل عرض وجه جديد يدرك الأبعاد الثلاثية لإنشاء مقاطع فيديو لرأس متحدث. يتميز SadTalker بنمذجة صريحة للاتصالات بين الصوت والعديد من أنواع معاملات الحركة بشكل فردي، مما يساعد في تحقيق تعبيرات وجه وحركات رأس أكثر دقة. لتعلم معاملات الحركة الواقعية، قمنا بإنشاء نماذج صريحة للارتباطات بين الصوت والعديد من أنواع معاملات الحركة بشكل فردي. على وجه التحديد، نقدم ExpNet لتعلم تعبيرات الوجه الدقيقة من الصوت من خلال تقطير كل من المعاملات والوجوه المرسومة بتقنية ثلاثية الأبعاد.
عناصر
- ExpNet: تم تصميم هذا المكون لتعلم تعبيرات الوجه الدقيقة مباشرة من الصوت. وهو يفعل ذلك من خلال استخلاص المعلومات من معاملات الحركة والوجوه المرسومة بتقنية ثلاثية الأبعاد، مما يساعد في التقاط الفروق الدقيقة في تعبيرات الوجه المتزامنة مع الصوت.
- PoseVAE: هو برنامج ترميز ذاتي متغير مشروط يقوم بتوليف حركات الرأس بأنماط متعددة. وهذا يسمح بإنشاء حركات رأس طبيعية تتوافق مع أسلوب الكلام، مما يساهم في الواقعية الشاملة للفيديو.
- تعيين النقاط الرئيسية ثلاثية الأبعاد: يتم تعيين معاملات الحركة ثلاثية الأبعاد التي تم إنشاؤها بواسطة SadTalker على مساحة النقاط الرئيسية ثلاثية الأبعاد غير الخاضعة للإشراف في عرض الوجه المقترح. يعد هذا التعيين أمرًا بالغ الأهمية لتوليف الفيديو النهائي، مما يضمن انعكاس الحركة بدقة في الناتج المرئي.
فوائد
- النمذجة الفردية: إن النمذجة الصريحة لاتصالات الصوت والحركة للتعبير والوضعية تؤدي إلى تحسين الواقعية.
- التعلم القائم على التقطير: يعزز التعلم من ExpNet من المعاملات والوجوه المقدمة دقة التعبير.
- التحكم في الأسلوب: يتيح PoseVAE إنشاء حركة للرأس باستخدام أنماط متعددة تعتمد على الصوت.
- النقاط الرئيسية ثلاثية الأبعاد غير الخاضعة للإشراف: إن رسم الخرائط لهذه المساحة يستفيد من المعلومات ثلاثية الأبعاد دون إدخال أي تصلب أو عدم تماسك.
التجارب
لقد أجريت تجارب مكثفة للتحقق من فعالية SadTalker. وقد أظهرت هذه الدراسات تفوق هذه الطريقة في واقعية الحركة وجودة الفيديو، متفوقة بذلك على الأساليب الحالية في هذا المجال. كما أظهرت التجارب المكثفة تفوق SadTalker من حيث:
- طبيعية الحركة: حركات الرأس أكثر واقعية وتنوعًا مقارنة بالطرق الأخرى.
- جودة التعبير: تعبيرات وجهية دقيقة وواضحة تعتمد على الصوت.
- جودة الفيديو: جودة أعلى بشكل عام والحفاظ على الهوية.
المنهجية
نماذج لغوية كبيرة
لتصميم وتطوير روبوتات الدردشة الفعالة التي يمكنها إشراك المستخدمين في محادثات طبيعية ومخصصة، يجب مراعاة الإرشادات التالية:
- جمع البيانات ومعالجتها: لكل شخصية، قم بجمع مجموعة كبيرة من النصوص التي تعكس أنماط الكلام والشخصيات الفريدة لكل شخصية. يمكن أن تتضمن هذه البيانات الحوار والمونولوج ومصادر نصية أخرى ذات صلة. باستخدام كشط الويب، سنقوم بجمع ومعالجة البيانات حول أينشتاين ونابليون، وتحويلها إلى تنسيق أسئلة وأجوبة.
- استكشاف النماذج المدربة مسبقًا للاستفادة من التطورات الحالية: اختر نماذج لغوية كبيرة مدربة مسبقًا ومناسبة، كأساس لنموذج كل شخصية لتوفير الوقت والموارد. قائمة نماذج اللغة الكبيرة المقترحة:
- Phi-2: يوفر هذا أساسًا جاهزًا لبناء سلطات التصديق المتقدمة. يوفر هذا أساسًا جاهزًا لبناء سلطات التصديق المتقدمة.
- Llama-2: هذه عائلة من نماذج اللغة الكبيرة (LLM) المدربة مسبقًا والمضبوطة جيدًا والتي أصدرتها Meta AI في عام 2023. هذه النماذج متاحة مجانًا لأغراض البحث والأغراض التجارية، مما جذب اهتمامًا كبيرًا في مجتمع الذكاء الاصطناعي.
- استخدام نهج متعدد النماذج لتعزيز التفاعل بين الوكلاء: في الأنظمة التفاعلية التي تتضمن وكلاء تفاعليين، يمكن وصف كل شخصية بطريقتها المميزة في التواصل. ويمكن أن يشمل ذلك اختيار الكلمات، وبنية الجملة، ونبرة الصوت، وغير ذلك من السمات اللغوية التي تساعد في تحديد شخصيتها وهويتها. ويمكن أن يؤدي استخدام نهج متعدد النماذج إلى تعزيز قدرة النظام على توليد استجابات متنوعة ومحددة للشخصية.
- ضبط النماذج الفردية باستخدام نهج النماذج المتعددة: إنشاء روبوتات محادثة مصممة خصيصًا للخصائص والشخصيات المحددة لكل شخصية تاريخية. ضبط كل نموذج مدرب مسبقًا على مجموعة البيانات الخاصة بكل شخصية. يتضمن هذا ضبط معلمات النموذج لتحسين أدائه في مهمة إنشاء نص بأسلوب تلك الشخصية.
رؤية الكمبيوتر
لدمج نظام الرؤية الحاسوبية في نظام الدردشة المباشرة لدينا، نحتاج إلى إضافة نظام Talking Face Animator. إن إنشاء مقاطع فيديو واقعية لرأس متحدث باستخدام صورة وجه واحد وصوت يطرح العديد من التحديات، بما في ذلك حركات الرأس غير الطبيعية، والتعبيرات المشوهة، وفقدان الهوية. تزعم هذه الورقة أن هذه المشكلات تنبع من التعلم من حقول الحركة ثنائية الأبعاد المقترنة. في حين أن استخدام المعلومات ثلاثية الأبعاد بشكل مباشر يمكن أن يحسن الواقعية، إلا أنه يمكن أن يؤدي أيضًا إلى تعبيرات جامدة ومقاطع فيديو غير متماسكة. SadTalker، يقترح هذا العمل نهجًا جديدًا، SadTalker، يستفيد من معاملات الحركة ثلاثية الأبعاد (وضع الرأس، التعبير) ويعدل ضمناً برنامج تقديم الوجه المدرك ثلاثي الأبعاد لإنشاء رؤوس متحدثة.
مراجع
- Zhang, W., Cun, X., Wang, X., Zhang, Y., Shen, X., Guo, Y., Shan, Y., & Wang, F. (2023). SadTalker: تعلم معاملات الحركة ثلاثية الأبعاد الواقعية للرسوم المتحركة للوجوه المتحدثة ذات الصورة الواحدة الموجهة بالصوت. رؤية الكمبيوتر والتعرف على الأنماط (CVPR).
- https://huggingface.co/microsoft/phi-2
- دليل شامل لضبط نموذج Microsoft Phi-2 (دفتر ملاحظات مجاني) | بقلم محمد أحمد كريشن | ديسمبر 2023 | Medium
- Hu, Z., Wang, L., Lan, Y., Xu, W., Lim, E., Bing, L., Xu, X., Poria, S., & Lee, RK-W. (2023). محولات LLM: عائلة محولات للضبط الدقيق الفعال للمعلمات لنماذج اللغة الكبيرة.
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2020). الصورة تساوي 16x16 كلمة: محولات للتعرف على الصور على نطاق واسع
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, AN, Kaiser, L., & Polosukhin, I. (2017). الاهتمام هو كل ما تحتاجه.
- https://sadtalker.github.io
- https://huggingface.co/spaces/vinthony/SadTalker
- تشانغ، وينشوان وكون، شياو دونغ ووانغ، شوان وتشانغ، يونغ وشين، شي وغو، يو وشان، ينغ ووانغ، فاي. (2022). SadTalker: تعلم معاملات الحركة ثلاثية الأبعاد الواقعية من أجل الرسوم المتحركة للوجه الناطق الذي يحركه الصوت. 10.48550/arXiv.2211.12194.
- Zhang, W., Cun, X., Wang, X., Zhang, Y., Shen, X., Guo, Y., Shan, Y., & Wang, F. (2022). SadTalker: تعلم معاملات الحركة ثلاثية الأبعاد الواقعية للرسوم المتحركة للوجوه المتحدثة ذات الصورة الواحدة الموجهة بالصوت. ArXiv. /abs/2211.12194
- Zhang, W., Cun, X., Wang, X., Zhang, Y., Shen, X., Guo, Y., Shan, Y., & Wang, F. (2022). SadTalker: تعلم معاملات الحركة ثلاثية الأبعاد الواقعية للرسوم المتحركة للوجوه المتحدثة ذات الصورة الواحدة الموجهة بالصوت. ArXiv . /abs/2211.12194
- https://techxplore.com/news/2023-09-embodied-conversational-agent-merges-large.html
- https://www.sciencedirect.com/science/article/pii/S2666920X21000278
- تشيراكارا، س.، وويجراتني، هـ.، وبابادوبولوس، أ. (2023). وكيل محادثة مجسد يدمج نماذج لغوية كبيرة ومساعدة خاصة بالمجال. طبعة مسبقة من arXiv arXiv:2309.02684.
- إيشيغورو، هـ.، وأونو، ت.، وكوباياشي، م.، وإيكيدا، هـ. (2006). إيريكا: روبوت بحجم الإنسان يشبه الإنسان. أنظمة معهد مهندسي الكهرباء والإلكترونيات الذكية، 21(4)، 12-21.
- بريزيل، سي. (2006). تصميم الروبوتات الاجتماعية. مطبعة معهد ماساتشوستس للتكنولوجيا.
- أ. باروا، ومو أحمد، وس. بيجوم، "مراجعة منهجية للأدبيات حول التعلم الآلي متعدد الوسائط: التطبيقات والتحديات والفجوات والاتجاهات المستقبلية"، في IEEE Access، المجلد 11، ص 14804-14831، 2023، doi: 10.1109/ACCESS.2023.3243854.