مساعد افتراضياالمساعد الافتراضي الذكي (IVA) أو المساعد الشخصي الذكي (IPA) هو وكيل برمجيات يمكنه أداء المهام أو الخدمات للفرد بناءً على أوامر أو أسئلة. أحيانًا يتم استخدام مصطلح «روبوت الدردشة» للإشارة إلى المساعدين الافتراضيين بشكل عام أو للوصول إليهم بشكل خاص من خلال الدردشة عبر الإنترنت. في بعض الحالات، تكون برامج الدردشة عبر الإنترنت مخصصة للأغراض الترفيهية حصريًا. يستطيع بعض المساعدين الافتراضيين تفسير الكلام البشري والاستجابة من خلال الأصوات المركبة. يمكن للمستخدمين طرح أسئلة على مساعديهم، والتحكم في أجهزة التشغيل الآلي للمنزل وتشغيل الوسائط عبر الصوت، وإدارة المهام الأساسية الأخرى مثل البريد الإلكتروني، وقوائم المهام والتقويمات باستخدام الأوامر الشفهية (المنطوقة).[1] أنظمة الحوار هو مفهوم مماثل، ولكن مع وجود اختلافات.[2] اعتبارًا من عام 2017، توسعت إمكانيات واستخدامات المساعدين الافتراضيين بسرعة، مع دخول منتجات جديدة إلى السوق وتركيز قوي على كل من واجهات مستخدم البريد الإلكتروني والصوت. لدى أبل وجوجل قواعد كبيرة مثبتة من المستخدمين على الهواتف الذكية. تمتلك مايكروسوفت قاعدة كبيرة مثبتة من أجهزة الكمبيوتر الشخصية والهواتف الذكية والسماعات الذكية المستندة إلى ويندوز. تمتلك أمازون قاعدة مثبتة كبيرة لمكبرات الصوت الذكية.[3] لدى كونفرسيكا أكثر من 100 مليون مشاركة عبر المساعدون الافتراضيون الذكيون للبريد الإلكتروني وواجهة الرسائل القصيرة للأعمال. التاريخالعقود التجريبية: 1910 - 1980كان راديو ريكس أول لعبة يتم تفعيلها بالصوت في عام 1911.[4] كان كلبًا يخرج من منزله عند مناداة اسمه. في عام 1952، قدمت مختبرات Bell آلة التعرف التلقائي على الأرقام Audrey. احتلت الآلة رف ترحيل بارتفاع ستة أقدام، واستهلكت طاقة كبيرة، وكان بها العديد من الكابلات وتعرضت لمشاكل صيانة عديدة مرتبطة بدوائر الأنابيب المفرغة المعقدة. يمكن للألة التعرف على الوحدات الأساسية للكلام، الصوتيات. كانت الآلة تقتصر على التعرف الدقيق على الأرقام التي يتحدث بها متحدثون معينون. لذلك، كان يمكن استخدامها للاتصال الصوتي، ولكن في معظم الحالات، كان الاتصال بالضغط على الزر أرخص وأسرع، بدلاً من التحدث بالأرقام المتتالية.[5] من الأدوات المبكرة الأخرى التي تم تمكينها لإجراء التعرف الرقمي على الكلام كانت الآلة الحاسبة التي يتم تنشيطها صوتيًا من IBM Shoebox، والتي تم تقديمها لعامة الناس خلال معرض سياتل العالمي عام 1962 بعد إطلاقتها الأولى في السوق عام 1961. هذا الكمبيوتر المبكر، الذي تم تطويره قبل 20 عامًا تقريبًا من إدخال أول كمبيوتر شخصي من آي بي إم في عام 1981، كان قادرًا على التعرف على 16 كلمة منطوقة وعلى الأرقام من 0 إلى 9. تم تطوير أول برنامج كمبيوتر لمعالجة اللغة الطبيعية أو روبوت الدردشة إليزا بواسطة الأستاذ جوزيف وايزنباوم في معهد ماساتشوستس للتكنولوجيا في الستينيات. تم إنشاؤه لـ«إثبات أن الاتصال بين الإنسان والآلة كان سطحيًا».[6] استخدمت إليزا منهجية مطابقة الأنماط والاستبدال في الاستجابات النصية لمحاكاة المحادثة، مما أعطى وهمًا بالفهم من جانب البرنامج. وبحسب ما ورد طلبت سكرتيرة وايزنباوم الخاصة من وايزنباوم مغادرة الغرفة حتى تتمكن هي وإليزا من إجراء محادثة حقيقية. تفاجأ وايزنباوم بهذا، وكتب لاحقًا: «لم أدرك... أن التعرض القصير للغاية لبرنامج كمبيوتر بسيط نسبيًا يمكن أن يحفز التفكير الوهمي القوي لدى الأشخاص العاديين تمامًا».[7] أُعطى هذا اسمًا لتأثير إليزا، والميل إلى افتراض أن سلوكيات الكمبيوتر دون وعي تشبه السلوكيات البشرية؛ وهذا هو، التجسيم، وهي ظاهرة موجودة في التفاعلات البشرية مع المساعدين الافتراضيين. تم تحقيق المَعلم التالي في تطوير تقنية التعرف على الصوت في السبعينيات في جامعة كارنيجي ميلون في بيتسبرغ، بنسلفانيا بدعم كبير من وزارة الدفاع الأمريكية ووكالة داربا التابعة لها، بتمويل خمس سنوات من برنامج أبحاث فهم الكلام، بهدف للوصول إلى الحد الأدنى من المفردات البالغ 1000 كلمة. وشاركت في البرنامج شركات وأوساط أكاديمية بما في ذلك آي بي إم وجامعة كارنيجي ميلون (CMU) ومعهد ستانفورد للأبحاث. وكانت النتيجة هي «هاربي»، التي أتقنت حوالي 1000 كلمة، مفردات طفل يبلغ من العمر ثلاث سنوات، ويمكنها فهم الجمل. كما يمكنها معالجة الكلام الذي يتبع المفردات المبرمجة مسبقًا، والنطق، والهياكل النحوية لتحديد تسلسل الكلمات المنطقي معًا، وبالتالي تقليل أخطاء التعرف على الكلام. في عام 1986، كانت Tangora عبارة عن ترقية لـ Shoebox، كانت آلة كاتبة تتعرف على الصوت. تم تسميتها على اسم أسرع كاتب في العالم في ذلك الوقت، وكان يحتوي على مفردات 20000 كلمة واستخدم التنبؤ لتحديد النتيجة الأكثر احتمالية بناءً على ما قيل في الماضي. اعتمد نهج آي بي إم على نموذج نظرية ماركوف المخفية، والذي يضيف إحصائيات لتقنيات معالجة الإشارات الرقمية. تجعل هذه الطريقة من الممكن التنبؤ بأكثر الأصوات احتمالية لاتباع صوت معين. لا يزال يتعين على كل متحدث تدريب الآلة الكاتبة بشكل فردي على التعرف على صوته أو صوتها والتوقف بين كل كلمة. ولادة المساعدين الافتراضيين الأذكياء: 1990 - حتى الآنأصبحت تقنية التعرف على الكلام الرقمي في التسعينيات من سمات الكمبيوتر الشخصي مع قتال آي بي إم وفيليبس وLemout & Hauspie من أجل العملاء. بعد ذلك بكثير، وضع إطلاق أول هاتف ذكي المعروف بآي بي إم سمون في عام 1994 الأساس لمساعدين افتراضيين أذكياء كما نعرفهم اليوم. في عام 1997، تمكن برنامج Dragon's Naturally Speaking من التعرف على الكلام البشري الطبيعي ونسخه دون توقف بين كل كلمة في مستند بمعدل 100 كلمة في الدقيقة. لا يزال إصدار Naturally Speaking متاحًا للتنزيل ولا يزال يستخدم حتى اليوم، على سبيل المثال، من قبل العديد من الأطباء في الولايات المتحدة والمملكة المتحدة لتوثيق سجلاتهم الطبية. في عام 2001، أطلق Colloquis علنًا SmarterChild، على منصات مثل AIM وMSN Messenger. بينما كان SmarterChild المستند إلى النصوص بالكامل قادرًا على ممارسة الألعاب والتحقق من الطقس والبحث عن الحقائق والتحدث مع المستخدمين إلى حد ما.[8] كان أول مساعد افتراضي رقمي حديث مثبت على هاتف ذكي هو سيري، والذي تم تقديمه كميزة لجهاز iPhone 4S في 4 أكتوبر 2011.[9] طورت شركة أبل. سيري بعد استحواذها عام 2010 على Siri Inc. ، وهي فرع من SRI International، وهو معهد أبحاث تموله داربا ووزارة الدفاع الأمريكية.[10] كان هدفه المساعدة في مهام مثل إرسال رسالة نصية أو إجراء مكالمات هاتفية أو التحقق من الطقس أو إعداد منبه. بمرور الوقت، تم تطويره لتقديم توصيات المطاعم والبحث في الإنترنت وتقديم اتجاهات القيادة. في نوفمبر 2014، أعلنت أمازون عن أليكسا بجانب Echo. في أبريل 2017، أصدرت أمازون خدمة لبناء واجهات محادثة لأي نوع من المساعديين الافتراضين أو الواجهة. كشفت شركة "سامسونج" عن مساعدها الذكي الجديد Galaxy AI في 11 نوفمبر 2023، وقالت في بيان إنه سيقدم حزمة متنوعة من التجارب والمزايا، التي تكسر حواجز الاتصالات بين المستخدمين، وتعزز إنتاجيتهم وتدعم إبداعهم، مما سيفتح آفاقاً من الفرص أمامهم.[11] طريقة التفاعليعمل المساعدون الافتراضيون عبر:
يمكن الوصول إلى بعض المساعدين الافتراضيين عبر طرق متعددة، مثل مساعد جوجل عبر الدردشة على Google Allo وتطبيق Google Messages وعبر الصوت على مكبرات الصوت الذكية Google Home . يستخدم المساعدون الافتراضيون معالجة اللغة الطبيعية (NLP) لمطابقة نص المستخدم أو الإدخال الصوتي مع الأوامر القابلة للتنفيذ. يتعلم الكثير باستمرار باستخدام تقنيات الذكاء الاصطناعي بما في ذلك التعلم الآلي. يتمتع بعض هؤلاء المساعدين مثل مساعد جوجل (الذي يحتوي على جوجل لنس) و Samsung Bixby أيضًا بالقدرة الإضافية على إجراء معالجة الصور للتعرف على الكائنات الموجودة في الصورة لمساعدة المستخدمين في الحصول على نتائج أفضل من الصور التي تم النقر عليها. لتنشيط مساعد افتراضي باستخدام الصوت، يمكن استخدام كلمة تنبيه. هذه كلمة أو مجموعات كلمات مثل "Hey Siri" و "OK Google" أو "Hey Google" و «أليكسا» و "Hey Microsoft".[14] نظرًا لأن المساعدين الافتراضيين أصبحوا أكثر شيوعًا، فهناك مخاطر قانونية متزايدة.[15] وجود الأجهزة والكائناتيمكن دمج المساعدين الافتراضيين في العديد من أنواع المنصات أو، مثل أمازون أليكسا، عبر العديد منها:
الخدماتيمكن للمساعدين الافتراضيين تقديم مجموعة متنوعة من الخدمات. وتشمل هذه الخدمات على:[22]
تجارة المحادثةالتجارة التحادثية هي تجارة إلكترونية عبر وسائل مختلفة للمراسلة، بما في ذلك عبر المساعدين الصوتيين[25] ولكن أيضًا الدردشة الحية على مواقع التجارة الإلكترونية على الويب، والدردشة الحية على تطبيقات المراسلة مثل وي تشات وفيسبوك ماسنجر وواتساب[26] وروبوتات الدردشة على المراسلة تطبيقات أو مواقع الويب. دعم العملاءيمكن للمساعد الإفتراضي العمل مع فريق دعم العملاء في الشركة لتقديم دعم على مدار الساعة طوال أيام الأسبوع للعملاء. يوفر استجابات سريعة، مما يعزز تجربة العميل. خدمات الطرف الثالثتعمل أمازون على تمكين «مهارات» أليكسا و «إجراءات» جوجل، وهي في الأساس تطبيقات تعمل على منصات المساعدة. خصوصية المساعد الظاهريالمساعدين الافتراضيين لديهم مجموعة متنوعة من مخاوف الخصوصية المرتبطة بهم. تشكل الميزات مثل التنشيط الصوتي تهديدًا، حيث تتطلب هذه الميزات أن يكون الجهاز دائمًا مستمعًا.[27] تم اقتراح أنماط الخصوصية مثل زر الأمان الظاهري لإنشاء مصادقة متعددة الطبقات للمساعدين الظاهريين.[28] سياسة الخصوصية للمساعدين الظاهريين البارزينمساعد جوجللا يقوم مساعد جوجل بتخزين بياناتك دون إذنك. لتخزين الصوت، يمكنك الانتقال إلى الصوت ونشاط الصوت (VAA) وتشغيل هذه الميزة. يتم إرسال ملفاتك الصوتية إلى السحابة واستخدامها من قبل جوجل لتحسين أداء مساعد جوجل، ولكن فقط إذا قمت بتشغيل ميزة VAA.[29] أمازون أليكسايستمع المساعد الافتراضي أليكسا من أمازون إلى محادثتك فقط عند استخدام كلمة التنبيه (مثل Alexa و Amazon و Echo). يبدأ تسجيل المحادثة بعد نداء كلمة تنبيه. يتوقف عن الاستماع بعد 8 ثوانٍ من الصمت. يرسل المحادثة المسجلة إلى السحابة. يمكنك حذف التسجيل الخاص بك من السحابة عن طريق زيارة "Alexa Privacy" في "Alexa". يمكنك منع أليكسا من الاستماع إلى محادثاتك باستخدام ميزة «كتم الصوت» في أليكسا، بعد كتم صوت الجهاز، لا يمكنه الاستماع إليك حتى إذا كنت تستخدم كلمات التنبيه (مثل Alexa). [30] سيريلا تقوم أبل بتسجيل الصوت الخاص بك لتحسين سيري، بل تستخدم النصوص بدلاً من ذلك. يرسل فقط البيانات المهمة للتحليل، على سبيل المثال، إذا طلبت من سيري قراءة رسالتك، فلن ترسل الرسالة إلى السحابة، وسيقوم الجهاز بقراءة الرسالة مباشرة دون تدخل الخادم. يمكن للمستخدمين إلغاء الاشتراك في أي وقت إذا كانوا لا يريدون من سيري إرسال النصوص في السحابة.[31] الاهتمام المفترض والملاحظ للمستهلكالقيمة المضافة المفترضة تتيح طريقة جديدة للتفاعليمكن أن تأتي القيمة المضافة للمساعدين الافتراضيين من بين أمور أخرى مما يلي:
الفائدة المتصورة
خلافات الذكاء الاصطناعي
الآثار الأخلاقيةفي عام 2019 انتقد أنطونيو أ.كاسيلي، عالم الاجتماع الفرنسي، الذكاء الاصطناعي والمساعدين الافتراضيين على وجه الخصوص بالطريقة التالية: في المستوى الأول، حقيقة أن المستهلك يوفر بيانات مجانية لتدريب وتحسين المساعد الافتراضي، غالبًا دون معرفة ذلك، أمر مزعج من الناحية الأخلاقية. ولكن في المستوى الثاني، قد يكون الأمر مزعجًا أكثر من الناحية الأخلاقية لمعرفة كيفية تدريب أنظمة الذكاء الاصطناعي هذه على هذه البيانات. يتم تدريب هذا الذكاء الاصطناعي عبر الشبكات العصبية، والتي تتطلب كمية هائلة من البيانات المصنفة. ومع ذلك، يجب تسمية هذه البيانات من خلال عملية بشرية، وهو ما يفسر ظهور الأعمال الصغيرة في العقد الماضي. وهذا يعني، استخدام بعض الأشخاص في جميع أنحاء العالم عن بُعد للقيام ببعض المهام المتكررة والبسيطة جدًا مقابل بضعة سنتات، مثل الاستماع إلى بيانات الكلام في المساعد الإفتراضي وتدوين ما قيل. تعرضت شركة Microwork لانتقادات بسبب انعدام الأمن الوظيفي الذي تسببه، وبسبب الافتقار التام إلى التنظيم: كان متوسط الراتب 1,38 دولارًا / ساعة في عام 2010،[37] ولا يوفر مزايا الرعاية الصحية ولا مزايا التقاعد والأجر المرضي والحد الأدنى للأجور. بالتالي، فإن المساعدين الافتراضيين ومصمميهم مثيرون للجدل لإثارة انعدام الأمن الوظيفي، والذكاء الاصطناعي الذي يقترحونه لا يزال بشريًا بطريقة سيكون بها مستحيلا بدون العمل الصغير لملايين العاملين البشريين.[36] تثار مخاوف الخصوصية من خلال حقيقة أن الأوامر الصوتية متاحة لموفري المساعدين الظاهريين في شكل غير مشفر، وبالتالي يمكن مشاركتها مع أطراف ثالثة ومعالجتها بطريقة غير مصرح بها أو غير متوقعة.[38] بالإضافة إلى المحتوى اللغوي للكلام المسجل، يمكن أن تحتوي طريقة تعبير المستخدم وخصائصه الصوتية ضمنيًا على معلومات حول هويته أو هويتها البيومترية، وسمات الشخصية وشكل الجسم وحالة الصحة البدنية والعقلية والجنس والحالات المزاجية والعواطف والحالة الاجتماعية والاقتصادية والأصل الجغرافي.[39] منصات المطورينتشمل منصات المطورين البارزة للمساعدين الافتراضيين ما يلي:
الأجيال السابقةفي الأجيال السابقة من المساعدين الافتراضيين المستندين إلى الدردشة النصية، غالبًا ما كان يتم تمثيل المساعد بواسطة صورة رمزية (تُعرف أيضًا بشخصية تفاعلية عبر الإنترنت أو شخصية آلية) - كان هذا يُعرف باسم الوكيل المتجسد . مقارنة المساعدين البارزينالأهمية الاقتصاديةللأفرادتعتبر التجارب الرقمية التي تم تمكينها بواسطة المساعدين الافتراضيين من بين التطورات التكنولوجية الحديثة الرئيسية واتجاهات المستهلك الواعدة. يدعي الخبراء أن التجارب الرقمية ستحقق ثقلًا للوضع يمكن مقارنته بالتجارب «الحقيقية»، إذا لم تصبح أكثر طلبًا وقيمة.[44] تم التحقق من هذا الاتجاه من خلال عدد كبير من المستخدمين المتكررين والنمو الكبير في أعداد المستخدمين العالميين للمساعدين الرقميين الظاهريين. في منتصف عام 2017، يقدر عدد المستخدمين المتكررين للمساعدين الافتراضيين الرقميين بحوالي مليار في جميع أنحاء العالم.[45] بالإضافة إلى ذلك، يمكن ملاحظة أن تقنية المساعد الرقمي الافتراضي لم تعد مقتصرة على تطبيقات الهواتف الذكية، ولكنها موجودة في العديد من قطاعات الصناعة (بما في ذلك السيارات والاتصالات والبيع بالتجزئة والرعاية الصحية والتعليم).[46] استجابةً لنفقات البحث والتطوير الكبيرة للشركات في جميع القطاعات والتنفيذ المتزايد للأجهزة المحمولة، من المتوقع أن ينمو سوق تقنية التعرف على الكلام بمعدل نمو سنوي مركب يبلغ 34.9٪ على مستوى العالم خلال الفترة من 2016 إلى 2024 وبالتالي يتجاوز السوق العالمي حجم 7.5 مليار دولار أمريكي بحلول عام 2024. وفقًا لدراسة أجرتها شركة Ovum، من المتوقع أن تتجاوز «القاعدة المثبتة للمساعد الرقمي الأصلي» سكان العالم بحلول عام 2021، مع 7.5 مليار جهاز صوتي نشط قادر على استخدام الذكاء الاصطناعي.[47] وفقًا لـ Ovum، بحلول ذلك الوقت، «سيهيمن مساعد جوجل على سوق الأجهزة التي تدعم الذكاء الاصطناعي الصوتي بنسبة 23.3٪ من حصة السوق، يليه Bixby من سامسونج (14.5٪)، وسيري من أبل (13.1٪)، وأليكسا من أمازون (3.9٪)، ومايكروسوفت كورتانا (2.3٪)». مع الأخذ في الاعتبار التوزيع الإقليمي لقادة السوق، من المتوقع أن تهيمن شركات أمريكا الشمالية (على سبيل المثال Nuance Communications وIBM و eGain) على الصناعة على مدار السنوات القادمة، نظرًا للتأثير الكبير لـ BYOD (أحضر جهازك الخاص) ونماذج أعمال التنقل الخاصة بالمؤسسات. علاوة على ذلك، من المتوقع أن يؤدي الطلب المتزايد على المنصات التي تدعم الهواتف الذكية إلى تعزيز نمو صناعة المساعد الافتراضي الذكي (IVA) في أمريكا الشمالية. على الرغم من حجمها الأصغر مقارنة بسوق أمريكا الشمالية، فمن المتوقع أن تنمو صناعة المساعد الافتراضي الذكي من منطقة آسيا والمحيط الهادئ، مع وجود لاعبين رئيسيين في الهند والصين، بمعدل نمو سنوي يبلغ 40٪ (أعلى من المتوسط العالمي) خلال الفترة من 2016 إلى 2024.[46] فرصة اقتصادية للمؤسساتلا ينبغي النظر إلى المساعدين الافتراضيين كأداة للأفراد فقط، حيث يمكن أن يكون لديهم فائدة اقتصادية حقيقية للمؤسسات. على سبيل المثال، يمكن أن يقوم المساعد الافتراضي بدور المساعد المتاح دائمًا بمعرفة موسوعية. والتي يمكنها تنظيم الاجتماعات والتحقق من قوائم الجرد والتحقق من المعلومات. يعتبر المساعدون الافتراضيون أكثر أهمية ودمجهم في المؤسسات الصغيرة والمتوسطة الحجم غالبًا ما يتكون من خطوة أولى سهلة من خلال المزيد من التكيف العالمي واستخدام إنترنت الأشياء (IoT). في الواقع، تُدرك الشركات الصغيرة والمتوسطة الحجم تقنيات إنترنت الأشياء على أنها تقنيات ذات أهمية بالغة، ولكنها معقدة للغاية أو محفوفة بالمخاطر أو باهظة التكلفة لاستخدامها.[48] الأمانفي مايو 2018، نشر باحثون من جامعة كاليفورنيا في بيركلي ورقة بحثية أظهرت أن الأوامر الصوتية التي لا يمكن اكتشافها للأذن البشرية يمكن دمجها مباشرة في الموسيقى أو النص المنطوق، وبالتالي التلاعب بالمساعدين الافتراضيين لأداء إجراءات معينة دون أن يلاحظ المستخدم ذلك.[49] قام الباحثون بإجراء تغييرات طفيفة على الملفات الصوتية، والتي ألغت أنماط الصوت التي تهدف أنظمة التعرف على الكلام إلى اكتشافها. تم استبدالها بأصوات يمكن للنظام تفسيرها بشكل مختلف وتطلب منه الاتصال بأرقام الهواتف أو فتح مواقع الويب أو حتى تحويل الأموال. يُعرف احتمال حدوث ذلك منذ عام 2016، ويؤثر على أجهزة من أبل وأمازون وجوجل.[50] بالإضافة إلى الإجراءات غير المقصودة والتسجيل الصوتي، هناك مخاطر أخرى تتعلق بالأمان والخصوصية مرتبطة بالمساعدين الافتراضيين الأذكياء وهي الأوامر الصوتية الخبيثة: المهاجم الذي ينتحل شخصية مستخدم ويصدر أوامر صوتية ضارة، على سبيل المثال، لفتح باب ذكي للحصول على دخول غير مصرح به إلى المنزل أو المرآب أو طلب العناصر عبر الإنترنت دون علم المستخدم. على الرغم من أن بعض المساعدين الافتراضيين يقومون بتوفير ميزة تدريب صوتي لمنع مثل هذا الانتحال، فقد يكون من الصعب على النظام التمييز بين الأصوات المتشابهة. وبالتالي، قد يتمكن الشخص الخبيث القادر على الوصول إلى جهاز يدعم المساعد الإفتراضي من خداع النظام ليعتقد أنه المالك الحقيقي ويقوم بأعمال إجرامية أو مؤذية.[51] انظر أيضًا
المراجع
|