تشخیص احساسات گفتار با هوش مصنوعی

دسامبر 20, 2023

0 38 خواندن این مطلب 7 دقیقه زمان میبرد

تشخیص احساسات گفتار با هوش مصنوعی – آیا ترس از سخنرانی در جمع با تعقیب شدن توسط خرس یکسان است؟

آیا بالا بردن ابرو نشان دهنده سرگرمی یا سردرگمی است؟

در سال 1995، روزالیند پیکارد، دانشمند و مخترع، ایده کامپیوترهایی را که توانایی تشخیص احساسات را توسعه می دهند در کتاب خود به نام “محاسبات عاطفی” معرفی کرد.

در چندین سال گذشته، سیستم‌هایی که از هوش مصنوعی استفاده می‌کنند «یادگیری» می‌کنند.

برای تشخیص و تشخیص احساسات انسانی از طریق مرتبط کردن احساساتی مانند خشم، شادی و ترس، با حرکات صورت و بدن، کلمات و لحن صدا.

اما آیا این سیستم ها قادر به درک تفاوت های ظریفی هستند که بین لبخند و پوزخند تفاوت قائل می شوند؟ آیا آنها می دانند که لبخند می تواند خشم را همراهی کند؟

کارشناسانی مانند استادیار Steinhardt Edward B. Kang هشدار می دهند که پاسخ منفی است.

کانگ، نویسنده مقاله تحقیقاتی “درباره عملکردها و سیاست های تشخیص احساسات گفتار هوش مصنوعی”. منتشر شده در کنفرانس ACM 2023 درباره انصاف، پاسخگویی و شفافیت، می نویسد که تشخیص احساسات گفتار (SER) “فناوری مبتنی بر فرضیات ضعیف در مورد علم احساسات است که نه تنها آن را از نظر فناوری ناقص بلکه از نظر اجتماعی نیز مضر می کند”.

همراه با انتقادات دیگر، او پیشنهاد می‌کند که سیستم‌های کنونی نسخه‌ای کاریکاتورشده از انسانیت را ایجاد می‌کنند و کسانی مانند افراد مبتلا به اوتیسم را که ممکن است به گونه‌ای که این سیستم‌ها آن را درک نمی‌کنند، احساس کنند، کنار می‌گذارند.

برای درک بهتر این کاستی‌ها و پیامدهای آنها برای مراکز تماس، برنامه‌های دوستیابی و موارد دیگر، NYU News با کانگ در مورد نحوه سخنرانی هوش مصنوعی صحبت کرد.

تشخیص احساسات کار می کند – و نمی کند.

چگونه سیستم های هوش مصنوعی تشخیص احساسات را یاد می گیرند؟

ابتدا باید بپرسیم منظورمان از احساس چیست.

واقعیت این است که هیچ اجماع علمی در مورد آنچه که احساس در واقع نشان می دهد وجود ندارد.

آیا ما به یک تجربه شخصی اشاره می کنیم؟ یک پاسخ فیزیولوژیکی؟ مجموعه ای از حالت های مغز؟ یک احساس ذهنی؟ یا ترکیبی از اینها؟ دقیق ترین پاسخ این است که ما واقعاً نمی دانیم.

احساس ممکن است یک “روزانه” مفید و شاید ساده باشد. اصطلاح، اما از نظر علمی، نامرتب است.

همه ما می دانیم که لبخند همیشه به این معنی نیست که ما خوشحال هستیم.

مدت‌هاست که محققان استدلال کرده‌اند که برچسب‌هایی مانند “ترس” و “ترس” “شادی” «غمگینی» “خشم” “سورپرایز” و «انزجار» که برای ارجاع به تجارب عاطفی استفاده می کنیم، سیال هستند و با توجه به مجموعه ای از ویژگی های محدود قابل شناسایی نیستند.

مشکل این است که با توجه به ساختار یادگیری ماشین، که به تکنیک های آماری اشاره دارد که سیستم های به اصطلاح هوش مصنوعی را قادر می سازد “کار کنند،” احساس باید محدود و مشخص شود و قابلیت اندازه گیری آن نیز باید در کنار این ویژگی های قابل مشاهده درک شود.

برای ساخت سیستم‌های هوش مصنوعی تشخیص احساسات و مجموعه داده‌هایی که زیربنای آن‌ها هستند، این به طور سنتی شامل استخدام بازیگران انسانی برای انجام حالت‌های چهره خاصی است.

یا صداهایی که به منظور نمایش کلیشه ای برخی از برچسب های عاطفی هستند – به عنوان مثال، لبخند زدن برای “شادی”; یا فریاد زدن برای “خشم.”

این اجراها به نمادهایی برای احساسات تبدیل می شوند، بزرگ می نویسند، که امکان همبستگی آماری بین ویژگی های قابل مشاهده مانند لحن و سرعت صدای فرد، و “احساس” مورد نظر را فراهم می کند.

با یک “برچسب” ساخته شدن. همانطور که می توان تصور کرد، این منجر به کاریکاتورهایی می شود که مسلماً یکی از پیچیده ترین ویژگی های بشریت است.

محدودیت ها و آسیب های مرتبط با این سیستم ها چیست؟ مزایای آن چیست؟

محدودیت‌های سیستم‌های هوش مصنوعی تشخیص احساسات این است که از نظر طراحی به ساده‌سازی هر چیزی که ما به عنوان احساس در مجموعه داده تعریف می‌کنیم، وابسته هستند.

به عبارت دیگر، آنها خیلی قابل اعتماد یا دقیق نیستند.

مضرات این است که هنوز هم می توان از آنها به عنوان نوعی نظارت عاطفی استفاده کرد.

به عنوان بخشی از تحقیقاتم، استفاده از تشخیص احساسات گفتار را در مراکز تماس بررسی کردم.

در اینجا، اپراتورهای مرکز تماس در مورد اینکه آیا به اندازه کافی خوشایند هستند یا نه، ارزیابی می شوند. اگر آنها به اندازه کافی مثبت ارزیابی شوند، می توانند پاداش های جبرانی دریافت کنند.

البته طرف مقابل، احتمالاً جریمه هایی برای عدم پایبندی به هنجارهای احساسی اعمال شده توسط سیستم SER است.

اگرچه سیستم‌های هوش مصنوعی به این تز وابسته هستند که تعاریف عاطفی عینی وجود دارد، مجموعه داده‌هایی که بر اساس آن‌ها آموزش داده می‌شوند چیز دیگری را نشان می‌دهند.

این مجموعه داده‌ها در نهایت بر اساس باورهای خالقان مجموعه داده‌ها و بازیگرانی که برای اجرای احساسات استخدام شده‌اند ساخته می‌شوند – فرآیندهای ذهنی و دلخواه که از طریق آن افراد معدودی احساسات را تعریف و اجرا می‌کنند.

این تفاسیر از احساسات به عنوان حقیقت اصلی در این سیستم‌های هوش مصنوعی تثبیت می‌شوند.

مزایای این سیستم ها فقط برای کسانی وجود دارد که مشمول ارزیابی آن نیستند.

به عنوان مثال، به مدیران یک ابزار و نقطه داده اضافی برای ارزیابی کارکنان ارائه می دهد.

حتی اگر آن نقطه داده لزوماً آن چیزی نباشد که نشان می دهد، سطحی از کنترل را برای کسانی که از آن برای ارزیابی دیگران استفاده می کنند، ارائه می دهد.

چه فناوری هایی در حال حاضر از تشخیص احساسات گفتار هوش مصنوعی استفاده و پیاده سازی می کنند؟

فناوری‌های تجزیه و تحلیل صوتی AI SER و SER خارج از کاربرد آنها در مراکز تماس، به عنوان راه‌حل‌هایی برای زمینه‌های دارای ریسک بالاتر از جمله در امور مالی با پیش‌بینی پیش‌فرض وام، استخدام با پیش‌بینی موفقیت نامزدها، و حوزه پزشکی با غربالگری سلامت روان پیشنهاد می‌شوند.

تا آنجا که من می دانم، هنوز به طور گسترده در این بخش ها اجرا نشده است، اما به همین دلیل است که اکنون زمان صحبت در مورد آن است.

مایکروسافت قبلاً متعهد شده است که ویژگی‌های تشخیص احساسات چهره را از فناوری‌های تشخیص چهره‌اش حذف کند، به همان دلایلی که من برای نقد SER از آن استفاده می‌کنم، یعنی اینکه یک اجماع علمی در مورد اینکه آیا تشخیص احساسات به کمک هوش مصنوعی می‌تواند در یک دستگاه انجام شود یا خیر وجود دارد.

روشی که قابل اعتماد، دقیق یا سازگار است. این موضوع باعث می‌شود که SER به‌عنوان جایگزینی بالقوه برای تشخیص احساسات چهره ظاهر شود.

بر اساس مصاحبه‌هایی که با متخصصان صنعت انجام داده‌ام، به نظر می‌رسد که SER برای برنامه‌های دوستیابی نیز پیشنهاد شده است، که ظاهراً کمک به ارائه تطابق بهتر بین افراد.

توصیه شما برای گنجاندن تشخیص احساسات در محصولات مصرفی چیست؟

توصیه شخصی من صادقانه این است که اصلاً این کار را نکنید.

به نظر من، این در بهترین حالت یک انتخاب «سرگرم کننده» ویژگی برای برنامه‌های کم‌مخاطره مانند برنامه‌های خود نظارتی، و اگر به این صورت گنجانده شده است، باید مشخص شود که فقط برای اهداف لذت‌بخش است.

در بدترین حالت، من معتقدم هوش مصنوعی تشخیص احساسات یک کاربرد فناورانه از یک موضوع علمی بحث برانگیز است که برای تصمیم گیری های تغییر دهنده زندگی برای افرادی که کنترل کمی بر توسعه و استفاده از این سیستم ها ندارند، استفاده می شود.

نظارت مؤثر و پیامدهای جبران خسارت که در استفاده از SER در مراکز تماس مورد بررسی قرار می‌گیرد، تنها آغازی است برای اینکه چگونه می‌توان از آن سوء استفاده کرد، زمانی که این فرض مشکل‌ساز را پذیرفتیم که احساسات را می‌توان به طور منظم به داده‌ها تقطیر کرد و زیرساخت داده یا آنچه ما می‌نامیم.

“هوش مصنوعی” را می توان برای تشخیص قابل اعتماد، دقیق و پیوسته احساسات مورد استفاده قرار داد.

آیا نظری در مورد اسباب بازی هایی دارید که از SER برای تعامل با کودکان استفاده می کنند؟

یکی از برنامه‌هایی که به ذهن می‌رسد، یک ربات اسباب‌بازی به نام Moxie است که از تشخیص احساسات چندوجهی هوش مصنوعی در تعامل با کودکان استفاده می‌کند.

بر اساس مقاله ای که توسط سازندگان آن منتشر شده است، معیارهای رفتاری که اسباب بازی ردیابی می کند، در درجه اول به حالات چهره و انتخاب کلمات مربوط می شود.

در اینجا، اگرچه انتخاب کلمات از نظر فنی از طریق گفتار از طریق یک میکروفون ضبط می‌شود، اما با SER متفاوت است، زیرا احتمالاً تجزیه و تحلیل کلمات ابتدا توسط یک مدل گفتار به متن که گفتار را به متن تبدیل می‌کند، و سپس قدرت می‌گیرد.

آن متن را تجزیه و تحلیل می کند تا کلمات خاصی مانند “خانواده” یا “دوست” به مفاهیمی مربوط می شود که به نظر آنها “مثبت” هستند. یا “منفی.»

این به طور کلی “تحلیل احساسات” نامیده می شود.

در این زمینه، و همچنین به دلایل مشابه تا حدودی بحث برانگیز است: کلمات به تنهایی به طور مداوم نشان دهنده “احساس” نیستند.

این مقاله بیان می‌کند که این اسباب‌بازی ابتدا به‌عنوان ابزاری برای حمایت از کودکان مبتلا به اختلالات رشد رفتاری ذهنی یا MBDD ساخته شد، اما درک من این است که اکنون به عنوان یک همراه یادگیری عمومی‌تر برای همه کودکانی که از ” توسعه مهارت های کل نگر،” که البته بازار آدرس پذیر Moxie را گسترش می دهد.

همکار من مارا میلز این پدیده ناتوانی را گامی به سوی حوزه های سودآورتر به عنوان “بهانه کمکی” نامیده است.

همانطور که در مقاله خود به اختصار بیان می کنم، کودکان و به ویژه آنهایی که مبتلا به MBDD تشخیص داده شده اند، از نظر تاریخی به عنوان جمعیت هدف و توجیه توسعه اولیه فناوری های تشخیص احساسات تعیین شده اند.

فصلی از کتاب پیشگام روزالیند پیکارد در سال 1995 “محاسبات عاطفی”، به عنوان مثال، بخشی به “کمک به افراد اوتیستیک” اختصاص داده شده است.

حدود یک دهه بعد، محققان دانشگاه کمبریج نیز “سمعک احساسی” را پیشنهاد کردند.

که به عنوان یک پروتز صورت برای کمک به اجتماعی شدن کودکان مبتلا به سندرم آسپرگر توصیف شد.

تا آنجا که من می دانم، بیشتر این کار که توسط صنعت فناوری گسترده تر انجام شده است، اکنون فراتر از این «بهانه های کمکی» و منفعت برای افرادی که به عنوان توجیه رشد اولیه آنها عمل می کند قابل اعتراض است.

امید من این است که محققان و سازندگان در توسعه یا عدم توسعه این فناوری‌ها منتقد و دلسوز باشند.