کنترل صدا در همه جا

فوریه 9, 2024

0 3 خواندن این مطلب 5 دقیقه زمان میبرد

کنترل صدا در همه جا -تراشه کم مصرف با هدف خاص می تواند تشخیص گفتار را در همه جا در الکترونیک فراگیر کند.

تقریباً 10 سال پیش، تشخیص خودکار گفتار در آستانه تبدیل شدن به ابزار اصلی افراد برای تعامل با دستگاه‌های محاسباتی اصلی‌شان است.

در پیش بینی عصر الکترونیک کنترل صدا، محققان MIT یک تراشه کم مصرف برای تشخیص خودکار گفتار ساخته اند. در حالی که یک تلفن همراه در حال اجرا نرم افزار تشخیص گفتار ممکن است به حدود 1 وات برق نیاز داشته باشد، تراشه جدید بسته به تعداد کلماتی که باید تشخیص دهد بین 0.2 تا 10 میلی وات نیاز دارد.

در یک برنامه دنیای واقعی، احتمالاً به معنای صرفه جویی در انرژی 90 تا 99 درصد است که می تواند کنترل صدا را برای دستگاه های الکترونیکی نسبتاً ساده عملی کند. این شامل دستگاه هایی با محدودیت انرژی می شود که باید انرژی را از محیط خود برداشت کنند یا ماه ها بین شارژ باتری فاصله داشته باشند.

چنین دستگاه‌هایی ستون فقرات فناوری چیزی را تشکیل می‌دهند که «اینترنت اشیا» یا IoT نامیده می‌شود، که به این ایده اشاره دارد که وسایل نقلیه، لوازم خانگی، سازه‌های مهندسی عمران، تجهیزات تولیدی و حتی دام‌ها به زودی حسگرهایی خواهند داشت که اطلاعات را مستقیماً به شبکه گزارش می‌کنند. سرورها، کمک به تعمیر و نگهداری و هماهنگی وظایف.

Anantha Chandrakasan، پروفسور مهندسی برق و علوم کامپیوتر وانوار بوش در MIT، که گروهش تراشه جدید را توسعه داده است، می گوید: “ورودی گفتار به یک رابط طبیعی برای بسیاری از برنامه های پوشیدنی و دستگاه های هوشمند تبدیل خواهد شد.” رابط متفاوتی نسبت به لمس یا صفحه کلید. تعبیه عملکرد گفتار به صورت محلی برای صرفه جویی در مصرف انرژی سیستم در مقایسه با انجام این عملیات در فضای ابری بسیار مهم است.”

مایکل پرایس که به عنوان دانشجوی فارغ التحصیل MIT در رشته مهندسی برق و علوم کامپیوتر طراحی تراشه را رهبری کرد و اکنون برای سازنده تراشه آنالوگ Devices کار می کند، می افزاید: “من فکر نمی کنم که ما واقعاً این فناوری را برای یک برنامه خاص توسعه دهیم.” ما سعی کرده‌ایم زیرساخت‌هایی را فراهم کنیم تا مبادلات بهتری را برای طراح سیستم نسبت به فناوری قبلی، چه نرم‌افزاری یا سخت‌افزاری، فراهم کنیم.»

پرایس، چاندراکاسان و جیم گلس، دانشمند تحقیقاتی ارشد در آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT، تراشه جدید را در مقاله‌ای که قیمت هفته گذشته در کنفرانس بین‌المللی مدارهای حالت جامد ارائه شد، توصیف کردند.

خوابیده بیدار می شود

کنترل صدا در همه جا

امروزه، تشخیص‌دهنده‌های گفتار با بهترین عملکرد، مانند بسیاری دیگر از سیستم‌های پیشرفته هوش مصنوعی، مبتنی بر شبکه‌های عصبی، شبکه‌های مجازی از پردازنده‌های اطلاعات ساده هستند که تقریباً بر اساس مغز انسان مدل‌سازی شده‌اند.

بیشتر مدارهای تراشه جدید به پیاده سازی شبکه های تشخیص گفتار تا حد امکان کارآمد است.

اما حتی کم مصرف ترین سیستم تشخیص گفتار نیز اگر بدون وقفه کار کند، باتری دستگاه را به سرعت تخلیه می کند.

بنابراین این تراشه همچنین دارای یک مدار ساده‌تر «تشخیص فعالیت صوتی» است که نویز محیط را برای تعیین اینکه آیا ممکن است گفتار باشد، نظارت می‌کند.

اگر پاسخ مثبت است، تراشه مدار بزرگتر و پیچیده‌تر تشخیص گفتار را روشن می‌کند.

در واقع، برای اهداف آزمایشی، تراشه محققین دارای سه مدار مختلف تشخیص فعالیت صوتی، با درجات مختلف پیچیدگی و در نتیجه، نیازهای انرژی متفاوت بود.

اینکه کدام مدار بیشترین مصرف انرژی را دارد به زمینه بستگی دارد، اما در آزمایش‌هایی که طیف وسیعی از شرایط را شبیه‌سازی می‌کنند، پیچیده‌ترین مدار از سه مدار منجر به بیشترین صرفه‌جویی در مصرف انرژی برای کل سیستم شد.

حتی با وجود اینکه تقریباً سه برابر ساده‌ترین مدار برق مصرف می‌کرد، نتایج مثبت کاذب بسیار کمتری تولید کرد.

مدارهای ساده تر اغلب با فعال کردن غیرقانونی بقیه تراشه، صرفه جویی در انرژی خود را می جوند.

یک شبکه عصبی معمولی متشکل از هزاران «گره» پردازشی است که فقط قادر به محاسبات ساده هستند اما به طور متراکم به یکدیگر متصل هستند.

در نوع شبکه ای که معمولاً برای تشخیص صدا استفاده می شود، گره ها به صورت لایه ای مرتب می شوند.

داده های صوتی به لایه پایینی شبکه وارد می شوند که گره های آن پردازش می کنند و آنها را به گره های لایه بعدی منتقل می کنند، گره های آن آنها را پردازش کرده و به لایه بعدی ارسال می کنند و غیره.

خروجی لایه بالایی این احتمال را نشان می دهد که داده های صوتی یک صدای گفتاری خاص را نشان می دهند.

یک شبکه تشخیص صدا برای قرار دادن در حافظه داخلی تراشه بسیار بزرگ است، که یک مشکل است زیرا خروج از تراشه برای داده ها انرژی بسیار بیشتری نسبت به بازیابی آن از فروشگاه های محلی دارد. بنابراین، طراحی محققان MIT بر به حداقل رساندن مقدار داده‌هایی که تراشه باید از حافظه خارج از تراشه بازیابی کند، متمرکز است.

مدیریت پهنای باند

یک گره در وسط یک شبکه عصبی ممکن است داده ها را از ده ها گره دیگر دریافت کند و داده ها را به ده ها گره دیگر منتقل کند.

هر یک از این دو دوجین اتصال دارای یک “وزن” مرتبط است، عددی که نشان می‌دهد داده‌های ارسال شده از طریق آن چقدر باید در محاسبات گره دریافت کننده نقش داشته باشند.

اولین قدم در به حداقل رساندن پهنای باند حافظه تراشه جدید فشرده سازی وزن های مرتبط با هر گره است. داده ها تنها پس از اینکه روی تراشه آورده شوند از حالت فشرده خارج می شوند.

این تراشه همچنین از این واقعیت استفاده می کند که با تشخیص گفتار، موج به موج داده باید از شبکه عبور کند.

سیگنال صوتی ورودی به گام های 10 میلی ثانیه ای تقسیم می شود که هر کدام باید جداگانه ارزیابی شوند.

تراشه محققان MIT در هر زمان یک گره از شبکه عصبی را وارد می کند، اما داده ها را از 32 افزایش 10 میلی ثانیه ای متوالی از طریق آن ارسال می کند.

اگر یک گره دارای دوجین خروجی باشد، 32 پاس منجر به 384 مقدار خروجی می شود که تراشه آنها را به صورت محلی ذخیره می کند.

هر یک از آن ها باید با 11 مقدار دیگر در هنگام تغذیه به لایه بعدی گره ها و غیره جفت شوند. بنابراین تراشه به یک مدار حافظه داخلی قابل توجه برای محاسبات میانی خود نیاز دارد.

اما هر بار تنها یک گره فشرده را از حافظه خارج از تراشه واکشی می‌کند و نیاز انرژی خود را پایین نگه می‌دارد.

ماریان ورهلست، استاد میکروالکترونیک در دانشگاه کاتولیک لوون در بلژیک می‌گوید: «برای نسل بعدی دستگاه‌های موبایل و پوشیدنی، فعال کردن تشخیص گفتار در مصرف انرژی بسیار کم بسیار مهم است.

این به این دلیل است که گرایش واضحی به سمت دستگاه‌های با فاکتور کوچکتر مانند ساعت، هدفون یا عینک وجود دارد که به یک رابط کاربری نیاز دارند که دیگر نمی‌تواند به صفحه نمایش لمسی تکیه کند.

گفتار یک راه بسیار طبیعی برای ارتباط با چنین دستگاه هایی ارائه می دهد.

این تحقیق از طریق پروژه Qmulus، یک سرمایه گذاری مشترک بین MIT و Quanta Computer تامین شد و تراشه از طریق برنامه شاتل دانشگاهی شرکت تولید نیمه هادی تایوان نمونه اولیه شد.