کنترل صدا در همه جا -تراشه کم مصرف با هدف خاص می تواند تشخیص گفتار را در همه جا در الکترونیک فراگیر کند.
تقریباً 10 سال پیش، تشخیص خودکار گفتار در آستانه تبدیل شدن به ابزار اصلی افراد برای تعامل با دستگاههای محاسباتی اصلیشان است.
در پیش بینی عصر الکترونیک کنترل صدا، محققان MIT یک تراشه کم مصرف برای تشخیص خودکار گفتار ساخته اند. در حالی که یک تلفن همراه در حال اجرا نرم افزار تشخیص گفتار ممکن است به حدود 1 وات برق نیاز داشته باشد، تراشه جدید بسته به تعداد کلماتی که باید تشخیص دهد بین 0.2 تا 10 میلی وات نیاز دارد.
در یک برنامه دنیای واقعی، احتمالاً به معنای صرفه جویی در انرژی 90 تا 99 درصد است که می تواند کنترل صدا را برای دستگاه های الکترونیکی نسبتاً ساده عملی کند. این شامل دستگاه هایی با محدودیت انرژی می شود که باید انرژی را از محیط خود برداشت کنند یا ماه ها بین شارژ باتری فاصله داشته باشند.
چنین دستگاههایی ستون فقرات فناوری چیزی را تشکیل میدهند که «اینترنت اشیا» یا IoT نامیده میشود، که به این ایده اشاره دارد که وسایل نقلیه، لوازم خانگی، سازههای مهندسی عمران، تجهیزات تولیدی و حتی دامها به زودی حسگرهایی خواهند داشت که اطلاعات را مستقیماً به شبکه گزارش میکنند. سرورها، کمک به تعمیر و نگهداری و هماهنگی وظایف.
Anantha Chandrakasan، پروفسور مهندسی برق و علوم کامپیوتر وانوار بوش در MIT، که گروهش تراشه جدید را توسعه داده است، می گوید: “ورودی گفتار به یک رابط طبیعی برای بسیاری از برنامه های پوشیدنی و دستگاه های هوشمند تبدیل خواهد شد.” رابط متفاوتی نسبت به لمس یا صفحه کلید. تعبیه عملکرد گفتار به صورت محلی برای صرفه جویی در مصرف انرژی سیستم در مقایسه با انجام این عملیات در فضای ابری بسیار مهم است.”
مایکل پرایس که به عنوان دانشجوی فارغ التحصیل MIT در رشته مهندسی برق و علوم کامپیوتر طراحی تراشه را رهبری کرد و اکنون برای سازنده تراشه آنالوگ Devices کار می کند، می افزاید: “من فکر نمی کنم که ما واقعاً این فناوری را برای یک برنامه خاص توسعه دهیم.” ما سعی کردهایم زیرساختهایی را فراهم کنیم تا مبادلات بهتری را برای طراح سیستم نسبت به فناوری قبلی، چه نرمافزاری یا سختافزاری، فراهم کنیم.»
پرایس، چاندراکاسان و جیم گلس، دانشمند تحقیقاتی ارشد در آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT، تراشه جدید را در مقالهای که قیمت هفته گذشته در کنفرانس بینالمللی مدارهای حالت جامد ارائه شد، توصیف کردند.
خوابیده بیدار می شود
کنترل صدا در همه جا
امروزه، تشخیصدهندههای گفتار با بهترین عملکرد، مانند بسیاری دیگر از سیستمهای پیشرفته هوش مصنوعی، مبتنی بر شبکههای عصبی، شبکههای مجازی از پردازندههای اطلاعات ساده هستند که تقریباً بر اساس مغز انسان مدلسازی شدهاند.
بیشتر مدارهای تراشه جدید به پیاده سازی شبکه های تشخیص گفتار تا حد امکان کارآمد است.
اما حتی کم مصرف ترین سیستم تشخیص گفتار نیز اگر بدون وقفه کار کند، باتری دستگاه را به سرعت تخلیه می کند.
بنابراین این تراشه همچنین دارای یک مدار سادهتر «تشخیص فعالیت صوتی» است که نویز محیط را برای تعیین اینکه آیا ممکن است گفتار باشد، نظارت میکند.
اگر پاسخ مثبت است، تراشه مدار بزرگتر و پیچیدهتر تشخیص گفتار را روشن میکند.
در واقع، برای اهداف آزمایشی، تراشه محققین دارای سه مدار مختلف تشخیص فعالیت صوتی، با درجات مختلف پیچیدگی و در نتیجه، نیازهای انرژی متفاوت بود.
اینکه کدام مدار بیشترین مصرف انرژی را دارد به زمینه بستگی دارد، اما در آزمایشهایی که طیف وسیعی از شرایط را شبیهسازی میکنند، پیچیدهترین مدار از سه مدار منجر به بیشترین صرفهجویی در مصرف انرژی برای کل سیستم شد.
حتی با وجود اینکه تقریباً سه برابر سادهترین مدار برق مصرف میکرد، نتایج مثبت کاذب بسیار کمتری تولید کرد.
مدارهای ساده تر اغلب با فعال کردن غیرقانونی بقیه تراشه، صرفه جویی در انرژی خود را می جوند.
یک شبکه عصبی معمولی متشکل از هزاران «گره» پردازشی است که فقط قادر به محاسبات ساده هستند اما به طور متراکم به یکدیگر متصل هستند.
در نوع شبکه ای که معمولاً برای تشخیص صدا استفاده می شود، گره ها به صورت لایه ای مرتب می شوند.
داده های صوتی به لایه پایینی شبکه وارد می شوند که گره های آن پردازش می کنند و آنها را به گره های لایه بعدی منتقل می کنند، گره های آن آنها را پردازش کرده و به لایه بعدی ارسال می کنند و غیره.
خروجی لایه بالایی این احتمال را نشان می دهد که داده های صوتی یک صدای گفتاری خاص را نشان می دهند.
یک شبکه تشخیص صدا برای قرار دادن در حافظه داخلی تراشه بسیار بزرگ است، که یک مشکل است زیرا خروج از تراشه برای داده ها انرژی بسیار بیشتری نسبت به بازیابی آن از فروشگاه های محلی دارد. بنابراین، طراحی محققان MIT بر به حداقل رساندن مقدار دادههایی که تراشه باید از حافظه خارج از تراشه بازیابی کند، متمرکز است.
مدیریت پهنای باند
یک گره در وسط یک شبکه عصبی ممکن است داده ها را از ده ها گره دیگر دریافت کند و داده ها را به ده ها گره دیگر منتقل کند.
هر یک از این دو دوجین اتصال دارای یک “وزن” مرتبط است، عددی که نشان میدهد دادههای ارسال شده از طریق آن چقدر باید در محاسبات گره دریافت کننده نقش داشته باشند.
اولین قدم در به حداقل رساندن پهنای باند حافظه تراشه جدید فشرده سازی وزن های مرتبط با هر گره است. داده ها تنها پس از اینکه روی تراشه آورده شوند از حالت فشرده خارج می شوند.
این تراشه همچنین از این واقعیت استفاده می کند که با تشخیص گفتار، موج به موج داده باید از شبکه عبور کند.
سیگنال صوتی ورودی به گام های 10 میلی ثانیه ای تقسیم می شود که هر کدام باید جداگانه ارزیابی شوند.
تراشه محققان MIT در هر زمان یک گره از شبکه عصبی را وارد می کند، اما داده ها را از 32 افزایش 10 میلی ثانیه ای متوالی از طریق آن ارسال می کند.
اگر یک گره دارای دوجین خروجی باشد، 32 پاس منجر به 384 مقدار خروجی می شود که تراشه آنها را به صورت محلی ذخیره می کند.
هر یک از آن ها باید با 11 مقدار دیگر در هنگام تغذیه به لایه بعدی گره ها و غیره جفت شوند. بنابراین تراشه به یک مدار حافظه داخلی قابل توجه برای محاسبات میانی خود نیاز دارد.
اما هر بار تنها یک گره فشرده را از حافظه خارج از تراشه واکشی میکند و نیاز انرژی خود را پایین نگه میدارد.
ماریان ورهلست، استاد میکروالکترونیک در دانشگاه کاتولیک لوون در بلژیک میگوید: «برای نسل بعدی دستگاههای موبایل و پوشیدنی، فعال کردن تشخیص گفتار در مصرف انرژی بسیار کم بسیار مهم است.
این به این دلیل است که گرایش واضحی به سمت دستگاههای با فاکتور کوچکتر مانند ساعت، هدفون یا عینک وجود دارد که به یک رابط کاربری نیاز دارند که دیگر نمیتواند به صفحه نمایش لمسی تکیه کند.
گفتار یک راه بسیار طبیعی برای ارتباط با چنین دستگاه هایی ارائه می دهد.
این تحقیق از طریق پروژه Qmulus، یک سرمایه گذاری مشترک بین MIT و Quanta Computer تامین شد و تراشه از طریق برنامه شاتل دانشگاهی شرکت تولید نیمه هادی تایوان نمونه اولیه شد.