حرف شنوی نرم افزارها
حرف شنوی نرم افزارها
AT&T هم به جمع شرکت های عرضه کننده سرویس های نرم افزاری اضافه شد. این شرکت، API جدیدی معرفی کرده است که نرم افزارها می توانند با استفاده از آن به قابلیت های تشخیص و تبدیل گفتار به متن مجهز شوند. پیش از این، نرم افزارهای جستجوی گوگل، اپل سیری و اندروید ایریس تنها نرم افزارهایی بودند که در این زمینه فعالیت می کردند اما API جدید AT&T، هر چند فعلا در آمریکا کار می کند، اما امکان استفاده از این قابلیت را برای تعداد بیشتری از نرم افزارها فراهم می کند.
این سیستم به این صورت کار می کند که صدای ضبط شده از طریق API به AT&T فرستاده می شود و نتیجه در قالب یک متن برگردانده می شود. این که چه کارهایی با متن بازگشتی انجام شود، به دلخواه برنامه نویس است و می تواند استفاده های مختلفی از آن ببرد. از جمله:
جستجوی وب
جستجوی متنی در نرم افزار
تبدیل Voicemail به متن
ارسال پیامک
پرسیدن سوال و دریافت جواب
کنترل تلویزیون
و...
API تولیدی در محیط های مختلفی از جمله HTML۵، مایکروسافت، اندروید و iOS قابل استفاده و پیاده سازی است. از قابلیت های کلیدی این API می توان به SDKهای هر سیستم عامل و SDK مخصوص HTML۵ اشاره کرد. استفاده از این APIها فقط محدود به سیستم مخابراتی AT&T نیست و می تواند با هر اپراتوری فعالیت کند.
برای استفاده از این API، کافی است مواردی را رعایت کنیم. نخست، فرمت فایل صوتی است که با سرور تبادل می شود. این فایل باید به یکی از دو فرمت زیر باشد:
audio / amr (preferred format)
audio / wav
که به صورت جزئی تر می توان آنها را به صورت زیر تنظیم کرد تا بهترین حالت ممکن وجود داشته باشد.
۱۶ bit PCM WAV, single channel,
۸ kHz sampling
AMR (narrowband), ۱۲.۲ kbit / s, ۸ kHz sampling
فایل صوتی باید کمتر یا مساوی ۴ دقیقه باشد.
در حال حاضر، حوزه های معنایی زیر توسط AT&T پشتیبانی می شوند:
Business Search، Web Search، SMS، Voicemail to Text، Question and Answer، UverseEPG
برای تعیین حوزه معنایی باید آن را در هدر HTTP ارسال کرد.
ارسال فایل به سرور به دو صورت فایلی و استریم انجام می شود. در حالت فایلی باید حجم فایل ارسالی در هدر HTTP مشخص شده باشد و در حالت استریم باید کدک، میزان هر بسته اطلاعاتی و تعداد آنها مشخص شود.
تبدیل ناموفق در این سیستم با بازگرداندن ارور HTTP ۴۰۰ انجام می شود و یکی از این موارد را در بر می گیرد:
ـ صدایی دریافت نشده است.
ـ کلمات به اندازه کافی نبود.
ـ کلمات بیش از حد بود.
ـ صدا بسیار آرام بود.
ـ صدا قطع و وصل شده است.
API قادر به تلاش دوباره برای دریافت اطلاعات نیست و این برنامه است که باید تشخیص دهد آیا تمایل به ارسال مجدد فایل دارد یا خیر.
در زیر نمونه ای از بسته ارسالی از سوی نرم افزار را مشاهده می کنید:
POST/rest/۱/SpeechToText HTTP/۱.۱
Host: api.att.com
Authorization: Bearer ۳۸C۲۳۹۹A۲۳۹۹۹
Accept: application/xml
Content Length: ۵۶۵۵
Connection: Close
Content Type: audio/amr
X SpeechContext: BusinessSearch
متد SpeechToText، تعدادی پارامتر ورودی دارد که به این صورت است:
پارامتر Accept که فرمت اطلاعات را تعیین می کند. فرمت های مجاز، application / json و application / xml هستند.
پارامتر Content Length ، طول فایل صوتی را مشخص می کند.
پارامتر Content Type ، فرمت فایل صوتی را مشخص می کند.
پارامتر Transfer Encoding، هنگامی که از روش استریم برای ارسال اطلاعات استفاده شود، کدک فایل صوتی را در خود دارد.
پارامتر X SpeechContext، حوزه معنایی فایل صوتی را ارسال می کند. و در نهایت، پارامتر باینری audio data، فایل صوتی را به سرور ارسال می کند.
امیربهاالدین سبط الشیخ
روزنامه جام جم ( www.jamejamonline.ir )