گوگل، گفتار را با صدا و لحن گوینده ترجمه می‌کند

گوگل با استفاده از شبکه عصبی آموزش دیده، صدا و لحن گوینده را در ترجمه نیز بازنمایی می‌کند. انتقال لحن و صدای گوینده از زبان مبدا به زبان مقصد بر ظرافت ترجمه می‌افزاید و به‌لحاظ نظری از خطاهای ترجمه نیز می‌کاهد زیرا در این روش، مراحل لازم جهت ترجمه، کاهش می‌یابد.

گوگل قابلیت جدیدی را در مترجم صوتی خود آزموده است که گفته‌های کاربر را با صدا و لحن او ترجمه می‌کند. برای این منظور، ورودی صوتی مستقیما و بدون هیچ‌ واسطه‌ای به خروجی صوتی تبدیل می‌شود تا صدا و لحن گوینده در ترجمه صوتی نیز بازنمایی شود؛ حال آن‌که مترجم‌های صوتی فعلی، نخست صدا را به متن تبدیل می‌کنند و سپس صدا مجددا ترکیب یا ری‌سنتز می‌شود که نتیجتا ویژگی‌های صدای گوینده طی این فرآیند از دست می‌رود.

سامانه جدید گوگل موسوم به ترنسلیترون (Translatoron) سه جزء دارد که همه آن‌ها به طیف‌نگاره یا اسپکتوگرام صدای گوینده رجوع می‌کنند. جزء نخست، از شبکه عصبی آموزش‌دیده‌ای بهره می‌برد که طیف‌نگاره صوتی در زبان ورودی را به طیف‌نگاره صوتی در زبان خروجی نگاشت می‌کند. دومین جزء، طیف‌نگاره را به موج صوتی قابل پخش تبدیل می‌کند. و سپس جزء سوم ویژگی‌های آوایی گوینده را در خروجی صوتی نهایی نیز لایه‌بندی می‌کند.

حفظ سرنخ‌های مهم غیرزبانی (مثل لحن گوینده) بر ظرافت ترجمه می‌افزاید. ضمنا چون در روش جدید، مراحل لازم برای ترجمه از زبانی به زبان دیگر کاهش می‌یابد، به‌لحاظ نظری خطاهای ترجمه نیز کمتر می‌شود.

ترنسلیترون فعلا در مرحله اثبات مفهوم است. پژوهشگران طی آزمایش این سامانه جدید، تنها ترجمه اسپانیایی به انگلیسی آن را آزمودند که داده‌های آموزشی به‌دقت سازمان‌یافته‌ای برای آن فراهم شده بود.