За последние годы появилось немало технологий, обещающих моментальный устный и письменный перевод в реальном времени, но большинство из них разочаровали пользователей. Группа американских ученых из Вашингтонского университета представила новую систему — наушники с искусственным интеллектом, способные одновременно переводить речь нескольких человек, сохраняя при этом особенности голосов и направление, откуда они исходят.
Технология получила название Spatial Speech Translation (SST). В отличие от существующих решений, таких как очки Meta, которые переводят речь последовательно и работают только с одним говорящим, система SST различает нескольких собеседников, отслеживает их движение и переводит все высказывания с задержкой в 2–4 секунды, обеспечивая синхронность и точность перевода.
Наушники используют общедоступные шумоподавляющие устройства с микрофонами и передовыми алгоритмами обработки звука. Приложение работает локально на устройствах с чипом Apple M2, что исключает необходимость передачи данных в облако и защищает личную информацию пользователей.
Испытания прошли успешно как в помещениях, так и на открытом воздухе. В тестах с участием 29 человек система показала лучшие результаты, чем аналоги без отслеживания движения говорящих. Перевод осуществлялся с испанского, немецкого и французского на английский, однако разработчики планируют расширить список поддерживаемых языков до сотни.
Новая технология способна существенно улучшить качество и удобство перевода в реальном времени, особенно в многоголосой среде, где важно сохранить индивидуальность каждого говорящего и точность передачи смысла.





