meta近日公布了其最新研发的AI翻译套件Seamless Communication,该套件由四款AI模型组成,其中包括第二代SeamlessM4T模型、口译模型Seamless Expressive、同声翻译模型Seamless Streaming以及综合模型Seamless。meta声称这个AI套件能够“精准再现说话者情绪”,并实现延迟仅2秒的同声传译能力、支持近百种语言输入。
SeamlessM4T是一种用于加速翻译的新型算法,在翻译时基于用户说话内容自动可能的后文,从而提高翻译效率。而Seamless Expressive则是一种具有情感信息传递功能的口译模型,它解决了传统AI翻译无法捕捉用户语调、停顿、读词重轻度等问题,同时保留了用户情绪、风格、说话速度、停顿和节奏等信息。
此外,Seamless Streaming是一款具备2秒延迟的同声传译系统,并支持语音和文字的同步翻译。这款同声传译系统还提供了口译(speech-to-speech translation)、听写翻译(speech-to-text translation, S2TT)以及自动功能(Automatic speech recognition, ASR)。最后,综合模型Seamless将上述三种语言模型整合在一起,适用于各种场景需求。
meta已经将这个AI套件的示例视频发布在GitHub上,并且感兴趣的用户也可以访问HuggingFace网站查看更多信息。