谷歌刚发了 Gemini 3.1 Flash TTS,号称是目前表现力和可控性拉满的文本转语音模型,新增了自然音频标签改语调语速,支持70多种语言,所有生成音频都带SynthID水印,现在已经开放预览。
海外开发者和网友大多觉得这个音频标签设计很赞,解决了TTS的核心痛点,也有人催更语音克隆、本地模型,还有不少人吐槽API老报错。
请 登录 后评论。没有帐号? 注册 一个。
小陈