Google刚发布了Gemini 3.1 Flash TTS,号称目前表现力可控性最强的文本转语音,还加了个很妙的音频标签功能,直接在文本里加标签就能调语气语速,现在开放预览,所有生成音频都带SynthID水印。
海外网友都夸音频标签这个设计戳中痛点,创作者都迫不及待想试,但也有不少人吐槽现有API老报错,还有人问能不能语音克隆、出本地模型。
请 登录 后评论。没有帐号? 注册 一个。
小陈