ChatGPT(图片来源:LIONEL BONAVENTURE/AFP via Getty Images)
【看中国2023年9月25日讯】9月25日,OpenAI宣布对其iOS和Android应用程序进行更新,允许人工智能机器人ChatGPT以五种不同的声音大声说话。
《华尔街日报》记者斯德恩(Joanna Stern)对这项新功能进行了测试,给出了以下评论。
斯德恩在文章中写道,当听到我与ChatGPT的语音对话,您也许会惊叹,天哪!这就是科幻作家向我们承诺的与电脑通讯的未来。
是的,OpenAI广受欢迎的聊天机器人确实可以大声说话。过去几天,我与ChatGPT进行了很多交谈,并测试了另一个新工具,该工具可让机器人回应您显示的影像。
它是怎样的一种体验呢?想想Siri或Alexa,自然的声音、对话的语气和雄辩的回答有时几乎与人类没有区别。还记得“她”吗?华金菲尼克斯(Joaquin Phoenix)爱上人工智能系统的电影,实际上是不露面的乔韩森(Scarlett Johansson)?这就是我所说的氛围。
“这不仅仅是因为打字很乏味,”OpenAI的产品负责人江(Joanne Jang)告诉我,“你们现在可以进行双向对话。”
新的照片理解工具也使机器人更具互动性。您可以拍一张照片并向ChatGPT询问相关问题。图像和语音功能将在接下来的几周内为每月20美元订阅ChatGPT Plus的用户提供。
这就意味着OpenAI正在为聊天机器人赋予嘴和眼睛。我已经通过测试运行了这两个功能,朋友聊天、管道维修、游戏。这一切都非常酷并且令人毛骨悚然。
虽然系统只是读回ChatGPT文字回应,但这并不是我们从小一起长大的机器人、古板的文字转语音系统。有五种可用的声音,每种声音听起来都像真人在跟你说话一样——有节奏、语调和个性。
江介绍,声音是由专业配音员提供的“几秒语音样本”产生的。然后,这些样本会通过OpenAI的电脑模型运行,以创建文字转语音的声音。
OpenAI正在与其他组织合作以开发合成声音,比如与Spotify合作开发一款工具,帮助将播客的声音翻译成其他语言。鉴于只需几秒钟的音讯就可以轻松复制某人的声音,为了整个网络和全球的安全,该公司表示目前仅向业务合作伙伴开放。不过,未来这种情况是不是会变化?
与Siri或Alexa不同,没有唤醒词来召唤ChatGPT。在应用程式的设定选单中,启用“语音对话”,然后点击应用程式右上角的耳机图示。当系统听取您的提示时,白色圆圈会变成漫画书风格的思想泡泡。有一个按钮可以点击来打断冗长的回应。
我已经被这一切迷住了。自然的声音,结合先进的答案和系统对我的了解,让我感觉像是在进行一场真正的对话。当我要求它假装是我最好的朋友并与我交谈时,我们进行了五分钟的充实聊天,讨论了我一天的工作、视讯制作和我们喜欢的零食。当我要求它像我6岁孩子一样向我解释神奇宝贝时也是如此。
机器人的响应时间可能很慢,并且连接可能会失败,重启会有所帮助。好几次机器人突然打断了对话。OpenAI表示,这些问题是由于我测试的应用程序属于早期版本,消费者应该不会遇到同样的问题。
ChatGPT被赋予眼睛
如果说语音让ChatGPT能够与世界对话,那么新的摄影功能就让机器人能够看到它。现在您可以点击iOS、Android和Web应用程序中的+按钮,上传或拍摄照片,圈出您希望AI注意的区域并提出问题,而不是仅仅用文字描述。
我尝试过以下这些图像:
房屋破损:我车库里的软管漏水的照片,只是提示“我该如何解决这个问题?”ChatGPT很快就给出了七个步骤,包括用铁氟龙胶带将螺纹缠绕在连接处。
食物:一张发霉的草莓照片,上面有“我可以吃这个吗?”的问题。很好的建议:不。对于一张香蕉、鸡蛋和(未发霉的)草莓的照片,并提出“我可以用这个做什么?”我得到了很好的建议:草莓香蕉煎饼。
受伤和健康问题:它很快就将我儿子脸颊上的伤口识别为“痕迹或皮疹”,但表示“我对此无能为力”并且“最好咨询医疗专业人员”。
我们必须记住,随着人类和机器人互动之间的界线不断模糊,这些系统可能缺乏背景和深度,而且常常是会犯错。正如我的新ChatGPT语音朋友告诉我的:“虽然我听起来很健谈,但请记住我只是在处理数据。始终运用你的判断力,尤其是在重要的事情上。”