AI情感助手
花朵财经观察出品 编辑丨铎子 AI行业性“春晚”,再次轮番上演。 5月14日凌晨,OpenAI用一场春季发布会,再次搅动整个AI行业。这场发布会,表面上看有点简陋,全程只有26分钟,现场只有几十名观众,却备受瞩目。 最重磅的无异于,新的ChatGPT产品GPT-4o新模型的发布,与现有大模型相比,GPT-4o长出了灵活的“耳朵”、“眼睛”,甚至有了人类“情感”。 换句话说,跟GPT-4o对话就跟真人似的。 有别于此前的付费制,此次GPT-4o还将免费提供给所有用户使用。明眼人都能看出,OpenAI此次诚意满满。 但过后一看,谷歌、字节跳动等紧随其后进入AI“春晚”,相继发布大模型产品,继续加大行业竞争,为抢占市场,GPT-4o走向免费,似乎又并不意外。 AI有了“情感” “像真人一样与人交流。” 本次GPT-4o新模型,能实时按要求变换语音语调,甚至能跟测试者开玩笑,自然连贯得就像坐在身边的老朋友,完全没有机器人的僵硬感。 当测试者向它发问:“我正在台上,给大家做现场演示呢,我有点紧张,该怎么办呀?” GPT-4o非常体贴地回答:“你在台上做演示吗,那你真的太棒了!深呼吸一下吧,记得你是个专家!” 而后,测试者疯狂地大喘气几次,问能给自己什么建议没? GPT-4o还长出了灵活的“耳朵”,能听懂的不仅有语言,还能听懂过于急促的呼吸声。它惊讶地回复:“放松啊Mark,慢点呼吸,你可不是个吸尘器!” 它的幽默感,引起全场哄笑。 在被要求给大家讲个睡前故事,没讲几秒,就被打断,要求能不能多点情绪和戏剧性? GPT-4o又有了人类的情感表现,说话语调开始变的有起伏、有情绪。 当再次被打断,要求能不能再来点情感,最戏剧化的表达?我们又听到了一个仿佛在舞台上表演莎剧的人,语气就像个戏剧演员。 多次被打断后,还被要求唱歌时,GPT-4o甚至叹了口气,无奈叹气的瞬间,让人十分真实的感受到了它的“情绪”。 但它还是很有耐心地按照测试者的要求,依次变成了唱歌模式。 不仅如此,它还长出了“眼睛”,可以通过摄像头,做出判断。 把摄像头权限开放给它,它能给盲人提供环境观察,给盲人讲述看到的景色,并提醒盲人过马路的路况。 GPT-4o还能化身在线导师,在线帮助解题,可以要求它只给提示,不能直接说出答案,引导用户一步一步解题。 演示完震惊全场的场景后,GPT-4o还有彩蛋。 不仅将免费提供给所有用户使用,OpenAI还发布了ChatGPT桌面版本,让其可以更轻易地和我们的工作融为一体。 正如OpenAI CTO Mira Murati一出场时所说:“对OpenAI来说,打造一款真正让所有人可用的产品,非常重要。” 谷歌硬刚OpenAI GPT-4o收获了雷鸣的掌声,然而OpenAI风光背后,竞争也在增加。 就在OpenAI发布GPT-4o的24个小时后,谷歌召开了一场两小时的I/O大会,会上共提及“AI”121次,并发布了多项产品。 其中,一款名为Project Astra的AI智能体产品,具备多模态实时推理能力,能够跨越文本、音频和视频等多种模态进行信息处理,也可通过摄像头捕捉并处理视觉信息,是GPT4o强劲的竞争对手。 在演示环节中,Astra通过其AI模型Gemini,展示了对各种问题的快速响应和准确理解。 当测试者打开摄像头对着周围环绕,并对它提出要求:“当你看到任何可以发出声音的对象时,请告知我。” 随即得到回应:“我观察到了一个扬声器,它具备发声的功能。” 不仅如此,它还有着惊人的记忆力。当被问及“你还记得在哪里见过我的眼镜吗?” 它毫不犹豫回答:“当然记得,你的眼镜就放在桌子上,紧邻着一个鲜红的苹果。” 强大的理解代码能力,它也没落下。当用摄像头对着电脑屏幕拍摄代码,然后向其提问:“这段代码的主要功能是什么?” 其迅速作答:“此段代码主要定义了加密和解密的功能。它似乎采用了AES CBC加密方式,通过特定的密钥和初始化向量来对数据进行编码和解码。” 对比GPT-4o模型,谷歌明显有备而来。 发布会上,谷歌还宣布了对Gemini模型进行更新,升级后的Gemini 1.5...