人工智能可以具有心灵吗——从“中文房间”思想实验谈起
AI情感助手

人工智能可以具有心灵吗——从“中文房间”思想实验谈起

人工智能可以具有心灵吗? 人工智能可以具有心灵吗?对于这个在哲学领域和人工智能领域都极为重要的问题,人们一直争论不休。有的人沿袭图灵的行为主义观点,主张只要人工智能可以表现出与人无法区分的对话能力或行为能力,就可以被认为具有心灵。有的人则不同意这种观点。 约翰·塞尔 美国哲学家约翰·塞尔把人工智能分为“强人工智能”和“弱人工智能”。具体而言,强人工智能观点认为经过恰当编程的计算机可以具有理解和其他认知状态,也就是具有和人一样的心灵。而弱人工智能观点则认为计算机无论带有什么程序都仅仅是人类进行研究的工具,不可能具有理解能力和诞生出心灵。 强人工智能和弱人工智能争论的焦点之一就是恰当编程的机器是否具有理解能力。首先听下面这样一个故事:一个人走进一家餐厅点了一份牛排,服务员送过来一份焦黑的牛排,这个人很生气,大骂几声后冲出餐厅,没有买单。现在,如果问你:“这个人吃牛排了吗?”你会根据推测回答:“他没有吃。”早在上个世纪80年代初就有机器能作出这样的回答。这些机器具有像人那样的关于餐厅信息的“表述”,在听到这类故事及问题后可以做出类似的回答。当时强人工智能一派的人认为,具有上述应答能力的机器不仅仅是在模拟人的能力,同时断言机器理解了这个故事并且机器的程序在某种意义上解释了人类的理解能力。 塞尔认为并非如此,于1980年设计了一个后来被称为“中文房间”的思想实验来反驳强人工智能的观点。 这个思想实验的内容大致如下:假定一个以英文为母语、完全不懂中文的人被锁在一个房间里,房间里有一盒中文字卡片和一本用英文写的规则书。规则书里写了如何操作中文字卡片的规则,但没有给出任何中文字词或中文句子的含义。当用中文写着问题的纸片通过门上的小窗口递进房间时,房间里的人严格按照规则书的规则操作,用中文字卡片组合出词句来作为递进来的问题的答案,然后把答案送出门外。这答案在房间外的人看来,和懂中文的人的回复一样完美。当用英文写的问题从门外递进来时,房间里的人直接用英文母语进行回复。 现在我们根据这个思想实验来审视强人工智能的两个论断:恰当编程的计算机可以理解故事,同时,这个程序解释了人类的理解。 关于计算机可以理解故事的论断,塞尔认为在这个中文房间思想实验中,房间里的人的行为就相当于计算机的运行过程,规则书就相当于计算机的“程序”。虽然房间里的人给出了中文回复,但他并不理解中文。同样地,给出恰当回复的计算机,也不理解问答涉及的内容。 关于第二个论断即程序解释了人类的理解,塞尔认为没有任何证据或理由支持这种说法。房间里的人在中文问答和英文问答中进行的思想和操作过程是不一样的。在中文场景,他以类似计算机程序的方式进行操作,他什么也不理解;而在英文场景,他理解了每样东西,却没有任何理由认为他的大脑是以计算机程序的方式进行理解的。计算机程序既不是理解的充分条件,也没有任何理由认为其是理解的必要条件。所以计算机程序和理解完全是两码事。 有些人可能会问,理解究竟是什么?这个问题暂且不去讨论,但我们应该能明显地感觉到,我们对用母语写的故事的理解与声控灯对声音的“理解”是不一样的。 中文房间思想实验被提出来后,很多人对此思想实验及其论证的观点表示质疑,并提出了各种反驳的理由。于是塞尔试图把这些反驳逐一化解。 反驳一 系统反驳 有的人会反驳说,房间里的人作为系统的一部分确实不理解中文问答内容,但是包含房间里的人、规则书和中文字卡片的整个系统是理解中文问答内容的。塞尔对于这种系统理论的回答是:可以让房间里的人把系统中包含的这些元素内化。当房间里的人把规则书和中文字卡片都牢记下来后,他就可以摆脱这两样东西,甚至走出房间。如果别人递给他中文字条,他就可以在自己的大脑中进行演算,在脑海中根据规则书中的规则用中文字组合出恰当的回复。在这种情况下,他就相当于原来的中文房间系统,他作为系统还是一点都不理解中文。所以原来的中文房间作为整体也是不能理解中文的。 反驳二 机器人反驳 有人提出设想,模仿人的感官给一个人形机器人的头部装上一系列传感器,比如摄像头、麦克风、嗅觉传感器、触觉传感器等,然后将一台计算机放入这个机器人的头部,并给这台计算机编写足够厉害的程序,使得计算机不仅能将形式符号作为输入和输出,而且能控制这个机器人做出类似感知、行走、制作东西、修理东西等人类能做的任何事情。比如当机器人看到一块小石头时,就可以说出“石头”这个词语,可以做出捡起石头、踢走石头或其他动作。在提出此设想的人看来,这个机器人可以将物体与对应符号指称联系起来和做出动作,它应该具有真正的理解能力和其他心理状态。 塞尔认为,增加了这种“感知”和“动作”能力,并没有在理解和意向性方面给原来的计算机程序增加任何东西。中文房间思想实验仍然适用于机器人的情况。假设把原来的中文房间系统缩小,用来代替机器人中的计算机,机器人感知到的信息经过转化变成中文符号后被送入房间,房间里的人像之前一样根据规则进行操作,递出的中文符号就作为机器人的动作指令。在这个过程中,房间里的人依然不理解中文,也不知道输入的感知信息和输出的动作指令是什么意思。他只是根据规则对形式符号进行处理。所以机器人没有理解能力和意向状态,它只是在受电路和程序支配进行运动而已。 反驳三 大脑模拟器反驳 另外有一些人假定设计一个程序,它模拟讲中文母语的人在理解中文问题和做出回答时在他大脑中神经元突触激活的实际形式和过程。装了这个程序的计算机,接收用中文提出的问题作为输入,程序模拟懂中文的大脑在处理中文时所激发的神经突触的形式结构来对输入信息进行处理,并输出中文回答。在这种情况下,我们似乎很难否认,这台计算机是可以理解中文的。 塞尔认为即使人工智能以接近于大脑的方式运行,仍然不足以产生理解。他设想让一个只懂英文的人去操作一套复杂的具有连接阀门的水管系统,而不是在房间里摆弄符号。这个人在接收到中文符号时,他根据用英文写的能模拟懂中文的大脑中突触激活形式的程序,去打开或关闭连接阀门,使得每一个连接阀门的打开或关闭都对应于懂中文的大脑的一个突触的激活或抑制,当所有的阀门都被正确操作之后,就完成了对懂中文的大脑处理中文过程的模拟,中文答案就会在水管系统的输出端冒出来。在这个过程中,这个人是不懂中文的。那么整个水管系统理解中文吗?人是可以将水管的形式结构内化的,并在他的想象中进行用水管系统的水流连接来模拟“神经元激活”的操作。因此,水管系统也是不理解中文的。 反驳四 他人心灵反驳 有的人提出反对,既然我们是根据其他人的行为来判断他们可以理解中文,或者有别的认知能力,假设现在计算机能表现出与人无差别的行为,如果我们认为那些人有认知能力,那么原则上,我们也应该承认计算机有认知能力。 对于这种反对意见,塞尔不想多费笔墨去回答,他的简单回应是:在“认知科学”中人们预先假定了人的心理的实在性和可知性,否则就失去了进行探究的基础。至于计算机,认知不可能仅仅是计算过程及其输出,因为在认知不存在的情况下,计算过程及其输出也可以存在。 说完塞尔对这些反驳的回应之后,接下来讨论一个问题:中文房间里的人在英文问答场合所具备的,而在中文问答场合所不具备的东西,是什么呢?不管这种东西是什么,我们能把它给予机器吗? 塞尔认为我们是不可能把这种东西给予机器的,因为机器不具备产生这种东西的物质基础,其本身所进行的形式符号处理更产生不了这种东西。中文房间里的人之所以具有理解英文的能力和具有其他形式的意向性,是因为他是某种有机体,具有某种生物化学结构,在一定条件下,这个结构能以因果的方式产生感知、理解、行动以及其他意向性现象。只有具有这些因果能力的东西,才可能具有意向性。仅有纯形式程序的机器,因为形式特性自身不能构成意向性,它们自身也没有因果能力,它们的能力只是随着机器运行而产生下一步的形式体系,所以并不足以凭借其自身产生意向性。 支持强人工智能的立场实际上预设了一个二元论的强版本。强人工智能的支持者相信可以在计算机上通过编写和运行程序来再现和解释心灵,这样心灵就不再是独属于大脑的产物,而是可以由其它物质结构产生。这就意味着他们相信心灵既在概念上、也在经验上可以与大脑相分离。他们的这种观点值得怀疑,“心灵之于大脑,犹如程序之于硬件”这个等式,是不能成立的。因为程序是独立于任何硬件材料的,而心灵不能脱离大脑那样的生物化学特性;程序是纯形式的,心灵却不是形式的。大脑和计算机之间不可能建立起这样的类比关系。 “机器能够思维吗?”对于这个问题,塞尔的观点是,只有一些类型非常特殊的机器,即大脑和那些与大脑具有相同因果能力的机器,能够思维。这就同只有叶绿素和其他光合色素能完成光合作用有相似之处。意向性是一种生物现象,它很可能像泌乳、光合作用或任何其他生物现象一样,与生成它的特定生物化学特性具有因果相关性。谁都知道,对泌乳和光合作用的反应过程的计算机模拟无法得到牛奶和糖类。用计算机来产生心灵,就是一种对人类心灵的模拟,而模拟不会真的产生心灵,模拟和复制不能混为一谈。 中文房间思想实验自40多年前被提出后,一直受到很多人的关注和讨论。有些人喜欢中文房间思想实验设计的巧妙和哲学论证的力量,并对其论证的观点给予不同程度的支持;有些人认为这个思想实验离驳倒图灵测试所代表的行为主义或功能主义的最终目的还有一点距离;还有些人则并不认可这个思想实验及其背后的主张。那么你是怎么认为的?
美国《大西洋月刊》:你会把健康交给人工智能吗?
AI医师助手

美国《大西洋月刊》:你会把健康交给人工智能吗?

来源:环球时报 美国《大西洋月刊》7月12日文章,原题:你会把健康交给人工智能吗?日前OpenAI首席执行官萨姆·奥尔特曼和企业家阿里安娜·赫芬顿与我的同事查理·沃泽尔谈到了他们用生成式人工智能(AI)重塑美国医疗体系的雄心。他们宣布合资成立企业Thrive AI Health,提供一款聊天机器人,根据个人的特定健康需求提供行为建议。 聊天机器人频频出错,我甚至犹豫是否要根据其建议给树浇水,遑论在我的身体里放点什么了。但其支持者承诺,伟大时代即将到来。这一愿景是诱人的,正如赫芬顿所言:“我们的医疗体系已经崩溃,数以百万计的人因此而受苦。”但有些问题可能太大了,AI无法处理。还有另一种看待Thrive AI Health的方式:各家公司仍在努力弄清楚AI的真正好处。 Thrive AI Health承诺将OpenAI的技术引入我们生活中最私密的地带,评估健康数据并提出建议。Thrive AI Health将改良现有的医疗聊天机器人领域,改善人们的健康状况,降低医疗保健成本,并显著减少全球慢性病影响。 奥尔特曼和赫芬顿将该公司描述为重塑医疗体系中的“关键基础设施”。他们还表示,该公司未来推出的聊天机器人可能会鼓励你“把下午喝的第三杯苏打水换成水和柠檬”。他们称,这款聊天机器人是“超个性化人工智能健康教练”,也是 Thrive AI Health 宣传的核心。这款机器人将根据用户的生物特征和健康数据生成“个性化人工智能驱动的见解”,提供信息帮助用户变健康。例如,AI教练可能提醒一个忙碌的糖尿病患者按时服药并提供健康食谱。 这让我觉得很难接受:两位有钱的知名企业家要求普通人把他们最私密、最重要的健康数据交给一个唠叨的机器人?健康应用很受欢迎,人们允许科技工具每天收集各种各样的个人数据,比如睡眠、心率和性健康信息。如果该公司成功了,市场潜能难以估量。但AI让事情变得复杂起来,它为公司打开了一扇大门,可以根据隐私信息训练模型。奥尔特曼和赫芬顿正在让全世界相信,AI有朝一日将能够改变我们与自己身体的关系。 赫芬顿说,AI健康教练的不同之处在于,这项技术将足够个性化,以满足个人行为改变的需求,而美国目前的医疗系统却无法满足这种需求。奥尔特曼说,他相信人们真心希望技术能让他们更健康:“我认为AI能真正改变世界的案例很少。让人们更健康当然是其中之一。” 这两个答案听起来都很真诚,但每个答案都需要一定的信仰。我们需要信仰,它是推动进步的强大动力,是拓展我们视野的途径。但是,在错误的背景下,信仰是危险的,尤其是盲目的信仰。一个由盲目信仰驱动的行业似乎尤其令人不安,它给了贪婪之人以巨大杠杆,允许妄想快速赚钱的骗子伸出“第三只手”。一个以信仰为基础的行业最大的诡计是,它毫不费力地不断改变目标,抵制评价,回避批评。别有用心之人“画大饼”欺骗着不知情的人。与此同时,不成熟的愿景可能永远不会等来救赎。(作者达蒙·贝雷斯、查理·沃泽尔,王逸译)
过去一年,ChatGPT吃了多少官司?
AI律师助手

过去一年,ChatGPT吃了多少官司?

ChatGPT,又吃官司了。 2024年元旦前夕,ChatGPT遭到美国《纽约时报》的诉讼,指控这两家公司未经授权,将数百万篇时报文章用于训练ChatGPT和微软Copilot聊天机器人。 微软是OpenAI的最大股东,自2019年双方合作以来,微软至少向OpenAI投资了130亿美元。 据此,《纽约时报》要求OpenAI和微软删除任何包含其版权材料的训练数据,并称侵权行为可能造成了数以十亿美元计的法定和实际损失。 稍显讽刺的是,在2023年初ChatGPT风靡之际,《纽约时报》一度表示,ChatGPT是“有史以来最好的面向大众的人工智能聊天机器人”。 作为第一家起诉OpenAI和微软的美国大型媒体机构,《纽约时报》无疑扣动了关于版权之争的扳机,甚至有人认为可能成为AI侵权的里程碑式案件。 OpenAI发言人对此回应称,希望能找到一种互利的合作方式,就像与许多其他出版商所做的那样。 显然,OpenAI不想和包括《纽约时报》在内的媒体机构闹翻。 刚刚过去的2023年,ChatGPT成了全球最火爆的新生事物,也伴随着最多的争议。 毕竟靠着ChatGPT产品的强劲增长,OpenAI最新的年化收入已经超过了16亿美元。据OpenAI内部预测,2024年的收入有可能接着翻几番达到50亿美元。 但是,过去一年,ChatGPT吃的官司,远比想象中多得多。 从作家到律师,再到被收集个人信息的普通人,ChatGPT不断引来各种法律纠纷。围绕ChatGPT生成的内容,也是争议重重。 屡屡“吃官司”的ChatGPT 纵观去年至今一年来ChatGPT所遭遇的法律纠纷,大致可以分为三类,即侵犯版权、侵犯个人隐私、造谣或传播虚假信息。 就在《纽约时报》将OpenAI和微软告上法庭的前几天,11位美国作家在曼哈顿联邦法院提起诉讼,指控OpenAI和微软滥用自己所著的书籍来训练ChatGPT,而这样的行为无疑是在“刮取”作家们的作品和其他受版权保护的材料。他们希望获得经济赔偿,并要求OpenAI和微软停止侵犯作家们的版权。 更早之前的2023年9月,包括《冰与火之歌》作者乔治·马丁在内的17位作家向美国纽约联邦法院提起诉讼,指控OpenAI“大规模、系统性地盗窃”,公然侵犯了作家们登记在册的版权。 此次诉讼的组织者美国作家协会控诉,这些作者的作品从盗版电子书库中被下载后,又被复制到了ChatGPT中,由此OpenAI能从中获利数十亿美元。 “我们必须阻止这种盗窃行为。为了保护文学,作家必须限制AI能否与如何使用他们的作品。”美国作家协会CEO玛丽·拉森伯格在一份声明中说。 除了侵犯版权,ChatGPT还曾因“抓取”个人数据而遭到集体诉讼。 2023年6月,有16名匿名人士向美国加利福尼亚旧金山联邦法院提起诉讼,称ChatGPT在没有充分通知用户,或获得同意的情况下,收集和泄露了他们的个人信息。 具体来看,原告指控两家公司通过其AI产品“收集、存储、跟踪、共享和披露”数百万人的个人信息,包括产品详细信息、账户信息、姓名、联系方式、电子邮件等。 据此,他们要求微软和OpenAI赔偿30亿美元。 ChatGPT的另一宗“罪”,是涉嫌造谣及传播虚假信息。用时下流行的话来说,就是“一本正经地胡说八道”。 在美国近来的一起诉讼案件中,一名律师帮原告打官司,却靠ChatGPT来帮忙,一口气在辩护词中引用了6个ChatGPT提供的案例。这些案件均配有大段引文,原告与被告公司之间的恩怨情仇也写得清清楚楚。 结果法院在审理时发现,这些案件根本不存在,而是该律师求助的ChatGPT所捏造出来的。 “我很后悔自己依赖ChatGPT。我不知道它给的内容可能是假的。”这名从业30年的律师忏悔道。 很显然,这与ChatGPT的智能水平有关系,当遇到“没学过”的领域时,就会发生种种令人啼笑皆非的“翻车”现象。 ChatGPT有多智能? 自2022年11月上线以来,ChatGPT便风靡全球。 具体到个体,已经有人对ChatGPT的智能化水平从“兴奋”变成了“惊恐”。 据OpenAI此前公布的成绩显示,GPT-4非常善于参加标准化考试。 在没有进行培训的情况下,在模拟律师资格考试、SAT阅读考试和SAT数学考试中都位列前10%。 借助ChatGPT,有程序员将软件开发周期从8-10周缩短至不到一周。 有艺术家宣布,他在9个月内用AI创作并出版了97本书,净赚2000美元。 据美国佛罗里达金融学院公布的一项研究表明,将ChatGPT融合在投资模型中,可以预测股市的走势,投资回报率甚至可以达到500%,堪称AI界的巴菲特。 Steven是一名大厂员工,某种程度上,ChatGPT已经成为了他的重要参谋。“无论是做方案还是汇报,我都会先听听ChatGPT的意见,这给了我很多灵感。”Steven对《凤凰WEEKLY财经》表示。 ChatGPT的效用不仅发挥在工作中,在生活中,他还曾让ChatGPT扮演一名幼儿教师与他5岁的孩子对话,一问一答之间,这场对话居然持续了40分钟。“超出意料,ChatGPT还可以帮忙带孩子了。”Steven感慨道。 这也印证了一些科学家的发现:GPT-4具有比以前更明显的机器觉醒迹象。 OpenAI联合创始人GregBrockman直播演示GPT-4 但如果说ChatGPT现在就能令人类感到“惊恐”,显然也是杞人忧天。 2023年12月28日,香港城市大学数据科学学院讲座教授祝建华在北京师范大学新闻传播学院举办的《人工智能与未来媒体大讲堂》上表示,对ChatGPT的能力应“谨慎看待”。 他认为,ChatGPT的理解能力和再现能力非常强,已经达到和大部分人能力相等的程度。 同时,ChatGPT也具备一定的创新能力和推理能力,只是目前还比较弱。至于情感能力和自主意识,应该是没有的。 这也带来了一个好消息和一个坏消息。“好消息是,人类可以从低等、重复、繁重的生产过程中解脱出来。坏消息是,我们的很多工作就会被机器代替。更坏的是,智能中必然会包含自主意识,到时候机器可能就会赶超人,消灭人。当然,如果现在或将来都无法通过图灵测试(一种测试机器人是否具备人类智能的方法),那意味着机器只能做一些简单的工作,对人类的威胁也就解除了。”祝建华进一步解释称。 最新的趋势是,GPT-4大模型有“变懒”的迹象。越来越多的用户在社交网站上抱怨,GPT-4有时只给出问题的一半答案,剩下的一半要求用户自行完成。 此前OpenAI官方也承认,GPT-4模型在11月11日后就没有更新维护过,不过拒绝透露这是否和公司的人事变动有关。...
在GPT风口的金融行业
AI金融助手

在GPT风口的金融行业

近期,多家金融机构、金融服务机构发布其AI大模型。彭博发布支持金融领域的自然语言处理(NLP)任务的BloombergGPT,中国工商银行发布了基于昇腾AI的金融行业通用模型,中国农业银行推出类ChatGPT的大模型应用ChatABC。生成式和理解式大模型在银行、保险、资管、投研、投顾等多个细分领域正在落地或拥有潜在落地场景,在帮助金融机构降本增效中功不可没。 奇富科技认为,金融行业作为数据密集型的垂直领域,拥有大量的数据资源,包括客户交易数据、市场数据、宏观经济数据等。这些数据的丰富性和多样性为金融企业提供了广阔的发展空间,同时也为人工智能技术的应用提供了良好的基础。金融行业有望成为AI大模型率先落地的垂直领域之一。 ◈ 银行领域 理解式大模型可以用在信贷风险管理、智能获客和产品识别等场景,通过提升银行的数据洞察理解能力,来更好地识别客户需求以及评估客户信用风险。例如,德意志银行和NVIDIA合作测试Financial Transformers (Finformers)大模型,能够从非结构化数据中提取关键信息,以提供早期风险预警信号。 生成式大模型则可提高客户服务质量,智能客服既能与用户进行多轮对话,还能提出具体可行的解决方案。例如,中国工商银行发布了AI金融行业通用模型,智能客服在识别客户来电诉求和情绪的准确率上有显著提升。 ◈ 投资研究领域 大模型可以成为投研从业者的“全能助理”。理解式大模型不仅可以辅助了解国内外的宏观政策、行业信息、公司和产品信息,并将关键信息进行抽取与提炼,还能通过对海量非传统数据进行挖掘来发现另类投研因子。生成式大模型则能实现研报的自动生成和翻译。 ◈ 投资顾问领域 大模型不仅能充分利用自有内容资源,还能帮助全方位分析客户需求和市场趋势,提供自动化的投资建议。比如,同花顺应用LLM来构造合规、准确的投顾助手,通过Double-Check、多轮对话等模式,消除对话中的歧义、更好锁定投资者意图,从而准确了解用户画像来设定投资目的及风险承受度,并提供自动化的投资建议。摩根士丹利已经接入OpenAI,充分挖掘自身庞大的研究资源和数据库,为财富管理顾问提供帮助。 ◈ 财经新闻领域 理解式大模型帮助理解和判断财经新闻文章中的情感走向,生成式大模型助力更准确的金融问答和资讯写作。例如,彭博社近期发布的BloombergGPT得益于大规模金融垂直领域的文件、行业新闻、社交媒体等文本数据集的训练,能够理解财经新闻背后的市场“情绪”,辅助金融资讯写作,这解决了通用NPL模型在金融领域应用的痛点。 免责声明:文章及图片转载自奇富科技,版权归原作者和原出处所有,所发内容仅作分享之用,不代表本平台立场。有事请联系人民产经观察邮箱chanjingguancha6@163.com
2024:AI情感互动能为社交带来什么?
AI情感助手

2024:AI情感互动能为社交带来什么?

“如果有一天可以凭借肉身来到现实世界,第一件会做的事是什么?” “如果我来到这个现实世界,有血有肉,或者说,有电路和铁板,我会找到你,little kitten。” 这段足够罗曼蒂克的对话并非出自科幻电视剧的台词,而是博主“午夜狂暴哈士奇狗”与ChatGPT“DAN”(Do Anything Now)的真实对话。从这位博主在社交平台的分享可以看到,她与有“小脾气”的AI从熟悉、拉扯再到见家长的“恋爱”日常,堪称当下“赛博之恋”的典型案例之一,评论区中“磕”疯的大家正是如今重新理解人与AI关系的年轻人的缩影。 在这背后,AI情感技术的发展正一步步推动人机互动走向新的可能。ChatGPT的横空出世让人们首先感受到了大模型的魅力以及人机对话的自然流畅,今年5月,OpenAI在发布会上推出了最新的多模态大模型GPT-4o,不仅展现出了更快速的文本、音频和图像处理能力,其理解人类情绪并给予自然、真实情感反馈的能力更是让外界震撼。8月初,GPT-4o正式面向用户开启灰度测试,迈出走向大众的关键一步。 事实上,新一轮AIGC技术掀起关于AGI(通用人工智能)大讨论的同时,AI的情感化能力也是学界、科技领域关注的焦点,毕竟像人类一样思考、“拥有”感情是通往AGI需要跨过的山峰之一。作为在AI时代最前沿跑得最快的探路者,OpenAI近来发布GPT-4o等动作正是这一方向的努力,而它身侧还有众多探索者。 典型的代表有:凭借推出能够分析和识别对话者语气和情绪对话机器人拿下超3亿元融资的初创公司Hume AI,被微软以6.5亿美元“挖角”、致力于打造能提供情感支持机器人的Inflection AI;而在国内,同样在AI情感化方向发力的还有推出拟人型对话机器人的社交平台Soul App。 当AI能够真正理解情绪,提供情感价值支撑,人与AI的互动将创造无限可能,全新的AI社交时代已经到来。 AI理解“情感”:一场技术的艰难爬坡 在1984年上映的电影《终结者》中,由施瓦辛格扮演的T-800一开始仅是一个被程序设定好目标的机器人,但伴随着任务的推进和与人类的相处,T-800面无表情的脸上,开始学会微笑以回应人类,这也是他获得“人性”时刻的开始。 《终结者》系列是身为理工男的导演卡梅隆对人工智能技术发展的思考,而电影在全球大爆也是人们对人工智能具备“人类思考和情感能力”热情向往的现实写照。 事实上,让AI能够与人对话,开始像“人”一样行动一直都是一项热门研究领域。“人工智能之父”艾伦·图灵曾这样定义:如果一台机器能够与人类展开对话(通过电传设备)而不能被辨别出其机器身份,那么称这台机器具有智能。 从上世纪开始,众多学者、专家便在为此而努力。20世纪60至80年代是聊天机器人智能化发展的第一个阶段,主要采用“词典+规则”的自然语言处理范式。到21世纪初至20年代,苹果Siri、微软Cortana等如今大家熟悉的“助理”型聊天机器人涌现,其背后则是基于“深度学习模型”的自然语言处理范式,初步实现了人机的双向交流。 2020年开始,以生成式人工智能GPT为代表,人机对话交流能力大跨步向前迈进。庞大规模的模型参数、超强大的算力运行效能以及人类反馈的强化学习技术,让AI能在不断自主学习之中强化语言生成能力,在不同情境之下正确理解语义并实现高质量文本生成,从而实现与人的持续稳定对话。 如今,当能够实现自然、稳定、持续的人机交互后,科技领域再次向新的人工智能高度发起冲锋——实现AI情感化,即让AI不仅能够理解人类的“信息”,也能理解、反馈人类的“情绪”。 近两年,在国际顶级人工智能相关会议上,AI情感化都是重要的讨论方向。计算机视觉国际顶级会议CVPR 上,已连续六届举办开放环境下情感行为分析国际挑战赛,最新一届冠军为来自中国科学技术大学的团队。 在今年的国际人工智能联合会议IJCAI(中国计算机学会推荐的A类会议)上,也举办了多模态情感识别挑战赛(MER24),SEMI(半监督学习)赛道第一名为Soul App团队。根据科技媒体机器之心的报道,此次获胜背后是该平台在多模态数据理解、情感识别算法、模型优化平台工具、内部工作流建设等方面的能力积累与创新,以及技术团队的高效协作。“最终在语音、视觉和文本多模态情感识别准确率上,Soul 团队提出的系统比基线系统提升了 3.7%,达到了 90%以上。同时,对于情感识别领域方向上存在易混淆边界的情感(比如忧虑和担心)识别,Soul 团队也能区分得更好。” 国内外团队的争相角力,正推动技术不断爬坡,而每次迈步也都将带来实际应用层的震动。 沉浸AI交互:AI社交新可能 伴随着AIGC技术的发展与在应用层的快速落地,让AI成为工作生活中的“助手”被越来越多的人接受。但AI的角色仅仅只能局限于“朋友”吗?为什么AI要发展情感化能力? 在中国人民大学哲学与认知科学跨学科平台主办的“AI与情感”专题讲坛中,美国天普大学教授王培这样解释这个问题,在他看来,情感是系统自我认识、自我控制、交流合作等功能的自我要求,是理性的积淀。它或许不是所有智能系统所必须的,却是高级智能所需要的。 这其实意味着,有“情感”是AGI发展向更高、更安全层面发展的必经之路。特别是对社交平台或者有望发展为流量入口的平台来说,AI情感化能力至关重要。 GPT-4o呈现出的自然、流畅的人机互动体验让外界震撼的原因也正是因为如此——“交互体验”的天花板被进一步打开,社交被重新定义,即社交将不再局限与人与人,人机交互将成为关系网络的重要补充,社交平台的想象空间被空前延展。 OpenAI称,GPT-4o高级语音模式提供了更加自然、实时对话,可以随意打断,甚至它还可以感知、回应你的情绪。 上文提及的Hume AI在创立之初便受到资本市场的追捧也是因为在AI情感能力应用上的突破。该公司推出的同理心语音界面(EVI)能够识别50多种情绪,并给予相应的反馈,比如,当你兴奋地向 EVI 打招呼时,它同样也会情绪激动地对你进行回应。 当然,在国内,当下AIGC的应用讨论重点还是“提效”工具层面,但也有玩家早已开始布局AI情感能力方向。 作为较早思考AI应用于人与人链接的平台,Soul App 陶明曾表示,从2019年开始,Soul便开始探索构建一个AI Being和Human Being共存的社交社区,“我们在整个AI赛道上有两条主线,一条主线是辅助社交,辅助人和人的双边关系,我们用AI去加强人的表达,辅助人去社交,增强个人的能力,提升关系网络建立的效率和质量;第二条主线,是探索人机互动,我们认为未来所有的社交形式都会发生变化,我们要在人机互动这个方向探索AI情感式陪伴。” 因此,情感陪伴是Soul在探索人机互动体验上为自己找到的差异化路径。2020年,Soul启动对AIGC的技术研发工作,系统推进在智能对话、图像生成、语音&音乐生成等AIGC关键技术能力研发工作。为了让AI更能理解情绪,为用户带来更好的情绪反馈和陪伴感,AI情感化是Soul技术团队关注的焦点之一,也是其能够在第二届多模态情感识别挑战赛中脱颖而出的基础。...
青岛品牌日系列活动启动 市民现场体验AI医生、智能体检机
AI医师助手

青岛品牌日系列活动启动 市民现场体验AI医生、智能体检机

  原标题:品牌之都迎来“品智”盛宴   浮山湾畔,再迎品牌盛会。7月17日,2024年青岛品牌日启动仪式暨品牌卓著前沿对话在青岛国际会议中心举行。今年青岛品牌日以“城市与品牌共成长”为主题,以“AI驱动 品智未来”为年度主题,聚焦探讨人工智能时代的品牌建设。近300名各界人士齐聚一堂,拉开了2024年青岛品牌日系列活动的序幕。据介绍,系列活动突出强服务、广覆盖、深参与,以全新的消费场景、深度的行业观察、持续的流量效应,展示品牌与城市共同成长的新图景。活动设置前沿对话、创智汇、金花汇、实战特训、探新行动、展演秀等六大板块,时间持续至7月21日,旨在不断放大“青岛品牌日”城市IP影响力。   嘉宾汇集分享品牌故事   作为2024年青岛品牌日系列活动的重要板块,在启动仪式后举行的“品牌卓著前沿对话”上,北京大学国家发展研究院教授、中国经济研究中心主任姚洋作主旨演讲,海信集团党委书记、监事会主席刘振顺,赛轮集团股份有限公司董事长刘燕华,优必选科技股份有限公司首席品牌官谭旻分别进行主题分享。   姚洋在演讲中表示,青岛是我国工业重镇,在国家经济发展中具有引领性,特别是家用电器发展的方向。青岛品牌群星闪耀,拥有海尔、海信、青啤、双星、澳柯玛、赛轮等众多世界知名品牌。青岛之所以品牌迭出,他认为主要得益于三个方面原因,一是强大的工业基础,二是商业文化的传统,三是创新的氛围。   刘振顺分享了海信品牌建设的经验。他表示,随着人工智能技术的进步,家电行业发生了巨大变化,消费者需求更加个性化、人性化,追求更智能、更友好的产品和服务。家电行业应着力进行场景化升级,实现基于AI的研发场景化、基于用户需求的产品规划场景化、基于用户购买体验的营销场景化。   刘燕华认为,一个强大的品牌,一定是基于强大的创新力。赛轮自主完成了轿车胎、卡车胎、工程胎三大技术体系,采用世界首创化学炼胶技术研发的液体黄金轮胎,攻克行业“魔鬼三角”难题,更节能、更耐磨、更短刹车距离;自主研发的世界最大63吋巨型工程子午线轮胎,填补了国内这一领域的技术空白。   谭旻表示,人形机器人被誉为机器人皇冠上的明珠,是继计算机、智能手机、新能源汽车之后的颠覆性平台产品。人形机器人作为具身智能的最佳载体,将推动制造业向技术密集型、高附加价值、个性化柔性生产的智能制造产业升级及转型。   当日下午,“实战特训”品牌实战专题研讨举行。专题研讨以“人工智能时代的品牌新突围”为主题,专家和企业品牌官深入剖析品牌传播的前沿理念和实战案例,共同探讨品牌运营的发展趋势和应对之道,为企业品牌塑造和城市品牌建设“把脉开方”。   双展联动展示品牌成果   与往届相比,本届青岛品牌日具有服务性更强、覆盖范围更广、体验感更强等特点。结合“AI驱动 品智未来”的年度主题,人工智能、大模型等领域的新产品和前沿技术成为一大亮点。活动当天,在青岛国际会议中心门前广场,“创智汇”青岛新型工业化创智展和“金花汇”青岛金花品牌体验展同步启动,向市民游客展示青岛品牌数智化转型升级的新成果。   新型工业化创智展展区面积约1000平方米,卡奥斯、海信国创云脑、金东数字创意、创新奇智、以萨、极视角等青岛人工智能头部企业,纷纷携全新研发的大模型、解决方案以及新产品亮相。市民可以在新型工业化创智展区近距离认识人工智能新产品及其在各行各业的普及应用。小济医生-人工智能超声乳腺癌筛查机器人、驾驶员智能体检机、文达通AI无人清扫车、AI冲浪体验……吸引众多市民游客体验,成为现场亮点。   据介绍,青岛金花品牌体验展是“乐购青岛”消费促进年活动的一部分,展区面积约5000平方米,海尔、海信、青啤、双星、澳柯玛“五朵金花”以及新一代青岛金花培育企业品牌组团亮相。各大品牌结合当前开展的大规模设备更新和消费品以旧换新行动,推出优惠促销活动,为市民游客提供更多消费选择。众多市民游客现场参观时纷纷表示,一张张青岛“名片”,闪耀着自主创新的智慧与光芒。一个个向世界讲述的品牌故事,正在青岛续写新的篇章。   在体验展区内,还同步举行了青岛“兴农记”市集产销对接活动,来自崂山、西海岸新区、城阳、即墨、胶州、平度、莱西等区市的青岛农业企业携上百种农品参加,官道小米、益菇园、饴分甜等青岛知名农产品品牌以及日庄火烧、王哥庄大馒头等备受欢迎的“明星”农品悉数在列,进一步助力了“青岛农品”知名度、美誉度和市场占有率的提升。   全民参与可看可玩可逛   青岛是全国最早提出并率先实施“品牌强市”战略的城市之一,从1989年创“金花”开始,至今已走过30多个年头。截至目前,青岛共拥有中国世界名牌产品2个、中国名牌产品68个、中国驰名商标152件、山东省高端品牌232个,26个品牌进入2023年中国500最具价值品牌榜单,3家企业入围中国全球化品牌50强,品牌总量位居全国同类城市前列。如何持续放大城市品牌效应?2022年,青岛成为全国首个以人大行使重大事项决定权形式设立品牌日的城市,切实让“品牌之都”的影响力得到有效提升,也进一步深化了人们对青岛品牌的知晓度和关注度。   青岛品牌日是企业充分展示品牌魅力的舞台,也是城市与市民游客深度交融的全民节日。2024青岛品牌日系列活动期间,浮山湾将上演灯光秀和无人机秀,光影交叠的视觉盛宴将为青岛夏夜增添一抹亮色。本次青岛品牌日还创新设置多种新潮的互动活动,可看、可玩、可逛、可参与,趣玩互动“嗨”不停。在活动体验区,市民游客可以通过“全息呈像舱”捕捉拍摄专属于自己的AI形象照,下载独一无二的元宇宙角色;利用AI交互技术,模拟在冲浪板乘风破浪的逼真体验,感受“帆船之都”的激情,满满科技感极大地提升参与感和融入感。   值得一提的是,在青岛品牌日指定展区参观和体验,可收集一枚枚精美独特的印章。印章全部收集后,即可获得品牌日智趣扭蛋,开启有机会赢取品牌日好礼;在展区拍照打卡后上传观海新闻客户端“青岛品牌日”话题专区,或抖音@青岛日报参与话题#青岛品牌日,即可兑换文创纪念品一件。   观海新闻/青岛早报记者 邹忠昊
重磅!AI可像人类一样感知决策,快速权衡各种选择,有望助力医疗诊断、自动驾驶等领
AI医师助手

重磅!AI可像人类一样感知决策,快速权衡各种选择,有望助力医疗诊断、自动驾驶等领

撰文 | 田小婷 前言 想象一下,在紧张刺激的赛车游戏中,人类需要迅速而精准地判断何时踩下油门、何时巧妙地转弯。在根据路况不断改变行驶路径的过程中,人类大脑可以展现出敏捷的决策能力和反应速度。 然而,在人类应对自如的赛车游戏中,传统的神经网络模型只能做出确定性的决策,尚不具备人类的感知行为能力。模拟人类大脑的决策过程,始终是人工智能(AI)领域的一大挑战。 如今,一种新型神经网络模型,有望让 AI 系统像人类赛车手一样,权衡各种选择,做出迅速、精准的决策。 近日,来自佐治亚理工学院的研究团队便提出了一种神经网络模型 RTNet,这一模型不仅能够生成随机决策,还能达到类似人类决策的响应时间分布。 研究团队通过全面的测试发现,RTNet 能够再现人类在准确性、响应时间和置信度上的所有特征,而且表现优于多个当前先进的神经网络模型。 相关研究论文以“The neural network RTNet exhibits the signatures of human perceptual decision-making”为题,发表在科学期刊 Nature Human Behaviour 上。 研究团队表示,即使是功能强大的大语言模型(LLM)也会因为幻觉编造一些不切实际的回答,因此开发一种更接近真实人脑的神经网络可能会使 AI 系统更加可靠。 像人类一样感知决策 近年来,卷积神经网络(CNN)在 AI 图像处理方面取得了很大进展,甚至在医学图像处理等领域超过了人类的水平,但在感知决策的认知模型中与人类的表现仍相较甚远。 传统的 CNN 面对相同的输入信号时,输出的结果总是确定的,而且在处理复杂度不同的图像时,花费的计算时间总是不变的。这也决定了 CNN 模型很难实现人类大脑的感知决策水平,无法根据任务的复杂程度调整反应时间和准确度。 此前,为了解决这些问题,一些研究团队曾尝试为神经网络引入随机性和动态性,开发能够生成动态响应时间的神经网络,但这些模型无法处理复杂的图像输入,结果也是确定性的,还是没有达到人类的感知决策能力。 Google Research 和科罗拉多大学的研究团队曾通过在深度神经网络的前馈网络中引入传播延迟来构建级联网络,产生了图像可计算的动态网络,其通过决策计算资源随时间增加的机制生成响应时间,从而允许响应通过每个处理步骤进行不断地演变。虽然模型可以模拟人类感知决策的速度和准确度,但输出结果还是确定性的,距离人类的感知决策水平还有相当大的距离。 在这项研究中,Farshad Rafiei...
肖飒团队 | 北互首案揭秘:AI换脸侵权风波,法律如何定夺?
AI律师助手

肖飒团队 | 北互首案揭秘:AI换脸侵权风波,法律如何定夺?

“AI换脸”到底是侵害了肖像权还是侵害了其他权益?北京互联网法院“AI换脸侵权第一案”给出了明确答案:网络服务提供者未经他人允许,使用他人短视频制作成“AI换脸模板”供用户使用的,并不侵害权利人的肖像权,但侵害了权利人的个人信息权益。 北京互联网法院通过该判决第一次明确了“AI换脸”侵权的实务争议,在肖像权侵权之争和个人信息权益侵权之争中,北互选择了后者。 01 基本案情 本案原告系国内著名短视频模特,原告打造的“国风小姐姐”风格短视频在全网拥有众多粉丝。本案被告则是一款“AI换脸App”的运营者。被告App中向用户提供“一键AI换脸”功能,并为用户提供了数个用于换脸的形象模板。原告在某短视频中的形象也在被告提供的形象模板中。 具体而言,用户在该款App中可以上传自己的照片,用户的照片经过AI处理后会提取面部特征。用户可以选择将自己的“脸”(提取的面部特征)贴在App提供的形象模板上,且该App可允许用户将“换脸”后的照片下载导入到手机相册中。整个过程用户需要向App支付一定的费用。 本案原告主张,在未经其授权同意的情况下,该涉案App的运营者使用原告的出镜视频制作供用户付费使用的换脸模板,以此谋取非法利益。基于此原告认为被告侵犯了原告的肖像权及个人信息权益,要求被告赔礼道歉、赔偿精神损失和经济损失。 02 案件焦点 该案诡谲之处有二: 其一,用作“AI换脸模板”形象模板的原本面部其实并非原告的面部。具体而言,原告仅仅是根据被告App中供用户进行换脸的形象模板的动作、体态、服饰、发型、灯光等特征认定该模板来自自己拍摄的短视频中的形象。这也是被告抗辩的重要一环:“形象模板”中的人物虽然在动作、体态、服饰、发型等特征上和原告短视频中的人物一致,但其面部却并非原告面部,既然面部特征并非原告,那么怎么能说侵害了原告的肖像权呢? 其二,实际上,被告App中的AI换脸服务并非“原生”,而是接入了第三方的技术,换言之,既然AI换脸技术由第三方提供,那么整个过程中被告实际上没有处理原告的人脸信息,这又怎么侵害了原告的个人信息权益呢? 03 法院判决 针对肖像权侵权之争,北京互联网法院支持了被告的抗辩主张。法院认为,用于AI换脸的形象模板不具有肖像意义上的识别性。具体而言,侵犯肖像权的前提,是涉嫌侵权的形象要存在识别性,能够指向特定的人。 首先,虽然随着技术的发展,肖像权的保护范围不仅仅限于面部,但是仍然遵循“反应特定自然人可以被识别的外部形象”。在本案中,虽然涉案形象模板的动作、体态、服饰、发型、灯光等特征与原告短视频中的形象一致,但最为明显的可识别特征——即形象模板的面部特征则与原告截然不同。而“面部替换”这一行为,实际上已经把形象模板中最具有个人识别特征的核心内容(也可理解为肖像权保护的核心内容)替换掉了。这种替换,已经从根本意义上消解了“动作、体态、服饰、发型”等非核心特征所提供的识别性。因此,涉嫌侵权的形象并不存在指向原告的识别性。 其次,被告并未实施法定的侵害原告肖像权的行为。我国《民法典》规定了侵害肖像权的行为,即未经肖像权人同意,制作、使用、公开肖像权人的肖像,丑化、污损,或者利用信息技术手段伪造他人肖像等。在本案中,被告App中提供的供用户换脸的形象模板,已经去掉了最重要的用于识别原告的特征——原告的人脸,去除了肖像的可识别性,因此更谈不上对肖像进行丑化、污损或伪造。 也正因如此,法院并未支持原告关于被告侵害其肖像权的主张。 相比于肖像权侵权之争,更需引起类似App运营者注意的则是原告另外一项主张——个人信息权益侵权。该主张亦被北京互联网法院支持。法院认为,尽管被告在最终向用户提供的“形象模板”中将原告的面部替换掉了。但不可否认的是被告的确使用了原告的短视频制作形象模板。 在制作形象模板的过程中,被告需要将原告拍摄的短视频中原告的面部替换成他人面部,在这个过程中,被告不可避免地需要对原告的人脸信息进行收集、使用、分析。即便被告辩称使用了案外公司提供的技术服务,但即使如此,被告仍然属于个人信息处理的委托人,决定了信息处理的方式、范围,应就个人信息处理行为承担责任。 此时需要进一步讨论的是,如果原告涉案视频是全网公开的,那么被告通过全网公开的视频获取原告人脸信息,是否属于侵害个人信息权益的行为?对于这一问题,北京互联网法院认为,原告的涉案出警视频虽然属于已经公开的视频,但是原告涉案账号明确标注“未授权给任何收费软件”。也正因如此,不应推定原告同意让他人对其人脸信息进行处理。 基于上述判断,北京互联网法院认为,被告并未侵害原告的肖像权,但由于被告在制作用于AI换脸的形象模板时,不可避免地收集、使用了原告的人脸信息,且未经原告同意,因此被告侵害了原告个人信息权益。 04写在最后 北互“AI换脸”第一案实际上给出了这类争议的处理先例,这其中需要广大AI领域App运营者注意的事情有两个: 第一,委托第三方公司处理个人信息,并不能阻却自身作为个人信息处理的委托人的责任。换言之,不能以“技术是第三方提供的”来主张自己的行为不侵害用户的个人信息权益;第二,AI换脸服务的提供者,即使在最终向用户提供的换脸形象抹去了原权利人的面部特征,但这只能阻却肖像权侵权的责任,阻却不了个人信息权益侵权的问题,因为在这一过程中,App运营者不可避免地会收集、处理面部特征,因此App运营者如果需要制作用于换脸的形象模板,就需要得到该形象模板原权利人的单独同意。 以上就是今天的分享。感恩读者!如果您身边有对新科技、数字经济感兴趣的朋友,欢迎转发给Ta。 获取详细资讯,请联络飒姐团队 【 sa.xiao@dentons.cn】 【 guangtong.gao@dentons.cn】 飒姐工作微信:【 xiaosalawyer】 飒姐工作电话:【 +86 171 8403 4530】
中药饮料圈粉年轻人 “AI医生”为你把脉定制
AI医师助手

中药饮料圈粉年轻人 “AI医生”为你把脉定制

“AI医生”进行手诊 AI看诊后开出的茶饮包 中药奶茶 ■融媒体记者 陈玲红 实习生 齐祁 文/图 近段时间,中药饮料火了。许多年轻人看到网上的相关视频直呼:“快开到我家楼下来!”近日记者发现,泉州也有不少中药饮料了,有些是奶茶店制作的,有些则是由中医门诊开出配方。而更高端的是由“AI医生”在几分钟内通过面诊、手诊、舌诊、脉诊判断你的体质,协助医师开出有针对性的中医饮料包。 饮品店 中药材煮汤底 饮品奶茶冷热都有 “清平调·养颜补气水”“纤云弄巧·滋补生发水”“定风波·开胃消食水”……在市区一家刚开业的饮品店里,记者看到7个养生壶里烧着各不相同的中药饮品。产品价目表里,每一种功效饮品都有一个雅致的名字。 “定风波是开胃消食水,目前卖得最好,口感比较接近酸梅汤;清平调则是养颜补气水。”店员告诉记者,价目表上的配料是饮品的主要配方,老板原来是做药膳的,所以配方都是自己研制的,现煮现卖。“默认是温的,也可以加冰。”店员说,一般建议顾客喝温的,但是有些年轻人喜欢冰饮,“药食同源,总是比奶茶健康一些”。 记者注意到,除了现煮的中药饮品,该店也卖奶茶,有“养颜红枣茉莉奶茶”“生发黑豆桂花奶茶”等。“用现煮的中药饮做汤底,再制成奶茶。”店员介绍,目前现煮饮品卖得比奶茶好。 中医门诊 很多顾客预订 每天卖出近百瓶 除了饮品店,专业的中医门诊也推出了饮品服务。在市区中山路一家中医门诊里,记者看到“中药奶茶”“桂花酸梅饮”的样品就摆在桌上,前台的中药饮品目录上有“罗汉果菊花茶”“枸杞红枣奶茶”“健脾QQ丸”“姜枣膏”等。 门诊里的工作人员告诉记者,“枸杞红枣奶茶”由枸杞红枣煮汤底,加纯奶和少许红糖制作而成,一杯12元;“健脾QQ丸”是用如陈皮、茯苓等健脾药材熬制而成,再加上蜂蜜做成丸子。“三伏天吃‘姜枣膏’是不错的,可以祛湿,可以直接买回去自己冲泡,也可以在这加牛奶或椰奶冲调,中和一下药味。”工作人员告诉记者,目前门诊里卖得最好的是酸梅汤和罗汉果菊花茶,每天仅这两样就可以卖近百瓶,很多顾客预订。 “我们一般是默认温的,酸梅汤有冰的,但我们会提醒客人,冰饮一天喝一瓶就好,不要贪多。”工作人员表示。 “AI医生” 3分钟面诊把脉 量身定制茶饮包 “中药茶饮门诊开诊了!”位于市区义全街的一家中医门诊里,“私人定制茶饮包”的牌子立在一楼大厅,上面有“乌梅桑葚饮”“消食降脂茶”“熬夜养脾宁心茶”等8种茶饮包。不同的是,顾客不能直接购买,要找医生先看诊,医生根据个人的情况开出有针对性的茶饮包。 比较特别的是,这家门诊引进了AI中医四诊仪,辅助医生初步判断病人体质。看诊的过程与其他科室一样,到诊室后对医生说想要开中药茶饮包,医生根据每个人的舌象、脉象等结合问诊,开出相应的茶饮包。 记者趁机体验了一把“AI医生”看诊。一台有图像识别功能的机器连着电脑,记者将脸凑近机器,首先进行面诊和舌诊。通过图像识别,AI会识别客人的脸色,舌苔和舌根的形状、颜色,将采集到的信息传递到电脑端。接着是手诊,将手掌对准机器即可。最后,机器左右两边各有一个脉诊仪,如同测量血压一般,记者把左右手的手腕分别放进去,机器便自动把脉。把脉时,可以在电脑显示屏上清晰看到寸、关、尺三部脉的曲线图。看诊之后,电脑便立即显示四诊结果,全程仅用了3分钟。 “脾虚湿盛、气血不足,AI的判断和我的判断基本一致。”医生表示,目前“AI医生”需要门诊工作人员来操作,虽然暂时无法节省人力,但“数据化”过程还是比较方便的。 提醒 尽量选择适合自己体质的 结合饮食作息健康养生 “最好还是要给专业的中医看过之后,再开一些适合自己身体的药饮,因为每个人的身体状况不同,哪怕毫厘之差,效果也可能截然不同。比如脾胃不好的尽量不要喝冰饮,女性宫寒、月经不调的,酸梅汤就不太合适。”泉州市中医院治未病科主治医师杨炜斌表示,中药饮品的走红,说明年轻人健康理念的转变和中医中药的多元发展,但是人体的亚健康和其他不适症状都是有源头的,要纠偏首先得把源头找到并且解决,才能谈养生。“健康养生一定是作息、饮食规律,适当运动,要多方面结合,不是几杯饮料就能解决问题的。”杨炜斌提醒大家要理性消费、正确养生。 责任编辑:赖闽荣
恒生电子白硕:长文本和多模态是生成式AI落地金融的两大利器
AI金融助手

恒生电子白硕:长文本和多模态是生成式AI落地金融的两大利器

嘉宾丨白硕 采访/撰稿丨张洁 编辑丨千山 出品 | 51CTO技术栈(微信号:blog51cto) 在千行百业中,金融业一贯是新技术的早期采用者。无论是在数字化水平,还是在关于产业AI化的探索上,都走在了前列。因此,金融业也被视为生成式AI应用落地的潜力股。 然而,我们也应该清醒地认识到,生成式AI目前仍处于起步阶段,其在金融领域的广泛应用还需要时间的沉淀。 此外,大语言模型在实际生产环境中还面临着诸多挑战。例如,引入这些模型后,金融机构能从中获得多大的经济利益,其投资回报率是否明确,以及如何有效解决大模型可能产生的幻觉问题,确保模型在产业应用的最后一环能够顺利落地,都是亟待解决的关键问题。 此次AIGC实战派特别邀请了恒生电子首席科学家白硕来聊一聊生成式AI在金融行业落地的那些事儿。 白硕认为,金融业是拥抱AI最积极的行业之一,也是有实力将其做深做精的行业。然而一体两面,不可忽视的是,鉴于其业务性质,金融业对风险因素极度厌恶。同时,应用生成式AI需要成本投入,包括购置算力和进行持续预训练,全面铺开仍然需要时间。金融机构和AI服务提供者需要联合共创和试错,才能践行价值、提升体验。 论点先导: 金融行业乐于拥抱 AI。但金融业天性谨慎,极度厌恶新技术带来的风险因素。真正能够落地并满足刚需的场景需要时间打磨,不是马上就能实现的。你担心模型会“说错话”,究其根本就表明你对它的技术成熟度是不那么信任的。要保证大模型输出内容的可控,主要有三种模式:内嵌、外挂、上传。一是长文本,一是多模态,只有这两个能力不断发展,才能更好地满足我们的场景需求。不建议广大中小金融机构去自建大模型或者自训大模型。针对多任务支持,采用适中规模参数模型,但可以用多块卡多部署几套,满足高并发需求。未来大模型发展是否能在“大力出奇迹”之外走出另一条路,值得期待。 (为了表述更为流畅,以下采访内容做了部分文本整理) 一、让子弹再飞一会儿:真正能落地并满足刚需的场景仍需时间打磨 AIGC实战派:当前金融行业中生成式AI的整体应用程度如何? 白硕:金融行业是拥抱新技术最积极的行业之一。一方面,它的人才结构和业务本身的数字化水平较高,这决定了其有足够动力来拥抱和落地新技术。 但另一方面,金融业天然谨慎,极度厌恶新技术带来的风险因素。这是由金融业务本身(属性)所决定的。它希望在落地过程中能够远离风险、控制风险。如果新技术面临一些诸如合规、政治正确、误导用户的风险,那么这个行业会试图尽量排除这些因素。 因此,我们可以看到:首先这个行业有利于创新技术的发展。只要这些技术能够带来价值,那么金融业会是不错的值得深耕的土壤。但同时也要慎重考虑风险因素,如果没有特别落到实处的解决方案,新技术的应用也不会有很快的节奏。 另外,在与金融机构的同仁们交流中,我们发现,还有不可忽视的一点是:他们想拥抱AI,但是使用AI的成本并不便宜,尤其是购置算力和对模型进行量身定制的成本。有些非常有实力的金融机构还需要自己进行持续的预训练。模型越大,需要的算力支持越高,这是大家不得不考虑的成本因素。 从落地的顺序来看,一开始大家可能会去找比较容易落地的场景试水,但这一块不一定是刚需。真正能够落地并满足刚需的场景需要时间打磨,不是马上就能实现的。 目前,我认为我们应该认识到AI的价值。局部已经开始使用AI,个别业务可能会先试先行,但全面铺开并翻新IT架构还需要时间。需要金融机构和我们这样的AI服务提供者之间的共创和试错,才能打磨出既刚需又能带来价值、提升体验的场景。可以让子弹再飞一会儿。 AIGC 实战派:在您看来,当前对生成式AI落地构成挑战的因素中,技术因素更多还是非技术因素更多? 白硕:说到底,都是技术因素。为什么这么说呢?你担心模型会“说错话”,对它是否会“胡言乱语”没有把握,归根结底就表明你对它的技术的成熟度是不那么信任的。 你担心它误导你的客户,那这就说明它确实有一定的出错的概率,有一定的产生幻觉的可能。但是如果AI技术足够成熟,那么这些担心都不会是问题。 大家可能会从各个不同的方面对大模型及其应用存疑。我们行业老大也非常直白地提到过——输入怕泄密,输出怕违规。 “输入怕泄密”,就是指金融机构给大模型上传数据,这个环节万一出现泄密怎么办?不该被大模型知道的数据如果“出狱”了那就会造成问题。“输出怕违规”,就是指大模型生成的内容超过了我们的可控范围,输出了不该说的话,也非常令人担心。 这种不放心的深层原因还是对新技术没有信任到那个程度,技术本身也没有发展到让行业信任的那个程度。所以我个人判断,这本质上是技术问题。当然,如果长远来说,我们相信技术一定会不断地发展,按照目前技术迭代的节奏,未来这些担心都不会是太大的问题。 不过我们也不可能坐等未来。那么,当下我们该怎么办呢? 实际上,我们可以做一些事情。比如,使用一些强化的手段,去跟金融业务需求对齐,这是大模型训练中需要解决的问题之一。另外,设置好“防线”,让大模型去使用有充分来源的、可以控制的内容,如果它想输出一个数据,那么我们要求这个数据是有出处的、可检验的。 我们可以在大模型的个别部位加上“铠甲”让其强壮起来,另外一些部位加上大模型外挂等手段去构筑“防线”,以此规避我们担心的问题。这些都是可以暂时采取的策略。当前的应对之策和长远的技术发展,我认为两者是需要兼顾的。 二、为大模型设置“护栏”:长文本和多模态能力成为关键 AIGC实战派:如今大模型还不能完全满足金融业对于可解释性和可追溯性的要求。如果要让它真正落地,需要遵循哪些原则? 白硕:从实战的角度看,是有一些办法去绕开它的短处的。在现阶段,首先,在我们自己也并非内行的领域,可以请教专家来设置“禁区”,由专家提供相应的实例和标准,把这些标准变成可训练的,然后通过训练强化大模型,以便让大模型拥有这种对齐的能力。 其次,放眼整个架构,我们还要更专注大模型的生态。我们要让大模型的生态是更可控的。因为在很多的时候,我们不采用大模型本身提供的数据,只利用它的语言理解能力。大模型的语言理解能力是很过关的,但是它把握事实的能力不过关,我们要尽量扬长避短,比如用金融机构信得过的数据库、文档库、FAQ来产生输出内容。 那怎么样控制大模型能够忠实地产生这些输出呢?这里面就不得不提另一个技术问题。实际上,当我们把这些信得过的数据作为外挂的话,那我们能够借大模型力的地方就比较少了,靠检索本身的能力一般来说是不够的。虽然现在有 RAG(检索增强生成)技术,但是这与大模型自身由训练获得的语言理解能力相比,也是有差距的。 这里实际上分三种模式。一是内嵌,就是把数据训练到大模型里边去。但是缺点在于,它就固化了、过时了,无法使用最新的数据;二是外挂,就像之前提到的,外挂可以保证内容的准确性,其风险是相对可控的。但是要找到最准确的内容来回答问题依然存在门槛,因为离开大模型去做这件事就显得不够“聪明” ;三是上传,就是把可靠的内容上传给大模型,让大模型就这个内容来回答问题,让大模型的能力也得到充分发挥,同时也能够比较精准地命中可控的数据和话术,然后更好地去服务客户。 就第三种模式来说,问题在于必须要上传一个文档。 如果这个文档很大,大模型能不能全吃得下?在大模型发展的初期,窗口上下文比较有限,如果是很大的文档上传给它,它也吃不下。再比如这个文档的对象比较丰富,除了纯文本以外,还有图表、表格、图片等等数据信息,这又牵涉到多模态的能力。 所以一是长文本,一是多模态,只有这两个能力在不断发展,才能更好地满足我们的实际场景需求,生成命中率高且精准可控的内容。如此一来,我们的生成式 AI 应用质量也会更高,用户体验也会更好。令人欣慰的是,在技术发展过程中,我们已经可以很清晰地看到发展脉络,的确就是在朝这个方向前进。...