文章主题:AI, 多模态理解, 常识能力, 推理能力

666AI工具大全,助力做AI时代先行者!

对于原生的AI产品,它的机会在哪里?它的新能力如何应用于新场景?原生的商业设计应该怎么来做?

任鑫,混沌创新领教、前京东O2O副总裁、人工智能Get的CEO。作为少数真正懂技术,而且亲手做过人工智能项目的产品专家,他对AI的理解独到且深刻。

本次更新的课程内容,他围绕AI商业新时代的原生产品机会、新能力和商业设计三方面。在人工智能加持下,创业者如何以史为鉴,抓住原生的产品机会?如何充分地利用新科技创造的新能力和新场景?结合丰富的AI新产品使用体验,任鑫老师一次性解释清楚了人工智能时代创业者建立核心竞争力的方法。

他说:”对于大部分创新者、创业者来讲,我们一定要思考的是如何从新科技带来的新能力、新场景中长出新东西。我们生活在数字世界,但是我们的脑子好像被纸和笔框住了很多,以至于我们没有最大化地利用数字科技的作用。”

在一个加速变化的时代,我们要从新能力和新场景出发,拥有拿着锤子找钉子般的精神,创造竞争优势。以下内容整理自任鑫老师的AI系列课程。

【前情提要】点击链接查看任鑫老师之前的课程干货:

《AI·新商业洞察系列课22讲》,全网既讲AI的底层逻辑,又讲AI的工具和应用的课程,包含商业实战应用、组织和个人的生产力提升。现在起,新同学购买可享受100元优惠,早鸟价299元拿下22讲课程!

扫描下方二维码,加入课程

授课老师丨任鑫

编辑丨混沌商业研究团队

支持丨混沌前沿课

AI时代的新机会在何处

在AI时代,新的原生产品机会的出现,是未来发展的趋势预测。借鉴历史,我们可以从上次科技浪潮中观察原生产品的机遇,分析哪些人成功把握了这些机遇,又有多少人错过了,从而汲取经验教训,为AI时代的原生产品开发提供参考。

在互联网尚未进入移动互联网时代,我们主要通过PC端进行网络浏览。随着移动互联网的来临,众多人开始探讨如何充分利用这一新机遇,追求移动互联网效果的最大化。在此期间,产生了两种不同的思维方式:其一是将PC互联网时代的成功模式移植至移动互联网领域,例如将原有的门户网站应用于移动互联网,创建了3G门户;二是坚持原有内容,但实现载体转变,如将电脑端的百度搜索转变为手机搜索,以及将PC互联网时代的社交模式转变为移动社交。这两种方法都旨在将PC互联网上的优秀产品迁移至移动互联网领域。

真的能够在这一波浪潮当中崛起的,往往都是最充分地利用了新科技带来的新能力和新场景。所以有的时候思考一件事情,不一定要从用户需求出发。对于创新创业公司,我们应该发挥新科技的新能力和新场景,从新能力和新场景出发,设计我的产品,如同拿着锤子找钉子般,把新锤子具备的新特点充分发挥出来,创造竞争优势。

在移动互联网的浪潮中,新的科技能力不断涌现,其中包含了麦克风、摄像头、触控屏、陀螺仪以及GPS定位等。这些新兴的科技能力,为人们的生活带来了全新的体验,无论是在任何地方,在任何时间,都可以通过这些设备进行随身、随时、碎片化的操作。移动互联网的发展,使得人们有了更多的选择,不再受限于传统的时间和空间,而是可以自由地随时随地地使用这些新型的科技产品。这些产品不仅打破了原有的使用门槛,也降低了使用的成本,使得更多的人能够参与到其中来。因此,对于这些新科技的应用,我们应该优先考虑到新人群的需求。只有这样,我们才能真正做出符合移动互联网原生需求的应用,从而在新的科技浪潮中找到属于我们的位置。

点击下图,加入课程

应用在产品上的六大新能力

对于许多创新者和创业者而言,我们需要深入思考的是如何在新技术带来的新能力和新场景中发掘和生长新的创意。尽管我们生活在一个数字化时代,但我们的思维方式似乎还受到传统纸笔方式的限制,这使得我们未能充分发挥数字技术的作用。因此,我认为,关键在于积极挖掘和运用新技术所赋予的能力,从而为我们带来更多的创新点子。

点击下图,加入课程

第一个新能力是自然语言理解能力。具体来讲,我们可以采用两种方式理解这个新能力:第一种是机器能听得懂人的话语,人不再用学机器的话。对于绝大部分初学者而言,可以直接跟机器说出你的需求,机器就会满足你。比如ChatPDF,这个时候你不用说话,把想要读的文档给它,它就可以帮你读文档,还可以跟它聊天。飞书可以直接把会议纪要生成代办事项,根据Word,做成PPT,生成内容、文档、指令。大部分人都会使用Excel软件,所以不会觉得这是件了不起的事情。但是很多人不会用SQL,如果数据库听得懂人的语言,它就会帮你把SQL写出来,可以节省大量的时间。它的自然语言识别,不光是识别与我们的对话,也用来识别我们所存储的所有的信息,从而为我们节省了大量的检索和记忆时间。GLEAN是一个可以将公司里面的各种资料全部汇总的工具,每次有疑问,就可以直接问机器人,极大地减少了相互之间沟通的时间。自然语言理解不仅意味着机器能够听懂人的语言,还可以帮我们去理解更多的世界,用更简单的方式把世界告诉我们。

新能力一:自然语言表达能力GPT技术赋予我们全新的表达方式,它能够生成各种形式和内容。无论是通用性的信息还是针对性的内容,都能通过GPT轻松实现自动化生成。这种能力,既适用于各种形态的內容,也适用于特定形态的内容。具体来说,对于每个行业而言,都可以思考如何利用GPT技术来提升自身的服务质量。通过将特定的内容和特定的形态结合起来,我们可以更好地满足用户的个性化需求,提高内容的价值。这样,就不需要用户花费大量的时间和精力去完整地阅读和理解内容了。总的来说,GPT技术为我们提供了一个全新的视角和方法,让我们可以更加高效、精准地传递信息和价值,为用户提供更好的服务体验。

在谷歌刚诞生时,关于搜索引擎是否能收录网站的问题引发了许多争议,但现在大家都认为这是理所当然的事情。实际上,这个问题并没有明确的答案,它处于一个模糊不清的领域。我们可以从两个方面来探讨这个问题:首先,我们需要明确什么事物是合理的,什么事务是不合理的,并设定自己的底线;其次,在设定的底线之上,我们要积极寻求各种可能的机会。当我们找到了自己的底线并且在此基础上寻求机会时,我们便会发现,世界上已经积累了数千年的知识,将这些知识转化为实际应用就是我们所寻找的机遇。

第三个新能力是多模态的理解能力。首先可以感受你能感受的,其次可以理解你想要的。当AI能够感受你的感受的时候,它的智力会得到更充分的表达。我们还没有办法做到完整的自动驾驶,一部分原因是因为自动驾驶不一定具备常识,它不一定能够理解各种路标的含义。一旦它能够理解常识,它的智力就会得到进一步增强。在行业之内,AI除了能够认字之外,还有别的多模态的信息可以训练AI,它可以帮助我们感受到更多的信息,根据这些信息做出更好的判断和更好的服务。

AI的多模态理解能力已经显著地提升,不仅局限在自然语言理解上。在GPT4的报告里面,放了一张图片,有一个人在计程车后面烫衣服。这个时候他问GPT4说,这张图有什么特别的?GPT4回答道,这张图特别在于这个人在一个车子的后面在熨衣服。你会发现AI理解了车子和人的关系,还理解了这个场景。可见,它已经具备了多模态的理解能力,利用视觉和了解的知识对世界做出精确判断。这样核心的底层技术对于大部分创业者来说,我们很难通过技术本身去塑造核心竞争力和壁垒,但是如果我们比别人先做三个月,有可能可以利用抢先期来打造自己的护城河。

第四个新能力是多模态的表达能力。AI不仅可以生成文字,还可以生成图片、音频、视频。Tum不仅会帮你写PPT题目,还会帮你每一页配一张图。除了简单的画图,它还会帮你更换房间装修的风格。Discript可以直接对照文本去剪视频,像编辑文字一样进行视频修改。Callannie是一个可以和它直接对话的数字人,它会跟你自然地开始沟通,并且聊天的话题有来有回。

第五个新能力是常识能力,常识分为普遍常识和专业常识。首先它是有普遍常识的,知道长三角地区超过5000员工的客户名单,中东每个国家的销售额。如果AI具备了常识,它就可以精准实现需求。常识对于我们做产品而言,可以搭建原本需要大量的人力、物力付出的场景,实现行业的弯道超车,积攒核心竞争力,尤其是在教育领域。除了普遍常识以外,专业常识能力也十分重要。如果我们可以把某一方面的专业知识从大语言模型里面挖出来,有自己的一套模型方法,在这个领域有一定的稳定性和专业性,很有可能做出各个垂直方向上的专业应用,比如兽医应用。

在原有的多模态的内容创作里,不管是Midjourney还是Stable Diffusion,很多我们用来画画的工具其实不太理解语义,如果结合GPT4的能力,它对于世界是有常识的,可以精准地理解语义,可以理解空间。如果它有了空间知识、世界常识、精准的语义理解,所有的内容生成可以真实地、精准地反映意图。我觉得在多模态的表达方面有非常大的机会。机器在新的能力上开始有了常识,这是移动互联网时代所不具备的。比如你可以问GPT,如果我把图片中的这根线剪断会怎么样?它会说,那些气球就会飞走。这件事情对于我们每个人都很简单,但是对于机器来说,这是非常难以理解的一件事情,意味着它必须要具备对于这个世界常识的理解,才能够做出判断。再如黑手党到了新的瓷器店,对店主很热情,说类似店好美,东西好看,装修好的话。现在的人工智能可以判断出他的话语看似友好,实际暗示了一种危险。GPT其实还具备了一定的人际交往方面的常识,比如马克和朱迪的对话。马克对朱迪说,我不喜欢你昨天晚上对待杰克的方式。朱迪说,你看到他在做什么了吗?他打了他哥哥的头。马克说,这并不能成为你对他大喊大叫的理由。GPT其实理解双方的意图各自是什么,理解朱迪是如何回看待他们的回应,理解他们为什么没有实际沟通,还能理解他们如何能够改善这个情况。

第六个新能力是推理能力。我们大部分时候要的不是信息,也不是推理,而是信息和推理综合之后的洞察。比如Excel软件,更多的是利用Excel看到一些趋势。未来可以直接让机器帮助我们分析趋势,得出结论。可汗学院做出了AI教育机器人,每当儿童问机器人所有的问题,它们不会直接给答案,而是会问孩子怎么想,引导孩子把这道题目做出来。所有的内容都可以转换为定制化的服务,所有的服务不一定只是信息的过滤和筛选,所有的服务可以是精细地通过推理,判断用户当下的需求。

在我们的新的产品里面,如何把自然语言理解、自然语言表达、多模态理解、多模态表达、常识、推理这些能力用好,我们做出来的产品才更有可能是AI原生的应用能力,根据这些能力往往会创造出更多新的场景。

点击下图,加入课程

第一个场景是对话复杂交互的场景。现在跟人工智能讲话比较简单,比如定个闹铃。如果我们能够和AI长时间沟通,就像给助理布置任务一般,把出现的复杂的对话交付场景用起来,我们便具备了竞争优势。

第二个场景是专业门槛消除的场景。如果你是一名设计师或者是董事长,大概率是不会去打开财务软件的。如果未来的产品大部分都携带了自有的AI,这个时候所有软件的交互形态都可以变得极其简单。你可以直接开口问财务软件,它会像财务的专业人员给你解释。所以专业的门槛会逐渐地消除,外行也可以接触到专业性的知识,甚至得到专业的洞察。

第三个的场景是超级定制服务。如果用AI来讲课,首先是让AI收集大量的资料,然后告诉它应该怎样来编排100节课的大内容。它会根据每一个人的信息,比如关心的话题,技术的了解,生成一门专门服务的课程。将所有的内容都变成服务,这是一种新的场景。

第四个场景是软件自由协作。你告诉AI所要学习的内容,AI会自动帮你挑选最合适的工具,然后用你适应的方法做出来。当这些能力被发挥到极致的时候,我们就会打开很多新场景,当我们能够把这些场景充分应用的时候,我们就站在了时代的浪潮。

在《救了我狗命》的故事里,兽医根据ChatGPT分析的验血报告治好了狗的病症。其中用到了自然语言理解,自然语言表达,常识理解的能力。这里面也用到了新的场景:第一个是他跟ChatGPT进行了多次的复杂对话。第二个场景是专业门槛消除,相当于给自己配了一个专业的兽医。第三个场景是定制服务,ChatGPT通过验血报告做了诊断之后,你的信心指数就会极大地上升,这是将内容转换为定制化服务。

当这些新能力和新场景大量地出现,我们也应该开始思考,我们的产品应如何应用新能力和新场景,尽可能把我们的产品放入新场景,牢牢把握未来的机会。

我建议大家在早期的时候拿着锤子找钉子,把这个新能力植入,用到不合理,再把它撤回来,有助于设计AI产品。思考是否可以让产品听懂人的语言来运作,是否可以帮用户理解更多的信息,是否可以生成不同形态的内容,是否可以把固态的内容液化成定制化的服务,是否可以让AI感受到环境和状态,如何用普遍的常识帮助用户,如何提供信息和推理来生产洞察帮助用户等问题,来抓住原生的AI产品机会,用上AI原生的能力,这才是我们的机会所在。

AI时代的原生商业设计

人工智能时代的商业机会,即AI时代的原生商业设计,主要包括定位、产品、商业。

点击下图,加入课程

(1)明确定位,寻找突破点

我们做任何的事情,是依据我们所处的位置。当我们站在那里的时候,可以先画几个圈作为参考。第一个圈是用户任务,用户的需求决定了我们如何用AI在原有的产品上创新。第二个圈是AI能力,即人工智能创造的新能力。第三个圈是自身优势,找到自身在这个领域具备的优势,成功率会有显著提升。

这三个圈让我们随时知道自己当下在哪里,用户需求以及AI能力,对于做战略判断更有价值。如果你是一家初创公司,想用比较稳健心态来做AI商业设计,可以找到适合大语言模型的特点往前走。这时候画的三个圈分别是离钱近、有套路、不严谨。离钱近即挑选离钱近的领域,因为大语言模型的底层不属于应用层,我们做出来的AI应用会使得壁垒较薄。如果它的商业闭环比较短,容易变现,可以把这笔钱投入到研发、营销当中。人工智能可以吸收全世界全人类的套路,帮助你一次又一次地稳定输出。这个套路是比较发散性的套路,大语言模型有一定的创造力,意味着它有一定的容错性。律师服务行业属于离钱近、有套路、要求严谨,艺术创作行业属于离钱近、不严谨、套路不多,笔记管理行业属于有套路、不严谨、离钱远。可见,不同的行业,处在这张图不同的位置。营销内容处在比较中间的位置,对于创业公司相对比较友好。首先,它离钱很近,比如百度广告,公众号文案,小红书的种草文案,这一类都是营销内容,营销的内容质量高,会提高转化率。其次,营销可以采用不同的营销方法,从STP到小红书文案,AI可以充分得到套路的训练。最后,营销内容不严谨,它有自己的创造力,不会造成生死存亡的严肃问题。

如果你考虑一定要在自己行业做,也可以这样来考虑:你的行业其实不单是一个行业,而是由很多行业组成。第一个例子是自动驾驶。大部分人认为自动驾驶是离钱近、有套路、严谨的行业,因为它直接跟衣食住行的行相关。实际上,自动驾驶是分场景的。比如说上下班的自动驾驶跟矿车的自动驾驶是两种类型。上下班的自动驾驶旁边会有很多行人,但是矿山的自动驾驶有可能旁边一个人都没有,这个时候矿山的自动驾驶可能就属于离钱近、有套路和不严谨,而街道的自动驾驶就属于离钱近、有套路但是严谨,高速公路上的自动驾驶介于二者之间就是更好的突破口。

所以,对于一个明显的市场,把它切成几块,去分析每一块的情况,判断哪一块更适合自己切入是寻找突破的方法。第二个案例是法律服务。法律服务如果是金融并购,属于离钱近、有套路、严谨,在大的事情上,用专业的律师,因为担心出状况。如果是在小的法律服务上面,比如罚单申诉这样的法律应用场景,属于离钱近、有套路、不严谨,我们可以用AI为用户提供服务。美国的Do Not Pay公司,就是利用AI在不严谨、有套路、离钱近的事情上,帮用户找到非常多的小场景从而提供服务。第三个案例是心理咨询,它属于离钱近、有套路、要求严谨。如果心理咨询不专业,很有可能导致恶性事件。如果是情感陪伴,这个时候就属于有套路、不严谨,但是离钱稍微远一点。值得我们思考的是,是做到更专业的领域,还是更不专业的领域,二者对应着不同的商业策略。我们要知道自己的定位,考虑自己原有的资源。如果本身就有资源,不一定要跟所有的创新者来硬拼。无论如何,要知道自己站在了何处。

(2)基于用户需求,设计合适交互

现在很多人设计产品是想设计一个对话框,因为很多人被ChatGPT误导了。大家可以打破思考的惯性,我们不应该局限在AI的对话形态上,应该思考的是什么新能力适合解决用户的问题。

GITHUB的Copilot,不仅可以和你对话,还可以默默地在后台理解场景,理解上下文信息,给出更正确的代码。NationAI不是一个传统的对话框,更像是一个传统的文档编辑器,用来改写文章。用Jasper对亚马逊的产品描述,首先用图形用户界面让我去填,填好之后生成两个不同的描述,供我选择。这是一种更有效的设计,通过图形用户界面框定应有的信息,而不是随口一说。再如,使用Google搜索内容,Glarity在理解用户的搜索行为和搜索内容之后,会给出一些总结性的答案。

大家思考的原点应该不是对话框,而是新能力,这个时候我们看到的世界才是完整的。很多时候多模态的交互不是对话的形态,可能讲得更清楚。比如手势操作配合语言,是更为丰富的一种交互形式。

Linus Lee曾说过,一次交互过程,不仅是你一句我一句,而是应该拆解成4个部分:意图、上下文、解读和行动这四个方面。每一步的交互我们应该理解这四个方面,然后再去设计,而不是仅仅思考对话。对于产品来讲,我们应该基于这些新能力,而不是从一个对话框出发。整个产品需要从待办任务出发,在我们的核心竞争力以内用上新能力,才能在产品设计角度拥有一席之地。

(3)形成竞争力,打造商业壁垒

AI商业与传统的互联网产品创新不同的地方主要有以下几点:

一是有成本、要赚钱。以前开网站用到的服务器成本跟现在GPT成本相比很小,跟大语言模型说话,都是要付费的,用户多了,成本就会线性增加。如果你的用户每天来回聊大概3000个中文字,用的是3.5接口,大概会用8分钱人民币。如果用的是GPT4接口,大概相当于2元人民币。因此在开始AI商业的时候应该比互联网创业的时候更加具备成本意识,要把商业模式想得更清楚,甚至短期的商业模式也要想得更清楚,不能让大家无限制使用,因为每一次交互都是要成本的。尤其是用GPT4做服务,虽然质量很好,但是成本确实高。

二是起步之后,考虑自身的竞争力。对于大部分的应用创业者来说,竞争力不来自于底层的大模型,但是也可以有一些模型竞争力。一般来说,我们在模型层的竞争力来自于三个方面:第一个是多模型,综合好几家的模型,显示能力多元化。第二个是选模型,在不同的场景下为用户选择最合适的模型,形成中间层的竞争力。第三个是自有模型,用专业数据为公司训练一个开源的模型,在明确的垂直场景下,使用开源模型,利用数据训练一个勉强达到GPT3.5水平的自有模型,并不是特别地困难。这部分对于大部分人而言,不是一件困难的事情,因此称不上特别核心的竞争力。

除了模型层之外,其实我们还需要专业的竞争力,主要来自于三个方面:第一个是品牌和流量。你的品牌和流量适合做什么AI,可以帮助你进行不对称竞争,为你创造优势。第二个是专业知识和数据。将专业数据和专业知识用于AI产品,会显现自己的独特性。第三个是有相关的系统,如果有一些相关的系统可以搭配使用,可以让AI效果得到充分发挥。比如在Office里搭配AI,用户很有可能在Office这种生态里用AI工具。值得思考的是,在原有的系统里面,有没有哪些是一套完整的系统,可以让AI效果充分发挥出来,找到自己的专业竞争力。

我们还需要交互竞争力,首先来自于容易上手,比如用Midjourney做PPT中的图,只有四个按钮,特别简单,在交互上没有SD那么丰富的操作,也没有那么深度的使用方法。正是因为容易上手,所以很有可能涉及到更广泛的人群。第二个交互竞争力来自于容易理解,比如Lensa和Midjourney相比,做头像更容易理解。最后交互竞争力来自于最佳实践,在交互里把行业里面的洞察和知识嵌入其中,它的竞争力就会更强一点。所以大家在思考交互竞争力的时候,尽量让它容易上手一点,容易理解一点,把行业里面的专业性融入到其中,竞争力也会更强一点。

对于创业公司来讲,想通过这三种竞争力树立壁垒,是比较难的。目前来看,有两种可能性,可以树立壁垒,加强行业内的竞争力。

第一个路径是网络效应,看你的产品里面能否设计出网络效应。即用得人越多,效果越好。如果你可以做到这一点,后来者哪怕跟你用一样的算法,基于一样的模型,用一样的交互界面,也追不上你。比如Character.AI这家公司,它增长非常快的一个原因是这个网站本身具备了网络效应。每一个人可以很快做出自己想要的机器人的样子,如设置动漫角色、说话方式。越来越多的人训练这些AI,这些模型就会做得越好,即Character会越好,会有越来越多的人跟它聊天,创作者也会精心地维护它。在它的生态里产生了网络效应,可以同时激活创作者跟消费者。Stable Diffusion是一个画图软件,并且是开源的。很多的第三方开发者会把自己的想法、工具做在Stable Diffusion上面,因为这个生态已经做起来了。基于这个生态,不需要从头开始做起,只需要不断放入插件,供用户使用,越来越多的插件也会让整个生态变得越好,用Stable Diffusion画出越来越好的作品,吸引越来越多的人。如果在上面做二次开发,再做一些创作,越来越多的人会基于这个进行创作,为它添砖加瓦,帮它做更多的插件。

第二个路径是数据的网络效应,即数据飞轮。比如用百度搜索关键词,联系最密切的链接会往上排列,总是跳过的链接会自动下沉,这样一来,使用百度的体验会越来越好,其实是用户在帮助百度训练它的模型。每一次看抖音的时候,也是在帮抖音做它的编辑,让它的算法越来越精确,越来越满足每个用户的需求。

这个时候,算法数据飞轮就会起来,意味着它的整体壁垒更有可能建立起来。飞轮一旦转起来了,别的行业是难以企及的。如果只是界面上的优势,很快就会被赶上。所以这才是真正的壁垒。

从整体上来看,大家可以考虑这三个方面。在定位上,最好的定位是我们在用户任务、AI能力和自身优势的交集处,把自己的产品放在这里。在产品上,从用户任务出发,设计合适的交互,把新能力用合适的方式展现出来。在商业上,第一是早点变现,早点考虑商业闭环,第二是在大模型之外考虑其他的竞争力,最后是要把飞轮建起来,可能是网络效应,也可能是数据飞轮。只有这样,才能够真正地抓住这一轮AI时代的商业机会。

扫码进群领《24个业务场景案例+74个GPT提问模版》、《Midjourney资料:AI绘画实用干货篇,必须收藏!含基础/进阶/参数/关键词/案例等》

扫码进群

领ChatGPT入门资料

咨询更多产品信息

AI时代原生产品新机会:从历史科技浪潮中学到的教训与启示

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!