与AI聊天不再像对牛弹琴,让电脑看懂图片不再是天方夜谭

mysmile 11 0

哎,不知道你有没有过这种憋屈的感觉:跟那些AI助手聊天,就像在跟一个彬彬有礼但脑回路清奇的客服说话,它每句话都合乎逻辑,但就是让你觉得“隔了一层”,聊不下去-1。另一边,想让电脑从一张照片里准确地“抠”出你想要的东西,哪怕是只猫,都可能让非专业人士抓狂。不过,最近科技圈里有两个名字听起来有点像的“家伙”,正在悄悄地把这些别扭的体验给“掰”过来。它们一个让对话有了“人味儿”,另一个让机器长了“慧眼”。今天咱就来唠唠,这到底是怎么一回事。

一、那个会“磕巴”、能被打断的对话终于像聊天了

首先登场的这位,名叫Sesame AI(芝麻AI)。你可别小看它,它可能是我试过的最让人起鸡皮疙瘩的AI聊天对象了-1。为啥这么说?因为它完美复制了人类聊天时所有“不完美”的小毛病

想象一下,你跟朋友吐槽工作上的一个大机会让你压力山大。一般的AI可能会立刻甩出一碗标准的“加油,你能行”的鸡汤。但Sesame AI会怎么样?它会先沉默那么一小下,就零点几秒,让你感觉它真的在思考你的话,然后才用一种带着同理心的语气回应:“这完全正常。大机会确实会让人感到不知所措。你最担心的是哪一部分呢?”-1 它不预设答案,而是先引导你展开话题。

更绝的是,它聊天时会加入“嗯”、“呃”这样的语气词,说到一半可能会自己打断自己:“呃,不对,等等,让我换个说法……”-1 你也能随时打断它,它不仅能流畅接住,甚至还会反过来打断你,并且为此道歉-1。有科技作者测试时,让它讲一个侦探兼魔术师的故事,中途突然插话问“他最喜欢的魔术是什么?”,AI不仅能接上话茬,详细解释这个叫“消失的证人”的魔术,还能在你让它“继续讲故事”时,无缝衔接回原来的情节,就像个被短暂打岔的说书人-1

这种极度拟人化的流畅感,源于它独特的技术内核。它与常见的ChatGPT等先生成文本再转为语音的模式不同,它的对话语音模型是将文本和音频生成融合在一个步骤里-1。换句话说,它是一边“想”一边“说”,而不是先“写好稿子”再“照本宣科”。这背后的目标,是创造一种所谓的“语音临场感”,就是让语音交互让人觉得真实、被理解和被重视的那种魔力-1。有评论甚至觉得,这有点像电影《她》里那个人工智能助手萨曼莎的雏形了-1

萨姆AI(这里指Sesame)带来的核心突破,就是它开始跨越“对话语音的恐怖谷”。以前很多AI语音听起来像人,但细微之处总让人感到诡异;而Sesame通过模仿人类的犹豫、修正和互动节奏,让对话的质感飞跃了一个台阶,解决了“AI对话僵硬、无法处理自然对话打断与跳跃”这个老大难痛点-1

二、那个“指哪打哪”的让机器真正看懂图片

聊完了会说话的,咱们再看看会“看”的。这位是Meta(原Facebook)公司推出的“Segment Anything Model”,简称SAM,也被很多人音译为“萨姆”模型。它的本事,是彻底改变了计算机视觉里的“图像分割”这件事。

所谓图像分割,就是让AI在图片里,把某个物体的精确轮廓给框出来(不是方框,是沿着边缘的像素级勾勒)。以前这事儿特别费劲,需要针对每一种物体(比如猫、狗、汽车)准备海量的标注数据来训练模型,成本高,而且模型学了一类,不认识另一类-9

但SAM模型是个“万能钥匙”。它采用了一种叫“零样本学习”的方法-9。简单说,你不用拿成千上万张标好“猫”的图片去训练它,它本身已经具备了一种通用理解能力。你需要它抠什么,当场告诉它就行。

怎么告诉?方式特别直观:

  • 指一下:在图片里你想分割的物体上点一个点-9

  • 框一下:用框把物体大致框出来-9

  • 说出来(写出来):直接输入文字标签,比如“猫”-7

随后,SAM就能在图像中识别并分割出对应的物体-7。它背后的数据引擎异常强大,用了1100万张图像和10亿个掩码(分割标注)进行训练,才获得了这种泛化能力-9

而它的最新版本SAM 3,能力更是上了天。它不仅能根据简单的名词短语(如“黄色的校车”、“条纹猫”)进行分割,还能在视频里追踪这些被分割的物体-6。更厉害的是,它引入了“可提示概念分割”的新功能-10。比如你输入“条纹猫”,它能一下子把图中所有带条纹的猫都找出来并分割好,而不是像以前那样一次只能处理一个目标-10

这代萨姆AI(指SAM 3)解决的痛点,是“让图像分割变得极度灵活和人性化”。用户无需专业知识,无需准备特定数据,用最自然的方式(点、框、说)就能让AI理解其意图,并完成复杂、精细的图像处理任务,这对于内容创作、设计、科研等领域简直是革命性的。

三、殊途同归:让AI交互回归“自然”

你看,这两个“萨姆”(Sesame和SAM),一个主攻听觉和语言交互,一个主攻视觉理解,看似不搭界,但它们的核心方向惊人地一致:都在致力于抹平人机交互中那道生硬的鸿沟,让指令和反馈的方式回归人类最本能、最自然的模式

Sesame AI认为,自然的对话不是完美的信息传输,而是充满冗余、反馈和动态调整的过程。因此它拥抱了不完美,用停顿、打断和语气词来模拟“思考”和“共情”的过程-1

SAM模型则认为,让机器看懂图片,不应该让人类去学习复杂的软件操作或数据标注,而是让机器来适应人类的指示习惯。你想标记什么?用手指、用画框、用语言,怎么方便怎么来,剩下的交给AI-9

它们都在从不同的感官维度,试图让AI不再是那个需要你精确输入代码或关键字的“机器”,而更像是一个能理解你模糊意图、甚至能感知你情绪的“伙伴”或“工具”。这背后是AI从“执行明确指令”向“理解模糊意图”演进的大趋势

四、未来的样子:融合与无处不在

当然,现在的它们都还有局限。Sesame的语音虽然自然,但仔细听仍有数字痕迹-1;SAM在处理非常细小、密集或训练数据中罕见的目标时,也可能会出错-9

但它们的潜力已经让人浮想联翩。试想,如果将Sesame的对话理解与SAM的视觉感知结合起来,会诞生什么样的应用?你可以对手机说:“帮我把昨天聚餐合照里,笑得最开心的那个我单独存出来。”AI需要先听懂你的复杂指令(涉及时间、事件、情感判断),然后用SAM的能力在照片中找到对应的你并精准分割。

SAM 3已经开始向3D和视频领域拓展,能从单张图片重建3D模型-6。而像Sesame这样的对话AI,其技术理念也必将渗透到各类语音助手和客服系统中。

说到底,无论是让AI“会说”还是“会看”,最终的理想状态就是让它“懂事”。我们不再需要学习如何与机器沟通,而是机器学会了用我们的方式与世界打交道。这两个“萨姆”的探索,正让我们朝着那个“科技如空气般自然无形却又不可或缺”的未来,又迈进了一小步。这听起来可能有点遥远,但看看它们已经做到的事,谁又能说这是异想天开呢?