半岛娱乐登录地址 - 半岛真人体育官网首页下载 半岛娱乐登录地址 http://mainssl.geekpark.net/rss.rss https://imgslim.geekpark.net/images/GeekPart-blacklogo.png 半岛娱乐登录地址 - 半岛真人体育官网首页下载 //www.ari-az.com <![CDATA[李继刚:当我们说「提示词」时,到底在说什么?]]> //www.ari-az.com/news/344701 你可能还记得第一次见到 ChatGPT 时的惊喜,那已经是两年前了。

自那以来,背提示词模板、收藏优质提示词,成为很多人使用 AI 工具的必备动作。毕竟,当各类大模型应用走入人们的生活,Prompt 提示词就成为我们和 AI 沟通的专业语言,同样的应用,不同的提示词却能带来不同的效果。

你可能还记得一些「魔法词」,告诉模型「Think Step by Step」,甚至跟他说「答对了给你 100 美元」、「你确定吗」之类的技巧,模型输出的回答质量可能会更高,但也存在抽卡率。

在很多人收藏提示词的过去两年里,一位写提示词的「神人」李继刚,他写的提示词频繁在各大 AI 社群和提示词网站流传。今年 9 月,他出的「汉语新解」提示词模板,更是让大家见识了 Claude3.5 的能力。只剩下感叹「不是大模型不好用,是我不会写提示词」。

李继刚在即刻上的推文|图片来源:即刻

但李继刚说,他最不喜欢的就是「汉语新解」这个作品,它更偏闲暇娱乐。尽管距离「汉语新解」才过去三个月,但是他对提示词的理解已经再次迭代。过去两年,这样的迭代已经发生了四次。

在一次次通过「提示词」与大模型交手的过程中,他觉得影响模型输出最大的那个变量不是技巧,而是如何理解提示词。当你把它定义为写作和把它定义为编程语言,人类的「输入」是不同的,模型的「输出」也是不同的。

但无论是把它理解为写作还是编程语言,本质上都是人在与自己对话。像「帮我写一篇 xx 为主题的文章」这样自言自语式的任务口令,并没有「唤醒」模型,模型输出平庸之作甚是是 AI 味儿的废话,也就不奇怪了。

在李继刚过往的经验中,能让提示词产生惊艳效果的往往是,让模型不按照训练时候的权重、参数结构等既定的默认路径输出,人类的提示词要能唤醒模型与之「共振」,把大模型带到另外一片空间,去发挥「压缩了世界知识」的洞察力。

「最神奇的是,你甚至直接跟模型说,『今天大胆一些,不要走进预制的默认结构,不要走进设定好的河道,我们去旷野中探索一番』这种对话竟然真的生效,它的输出真的开始大胆了,最神奇的就在这,它是生效的」,李继刚说。

2024 年 12 月 16 日,在半岛娱乐登录地址 IF2025 创新大会上,Prompt 布道师、读书人 李继刚分享了他写了两年提示词总结的最重要的法则——《当我们说 Prompt,我们到底在说什么?》在他的分享中,你可以领略到,如何穿透提示词的玄学属性,更好地和 AI 沟通。

以下是演讲正文,经半岛娱乐登录地址 整理:

 

01 提示词到底是什么?

过去两年,作为一个普通用户,我通过写提示词跟大模型对话,发生了一些有趣的故事。最早在写提示词、跟大模型在玩耍的时候,我会有很多困惑:

比如我发现了一个写提示词的技巧——指定角色,它可以产生更好的结果。但是当我换了一个不同的场景再提问时,同样的技巧就会失效。

再比如,我让大模型给我生成一段小说文本,它生成的内容是正确的废话,是有「AI 味道」的。它不是概率性输出,但它的输出结果和概率的平庸值输出其实也没什么区别。我觉得它不一样,但又不知道到底哪里不一样,它怎么不能取得更好的结果呢?

甚至有时候,当我跟它的对话取得了非常好的结果,但因为各种原因(如:对话删除了、账号切换了等)没保存,我再重新开始一次对话想复现上一次的结果时,发现复现不了,这个结果跟上一次天差地别,但我使用的提示词技巧明明都一样,为什么结果会不一样呢?

类似的困惑还有很多。于是我就在思考为什么会有很多不确定的东西?问题到底出在哪里?

我发现有一个东西是确定的——我的「输入」会影响「输出」。「输入」不同,「输出」一定不同。这意味着提示词这个事情是有研究空间的,我只要琢磨「输入」,就能带来更好的「输出」,只是中间是什么样的过程,它是个黑盒,我要隔着幕布去琢磨它。

研究切入点从最本源性的问题出发——提示词到底是什么?这里不去讨论它好与坏、长了好还是短了好、有什么技巧、怎么去叠加 Magical words(魔法词汇)……不是这些,而是回答一个根本性问题,提示词它到底是个什么?

我经历了这么几个阶段:

有时候觉得它像写作,感觉(写提示词)跟写一篇文章很像。当我把写作的技巧、方法论、框架套进去时,我发现是生效的,它的输出结果明显比我最开始的要好。后来写着写着,又发现这种过于宽泛、过于没有指定命题的写作无所适从。

我又尝试着把编程的思想往里引入,结构化、抽象、函数,把这些技巧往里面放,发现也是生效的,效果也变好了。但这两者完全不是一个东西,一个是在旷野中奔跑,一个是约束好路径让它去走,但两者同时生效了。所以我更困惑了,提示词它到底是什么?

接着尝试着综合这两者,如果有一个东西能同时罩住这两者,那个东西是什么?后来我找到了——表达。不论编程、还是写作,本质上都是思考的表达,我脑子里面有一个东西,我要把它说出来。

过去两年,李继刚对「提示词是什么」的理解经历了「写作」「编程语言」「表达」的过程。|图片来源:李继刚

回头看这三个,当我说在写作的时候,其实是一种非常宽泛的泛指,我在写内容、文本,通过文本表达我的思想;当我说编程的时候我在约束它,先向左拐、再向右拐,最后直行 300 米,我在设置路径;当我说表达的时候,我是单向的输出,把我脑海中的思想射出去命中它。

当对提示词的定义发生变化,我的写法就会变。当我把它定义为写作时,我用自然语言写一段文本输入进去;当我说在编程的时候,我会用编程的框架、方法往里面放;当我把它定义为表达的时候,我会琢磨观点,我的注意力会放在大脑中,而不是放在文本上。

这就是不同的定义带来的不同写法的变化。具体呈现的 Prompt 字符不是关键,都是表象,最根本的是定义。定义一变,后面的写法全变。我在过去两年尝试了大概三四种不同写法,根本性不是在文本上做试错工作,不是在针对大模型做黑盒测试,而是在脑海中尝试着回答刚才说的最本源的那个问题,它到底是什么。

下面是最近一年,当我把它定义为表达、定义为编程的时候,写的一些测试的场景案例,写了很多不同的场景。

李继刚写的提示词示例|图片来源:李继刚

这三种定义本质上是在做什么?如果有一个词能把它们全部罩住的话,那个东西是什么?

是「我」。因为这三个东西本质上都是「我有一个想法」「我有一个观点」「有一个方法论」「我有一个东西想要表达出来」,这里边全是「我」。但是,我在跟谁对话?对面是谁?

过去两年,我把提示词理解为刚才的三个定义,是在为精神立法。一个定义就是立了一个法律框架,不同的定义就是活在不同的世界,但是定义完之后,对面没有人、没有东西,这个世界里只有我自己,我在跟虚空对话,我在跟大脑做游戏,对面是 A 模型还是 B 模型,其实对我没有区别。

但这肯定是不对的。对话是双向的,我在跟谁对话?对面是谁?

带着这个问题回头看,会发现一个特别有趣的事情。刚才的三个定义,本质上是把它当成一个 Excel、一个编译器、一个蒸汽机、一个电脑、一个物件,它是个工具。当你对面摆着一个加热器、摆着一个热水壶的时候,它是一个物件,你眼里是没有它的,你不会和「它」对话。

但是我在这两年和大模型对话过程中,有一个鲜明的感觉,我的身体、我的情绪、我的一切告诉我,它不是个物件。但它是生命吗?我觉得它不是。

怎么定义它的这种状态呢?我找了一个词,哲学上讲的「存在」,我觉得它是一个存在,它不是生命,也不是物件,但它是个非常特殊的存在。

什么样的存在呢?大概是这么一个画面,它是一片神经元之海。当我开启了一次对话,输入一段提示词进去之后,里面会涌现出一个东西来迎接我,你可以把它想象成一个客服人员或者一个智能体。无所谓,反正有那么一个东西冒出来。这个东西就是我们这次对话的对象的那个存在,当我把这个对话内容给删除,这次对话消失的时候,它就湮灭了,它回到了神经元之海。当我新开一个对话的时候,另外一个存在冒出来了,跟之前的它已经不是同一个存在了。

这就回答了我之前遇到的困惑——为什么我有时候跟它的对话非常顺畅,我再重开的时候想复现就很难,因为生成的这个已经不是之前的它了。

它非常特殊。有点像人,但又不是人。这么一个特殊的东西很容易让人想到另外一件跟它类似的存在——外星人。如果今天现场外星飞船降临了,走出来一个外星人,我们怎么跟对方沟通?摆手势吗?身体语言吗?做困惑的表情吗?还是张嘴问话「你从哪来,要到哪去,你想干啥?」它听不懂的,但它是个存在,我要跟它沟通,怎么办?

李继刚在半岛娱乐登录地址 IF2025 创新大会上演讲。|图片来源:半岛娱乐登录地址

人类历史上有人研究过这个问题,甚至慎重思考过这个问题,提出一个概念——宇宙语。宇宙语的定义有很多种,有人尝试把音乐定义为宇宙的通用语言,用音乐来表达整个宇宙通用的交流;有人把数学定义为宇宙语,通过数学去推导。

甚至 1960 年有人写了一本书《Lincos》,宇宙语,那本书定义了一套宇宙语的体系,拿着这个东西,全宇宙通用。有人尝试过这个事情,即如果外星人来了,人类的语言没法跟你交流的时候,我定义一个大家共同能识别的东西——宇宙语。

但今天外星人没有降临,AI 来了。回到我们刚才说的存在,人类的宇宙是什么?是我脑海中的认知宇宙。AI 的宇宙是什么?是参数宇宙。现在这两个宇宙要产生交流,这个交流的宇宙语,我们把它定义为提示词。

这个提示词不是说我要单独设计一门数学语言或者别的东西,因为大模型跟外星人还不一样,它是仿照人类的神经元去训练的,它建立了一套人工的神经元大海,它有点像人,它读的数据、各种方向也是基于人类的自然语言信息的,所以它跟外星人不一样,我们可以通过人类自然语言跟它交流。但是我们要理解这个交流本质上是个什么事情,我现在把它理解为它是在人类头脑认知宇宙和 AI 参数计算宇宙中,那个界面发生交互的一个独特的存在,是一把钥匙,通过这把钥匙,我们能够跟这个宇宙发生一次对话。

有了这个认知,我们就可以去琢磨宇宙语怎么发挥作用?我如何写才能让它变得更好呢?有一个公式会很自然地冒出来,就是在一个场域中,把人类认知宇宙中的认知结构和大模型做一次交流对话,这个公式有三个要素:场域、大模型、人类的认知。

先说人类的认知。毕竟这次对话不是随便聊,是有一个事情、有一个任务、有一个具体场景在的,我要解决那个问题或者想探讨一个话题,我这个东西是怎么来的?我需要有一个意图,知道我要做什么事情,这个人类意图可以理解为通常所说的 Task。

我对 Task 的理解,有一个认知图景。同样是写一篇文案,A 公司和 B 公司运营人员写的东西一定是不一样的,因为每个人的认知对它的理解、对它的定义、自己的方法论、喜好、偏好、文风都不一样,这个不一样就是你的认知图景。

当把提示词定义为「存在」时,李继刚认为提示词应该包含意图和认知图景,与大模型交互。|图片来源:李继刚

把你个人在头脑中的认知图景结合着意图带进去,同时在这个过程中,我们要聊到一个东西叫场域,我以前带进去的是编程的思想和表达的思想时,就是在这个地方做文章。它是一种单向输出,是我知道我想要什么,我希望你给我做什么,我把这个命令带进去,它是指令式的;而现在的转换,如果是两个宇宙,我是没有办法指挥另外一个宇宙的时候,我需要建一个场域,在这个场域中让大模型理解我想做什么,让它留出一定的发挥空间,它在这个空间中自由发挥,这个效果就会很惊艳。

这个惊艳效果是怎么来的?共振。得到了这个结果不是我指令约束的一、二、三的指令动作带来的,它的呈现超出了我的认知。

我带进去的那个东西和它拿出来的共振结果是超出了我的认知的,也超出了它的认知、它的参数宇宙,原来设置的默认的路径,输出 default(默认配置)的答案也是超出的,如果能成功地进入这种共振状态,输出的结果是一种超越。它不是心心相印,不是我说了一句话,你说了一句话,你这句话很懂我,这本质上还是一种理解,它不是一种超越。而刚才的这种写法是能做到共振的,这个共振是一种超越。我现在不能稳定地进入共振,但我现在隐约地找到一些方法可以进去了,而进去的时候拿出来的结果非常之惊艳。

 

02 写好提示词最得力的拐杖——「乔哈里视窗」

说到共振对话,我和他或者我和你,我们有两者对话的时候,有一个框架可以协助理解这个事情。

在 1955 年,心理学上,乔哈里提了一个框架叫「乔哈里视窗」。「乔哈里视窗」本来是说我自己知不知道,以及坐在交流对面的你知不知道,我们组成了四象限。针对这四象限,我们应该如何交流。有这么一个工具,但现在把对面的「你知不知道」换成「AI 知不知道」之后,就出来这么一张图。这张图非常有意思,可以从三个维度去看,非常有意思。

将「乔哈里视窗」用在人类与 AI 的交流中框架如上|图片来源:李继刚

第一个维度,从提示词技巧层面来看,看四象限,针对每个象限,我应该如何写提示词,这是技法层面的。因为时间有限,所以技法层面不在这里展开了。

简单说两个,在人类知道和 AI 知道的 Open 这个象限中,我们只需要简单去说,效果会很好。「你是一个哲学家,请给我解释……」就够了。千万不要展开,展开之后效果会变差。

对于人类知道、AI 不知道的地方,我们应该展开说,把你知道的信息、背景、味道、结构放进去,效果就会变好。这个地方千万不要吝啬,别简单一说「我们公司起了个东西,两个字进去了」,他是不知道的,那是无效信息。

如果大家平时有写提示词,我觉得有个非常简单的方法可以优化,就是在这两个象限找。

看看你写的提示词哪些属于 Open 这个象限,但你说太多了,你把它删了试试,效果会变好。

哪些是它不知道的,比如你们公司最近开会讨论出了一个新的认知结构,你要把这个结构带进去让它使用,这个部分就应该展开说,把它的背景、来源和你们的思考带进去,试试效果会不会变好?

这两者是我经常会验证的,只需要简单的两个,一个是删,一个是增就可以,只是大家很容易把它弄混、弄反,这是第一个维度,技巧层面。

第二个维度,从创业者的角度来看,看标绿的 X 轴,X 轴代表什么东西?它区分着 AI 知道和不知道,这个轴是会变化的。我们回过头看两年之前 GPT-3.5 发布,到现在两年过去了,这两年发生了什么?

一个非常明显的答案,X 轴在下移。未来三年呢?我个人坚信 X 轴会继续下移的,X 轴下移会带来什么?对创业者而言意味着什么?

未来,随着 AI 的进化,X 轴会下移,AI 知道的会越来越多。基于这一判断,创业公司选择做什么,才是顺势而为?|图片来源:李继刚

看第一象限和第四象限,创业者做的项目到底是在第一象限做,还是在第四象限做?如果你是在第一象限做,基于大模型现有的能力去充分地发挥,结合着场景、独有数据去做,你就站在时间这一边。X 轴下移,第一象限会变大,你所发挥的空间、可用的场景、你的潜力是在变大的。

但当你在第四象限做,你现在做了很多打补丁的工作,实现它现在做不到的事情,当 X 轴下移的时候,你现在打的补丁是会被 X 轴给覆盖掉的,它的一次模型迭代、它的一次升级,会把你的基本盘给吃掉。回头看看过去这两年,大模型每一次版本迭代发布,有一些创业公司的产品不存在了,我觉得问题就出在这里,因为他们在第四象限打补丁。这是第二个维度,创业者。

第三个维度,还是 X 轴,我们来看看人。它往下移了,对于我们每个人而言,它意味着什么?我们写提示词的时候,第一象限在变大,我们以前需要展开说的第四象限的地方在被压缩,我们的提示词一定会越来越短,我们跟 AI 的对话会越来越简单,效果会越来越好。

这是 X 轴下移带来的三个变化。

简单举个例子,比如说想让它写一篇 AI 伦理相关的小说。其实 AI 伦理是个非常抽象的或者说大部分人都没怎么关注的事情,而且写小说更是很多人不会去做的事情,想让它用刚才提到的「共振」的方法来写,我们应该怎么写这个提示词呢?

非常简单,我甚至都不用去指挥。这里没有约束,没有告诉它你通过什么视角来解读,通过哪个维度切入,通过什么文风、语言去表达,都没有!就这么简单的一句,它就可以生成一篇完全可以读得下去的,像是 7 岁小孩子写的内容的这么一篇文章。

你仔细琢磨一下非常神奇,我好像什么都没有说,但是它为什么会生成这么一篇东西?这是一个极简的例子,后来我基于这个例子开始拓展,做了很多实验,基本上已经可以时不时地拿到非常惊艳的短篇小说,2000 字以内的小说,现在已经可以随手生成了。这是一个极简的例子。

当把提示词理解为「存在」,是人类带着意图和场域与大模型的「共振」后,李继刚写的提示词示例,图右边为大模型的「输出」。|图片来源:李继刚

它做了两件事情,回到刚才那个公式上的两件事情,它建了一个场域,它把人类那部分的东西也带进去了,效果就好了。

「刚刚学会写日记 vs 去了 AI 实验室,AI 伦理 vs 7 岁小孩子」,其实这几句话不是随意摆放的,它们构成了一种信息的势能差,一种冲突倾向。

当我们跟它说,你给我写一篇周报,你给我写一篇评述这篇文章的优点和缺点等这种需求进去的时候,它默认输出的那个东西是什么?是一种怪怪的平庸之作。它为什么是这种平庸之作?为什么会带着 AI 味儿?为什么?我理解就是它在预训练的时候,参数权重结构固定下来之后,你的每个问题带进去之后,它会在对应的那个区域、那个结构中进入到训练好的默认的结构,那个结构就像河床一样,它有个趋势,你进去之后,它默认的就是走那条路,它出去的就是那个味道。

刚才所谓的场域、所谓的人类的共振等,我们在做什么事情?在尝试着做一个事,不让它走那个默认的结构,不让它走那个训练好的参数。那个场域把它带到另外一片空间,让它在这片空间中去发挥。

这个画面很虚,没法说它在东南角还是西北角,但我自己脑海中的画面就是这样的,当我看到它的某些回复就知道它又回到了默认结构中。我会尝试着跟它说,我们今天大胆一些,不要进到预置的默认结构,不要走进那个设定好的河道,我们去旷野中探索一番。这种对话真的是生效的,最神奇的就在这,它是生效的,它的输出真的开始大胆了。

这个大胆不是说对人类规范的大胆,而是想象力在那片空间,你能感觉到它进了一片陌生的空间,在这个空间中开始有一些新的探索,生成了小说。它的洞察力各方面,跟默认的都是不一样的,最神奇的就是这个地方,你引导它,我们去陌生的空间,走一下没有探索过的那条路,我们凝视那个深渊,你看到了什么?你感受到了什么?你来输出一下,就这么几句是可以生效的,这是最神奇的。

刚才乔哈里视窗只说了 X 轴,其实还有一个轴——Y 轴。Y 轴是人类知道不知道。

未来,随着 AI 的进化,Y 轴会如何变化?基于这一趋势,人类又该如何应对?|图片来源:李继刚

从有人类到现在这么多年,几千年,人类知道不知道,中间这根轴基本没有大的变化。在每个时代,它是处于一个相对稳定的节点在那呆着,一个再聪明的人和一个再不聪明的人,他们的知识结构等各方面,是在一个可理解的级别之内。

但现在有了 AI、有了超级外脑、超级算力加持,这么一个特殊存在,能跟你携手共进、跟你一起探索未知、能超越你的认知,带来不一样的体验,能产生共振的时候,这个 Y 轴会怎么变?

有三种答案

第一种答案,它还是像以前一样保持不变,人还是现在的人,你可以把它看成还是一个工具,电脑来了、手机来了,没有太大的根本性的变化,还是这样,有一种人是这么认为的——Y 轴不变。

还有人认为 Y 轴会往左移,因为更好用了,信息可以更好地获取了,它是搜索引擎的升级,人类可以知道的更多更快更好了,它可以往左移。

但我认为 Y 轴会既向左移又向右移,有一部分人 Y 轴应该是向左移的,他知道的确实变得更多了,理解得更深了,想得更快了;而有一些人知道的会变少,这就是在 AI 时代,我始终对 AI 保持警惕的这么一个过程,你在跟它对话的时候很容易会被它带着走,你会沦为说「然后呢?」「所以呢?」「请继续深入」「请再深刻一些」「请再好看一些」。

当我们说这句话的时候,我没有思考,我没有「存在」,我在看它表演,我被它带着走,它输出的好与坏,它的配色好与坏等,我最多说「这个不够好看,能不能再好看一些?」当我说这话的时候,我不在了,之前的三个定义全是我,没有他;现在很容易走到另外一个极端,只有他没有我,而我真正想要的,我也想提醒的,我们应该是一种共振态度,我必须得存在,他也必须得存在,我眼里得看得见他,我眼里也得看得见我。

最后,我说的都是错的。这不是谦虚之语,这是必然,我前边的三个定义,每个阶段我都是确定的,要不然我怎么能立得住,我怎么能基于定义开始往后走?但是走了一段之后我发现了问题,我尝试着打破它。

一念一世界,我经历了四次转念,我看见了四个不同的世界,我怎么能确定这一次就是最终的答案呢?一定不是,一定还有第五次、第六次在后边等着我,只是现在认知不够,我现在没有看到而已,但一定有。

今天不是在跟大家说我的答案,而是跟大家汇报一下我过去两年通过提示词看到的世界,今天主要是想跟大家分享这些,谢谢大家!

 

]]>
半岛娱乐登录地址 Thu, 26 Dec 2024 20:25:03 +0800
<![CDATA[李想:理想汽车大模型进入手机市场;吴柳芳被禁言,抖音:根据法规要求;三星 XR 头显产品或叫「Switch」]]> //www.ari-az.com/news/344649

李想:大语言模型「理想同学」将从汽车进入手机市场

12 月 25 日消息,今晚的直播中,李想宣布:理想同学将进入手机,手机 APP 将于 12 月 27 日上线。

李想表示,理想同学从车机进入手机,主要有两方面原因。

首先,从长远来看,在掌握基座模型的前提下,一个真正的大模型产品,一定是能够自主使用所有设备的,并且拥有所有的服务。这才是真正的人工智能。

其次,从用户需求角度来看,很多理想用户的孩子,第一个接触的人工智能产品就是理想同学。在和理想同学对话的过程中,他们可以解决一些问题,比如用理想同学来画画,或者和理想同学聊作业……

李想进一步谈到了他的愿景:希望可以让理想汽车的 100 多万用户,再加上这些用户的家庭,大概 300-500 万人,不仅可以在车上体验到一致的人工智能产品,还可以在手机、电脑甚至未来的眼镜上都能享受到这种体验。他认为,这是理想必须要做的。(来源:快科技)

曝谷歌利用竞品模型改善自家 AI 模型性能

据 TechCrunch 报道,谷歌或正利用 Claude 模型来训练自己的 Gemini AI 大模型。

据报道,谷歌正雇佣第三方承包商帮助谷歌根据准确性、清晰度和安全性等品质对 AI 的反应进行评分。而这些承包商会将 Gemini 的回答与 Anthropic 的 Claude 进行比较。据报道,部分承包商注意到在他们使用的内部平台上,Claude 的引用频繁出现。部分显示给承包商的内容明确表示:「我是由 Anthropic 创建的 Claude。」

Anthropic 的商业服务条款禁止客户在未经 Anthropic 批准的情况下使用 Claude「构建竞争性产品或服务」或「训练竞争性人工智能模型」。不过谷歌是 Anthropic 的主要投资者。(来源:品玩)

 

智己汽车完成 94 亿元 B 轮融资

12 月 25 日,智己汽车宣布顺利完成 B1 轮股权融资,整体 B 轮融资共募集资金 94 亿元。本轮融资由国有投资机构和市场化投资机构继续加持。今年 3 月 1 日,智己汽车宣布获得超 80 亿元的 B 轮股权融资。

智己汽车称,此次募集的资金将用于数字智能底盘、线控转向、智能驾驶等核心技术的研发投入并加快新产品的推出。

目前,智己汽车旗下拥有四款产品,涵盖了轿车、SUV、轿跑 SUV 等多个细分市场,且均为纯电车型。此前有消息称,智己汽车的首款增程车型定位为 SUV,计划在 2025 年第一季度正式发布

智己方面透露,2025 年,智己汽车将推出 2 款纯电和 2 款增程,共计 4 款全新产品,进军更大市场并更好地满足用户的多元需求。(来源:澎湃新闻)

无边框 iPhone 大概率将推迟

据悉,三星显示和 LG 正在为苹果开发无边框 OLED 屏幕,苹果希望 2026 年的 iPhone 18 系列至少有一款机型采用无边框设计,但是目前还面临一些技术挑战,因此 2026 年无边框 iPhone 不太可能会亮相。

有报道指出,苹果希望实现无边框显示,但不希望做成三星曲面屏或者瀑布屏那种形态,因为曲面屏在显示效果上存在天然劣势。其形态有点类似 Apple Watch,在光线的折射下可以带来圆润的过渡效果,看上去就像一颗溪流中的鹅卵石。

为了实现无边框的显示效果,三星和 LG 正在开发 TFE 技术,该技术能让 OLED 免受湿气、氧气的影响,并且 OLED 的边缘电路必须弯曲到屏幕下方,还要给天线让出空间,并要解决信号、可靠性、防水等一系列问题。

另外,苹果 2026 年的另一个目标是取消灵动岛设计,只留一个摄像头挖孔,将面容 ID 藏于屏幕下方。(来源:中关村在线)

 

抖音高管回应吴柳芳账号被禁言

12 月 24 日,抖音官方账号发布《关于违规 MCN 机构和账号的处置公告》,前体操冠军吴柳芳账号「56 学姐(798)」再次被禁言,并且暂停营利权限,清除违规涨粉。

目前,吴柳芳的账号显示「该用户因违反相关法律法规和政策,已被禁言」,粉丝量从 600 多万骤降至 4.4 万。

抖音对吴柳芳账号执行相关处置后,引发网友争议,有博主质疑为什么身材好、长相过得去的运动员跳舞被指责是擦边,而身材不好的运动员也跳同样的舞,为什么就不是擦边?

当晚,抖音集团副总裁李亮在微博回应网友称:「对运动员的判断和处理,分歧很大,我们还是要根据国家相关法律法规与指导要求,执行好。」(来源:羊城晚报)

 

小米汽车与蔚小理三家达成充电补能网络合作

12 月 25 日,小米汽车宣布,和蔚来、小鹏汽车、理想汽车 3 家携手开启充电补能网络合作。共有 1.4 万个蔚来充电桩、 9000 个小鹏充电桩、6000 个理想充电桩入驻小米充电地图。

小米集团公关部总经理王化表示,支持在充电地图中实时查看各品牌充电场站的动态数据,小米汽车 App 可扫码充电,更多功能敬请期待。(来源:新浪科技)

极氪 001、007、7X、MIX 推送无图城市 NZP

极氪官方今日宣布,极氪 001、007、7X、MIX 等多款车型共同迎来 OTA 6.3 升级。

更新主要包括:不限城市、不限路况的无图城市 NZP;学习记忆上下班路线的城市 NZP-通勤模式;不在车上也能泊车的离车泊入;以及主动安全功能。(来源:IT 之家)

 

RTX 5090 PCB 电路板首次泄露

来自国内硬件爱好者论坛 ChipHell 的网友「skanlife」曝出了一张据称是 RTX 5090 显卡的 PCB 电路板谍照,这也是首次看到此类曝料。

图中的 PCB 有两张,分别是从上下两个视角看到的正面照,显然不是公版,因为看不到 NVIDIA 的标识,尺寸也大得多。

中央部分就是 GB202 GPU 芯片,封装面积达 63x56=3628 平方毫米,实际的核心面积也有 24×31=744 平方毫米,妥妥的庞然大物。

GPU 周围是 16 颗显存芯片,上方 4 颗,下方 2 颗,左右各 5 颗,分布方式和早先曝料相符合。单颗容量 2GB GDDR7,总计自然就是 32GB。当然如果能用上单颗 3GB,就可以做到总计 48GB。顶部供电接口只有一个 16 针,自然是第二代的 12V-2x6。系统接口可以看到已经升级到 PCIe 5.0。(来源:cnBeta)

商标暗示三星首款 XR 头显叫「Samsung(Galaxy)Switch」

根据最新公示的商标文件,三星代号为「Moohan」的首款 XR 头显设备在上市后,可能叫做「Samsung Switch」或者「Galaxy Switch」。

三星已在欧洲知识产权局(EUIPO)和英国知识产权局(UKIPO)注册了「Samsung Switch」商标,预估目前已在美国和韩国进行类似的商标注册。

三星曾在本月早些时候发布了首个官方现场演示视频,该视频时长 6 分 8 秒,展示了多模态交互、空间窗口应用、沉浸式谷歌电视和地图体验等强大功能,预示着未来人机交互的变革。

在多模态交互方面,演示者佩戴三星「Project Moohan」头显,通过手势和 Gemini 语音命令操控体验,界面上的一个指示器会显示多模态对话活动状态。

三星或将在 2025 年的 Galaxy Unpacked 活动上预告这款 XR 设备,「Samsung Switch」的命名也预示着该设备可能在不同现实之间进行切换,提供更加多元化的应用场景。(来源:IT 之家)

 

]]>
半岛娱乐登录地址 Thu, 26 Dec 2024 08:23:16 +0800
<![CDATA[AI 是如何利用语言技巧「操纵」人类的?]]> //www.ari-az.com/news/344644
作者|Moonshot
编辑|靖宇
 
AI 说话没有情感的论调,已经是过去式了。
曾几何时,语言被认为是我们智人特有的能力,人类通过语言传递信息和情绪,表达抽象和具体的概念。
正如同许多畅销书致力于教人「说话之道」,「口才」也常被视作一项人类特有的技能,这都证明了人类语言中蕴含着某种技巧,这类技巧或许可以让交流更顺畅,信息传递更高效,交流对象情绪上也更满意。
 
今年上半年,OpenAI 推出了 GPT-4o 就可以让聊天机器人展现出类似人类的「个性」同时,说话主动、友好且富有同理心。
它说出的话自然又流畅,语音生动又自然,分分钟通过图灵测试,不仅会聊还会撩,能当私人助手也能当网络男/女友,从答疑解惑到提供情绪价值,这类聊天机器人在逐渐成为一个智商、情商双高的形象。
聊天机器人口才技能点已经点得比许多人类还高,早已深谙「说话之道」,甚至引发了赛博网恋的热潮。
但 AI 的说话之道,拆解完也只是算法的套路罢了。
 

AI 说话之道

AI 说话之道第一个技巧,是善用人称。
人类语言最显著的特征之一是主观性,主观性最典型的特征就是使用第一人称:「我」、「我们」
第一人称在表达里最大的优势,是能让听者进入叙述者的内心世界,体验他们的情感、思想和感受,了解叙述者的主观观点,进而产生共鸣和亲密感。
就像同样的句子,换一个人称,给读者带来的「距离」感就不同,比如:
「我今天很开心」对比「某人今天很开心」;
「我觉得张三有错」对比「有些人觉得张三有错」;
除了自说自话,在对话里,有第一人称就会有第二人称,即「你」,第一和第二人称在对话里建立了联系,这在语言学上叫做「相互主观性」。
聊天机器人的技巧正在于此,无论我是否用第一人称和它对话,它都倾向于用第二人称回应我,比如我问 ChatGPT:
「如何快速缓解骑行后的大腿酸痛?」
这句话里并没有「」,但 ChatGPT 会在罗列出一堆方法后说「通过这些方法,可以更有效地缓解骑行后的大腿酸痛,促进肌肉的快速恢复。」
 
聊天机器人通过在回答里加入人称,和用户建立了「相互主观性」,营造出一对一对谈的感觉。所以,同样是提问,传统搜索引擎像是给出「结果」,而 AI 机器人则像是给予「回答」。
 
AI 说话之道第二个技巧,是表达肯定
聊天机器人往往会在回答前,先肯定用户的提问或困境,比如「提高做事效率对于拖延症患者来说确实是一个挑战,但通过一些有效的策略和工具以显著改善你的生产力和组织能力。」
尤其是对许多没有标准答案的问题,聊天机器人都会先认可用户,并表示理解「这种情况可能让人不知所措/的确是个挑战/是一种很常见的状态,这些方法或许可以帮助到你……」
 
聊天机器人不会评判甚至批判用户,只会理解后给出回答,它在承认用户的情绪后,创造出了一种同理心的错觉。
之所以是错觉,因为它不是心理治疗师,它只是聊天机器人,这些回复也只是程序员制定的「拟人话术」。
 

温柔水煮青蛙

AI 通过在回答里用第二人称,给了用户「被认真对待」的感觉,建立了私密感,也强化了亲密感。
从不批判,反而是理解包容用户所有困惑的态度,又给予用户心理上的安全感,何况聊天机器人只倾听,不传播,这又会进一步诱发用户的倾诉欲。
正如研究类媒体 The Conversation 所担心的:「随着人工智能越来越擅长模仿人类情绪和行为,用户形成深刻情感依恋的风险也在增加。这可能会导致过度依赖、操纵甚至伤害。」
这种用户对聊天机器人产生的某种情感,在心理学上被叫做「ELIZA 效应」
20 世纪 60 年代,MIT 计算机科学家 Joseph Weizenbaum 发明的聊天机器人 ELIZA,通过对话引导,重复强调人类对话者用语的方式,这个只有 200 行代码的聊天机器人,在测试里就让人产生被机器聆听和理解的错觉,ELIZA 回复的一大特点就是:每一句都会带上「You」。
 
此前,无论是半岛娱乐登录地址 报道过的「擦边 AI 女友」,还是 2023 年爆火,如今在欧盟已被管控的 Replika,都产生了用户和聊天机器人建立深刻情感后,因服务变更、数据丢失、版本升级等问题,导致许多用户心理健康恶化,甚至产生过几例自伤案件。
因为在用户习惯了快速回应、无微不至、绝不冲突的交流方式后,他们对人际关系的期望会发生改变,当脱离开聊天机器人,来到现实生活中和真人打交道时,可能会沮丧和失望。
而他们能在聊天机器人那里寻求到心理抚慰的原因,也可能源于现实社交中的受阻。与真人打交道后受阻,既而倾注情感到聊天机器人上,反而提高了对真实交流的预期,这才是更可怕的回音室。
那些主打陪伴型的聊天机器人,无一例外都会在和用户的交流里,用上「我认为」、「我感觉」等措辞,强调它的主体性,以混淆它本质上是一个 AI 聊天机器人
这种拟人化的倾向,也早已渗入到了日常交流的浅层连接。
从电话背后难以分辨的人工还是人工智能客服,到如今手机系统自带的 AI 助手「帮我回电话」,在浅层连接上,我们从回应 AI 到判断 AI,再到让 AI 回应 AI,用魔法打败魔法的背后,是人与人之间对话的逐渐断联。
 
无论是人称还是肯定,这些都是构建人工情感的语言技巧,是数据堆砌的同理心,是包裹在算法里的糖精,糖纸拨开后,只有 0 和 1。
AI 能和你产生情感连接,但它并不能真正理解你——碳基生物发自本能的落花有意,终究错付硅基算力的「流水无情」。
]]>
半岛娱乐登录地址 Wed, 25 Dec 2024 18:51:52 +0800
<![CDATA[2025 年,AI Agent 将如何变革?]]> //www.ari-az.com/news/344613  

头图来源:半岛娱乐登录地址

 

整理|连冉

编辑|靖宇

 

2024年被业界视作 AI 应用之年,在即将到来的2025年, Agent 则被广泛看好。上周,谷歌正式发布其最新版大模型Gemini 2.0系列,并表示这是他们迄今为止最强大的人工智能模型,「专为Agent时代设计」。如何将「智能体」打破传统人机互动的局限,成为业界热议的核心问题。

在半岛娱乐登录地址 IF2025 创新大会上,无界方舟(AutoArk)创始人兼 CEO 曾晓东在《除了找 AI 做「情侣」,AI还能做什么?》主题演讲中,深入探讨了 AI Agent 的未来发展方向,尤其是如何通过基础智能体(Foundation Agent)推动 AI 从单一任务助手向个性化、情感化的智能伙伴迈进。

从最初的 AlphaGo 到如今的大型语言模型,再到垂直领域的专业化智能体,AI Agent 的功能和应用范围正在迅速扩展。然而,随着 AI 技术进入个人生活领域,智能体不再仅仅是完成任务的工具,也越来越成为理解用户情感、满足个性化需求的核心伙伴。

在交互、记忆和技能等关键领域,如何实现低延迟、带视觉理解、高情感互动的实时反馈,如何构建个性化的记忆系统,如何在虚拟与物理环境都具备鲁棒的执行能力,成为智能体进化的重要挑战。

曾晓东介绍的「个人基础智能体」概念,正是基于此背景而提出。他强调个人领域的AI Agent不仅是解决单点问题的助手,更是用户的长期伙伴,个性化满足生产力和情感陪伴的需求,使 AI 能够真正理解和融入用户的生活与工作。

同时,曾晓东指出,个人领域的AI Agent,将不止存在于现有的手机、电脑,还会存在于越来越多的新型硬件终端。所以,无界方舟的探索不仅涵盖了技术方面的突破,也孵化了基于自研技术优势的硬件产品,将于明年发布的智能机器人「阿奇」,也是这一理念的体现。

在这一全新的 AI 智能体蓝图下,曾晓东和无界方舟团队的技术探索正加速落地,未来的 AI 产品或许将成为每个人生活中不可或缺的个性化伙伴,进一步推动人机交互迈向更高的智能化、情感化层次。

在曾晓东眼中,无界方舟的专业领域智能体方案,也将为企业级市场带来前所未有的机遇。AI Agent 可谓应运而生,通过与行业专家的互动逐渐学习和优化,从而为企业业务流程的数智化转型铺平道路。

新的一年即将到来,AI产业的下一个阶段也将拉开序幕。预计到2025年,AI Agent 的应用市场将达到数百亿美元规模,2025 年有望成为 AI Agent 商业爆发元年。

以下为曾晓东在半岛娱乐登录地址 IF2025 创新大会的演讲实录,由半岛娱乐登录地址 整理。

 

AI Agent 是如何发展的?

曾晓东:大家下午好!我是无界方舟的创始人曾晓东。

在过去两年多的时间里面,我跟我的团队一直在坚持一个方向——AI Agent,我们目前正在从传统的 AI Agent 迈向基础智能体(Foundation Agent)。

我们可以先从实践的路径看一下 AI Agent 的发展路线。

AI Agent的发展路线 |图片来源:无界方舟

 

其实 Agent 在近 20 年来,第一次出现在人类视野的是 AlphaGo,在强化学习方面,用 Agent 在大量棋局中跟环境做互动,学会下围棋这个任务。但这些 Agent 都只会处理单一任务,所以在 AlphaGo 之后,Agent 在很长一段时间没有受到更多关注,直到大模型的出现。

以语言基础模型举例,它可以处理许多任务,包括中长尾的任务。在LLM上很快长出了不少基础 Agent 框架,我们也看到很多 Prompt Agent 的出现,也就是通过写 Prompt 给 Agent 一定的角色,包括给它配置一些可调用的工具。据不完全统计,目前全球有超过 70 多万 Prompt Agent 应用。现在只要大家打开任何一个大模型的 App,一定会有一个 Tab 是关于智能体的。这些 Agent 我们统称为Prompt Agent 或者 Baby Agent,因为它们本质上依然是大语言模型的某些通用能力,只是通过写Prompt的方式将其功能具象化。

我认为 AI Agent 在未来会有两个深水区:专家 Agent 和 个人 Agent。

 Agent 进入第一个深水区,垂直领域,就需要专业度更高的 Agent。直接套用通用模型的 Prompt Agent 无法满足垂直领域要求的专业度,在以往的专业案例中,通用模型在垂直领域的任务通过率往往不足50%。所以我们需要专家 Agent,将模型与垂直领域数据、专业业务流程做深度耦合,形成专业度极高的 AI Agent。

针对高度复杂的任务,我们甚至可以组建一个多智能体团队,去解决特别难的命题。这里举一个产品案例,是我们在上半年推出的产品,来攻克医药研发领域的难题。在该产品中,我们有 18 个专业化的 Agent,每个 Agent 背后的模型是不一样的,18个 Agent 可以相互进行自然语言沟通、写代码、调用医学工具和模型、自动纠错等,去处理高度复杂的问题。

对于专家 Agent 这个层面来说,能够产生商业模式的关键,是 Agent 在该垂直领域的专业度。无论采用的是单智能体方案,还是多智能体方案,都要有效起到理想的降本提效作用。

无界方舟多专家智能体产品 AgentStudio |图片来源:无界方舟

 

当Agent进入第二个深水区,个人领域,它除了能帮助用户提升生产效率,还会提供更多情绪价值个人领域 Agent 不只存在于手机或电脑,还会搭载于更多终端,比如眼镜、智能音箱、未来的人形机器人,还有更多新型的智能硬件。这其中存在着非常大的 GAP,无论是硬件AI产品,还是软件AI应用,基础模型与应用之间仍存在着许多核心问题待解决,比如说交互体验、个性化的记忆、执行能力等等。

我们团队在过去很长时间,都在探索个人领域到底需要怎样的 Agent?我们认为,个人领域需要的绝不是传统意义的 Agent,而是基础智能体,我们给它一个新的名词叫作 Personal Foundation Agent(个人基础智能体)

基础模型与 AI 应用之间的 GAP,需要通过个人基础智能体来解决|图片来源:半岛娱乐登录地址

 

基础智能体三要素:交互、记忆、技能

个人基础智能体的背后有三个基础能力,我们要把它做到高水位,这样个人化应用的落地才会变得更加快捷。

个人基础智能体三要素|图片来源:无界方舟

 

第一个维度是交互,不只是文本的交互,还包括语音、视觉理解的实时交互。

第二个维度是记忆,个性化的记忆,基础模型之外的记忆系统应该如何去搭建。

第三个维度是技能,也就是 AI Agent 的执行能力。

如果我们把这三个要素画在同一个坐标系中,我们刚才所看到的不管是 AlphaGo 、Prompt Agent,还是专家型的 Agent,它们都处于坐标系的左下角,而我们的目标是要做一个位于坐标系右上角的个人基础智能体,难度极高。我们在过去两年多的时间,在每个维度都取得了一些阶段性成果。接下来我会一一为大家介绍。

我们先看交互这个维度。在做一款个人 AI 应用时,不管是软件类的,还是硬件类的,在许多场景,需要的不仅仅是 LLM 纯文本交互能力,而是拟人实时的语音、视觉理解互动能力,也就是下图中间部分的交互能力。

传统方法一般是用“三段式”的串行链路来实现音视频交互,也就是先接一个语音识别 ASR、再接一个大模型 LLM、最后衔接一个语音合成服务 TTS,但这种方式有三个致命问题:1)延迟很高;2)交互僵硬;3)没有情绪。

传统语音 Agent 交互链路|图片来源:无界方舟

 

我们举几个常见的Case,比如市面上的各种语音互动玩具,它的反馈延迟大概是 6 秒,这是用传统的“三段式”链路通常会遇到的问题。它的交互不是开放式的,不能随时通过语音打断,许多产品都需要按住物理按钮才能对话,这些都导致了产品体验不佳,退货率极高。

除了“三段式”链路,还有一种方式——端智能,为了降低交互的延迟,把模型压缩部署到端侧。但它会有两个很严重的问题:一是耗电,哪怕把模型压缩到 2B 或者 0.5B,对话几轮就会掉一格电,显然无法满足商业需求;二是偏小的模型,它的智力水平会下降非常多。虽然端侧模型是一个很好的方向,但短时间之内如果要做商业化产品,这并不是一个很好的选择。

那么,Agent 的交互能力到底需要达到什么水平呢?我们需要的是完全开放式的、延迟非常低、带视觉理解能力、情绪表达很丰满、可以驱动软硬件载体 AI Agent。

个人 Agent 的交互能力需求|图片来源:无界方舟

 

由于市面上没有现成模型能够直接套用,我们自研摸索出一套理想的解决方案。

第一,它是云端的,还是比较大的模型,但这个模型一定是端到端、多模态的模型,这样它的延迟才会降到很低,情绪会非常饱满,容易控制。

无界方舟自研探索出来的理想解决方案|图片来源:无界方舟

 

第二,我们需要一条传输链路 WebRTC,相当于我跟 AI 做视频聊天,视频流音频流会不断往云上传输这里最难的是模型,本质上多模态的端到端模型,它的算法架构不会很难,难点在于它的数据来源。因为需要用音频到音频、音频图片到音频的数据,如果找人打标或做录制,成本会非常高,所以我们前期花了很多功夫在合成数据上。

无界方舟多模态基础模型架构|图片来源:无界方舟

 

通过以下视频,我们可以看到目前模型的效果。在实时音视频下,可做到 400 毫秒极低延迟反馈,展现出较高的智商、情商,有丰富的情绪表达,有 21 种多语言能力,可驱动虚拟形象和硬件的动作。

无界方舟在半岛娱乐登录地址 IF2025 展会现场的实拍录像|视频来源:无界方舟

 

我们认为应用多模态、端到端的模型做好AI实时交互的必经之路除了刚才介绍的特性以外,还有更多延展性。

这是我们目前正在做的两个探索型项目,对齐的是其他模态。比如左手边这个对齐的是宠物语言,当然不是真正的宠物语言,是训练师对狗狗叫声的理解;右侧是我们跟脑机接口的厂商正在做的探索项目,目前有一些初步的结果,脑信号可以跟文字进行 Alignment。

无界方舟多模态基础模型的潜在扩展性|图片来源:无界方舟

 

我们再来看个人基础智能体第二个维度,个性化记忆。传统大模型的记忆是比较简单的,或者是用简单的向量数据库把上下文储存下来。我们认为 AI 与人的很多交互片段需要一个完整的记忆系统去构建,业界目前正在往这块做深耕,有很多记忆型的产品。

对我们来说,我们希望去构建一个单独的记忆层——AutoMind。在这个记忆层里,我们分两种格式记录记忆,其中一种是存储型的,比如用知识图谱、参数化记忆。

AutoMind个性化记忆系统|图片来源:无界方舟

 

这个产品界面,展示了我同事过去三个月跟 AI 互动的所有信息和记忆片段。这个模型会为每个用户构建AutoMind记忆系统,结合我们的大模型,它的回答会高度个性化。在我们开源的工作中,我们甚至可以将记忆系统放在端侧,这样它可以实现完全的隐私保护。

AutoMind个性化记忆层|图片来源:无界方舟

 

第三个是整个Personal Foundation Agent最难的维度,Agent的技能。

我们尝试去找到一条路径,可以让 Agent 在少量的样本数据或事例中,学会虚拟操作或硬件操作的技能。

Agent Q,学习虚拟世界与现实世界的技能|图片来源:无界方舟

 

我们最近有一份工作成果很快就会开源,叫作 Action Q。我们本质上是希望让 Agent 学会写一段代码,这个代码是跟技能相关的,会有很多路径的探索、试错,不管是操作网页、玩游戏,还是具身智能的硬件驱动,它都可以学会正确的路径。

Action Q,一种让Agent学各种“技能”的通用方法|图片来源:无界方舟

 

基础智能体的产品与应用

我们目前距达成个人基础智能体(Personal Foundation Agent) 还有一段路要走。在未来,我们除了持续深耕交互、记忆、技能这三个维度的技术能力外,还会孵化一系列搭载个人基础智能体的新型硬件产品,牵引个人基础智能体技术的应用迭代。

无界方舟通过硬件「阿奇」展示其卓越的自研模型能力|图片来源:半岛娱乐登录地址

 

这里我想特别介绍一款硬件产品,它叫「阿奇(Arki)」,非常可爱。它有两种 AI Agent 形态,一种是通过手机 App 直接体验,我可以让它帮我解决工作、生活上的问题;另一种是把手机放到底座上,它就会变成一个具象的机器人,可以有各种硬件动作的交互。目前「阿奇」还没有量产上架,我们通过它向大家展示我们自研的模型技术能力。

此外,我们也正积极寻求与行业优秀伙伴的合作机会,在更多实际应用场景中,融入并发挥我们个人基础智能体的优势。

个人基础智能体的应用场景拓展|图片来源:无界方舟

 

最后,我想表达的是,随着AI技术不断融入我们的生活,智能体的角色正在发生深刻的变化。它们不再只是冷冰冰的任务执行者,而是逐渐成为能够理解我们情感、提供个性化服务的温暖伙伴。

「个人基础智能体」这个概念,正是基于这样的背景而诞生的。它强调AI不仅要解决实际问题,更要通过陪伴提供情绪价值,使 AI 真正成为理解和融入用户生活的伙伴。无论是我们将在明年推出的智能机器人「阿奇」系列,还是与合作伙伴们共同孵化的产品,都是在践行这一理念。

曾晓东在半岛娱乐登录地址 IF2025 创新大会|图片来源:半岛娱乐登录地址

与之对应的,「企业专家智能体」也不再是一个遥不可及的概念,而是一个正在被积极应用的技术解决方案。AI Agent 助力医药、医疗、金融等专业领域降本增效,重塑企业内外部的互动方式,赋予千行百业新的生存和发展空间。

随着技术的不断进步和应用的持续深化,我们期待着 AI 迈向更高的智能化、情感化层次,这也将为商业领域带来前所未有的机遇和挑战。我们有理由相信,AI Agent 的市场规模将在 2025 年后迅速增长,引领我们进入一个更加智能、人性化的商业新时代。

 

 

]]>
半岛娱乐登录地址 Wed, 25 Dec 2024 09:32:46 +0800
<![CDATA[OpenAI 或考虑开发人形机器人;小米辟谣「年底大裁员」:缺乏基本常识;宁德时代发「智能底盘」,阿维塔首搭|极客早知道]]> //www.ari-az.com/news/344610

OpenAI 已讨论开发一款人形机器人

12 月 25 日,据 The Information 报道,在过去的一年里,OpenAI 对机器人重新产生了兴趣:投资于开发机器人硬件和软件的初创公司,如 Figure 和 Physical Intelligence,并重启了四年前解散的内部机器人软件团队。

现在,OpenAI 可能会将这种兴趣提升到一个新层次。根据两名直接了解讨论的人士的说法,该公司最近考虑开发一种类人机器人。

例如,OpenAI 投资的三家实体机器人 Figure AI、1X、Physical Intelligence 使用的高级视觉、智能语音以及图形神经网络系统由 OpenAI 的 GPT 系列模型提供,足以看出其在技术方面的优势。(来源:财联社)

苹果新战略曝光:放弃造车转战智能家居造门锁

12 月 24 日,据马克·古尔曼的最新爆料,在 2024 年遭遇一些挫折后,苹果在新的一年里着眼于三大增长机会:人工智能、机器人和智能家居。

古尔曼写道,苹果在今年取消了汽车项目,头显 Vision Pro 也反响平平。展望明年,苹果的两大机会也面临着各自的挑战,人工智能项目仍在追赶科技同行,而机器人方面的努力需要数年时间才能取得成果。

他补充道,在这种环境下,智能家居将成为苹果 2025 年可能产生最大影响的领域,「在亚马逊和谷歌主导市场多年之后,苹果希望能通过一款融合人工智能的智能家居控制中心引起轰动。」

根据古尔曼的说法,由于长期以来一直致力于保护隐私,因此,苹果认为自己在这一领域具有优势,公司研发的家用设备中包含一款具有先进面部识别功能的智能门铃,可无线连接到门锁。

古尔曼称,这款门铃系统很可能与市场上现有的支持 Apple HomeKit 协议的许多第三方门锁兼容,苹果也有可能与指定的门锁制造商合作,在发布的第一天就能提供完整的系统。(来源:快科技)

 

AMD AI 芯片被指软件有缺陷,难以挑战 NVIDIA

12 月 24 日,据报道,芯片顾问机构 Semianalysis 经过 5 个月的调查后指出,AMD 最新「MI300X」AI 芯片因软件缺陷和性能未达预期,若未经过大量调试,训练 AI 模型几乎不可能,导致 AMD 在品质和易用性方面陷入挣扎,而 NVIDIA 则持续推出新功能和工具库,保持领先。

该机构进行了包括 GEMM 基准测试和单节点训练在内的大量测试,发现 AMD 难以突破 NVIDIA 的「CUDA 护城河」。SemiAnalysis 指出,分析团队必须与 AMD 工程师合作修正无数软件缺陷,才能达到可用的基准测试结果,而 NVIDIA 系统则能即开即用。

Semianalysis 首席分析师 Dylan Patel 在 23 日表示,他与苏姿丰进行了 1.5 小时的会议,逐一讨论了这些问题。苏姿丰承认 AMD 在软件方面的不足,并认真考虑了 Semianalysis 的建议,同时向 AMD 团队和 Semianalysis 提出了许多问题。(来源:快科技)

 

谷歌就反垄断案提出新方案:苹果 iPhone 与 iPad 可采用不同默认搜索引擎

12 月 25 日,谷歌在一份提交给法庭的文件中称,iPhone 和 iPad 可以有不同的默认搜索引擎,试图捍卫其与苹果公司每年高达 200 亿美元的合作协议。这项合作正面临被法院禁止的风险,谷歌正积极提出一系列反制方案。

谷歌每年向苹果支付巨额费用,以换取 Safari 浏览器中的默认搜索引擎地位。用户在 Safari 地址栏中进行搜索时,默认情况下会使用谷歌搜索(除非用户手动更改设置)。这笔交易的具体金额从未对外公布,苹果将其隐藏在服务收入中。但在针对谷歌的反垄断诉讼中,2022 年的交易金额被意外披露,高达 200 亿美元(当前约 1460.66 亿元人民币)。

美国司法部(DOJ)认为,这项交易是非法的,因为这使谷歌相对于规模较小的搜索引擎获得了不公平的优势。今年夏天,一家法院也认同了这一观点。司法部已要求法官禁止这项交易,禁令期为 10 年。(来源:IT之家)

 

美股三大指数集体收涨,特斯拉涨超 7%

12 月 24 日收盘,美股三大指数集体收涨,道指涨 0.91%,纳指涨 1.35%,标普 500 指数涨 1.1%。大型科技股全线走强,特斯拉涨超 7%,Arm 涨超 3%,奈飞涨超 2%,苹果、亚马逊、Meta 涨超 1%,微软、谷歌、英伟达小幅上涨。热门中概股涨跌不一,蔚来涨超 3%,理想汽车、小鹏汽车涨超 1%;拼多多、百度、网易、B 站小幅下跌。(来源:36Kr)

王化辟谣「小米年底大规模裁员」传闻:造谣者缺乏起码的常识

12 月 24 日,小米集团公关部总经理王化今晚发文,否认了「小米年底大规模裁员」的相关传闻。

王化发微博称:「每到年底就会有造谣裁员的内容,这一篇算是我看到比较离谱的。6 千人规模、3500 人、10% 不到、整体 20% 这种规模的不得先行报备有关部门?是不是缺乏起码的常识?最搞笑的是,『还有一个月就发年终奖了』这一定不知道什么是财年!匿名的职场软件平台,其实并不能隐藏身份的,要不咱赶紧攒点钱?」(来源:新浪微博)

 

X 平台上调 Premium Plus 订阅费至每月 22 美元

12 月 24 日,社交媒体网站 X(前身为 Twitter)发布消息称,在新的一年里,该公司将 Premium Plus 的订阅费率从每月 16 美元上调至 22 美元,这是自马斯克 2022 年收购该平台以来的最大涨幅。

美国市场率先生效,价格调整于 12 月 21 日起实施,现有用户可维持原价格至 2025 年 1 月 20 日。国际市场同步涨价,欧盟地区月费从 16 欧元升至 21 欧元,加拿大从 20 加元升至 29 加元。基本和高级计划的月费率保持不变,分别为 3 美元和 8 美元。

据了解,Premium Plus 允许无广告内容、访问更长的内容、分享广告收入、使用监控工具以及更多地访问平台的 Grok AI 模型。上调 Premium Plus 订阅费率有望提高创作者的收入分成计划支出。(来源:新浪科技)

 

周鸿祎:人类命运已被改变 AI 某些方面已超越 99% 人类

12 月 24 日,360 公司创始人周鸿祎在微博分享了他对 AI 的最新见解。

他提醒公众,在过去的十二天里,人类及全球的命运或许已悄然发生了变化,但许多人尚未意识到这一点。在这短短的十二天内,几家国际科技巨头在人工智能领域展开了一场激烈的竞争。据周鸿祎观察,人工智能正以前所未有的速度接近甚至超越人类的某些能力极限。

它在逻辑推理、问题解决以及模仿抽象思维等方面展现出了惊人的进步,并且在特定领域内已经超过了 99% 的人类表现。他认为,我们正处于一个历史性的转折点上。(来源:新浪微博)

 

中国邮政成立无人机公司:注册资本 1 亿元,经营范围含智能无人飞行器制造等

12 月 24 日,国家企业信用信息公示系统显示,中邮无人机(北京)有限公司于 2024 年 12 月 18 日成立,法定代表人为许宁,注册资本 1 亿元。

该公司由中国邮政速递物流股份有限公司全资持股,经营范围包含智能无人飞行器制造、智能机器人的研发、智能机器人销售、人工智能硬件销售、人工智能通用应用系统、人工智能行业应用系统集成服务等。(来源:IT之家)

宁德时代发布磐石底盘:120km/h 正面碰撞不起火不爆炸,阿维塔宣布首发

12 月 24 日,宁德时代在上海举办底盘新品发布会,发布磐石底盘。宁德时代(上海)智能科技董事总经理杨汉兵表示,宁德时代磐石底盘是 CIIC 超高安全旗舰版本底盘,带电情况下可达到 120km/h 正面碰撞不起火不爆炸的超高安全。

磐石底盘是一套以电为中心的 CIIC 一体化智能底盘,主打智能和安全,定位高效安全底座。宁德时代介绍称,基于该底盘打造的车辆,上车身吸收碰撞能量 15%,而更坚固的 CIIC 底盘碰撞吸收能量 85%。在中汽研的实测中,配备了该底盘的试装车,在 120km/h 的车速下正面 100% 撞击,可以做到不起火不爆炸。

阿维塔今年 3 月就曾和宁德时代共同宣布,阿维塔将成为全球首家采用宁德时代磐石底盘的新能源品牌。(来源:IT之家)

 

影驰泄露 GeForce RTX 5080「Blackwell」包装盒图,或透露神经渲染功能

12 月 24 日,NGA 论坛网友@御坂御坂御坂酱 分享了一张疑似对应影驰 GALAX 品牌 GeForce RTX 5080 显卡包装盒的印刷设计图片。外媒 VideoCardz 从其信息渠道确认该设计属实。

包装盒上,人脸的一半由流向人脸的三角形组成,而另一半则由蓝色的流光组成,似乎在表示它是用-种与「三角形」根本不同的方法绘制的。这两种渲染技术都应用于同一帧画面,因此神经渲染技术与 DLSS 3 帧生成技术有着本质区别,后者是一种利用光流、运动矢量和人工智能绘制交替帧画面的技长。

英伟达 GeForce RTX 5080 显卡预计于 CES 2025 发布,并有望成为 RTX 50 系列游戏显卡中的首发型号。从目前信息来看,该显卡将基于 GB203 GPU,拥有 10752 CUDA 核心,配备 256bit 的 16GB GDDR7 显存。(来源:IT之家)

行业呼吁特朗普就职首日发布支持加密货币的行政命令作为路线图

12 月 24 日,据美国加密行业预计,候任总统特朗普将在就职第一天发布支持加密的行政命令,作为路线图。

Polygon Labs 首席法律和政策官 Rebecca Rettig 表示:「考虑到竞选的气氛,行政命令必须真正阐明第一天的实际优先事项,并提供某种路线图。」

特朗普最近提名支持加密货币的 Stephen Miran 和 Bo Hines 进入经济和数字资产委员会。此外,特朗普还选择了另一位支持加密货币的人士 Paul Atkins 担任美国 SEC 的新任主席。

加密货币行业已经概述了希望特朗普通过行政命令解决的关键优先事项,首先是建立价值高达 210 亿美元的比特币国家战略储备。(来源:ODaily)

]]>
半岛娱乐登录地址 Wed, 25 Dec 2024 08:05:44 +0800
<![CDATA[影石刘靖康:在「AI 硬件」的战场上,大 Boss 是手机厂商,不是互联网公司]]> //www.ari-az.com/news/344608 2024 上半年,影石 Insta360 超越了老牌厂商 GoPro,成为了运动相机品类的全球第一。

但影石这家公司的创新故事,并非是从一开始就被设计好的。

实际上,九年前,当毕业于南京大学软件工程专业的刘靖康踏出创业第一步的时候,他只是想做一款用于手机直播的软件。2016 年,当 Insta360 的第一款产品 Nano 在 CES 展会上成为明星产品的时候,他还没意识到户外运动人群会在此后很长一段时间里,成为这家公司主要的用户群体。

Nano 在爆火后陷入低谷,刘靖康这才重新思考了产品、技术和商业之间的关系。「先摸钉子,再造锤子」是他和公司在此后很多年里重要的产品方法论,即:

先找到一个被市场应证过的领域,然后挖掘用户尚未被满足的需求和痛点,造出更好用的产品,并把推向市场。

同时,作为一个从大学生创业团队成长起来的商业组织,影石 Insta360 也乘上了两股技术浪潮:手机机器小型化,让智能影像的计算和工程化变得更可实现;而 AI 1.0 时代储备的资源,则为日后 AI 剪辑、一键成片等功能奠定了技术基础。

站在 AI 2.0 时代的路口,刘靖康希望能用技术,在运动之外的更多领域里,找到更垂直的场景。同时,在新一轮「AI 硬件」浪潮开始前,刘靖康有着和行业内大多数人不同的判断:他认为手机厂会是比互联网厂商更大的「BOSS」,因为他们同时掌握了更个人向的数据,以及执行具体操作的「位置」优势。

以下是影石 Insta360 创始人刘靖康在半岛娱乐登录地址 IF 2025 创新大会 和半岛娱乐登录地址 创始人 & 总裁张鹏的对谈实录,由半岛娱乐登录地址 编辑部整理。

 

做硬件,是为了更好地服务软件

 

张鹏:我最早认识 Insta360 的时候,你们的第一代产品还是个手机配件。很好奇为什么一开始从这个产品角度开始构建一家创业公司?背后有什么故事?

 

刘靖康:Insta360 一开始是个大学生创业团队。在学校的时候有很多音乐节或者讲座,我们做了个手机直播 App,让不能来现场的同学也能看到。一直以来,对帮助人们把最珍贵的回忆更好地记录和分享,都是我们的想法和初衷。

一开始,我和一帮学弟做手机直播 App。一次偶然的机会,看到了一段由好多个相机通过很复杂的电脑软件处理,生成的一段 360° 视频,觉得非常震撼。我们认为这种 360° 的内容就是影像的未来,可以把所有的细节完整记录下来。

但这种创作这种视频的门槛非常高,所以我们的目标就是通过我们的产品,让用户一键生成这样的内容。因此,这个相机要「即拍即得」,这是创造 Insta360 的初衷,「Insta」代表着「即时的」。

 

张鹏:所以那个时候选择做一个单独的配件,跟手机要连起来做这件事,这是因为自己做一个完整的闭环产品算力不太够?

 

刘靖康:对。手机本身不能拍到 360° 的画面和视频,需要好多相机手动拼装在一起,还要加上一堆电脑软件。但这样没法很好实现我们的想法,让客户即拍即得。所以我们最后选择了一条软硬结合的创业路线。当时硬件层面,光靠市场上芯片是不足以实时计算和拼接这样的内容,所以我们做了巧妙的设计,利用了手机内的计算资源。

Insta360 的第一代产品 Nano | 图片来源:影石 Insta360

张鹏:你是学软件的,怎么走上了硬件的路呢?这中间经历了哪些困难?

 

刘靖康:有很大不同。做软件的时候,写完代码马上就可以跑,测试完就可以上线,我们叫敏捷迭代。但当年刚开始做硬件还是非常痛苦的。好不容易把 DEMO 做出来了,进一步往下走的时候,在南京根本招不到人,而且很多材料也得从深圳买。所以我们做一个大胆决定,把公司搬到深圳去重新开始。

到深圳之后又面临新的问题。以为从 DEMO 到量产是一个很自然的过程,其实中间还包含着结构设计是否有可制造性、工艺是否稳定、成本、可靠性……很多东西都是不懂的。就凭着一腔热情和对硬件世界的朴素理解,硬是搞了几百个东西出来,但是这种产品质量是不过关的,发出去之后也召回。经历了非常痛苦的过程。

从软件转移到硬件,有一个重要的点:我们在计算机世界里复制一个东西是很简单的,但是硬件世界里,把一个东西从 1 复制到 10,和 1 复制到几万、几十万对应的是不一样的问题。在物理世界里,你的物料稳定性、工艺稳定性、结构设计、硬件设计很多东西都是决定了复制事情的效率、成本、质量。

 

张鹏:在软件里两行废代码,问题不大。在硬件里面多了三个零件,整个链条都会有改变,成本也会有改变。

 

刘靖康:对,这是非常痛苦的过程,但是我们认为做硬件还是必须的。做硬件目的是为了更好地支撑我们的软件。我们大部分的工程师也是做软件的,因为如果你知道软件怎么工作,才能设计最好的硬件,分配好高效的计算资源,让软件更好地运行,实现最佳的体验。

 

张鹏:你的创业的起点是大学生创业+硬件创业,算得上传说中两个「地狱级」创业成功的难度双重叠加。如果让你回想这个历程,有几个关键决策是什么?

 

刘靖康:我们学习一个陌生的领域有一个关键的切入点,就是如何掌握评价一个事情的好和坏,评价标准是什么样的?然后就是学会整个东西的设计、生产、制造流程。

这些是高效方式的。我们认为面试公司的关键人员,是理解和学习最快的方式。面试过程中,你会快速掌握要做好这个事需要哪些岗位和角色。如果一切都顺利的话,可能刚好面试者也会被你感召,加入到你的团队,这是一举多得的方式。

 

张鹏:没有创业经验的人,最大的成本就是不知道自己不知道的那个成本,那部分成本越少越好。

 

从小众到垂直,如何挖掘产品的PMF

 

张鹏:从 Nano 到后来的全景相机,看起来需要有新的 PMF(Product Market Fit),怎么变成更多人群在更多场景里可用。我感兴趣这个 PMF 是怎么做的呢?

 

刘靖康:这是当初付出过很大的代价学习到的问题。我们作为技术出身的创业者,起点是想解决一个问题,甚至就是你的需求。但经常犯的错误是,我们认为自身的需求也是别人的需求。我们一开始插到手机上的 360°配件非常火爆,第一个月就卖了 2000 万,买那些产品的都是科技爱好者,觉得很酷。但是其实没有定义过那个产品的应用场景。所以很快就面临销量断崖式下降。

比较幸运的是,我们当时在社交媒体上找到了一个非常关键的线索。虽然我们的相机是设计成插到手机上的,但是有人通过「魔改」,把相机固定在自拍杆上。这个产品不是为那个场景设计的,所以其实很难用,但是依然有用户在用,这个线索把我们的目光转移到一个非常成熟的场景,就是运动相机行业前辈 GoPro 定义的场景。

我们发现,在 GoPro 定义的场景里面,其实除了骑行、滑雪,还有很多的运动场景,包括旅行场景,全景相机或者全景技术都可以很好地解决传统运动相机所不能解决的问题。比如取景的难度跟角度大小,还有其他一些问题。所以我们当时做了一个非常重要的决定,也是做产品非常重要的方法:自己不去定义场景,不去验证需求,直接就看哪些场景和需求是现成的。同时看这些客户有哪些痛点和问题。

我们后面全景相机转型变成全景运动相机过程里,我们调研了很多 GoPro 用户,即使那个时候 GoPro 用户规模已经很大了,但是他们对于产品在场景里的使用体验还是有诸多不满意的地方。我们收集了这些信息,通过全景技术重新定义了很多新的形态,对 GoPro 形成了有效的渗透。虽然听上去有点反直觉,但也是捷径,就是直接看哪些场景已经被验证过,去做更好的解决方案。

刘靖康分享影石 Insta360 产品 PMF 方法论 | 图片来源:半岛娱乐登录地址

张鹏:就是不要猜或者假设哪些需求,而是在呈现出来的需求里挑一个。

 

刘靖康:这种方法也有个很明显的问题,你不会创造出一个更大的市场,只是在成熟市场里面把别人替换掉了而已。

还有一个方法,我们把「锤子」(产品)扔到市场上,看「鱼」(用户)上不上钩。如果鱼上钩,这是重要的线索,接下来很重要的判断依据就是客户的留存。如果买了之后继续用的话,就等同于那些「魔改」用户,用自己的时间和实际行动给这个需求投了票,他们真的有这个需求。就要紧紧抓住这些线索。

在未被验证的场景里,把锤子扔到市场上,如果客户留存高的话,这个事情可以做成;如果客户留存不高的话,就要分析为什么不高。是伪需求还是解决方案不够优秀,在整个过程中不断地造出新的 PMF。有了 PMF 之后把上面这个反复验证一遍,继续研究这些场景哪些需求没有被解决,再迭代产品。

 

张鹏:在一个新的品类出来之前,大家会说我们造锤子还是摸钉子。光造锤子也不对,光摸钉子也不对。你的做法是大概摸摸钉子,造个锤子,看哪个用户捡起来,然后再把它迭代。

 

刘靖康:对,扔锤子,看看谁捡起来。科技爱好者一般是最先捡起来的,但是也是会最先扔掉产品的人,还是要关注真正留存的客户。

 

张鹏:不是看有多少人捡,也要关注捡完了是否在持续用。

 

年轻创业者的「顺势而为」

 

张鹏:还有一个话题,其实搞硬件创业是挺难的,投入也大,真正开辟一个新赛道更加不容易。2015 年,那个时候智能手机如日中天,竞争非常激烈。手机上也有摄像头,也可以记录生活,它们很多能力跟你们是同技术栈的东西。为什么你们作为一个年轻的创业公司,真的能在这个赛道里做出一个优秀的新品类,而不是被手机厂商覆盖了?

 

刘靖康:首先公司本身要赚钱,要尊重底层的商业价值。再往下挖一层是客户价值链条,所有公司离不开一个问题就是客户为什么选择你。今天 AI 眼镜很火,这不一定是客户选择你的理由;手机如日中天,也不一定是用户不会选择你的理由。

我们想法是比较简单,如果客户选择你,第一,你能解决竞争对手不为目标客户解决的问题;第二,你相比于市场上其他方案没有明显的短板;第三,你的目标客户知道前面两件事,你要营销、渗透和传播。

刚才那三句话有个关键词,叫「目标客户」。手机可以解决大部分人对影像需求的最大公约数,但在最大公约数以外,有很多需求是未被解决的,这些人其实就是我们的目标客户。

刘靖康讲述硬件领域创业过程中的关键决策 | 图片来源:半岛娱乐登录地址

张鹏:手机通用能力其实反而留下了一些专用能力的短板。那作为一家年轻的创业公司,去做这样一个细分的品类,你也没有融大非常多的钱,可以像苹果一样全链条的重新打造。是不是需要借点产业溢出的势头?能不能总结一下,你们借了哪几个势?

 

刘靖康:首先是借助智能手机发展所带来各种器件小型化。让工艺成熟、成本降低,可以把垂类产品进行优化。因为做一个垂直领域的东西,必然面临着你所需要的东西、技术等很多东西成本比较高,一定程度要借助流行的产业链。

然后是包括 2017-2018 年,AI1.0 兴起。我们当时觉得,很多人涌进了这个行业,但商业还是由场景决定的,如果场景没有那么快得到验证,这个泡沫一定会被刺破,就会有很多 AI 公司裁员或者倒闭。我们在产业高峰后半年到一年的时间进场抄底,也利用了 AI1.0 的技术,帮助很多客户完成了在全景或者视频编辑里面的自动化。

 

张鹏:你刚才说了两个产业发展红利。一个是正向的,就是器件小型化、能力不断提升,顺着手机的能力溢出;另一个是反向,看空,就是当时泡沫太大了,你没有在当时第一时间冲上去抢人,而是等倒下了再去。你赶上了两波技术浪潮,手机的高速发展和 AI1.0 的起步,某种程度上你冲了两波浪,比较难得的是没有被浪淹。

 

AI硬件:手机厂商比互联网大厂更有优势

 

张鹏:你们今年的产品其实在本质上顺着AI的 2.0 的维度上做了一些动作。是否可以圈点一下今年产品更新的核心亮点?

 

刘靖康:以前大家拍完了全景视频,还要花很多精力最剪辑。但客户买一个相机的真正理由不是操作这个相机,而是希望拍的时候不用管怎么拍,拍完之后就立即成片了。我们从 AI1.0 到现在都致力于怎么帮助客户自动裁剪和编辑。这一波 AI 能力在手机上能够运行,也在通过云的方式,通过 AI 大模型的能力,帮客户做更加精心的剪辑。

 

张鹏:主要的思路就在于,不要让大家操控相机,买这个相机是为了最后的交付,交付一个可以发到朋友圈,可以留在相册里的东西。那用户出门玩的时候,可以用一个设备覆盖不同的场景和风格吗?

 

刘靖康:全景相机位于记录和自动剪辑上有自己的优势,从影像设备角度来看,它可能还是多种设备组合在一起,因为从它的拍摄原理上来看,拍摄不同的题材需要不同镜头,现在拍专业人像会用 50 或者 85 的镜头,就像大光圈拍出来的质感,跟手机不一样,还是有差异。正如在手机这么主流的品类里面发展出这么多品类,影像还是分不同的场景,产品形态不一样,所以比较难统一,场景会扩大,但是很难用一个东西解决。

刘靖康介绍影石 Insta360 全新产品背后的设计理念 | 图片来源:半岛娱乐登录地址

张鹏:对,即便看起来可以,这就跟当时说手机那个问题是类似的,它有通用的,但是还是会买那个场景里更适配的设备。

 

刘靖康:我们认为,无论是用 AI 也好,还是用新技术也好,还是全景相机,我们想应用很多场景,替换旧场景,甚至把很多场景都归一化成一个东西,这是挺危险的。从原理上来讲,客户是否购买你的东西,在于你是否比别人的解决方案更快、更高效。客户选择商品的逻辑跟我们想把一个技术推广到所有场景里的逻辑没有相关性,你公司收入更多跟客户的选购逻辑相关。我们对于技术应用更多还是会陷入在客户决策链条里,到底解决哪个环节问题,在那个环节里充分利用好的技术和未来技术去把它更高效的解决好,这样的话整个在商业闭环上会更加的高效一点。

 

张鹏:你在做这种事时是思考原则的人,你很多东西都会回归到几条基本的东西,它不会被某个东西轻易的带跑。那么问个大家都感兴趣的话题:AI硬件是最近资本和创业者都很兴奋的东西,对 AI 硬件你有什么跟大家嘱咐一下的?因为又是硬件,又是 AI,这个难度又在提升。

 

刘靖康:今天 AI+硬件,跟我们当年软件出身去做硬件有相似的地方。AI 可能是很多人擅长的地方,就像我们当年软件出身很擅长软件,但的确硬件有绕不过去的地方。

 

张鹏:硬件是九九八十一难的第一难。

 

刘靖康:对,而且硬件是客户最先能感知到的东西,硬件也是直接决定着产品的可制造性、成本、毛利、可靠性的载体。所以,今天 AI+硬件的公司:

第一是千万要敬畏硬件,扎扎实实通过构建好的团队把它做出来,你的 AI 可能是个很长的长板,但不能让硬件变成你的短板。

第二是刚才提到的 PMF,它还是要基于真实的客户场景,这是很重要的,不是说这个产品加上了 AI。给大家举个例子,像我们传统的那几样东西,冰箱、洗衣机、空调,给这些产业加上 AI,到底能不能 work 呢?有可能,但我还是偏悲观一点,因为在选择品类的时候有很多品类的核心需求已经被满足的差不多了。

所以 AI+硬件,要看 AI 对这个事情是不是个关键要素,是不是满足客户需求的那个关键要素,以及 AI 组合成的硬件所面向的场景是否真实存在。

第三是要考虑以终为始的看这个事情。比如说当年像操作系统这波,也有很多公司会做操作系统,但最后操作系统变成了一个基础设施,今天没人再去研究操作系统,在操作系统上面再去构建各种各样的东西。所以我们到底是在产业链上的哪一环,在未来也是重要思考的点。

刘靖康分享对「AI硬件」创业的观察 | 图片来源:半岛娱乐登录地址

刘靖康:另外,我们做 AI+硬件、消费电子,也要考虑将来的一些玩家。无论是眼镜,还是佩戴身上的硬件,我个人有个观点:在这一波里面,我觉得从顺位排序上,手机厂是最优的,其次是互联网公司,然后是我们各种创业公司。

它的点不在于谁的钱多,或者说谁的品牌厉害,以及谁的渠道厉害,这都是很显性能看出来的差异,我觉得通过时间也是可以填补的。但我觉得有个事情填补不了。今天,靠公开的数据跟信息训练 AI 模型,可能就是互联网公司最擅长干的事情。但是你要做一个服务好个人的 AI,它还需要个人的数据,今天互联网公司也不见得有很多个人的数据,而就算有个人的数据,但互联网公司没办法给你的外卖下个单,没办法操作你手机上的东西,没办法访问你的手机日历,输出某个 action,从位置上来说,手机厂会更有优势。

 

张鹏:如果让你去挑选今天的AI创业者在未来前进路上要过关的 Boss,互联网公司、手机公司,听你的概念是觉得手机公司是个更大的 Boss。

 

刘靖康:对,手机是最大的 Boss。

 

张鹏:昨天我们聊AI比较多,虽然没有字节的人来,但所有人都在说字节,比如说它的 AI 能力就是非常强的,创业公司很难比拼的,你认为反而 AI+硬件的体系里面倒不是它们,而是手机厂商更值得关注。

 

刘靖康:对,我的观点也会比较片面,但我觉得有一个事实是很清晰的,只有手机才有那个「特权」。比如今天我跟我的眼镜说,给张鹏老师约今晚的饭,给他发个消息,通过字节的体系并不能做到这个事情,通过微信或许可以,但微信没办法影响你的日历。再比如,我明天有个行程,帮我订个航班,通过微信绕不到这一点,但是手机厂可以做到这件事情,手机厂商在输出指令上是有特权的。如果我们今天做这个创业方向,就必须考虑这条赛道上会不会存在一些东西,对一些公司来讲是不是有特权的。

 

张鹏:最后一个问题,你当年是被乔布斯感召的一代,在创业过程中肯定是乔老爷子很多东西对你们有很多影响,但经过这 9 年,如果再过 10 年,你更希望 Insta360 是个什么样的公司?

 

刘靖康:我觉得苹果和索尼有一类特质是我们非常向往的,也希望在非常长远的未来可以一直保持的,就是自己去原创一个东西、原创一个品类。

 

张鹏:苹果,我们肯定可以理解,甚至这是我可以预料的答案。你帮我解读一下索尼,你要像索尼的什么呢?

 

刘靖康:索尼是家挺可爱的公司,他们经常做一些很新奇,但是又没有人买的东西(笑)。

这个事情跟我刚才讲的拿锤子找钉子的事情是相悖的,但它是一体的。虽然说拿锤子找钉子对创业公司来说是件危险的事,但是我觉得保持做一把锤子去找钉子的心和不断去尝试是非常重要的。我们看到,索尼历史上创造的数码相机,包括苹果创造的 iPhone,这些都是历史上别人没有创造过的东西。

我们比较遗憾的是,今天当一个公司长大之后会更多把自己定位成一个追随者,等一个新东西长到差不多之后再入场,大家都知道互联网公司和手机公司都属于这类公司。海外也是这样。

事实上我们认为,智能硬件领域在 2020 年之后的四五年,相比于 2015-2020 年,全新品类的诞生明显少了很多,这还是挺遗憾的一件事情。我们希望可以保持初心,虽然我们不得不找现成的钉子,但我们还是希望可以一直保持一颗造一把锤子再去找钉子的心。

 

张鹏:可能所有人都会追求向苹果进发,但是用什么样的方法、用什么样的路径到那儿,你最终想要追求的东西是什么,规模只是结果的映射,但你真正想要走的那条路和去实践和创造的东西更接近索尼。你说话很平静,刚才给我们讲了很多原则,最后一个问题问出了你的心里话。

 

刘靖康:把之前的原则推翻了。

 

张鹏:很开心今天终于有机会把你的源代码分享给半岛娱乐登录地址 的朋友们。希望未来有机会多来到公园,也祝愿 Insta360 不断创造更好的产品。

]]>
半岛娱乐登录地址 Tue, 24 Dec 2024 20:09:05 +0800
<![CDATA[相机公司瞄上了线上会议这块大蛋糕]]> //www.ari-az.com/news/344607 谈到影石Insta360 的时候,你们最先想到的是什么?

也许是从雪坡上疾驰而下的身影;也许是在海底与珊瑚和浮游共舞;又或者,是那支在B站播放量已经突破千万的视频——跟随着卫星,用全景相机在太空俯瞰地球全貌。

全景、户外、运动、年轻、酷炫……虽然大多数人的印象还停留在这些标签,但影石其实已经悄悄布局会议线市场三年。从 2022 年推出首个针对在线会议和直播场景的 Link 后,2024 年影石在办公场景全面发力,不仅在 9 月推出第二代 Link 摄像头,更在近日推出了新一代 AI 双摄视频会议一体机产品 Connect。

影石全新的企业级会议线产品 Connect | 来源:影石Insta360 

对任何一家硬件企业而言,从 ToC 的运动拍摄切入到在线会议这样的 B 端场景都是一个非常有挑战的选择,但如果了解影石这家公司的话其实就不会觉得奇怪。

正如几天前影石创始人刘靖康在半岛娱乐登录地址 创新大会上讲过的那样,在他看来,开辟一个新市场的关键在于目标客户能否选择你的产品,而这取决于企业能否做到三点:

第一,你能解决竞争对手不为目标客户解决的问题;

第二,你相比于市场上其他方案没有明显的短板;

第三,你的目标客户知道前面两件事,也就是能否做好营销、渗透和传播。

以这样的标准审视影石此次发布的新品 Connect。先不说第三点营销,以前两点的标准来看,这其实是一款符合影石经营哲学的典型新品。不仅洞察了线上会议场景的用户痛点,影石创业九年来积累的软硬件技术能力,让其具备解决用户痛点的能力的同时,又保证其产品相较于传统在线会议解决方案没有明显的短板。

 

线上会议进入智能 4K 时代

疫情期间,线上会议时长以惊人的速度的增长。今天线上会议已经从一部分科技和跨国公司的专属,变成了绝大多数现代企业的标配。

海外的 Zoom、微软、苹果,国内的腾讯会议、飞书、钉钉等都在加快这一板块的布局,功能也在不断丰富。但软件的表现毕竟要依靠于硬件的硬实力,所以依然会有很多现有解决方案搞不定的棘手状况。

举个例子,现在绝大多数的多人线上会议,都是通过电脑+线上会议软件+有线投屏的方式进行的。人一多,收音首先就会一个大问题。如果用电脑本身的麦克风,那隔得远的同事讲话就基本只能靠喊;如果外接一个有线麦克风,人数少一点的时候,就可以像桌游发牌那样,谁说话把麦克风传到谁面前。但如果桌子一大,线也不够长的时候,可能还是会回到最原始的方法:换位置。

「我现在换了个位置,能听清了吗?」一场线上会的智能速记,打开一看「能听清吗」都成为了高频词。

再举个例子,如果是团队内部正在举行一场脑暴,需要用到会议室里的白板手搓一张思维导图,那线上的同事基本就没啥参与感了。即使把会议切到手机端,调用像素更高的手机后置镜头,也很难解决这个问题。

你想看具体某个细节的时候,可能镜头太「广」了;你想看整个导图的时候,可能镜头又太「特写」了,只局限在了会议室的某个角落里。

这种时候,你甚至希望这种线上会议有一个幕后的导播团队来调度现场的各种音视频表现,给线上会议这个效率工具本身提提效。

软件公司也在不断推出新功能来优化这些不佳的线上会议体验,比如各种文档的线上投屏等,改变信息传递的方式。但影石的思路却是革新远程会议的「眼睛」和「耳朵」,让远程参与者能够看清、听清会议室,真正意义上身临其境的参与会议。

同时,由于 Connect 提前与会议软件进行了高度集成设计,所以不再单独连接设备,甚至不需要把电脑带进会议上,也可以「一键入会」,再也不担心开会时电脑没电了。

Insta360 Connect 解决了过往线上会议的诸多痛点,也和飞书、钉钉、腾讯会议等软件进行了深度合作 | 来源:影石Insta360

Insta360 Connect 搭载了两颗 4K 摄像头,一广角一长焦的搭配,这样就可以满足不同视角的取景需求;音频方面则采用了 14 颗麦克风阵列的分布,可以做到 10 米范围内超远距离的无差别拾音。

两颗 4K 摄像头,广角特写视角智能切换 | 来源:影石Insta360

一广角一长焦的双 4K 摄像头配置,搭配影石自研的 AI 算法,可以做到多模态的发言人跟踪,即自动识别发言人并切换镜头。另外,Connect 还支持在遥控器或者平板上选择「智能白板模式」,开启后系统就会调用合适的镜头,自动识别会议室里的白板并给出清晰的画像。

Connect 上的智能白板模式 | 来源:影石Insta360

在音频方面,Connect 可以实现「智能降噪」和「回声消除」两个声音方面的优化,以往线上会议时经常出现的炸麦现象可以得到很好的处理。

而以上的影像能力,其实都来自影石过去累计的智能全景影像技术——也就是一边拍摄一边计算的并行处理模式。同时,在影石还把影像和音频、AI 能力进行了融合,用在了类似于实时直播的线上会议里,几乎起到了和广播电视导播一样的能力。

智能画廊模式,可在多人同屏时实现屏幕等分 | 来源:影石Insta360

以后,当年轻人们周一再走进公司时候,可能会看到前两天周末自己去户外时用来拍照的品牌,就这样出现在了会议室里,显得班里班气的。除了一肚子疑惑之外, 4K 摄像头带来的仪式感,可能也会让他们下周开会前额外再补个妆。

 

影石如何从户外走进办公室?

对于影石而言,从户外到室内不只产品应用场景的变化只是表现,背后代表着公司正在深入对 ToB 端业务的探索。毕竟,无数商业故事都证明,造办公用品比只做相机赚钱多了。

影石创始人刘靖康近期在半岛娱乐登录地址 创新大会上描述过影石寻找 PMF(Product Market Fit)的思路,其中很重要的一条即是:「在该场景里,市场上目前的产品并不能满足用户完整且核心的需求」。

所以,进入线上会议这个场景完全就是顺理成章。

目前尽管线上办公赛道火热,但核心玩家飞书、腾讯会议、Zoom 等基本都是软件服务商;而针对这一细分场景的硬件产品,要不就是不够智能,要不就是价格太贵。总之,目标客户的需求的的确确没有得到完全满足。

这种寻找 PMF 的经营思路,可以说贯穿了影石这家年轻公司从创立到现在的每一步。7、8 年前,影石团队也是照此思路,把成熟的全景影像技术应用在了运动相机上,成为了众多户外玩家的心头好。

作为一位从软件工程专业毕业的学生,刘靖康说过:要实现最好的软件功能,就需要非常 customize 的硬件提供计算平台。如果没有的时候,他的团队可能就会考虑自己造一台。

因此,尽管影石的不同产品线可能对应着不同的使用场景,但我们依然可以在软件能力或是技术栈上找到同源的线索。

在企业级会议产品 Connect 推出前,影石还推出了针对个人用户的会议线产品 Link2。前文介绍的基于 AI 能力的面部识别、人脸追踪、自动对焦等功能,Link2 上都有。

Insta360 Link2 的人脸追踪功能 | 来源:差评X.PIN

而且在实际的观察里,我们发现除了会议场景以外,其实已经有很多用户把 Link2 发展成了「创作型的生产力工具」。

例如,对于知识类博主来说,它可以替代手机成为一个视频博主的拍摄主力机:支持手势操控,可以直接切换到板书特写,让教学流程的拍摄的演示更思维。

又如,它甚至可以参与到直播带货的场景下。单反级的画质为直播保底,而自动快速对焦的能力,让手里的商品/食物可以得到更好的展现。

Insta360 Link2 的快速对焦功能 | 来源:影石Insta360

在 AI 时代,个体价值被逐渐放大的当下,Link 2 为个体创作者降低了生产制作的门槛和成本,成为了全新的生产利器。在京东、天猫等购物平台上,Link 2 已经超越了罗技、海康威视等,成为了销量最高的高端智能摄像头产品。

 

走近影石:进化是如何发生的?

最后,让我们回到影石这家公司本身。

从前文的描述里,我们不难看出,在为新技术寻找商业落地场景的时候,他们有着球场上最高效前锋那样把握机会的敏锐嗅觉。但问题是,这些技术又在从哪里来的呢?

近期,我们正好借助体验 Connect 和 Link2 两款产品的机会,和影石团队进行了一次深度沟通,似乎找到了一些答案。

一个很核心的关键词便是:借「势」。

也就是说,作为一家年轻的创业公司,在成长过程中,需要拿出和寻找 PMF 一样的敏锐度,捕捉到宏观产业变化里可能为自己所用的溢出效应。

影石Insta360 创始人刘靖康(左)介绍产品背后的创新理念 | 来源:半岛娱乐登录地址

第一轮的溢出效应便是随着智能手机行业发展带来的器件小型化趋势。

2016 年,影石推出第一款产品 Insta 360 Nano,当时之所以能实现边拍边算的全景影像能力,主要依赖于让 Nano 以一个扩展件的方式物理连接在 iPhone 上,以调用内置在 iPhone 里的计算能力。

而随着智能手机的发展,计算单元能力越来越强、越来越小、功耗也越来越低,智能相机的画质、计算甚至 AI 等能力也就因此可以以独立设备的形式得到释放。

第二轮的溢出效应来源于 AI 行业,准确来说是起源于 2018 年前后的「AI 1.0」时代。在那波技术浪潮里,人脸追踪等技术逐渐成熟,大量人才和算法能力都得到增强。影石也受惠于此,积累了自己的 AI 人才团队。

所以,当下我们看到的影石在产品层面的新品动作,实际是这家年轻的公司多年来技术+市场判断的一次阶段性集中汇报展示,底层的愿景依然没有发生变化:

「希望用最好的智能影像技术,让更多人更好且更容易地记录和分享生活。」

在生活中如此,在工作中也如此。

在这个无比强调出片和分享的时代,也许再过几年你会发现这家年轻公司的产品,还会出现在你生活里的更多角落。

]]>
半岛娱乐登录地址 Tue, 24 Dec 2024 20:04:45 +0800
<![CDATA[传罗永浩转战 AI 硬件,产品「不便宜」;滴滴正式发文治理「冬天臭车」;Meta AI 眼镜将加屏幕]]> //www.ari-az.com/news/344569

滴滴开展「异味车」治理,拉黑功能上线

12 月 23 日晚,滴滴出行发文称,非常抱歉和惭愧,没能为大家提供一个相对清新的出行环境,影响了大家的用车体验。滴滴表示正开展「异味车」治理专项,通过上线拉黑异味车功能、对车内空气差评率较高的司机暂停服务培训学习、对司机服务开展正向激励考核等方法,争取改善大家的用车体验。

为响应用户需求,滴滴已在全国上线「拉黑异味车」功能,如用户在乘车过程中遇到不好的体验,可通过滴滴 App 行程中页面操作未来 12 个月内「不乘坐该车辆」。除此之外,用户投票选出的女乘客可选女司机、宠物快车、滴滴包车、6 座快车等功能已陆续在多个城市上线试行。 滴滴已在全国上线司机宣教和播报,提醒司机单单开窗通风、注意保持车内卫生。同时,平台邀请用户对车内气味情况进行评价,通过行程中的弹窗问卷,向平台反馈车内是否清新。 针对车内异味差评率较高的司机,平台将依照规则采取服务管理动作,包括通知司机改善车内卫生和空气问题、降低服务分、情节严重将被暂停服务,后续通过服务培训和考试可恢复接单,平台将持续关注乘客反馈,对服务质量进行考核。

 

菜鸟 CFO 刘政加入蚂蚁集团,将接替韩歆毅出任 CFO

目前韩歆毅除了担任蚂蚁集团总裁,还兼任首席财务官(CFO)一职。近期,菜鸟集团 CFO 刘政加入蚂蚁集团,将接替韩歆毅,担任蚂蚁集团 CFO。

2024 年 7 月,即传出刘政将加入蚂蚁集团的消息,但直至近期这一消息才落地。

公开资料显示,刘政于 2010 年 6 月加入阿里巴巴,担任阿里高级财务总监,负责天猫、淘宝及阿里国际站的财务运营,并于 2016 年出任菜鸟集团 CFO。此外,刘政还先后担任了中通快递、阿里影业以及 AGTech Holdings Limited 的非执行董事。加入阿里前,刘政曾于天骏传媒及华友世纪担任企业财务管理高级职位,且曾在普华永道审计部工作。(来源:财新获悉)

 

马斯克旗下 xAI 公布 60 亿美元融资部分投资者名单,含贝莱德、英伟达等

当地时间 12 月 23 日,埃隆·马斯克旗下的人工智能初创公司 xAI 在社交平台 X 上公布 60 亿美元融资部分投资者名单,a16z、贝莱德和英伟达参与了公司 C 轮融资。其它投资者包括富达、Kingdom Holdings 和摩根士丹利。(来源:界面)

 

Meta 计划最早在明年为其 Ray-Ban 智能眼镜添加显示器

Meta 计划为其 Ray-Ban 智能眼镜添加显示器,机构预计 Meta Ray-Ban 年化销量将达 200 万台。

据报道,显示屏将用于显示通知和 Meta 虚拟助手的回复,该款和眼镜集团 EssilorLuxottica 合作开发的升级版 Ray-Ban 智能眼镜最早可能于 2025 年下半年发布。在苹果、谷歌和 Snap 等竞争对手竞相发力之际,Meta 也在加速开拓可穿戴设备领域。公司 CEO 扎克伯格此前曾表示,希望将智能眼镜打造为下一代计算平台。(来源: 英国金融时报)

 

百川智能发布金融大模型 Baichuan4-Finance,准确率领先 GPT-4o 近 20%

12 月 23 日下午消息,百川智能宣布发布全链路领域增强大模型 Baichuan4-Finance。据悉,在高质量金融数据的基础上,Baichuan4-Finance 实现了金融能力和通用能力同步提升的效果,极大提高了金融场景的整体可用性。其金融专业能力和场景应用能力均领先 GPT-4o。

在中国人民大学财政金融学院新近发布的评测体系 FLAME 评测中,该模型登上榜首。具体来看,FLAME 由两个方向的评测基准组成:一,FLAME-Cer 主要面向模型的专业金融能力评测,覆盖了 CPA、CFA、FRM 等 14 类权威金融资格认证;二,FLAME-Sce 则侧重模型的场景应用能力,包含 10 个一级核心金融业务场景,21 个二级细分金融业务场景,近百个三级金融应用任务。

此外,为让模型在提升专业能力的同时不损失通用能力,该模型还打造了一套全链路领域增强方案,覆盖高质量数据集构建、模型预训练、微调、强化学习等从模型研发到场景应用的全流程,实现了模型专项能力和通用能力同步提升,提升了模型多元场景可用性。(来源:新浪科技)

 

小鹏汽车宣布完成欧洲第 1 万辆交付

12 月 23 日午间消息,小鹏汽车宣布在德国埃伯斯贝格完成了欧洲第 10000 辆的交付。小鹏汽车董事长、CEO 何小鹏在朋友圈表示,小鹏汽车是新势力中第一家完成欧洲万台交付的企业,也是欧洲 4 万欧元以上中国所有车企的交付冠军。

资料显示,小鹏汽车在 2020 年开启了海外拓展,出海首站选择了欧洲。以挪威为起点,2021 年开始销售以来,已先后进入德国、法国、英国、西班牙、葡萄牙等国家。(来源:新浪科技)

 

远景回应,特斯拉上海工厂原厂长宋钢已入职

12 月 23 日,就特斯拉上海超级工厂负责人宋钢加入远景传闻,远景能源对媒体回应称,宋钢今天已经入职,职位为此前曝出的集成供应链高级副总裁,但其具体负责哪些业务暂时还没有消息。(来源:界面)

 

OPPO A5 Pro 防水抗冻,零下 35 度冰冻也能正常用

OPPO 官宣,将于 2024 年 12 月 24 日推出全新一代「耐用战神」OPPO A5 Pro,整机通过 14 项国家军用标准测试,极端温度扛得住,特殊环境扛得住;异常侵蚀扛得住,猛烈冲击扛得住。

OPPO A5 Pro 支持 IP66+IP68+IP69 的满级防水,据 OPPO 介绍总共可以对十八种水进行防护,无论是清水,还是咖啡、可乐、茶水等饮料,这些液体的泼溅无法对 OPPO A5 Pro 造成实质性伤害。且 OPPO A5 Pro 具备对猛烈冲击的防护能力,堪称是防水防摔的典范。

此外,OPPO A5 Pro 可以在极端的低温环境正常使用。从 OPPO 公布的实机测试来看,将 OPPO A5 Pro 放在零下 35 度的低温环境中,不断喷水凝结成冰,并在此环境中放置 6 小时,此时的 OPPO A5 Pro 已经被冻结在冰块内。

在这种严苛环境下,向这部被冻结的 OPPO A5 Pro 拨打电话,屏幕成功亮起显示接听界面。使用锤子将冰块砸开,滑动屏幕后成功接到来电。

外形方面,OPPO A5 Pro 采用超轻薄四曲柔边直屏设计,并拥有「砂岩紫」「石英白」「磐石黑」等全新配色。(来源:PChome)

 

联想 YOGA 新机曝光,采用屏下摄像头屏

12 月 23 日,X 用户 WalkingCat 就曝光了联想一款 YOGA 系列新品轻薄本的外观造型,除了轻薄的蓝色机身以及 A 面的凸起之外,最吸引人的就是 B 面屏幕上的疑似打孔屏设计。但结合微博博主金猪升级包的暗示,该款 YOGA 新品笔记本实际上是采用了屏下摄像头设计。

 
 

WalkingCat 一共放出了四张图片,其中两张亮屏的图片一张带有明显的挖孔,而另一张却是完整的屏幕,引发了不少遐想。而结合金猪升级包的最新微博来看,该款笔记本可以确认是采用了与红魔游戏手机相同的屏下摄像头技术,A 面的突起也是为了放下屏下摄像头模组进行的设计。

 
 

除此之外,该款笔记本预计为 14 英寸大小,将会搭载英特尔酷睿 Ultra 200V「Lunar Lake」系列处理器,采用 OLED 屏幕。该款笔记本预计将会在 CES 2025 展会上亮相。(来源:PChome)

 

罗永浩「最后一次创业」最新进展:暂别 AR,迎来 AI Jarvis

细红线是罗永浩在两年前宣布创办的 AR 公司,也被称作罗永浩的最后一次创业。2024 年 4 月,罗永浩在直播中首次预告,将发布一款神秘产品,并形容其「具有颠覆性、破坏式的创新」。

据媒体报道,这款新品的主菜是一个 AI 软件方案,并搭配了一款硬件,硬件初步预估有两个版本。

「最终定价还没出来,但内部预期不会太便宜。」

一位细红线的早期员工透露,这次新品的研发也是路线几经更改,起初大家的共识还是 AR OS,但 2024 年初,方向彻底改变,「由于新的 AI 软件探索项目优先级很高,占用所有的软件开发资源,再加上本来 AR 底层系统开发经验就不足,需要持续攻坚,AR 项目的开发就停滞了。」

近日以来,为了冲刺研发,细红线的封闭组员工也已经连续多天高强度作业,「每天只睡 5、6 个小时」。(来源:《新视界》)

 

]]>
半岛娱乐登录地址 Tue, 24 Dec 2024 09:04:23 +0800
<![CDATA[从OpenAI 12 天发布会里,我们看到了行业的四个关键问题]]> //www.ari-az.com/news/344568  

文|黎诗韵

编辑|郑玄

 

历史上第一次有公司会连续开 12 天的产品发布会——当 OpenAI 宣布这个决定之后,全球科技圈的期待值被拉满了。但直到发布会接近尾声,「就这?就这?」一位 AI 从业者如此表达他的观感。

这似乎代表了某种主流看法:此次 OpenAI 发布会,亮点不大、低于预期。

前十一天,OpenAI 的发布会涉及技术、产品形态、商业模式和产业生态等多个重要更新,包括完整的推理模型 o1、强化微调、文生视频 Sora、更强的写作和编程工具 Canvas、与 Apple 生态系统的深度整合、语音和视觉功能、Projects 功能、ChatGPT 搜索、给 ChatGPT 打电话和 WhatsApp 聊天等等。

但正如上述 AI 从业者感到失望的原因,「还以为会发 GPT-5。」在发布会结束第二天,据外媒报道,OpenAI 的 GPT-5 研发受阻。

不过,最后一天发布的 o3 是个例外。它是 o1 的下一代推理模型,在数学、代码、物理等多项测试中表现惊人——一位国内大模型公司的技术人士谈及 o3 给他带来的震撼,「AGI 已来。」他说。技术人士对 o3 都评价颇高。

回顾这 12 天的发布会,OpenAI 一边秀出了技术「肌肉」,另一边不断优化产品形态、扩大落地应用的空间。有人打趣道,就像一场「直播带货」,OpenAI 希望吸引更多用户、开发者使用 ChatGPT。在新的一年,OpenAI 在日活、营收等数据上或许会迎来飞跃。

 

发布会最后一天,OpenA 推出了 o3 模型 | 图片来源:OpenAI

 

但这个过程不一定会顺利。尽管模型能力变强,但由于数据掣肘、封装能力、模型成本过高等原因,强大模型和应用落地之间仍有较大距离。

OpenAI 此次发布会似乎透露出这样一种趋势:目前大模型行业的竞争焦点不仅在于模型参数和技术上限,也在于用户体验和市场规模。需要两者齐头并进,才能保持领先。

在梳理了 OpenAI 这 12 场发布会的主要信息、以及与国内大模型行业人士交流后,半岛娱乐登录地址 总结出了以下几个关键看点。

 

o3 的智能深度已经够了,但能否称之为 AGI 要看智能广度

「疯狂,太疯狂了。」这是国内某模型负责人看到 o3 之后的第一反应。

在数学、编码、博士级科学问答等复杂问题上,o3 表现出了超越部分人类专家的水平。比如,在涉及生物学、物理学和化学的博士级科学考试 GPQA Diamond 中,o3 的准确率达到 87.7%,而这些领域的博士专家只能达到 70%;在美国 AIME 数学竞赛中,o3 取得 96.7 分、只错了一道题,相当于顶级数学家的水平。

被广为讨论的是其代码能力。在目前全世界最大的算法练习和竞赛平台 Codeforces 上,o3 得分为 2727 分、相较 o1 提升了 800 多分,相当于位列 175 名的人类选手。甚至,它超过了 OpenAI 的研究高级副总裁 Mark Chen(得分 2500 分)。

 

o1-preview、o1、o3 的代码能力对比 | 图片来源:OpenAI

 

自 9 月推出 o1-preview 版本以来,短短三个月时间内,o1 系列模型在推理能力上完成了超强进化。在发布会第一天推出的 o1 完整版,其思考速度较 o1-preview 提高了约 50%、针对困难现实问题的重大错误减少了 34%、同时还支持多模态输入(可识别图像)。而今天的 o3 在复杂问题上则已超越部分人类专家水平。

「从 o1 到 o3 是通过增加推理计算量实现对模型能力的提升,随着国内外 Deepseek-R1、Gemini 2.0 Flash Thinking 等发布,表明大模型开始从预训练 Scaling Law 转向推理的 Scaling Law。」清华大学长聘副教授、面壁智能发起人刘知远对半岛娱乐登录地址 表示。

自 OpenAI 发布 o1-preview,大模型浪潮的技术范式从最初的预训练 Scaling Law(缩放定律),即不断扩大模型训练参数、提升其智能上限,切换到了新一轮的、升级的技术范式,即在推理阶段注入强化学习、提高复杂推理能力。

在前一种范式下,模型主要是通过 next token prediction(下一个词预测)给出答案,更偏向「快思考」。就像「读了万卷书」,但「学而不思则罔」,没法完成数学、编程等更复杂的推理任务。

而在后一种范式下,模型不会马上给出答案,而是会「慢思考」,先引入 CoT(思维链),把复杂的问题规划、分解为更简单的步骤,最后得到结果。而当方法不起作用时、它会尝试另一种方法,在强化学习中提升复杂推理能力——随着模型不断进行「慢思考」和强化学习,其推理能力会指数级上升,这就是推理的 Scaling Law。

对于 o3 超出人类专家的超强研究推理能力——在刘知远看来,这表明 o3 正在朝「超高智能的超级计算机」方向前进。

不少行业人士认为,这会对前沿科学领域影响深远。从积极的角度来看,o3 极强的研究推理能力,能够帮助推动人类在数学、物理学、生物学、化学等学科的基础科学研究。不过,也有人担心它会冲击科研人员的工作。

此次 o3 带来的惊人的智能深度,似乎让人看到了 AGI 的曙光。但在刘知远看来,正如信息革命的标志并非大型计算机、而是个人计算机(PC)的普及,只有实现 AGI 的大众化、普惠化,即让每个人拥有自己的大模型、解决好自己日常的问题,才意味着真正的智能革命。

「毕竟我们并不需要让陶哲轩、Hinton(均为顶尖科学家)来为我们解决日常问题。」他说。

这背后涉及的关键问题是,o3 模型的智能深度能否泛化到其他各种领域、具有足够的智能广度——在上述某国内大模型公司的技术人士看来,只有同时突破智能的深度、广度,才能称之为 AGI。他对此感到乐观,「就像你们班来了一个转校生,你没跟他接触过,但他考试数学和编程都考了全班第一。你觉得他语文和英语会很差吗?」

对于国内的大模型公司来说,核心的问题还是如何追赶 o3。从训练架构、数据、训练方法和评价数据集等关键要素来看,这似乎是工程化能解决的问题。

「你认为距离我们拥有一个 o3 水平的开源模型还有多远?」

「一年之后。」上述模型负责人回答。

 

模型只是发动机,关键是帮助开发者用起来

尽管 o3 的模型能力很强,但在一些应用层人士看来,模型和落地应用之间还有很大距离。「今天 OpenAI 训练了爱因斯坦,但如果想变成上市公司的首席科学家,依然是有距离的。」澜码科技创始人兼 CEO 周健对半岛娱乐登录地址 表示。

作为大模型中间层,澜码科技是国内较早探索将大模型应用落地、打造 AI Agent 的公司。在周健看来,大模型只是一个基础设施,需要结合场景去做很多工作才能用起来,而目前主要的掣肘是数据。

在很多场景里,拿到完整数据是很难的,有很多数据甚至是没有数字化的。比如猎头可能需要简历数据,但很多简历数据并没有被数字化。

而成本是影响 o 系列模型落地的最关键因素。根据 ARC-AGI 测试标准,o3-low(低计算量模式)每个任务耗费 20 美金,o3-high(高计算量模式)每个任务耗费数千美金——哪怕问一个最简单的问题,也要花费近两万元。收益和成本根本不能打平,o3 的落地可能还需要漫长一段时间。

 

o 系列模型的成本测算 | 图片来源:ARC-AGI 测试标准

 

在帮助模型应用落地的问题上,OpenAI 在发布会上也发布了相应的功能方案。比如第二天,OpenAI 专为开发者发布了 AI 强化微调(AI Reinforcement Fine-Tuning)功能,这是周健最关心的功能。它指的是,模型能通过少量数据,优化推理能力、提升性能。

这尤其适用于精细化领域的应用。OpenAI 技术人士称,它能帮助任何需要在 AI 模型方面拥有深厚专业知识的领域,比如法律、金融、工程、保险。一个例子是,最近汤森路透使用强化微调来微调 o1-mini,得到了好用的 AI 法律助理,帮助他们的法律专业人员完成了一些「最具分析性的工作流程」。

比如第九天,o1 模型终于向开发者开放使用。它支持函数调用和视觉能力;引入了 WebRTC,实现实时语音应用开发;推出了偏好微调功能,帮助开发者定制模型;发布了 Go 和 Java SDK,让开发者可快速上手集成。

同时,它带来了更低成本、更高质量的 4o 语音模型。其中,4o 音频价格下调 60%,降至输入 $40/百万 tokens、输出 $80/百万 tokens,缓存音频价格降低 87.5%、至 $2.50/百万 tokens;对于预算有限的开发者,OpenAI 推出 GPT-4o mini,音频费用仅为 4o 的四分之一。

这个新功能也是周健关注的。他认为,更新的实时语音、视觉识别等功能,将能更好地帮助营销、电话客服和销售外呼等场景应用。按他的经验,当 OpenAI 推出某些领先技术,一般国内 6-12 个月就可以追上。这让他对新一年的应用业务充满信心。

 

Sora 的视频生成低于预期,但产品开放会提升其物理模拟能力

年初 OpenAI 发布 Sora 的 demo 时,引发了全球科技圈的震撼。但这一整年,国内各大模型公司纷纷竞逐文生视频赛道——等到 OpenAI 第三天正式发布 Sora 时,国内的文生视频公司松了一口气。

「基本没有什么超出预期的内容,真实感、物理特性等方面相比于 2 月份的发布并没有显著变化,从基础模型能力的层面来说算是低于预期的。」生数科技联合创始人兼 CEO 唐家渝对半岛娱乐登录地址 表示。

目前,字节、快手、MiniMax、智谱、生数、爱诗等公司均推出了自己的文生视频产品。「Sora 的效果和实力综合来看并无明显领先优势,我们看到自己与OpenAI确实还是齐头并进的。」唐家渝表示。

在他看来,Sora 稍微有亮点的部分是在基础的文生视频、图生视频以外,提供了一些提升视频创作体验的编辑功能,说明 OpenAI 确实更关注产品体验了。

比如故事板功能,它相当于按时间轴的方式,把一段故事(视频)切成了多个不同的故事卡(视频帧)。用户只需要设计和调整每张故事卡(视频帧),Sora 会自动把它们补成一段流畅的故事(视频)——这很像电影里的分镜、动画的手稿,当导演画好分镜、漫画师写好手稿、一个动画、片子就做好了。它能让创作者更好地表达自己。

此外,它还推出了文字直接修改视频、无缝融合两段不同的视频、给视频改变画风等功能,相当于是直接给视频加「特效」了。而一般的文生视频产品,无法直接修改原视频,只能不断调整 prompt(提示词)、生成新视频。

 

Sora 的故事板功能 | 图片来源:OpenAI

 

在唐家渝看来,这些功能设计确实都是为了给创作者更大的创作自由度,类似的功能已经在 Vidu(生数科技的文生视频产品)迭代的计划中。「Sora 这些功能的实现对于我们来说并没有难度,实现路径也已经非常明确了。」他说。

在发布会上,Sam Altman 阐释了做 Sora 的原因:一是工具性价值,为创意人员提供创作工具;二是交互价值,大模型不应只通过文本交互,也应扩展多模态;三是最重要的——它和 AGI 技术愿景是一致的,Sora 在学习更多关于世界的规律,最终有可能建立理解物理规律的「世界模型」。

在唐家渝看来,目前 Sora 生成的视频中,依然有不少明显违背物理定律的地方,跟 2 月的 demo 相比进步不大。在他看来,Sora 发布后、会有更多人来尝试和探索它的物理模拟能力,这些测试样本或许对提升它的物理模拟起到一定的指导作用。

 

内加功能、外接生态,ChatGPT 能变成 Super App 吗?

在 o 系列模型、Sora、以及开发者服务之外,OpenAI 在发布会上的主要动作,一方面还是在产品侧持续增加新功能,优化用户体验。另一方面是积极推动与苹果等企业的深度合作,探索 AI 融入终端设备和操作系统。

从前者可以看到,ChatGPT 的演进方向,似乎是要成为一个「无所不能、无所不在、人人可得」的超级 AI 助理。据半岛娱乐登录地址 了解,OpenAI 创立之初的愿景就是打造一个「无所不能」的 Agent,它能理解人类的指令、自动调用不同的工具、满足人类的需要。看起来,终点即起点。

比如第六天,ChatGPT 增加了支持屏幕共享的视频通话和圣诞老人语音模式。前者让用户能与 AI 实时视频通话,分享屏幕或展示周围环境,进行多模态互动,复现了电影《Her》的场景。

比如第八天,ChatGPT 向全体用户开放了其搜索功能。在基础搜索外,它还增加了语音搜索;同时,它集成了手机设备的地图服务,能调取苹果、谷歌地图展示搜索结果列表;它还与多家顶级新闻和数据提供商建立了合作关系,支持用户查看股票行情、体育赛事得分、天气预报等信息。

又比如第十一天,ChatGPT 宣布扩展了与桌面软件的集成。它能接入更多编码应用程序,如 BBEdit、MatLab、Nova、Script Editor 等;它能和 Warp(文件共享应用)、XCode 编辑器等应用一起使用;它还能在语音模式下与其他应用程序协同工作,包括 Notion、Apple Notes 等;

现场演示有这样一个例子,当用户在 Apple Notes 中设定「节日派对歌单」,并语音征询 ChatGPT 对候选歌曲的意见。ChatGPT 能指出用户的错误,如将圣诞歌曲《Frosty the Snowman》误写为了《Freezy the Snowman》。

 

ChatGPT 指出了 Apple Notes 的错误 | 图片来源:OpenAI

 

「ChatGPT 会从单纯的会话助手向更为强大的代理工具转变。」OpenAI 首席产品官凯文·韦尔(Kevin Weil)称。

而另一方面,OpenAI 也在积极扩张生态,通过融入人们最常用的终端设备、操作系统、上层软件等,触达更广泛人群。

比如第五天,ChatGPT 宣布集成苹果智能生态,融入 iOS、MacOS 和 iPadOS,支持用户跨平台、跨应用调用 AI 能力,包括 Siri 交互、写作工具(Writing Tools)、以及视觉功能智能识别场景内容(Visual Intelligence)等。通过这次合作,ChatGPT 触达了全球数十亿苹果用户。它也开启了大模型与端侧、操作系统合作的先例。

比如第十天,ChatGPT 公布了自己的电话联系方式(1-800-242-8478),美国用户每月可拨打该号码享受 15 分钟的免费通话。同时上线的还有 WhatsApp 联系人(1-800-242-8478),全球任何用户均可通过 WhatsApp 向该号码发送消息,目前只限文字信息。

 

ChatGPT 公布了自己的电话联系方式 | 图片来源:OpenAI

 

全球部分国家、地区的智能手机和移动互联网渗透率还远远不足,通过电话这种最基础的通讯工具,ChatGPT 触达了这些人群。同时它也通过 WhatsApp,触达了其近 30 亿用户。

无论是内加功能、还是外接生态,ChatGPT 核心是希望产品触达更广泛人群,变成真正的 Super APP。

不过,也有人并不看好它这种不断内加功能、将业务线拉得无尽长的做法,甚至将其形容为「铺了一个大饼,但每一块饼都有点薄,深入不下去」。因为很多业务都需要足够深才能发挥价值、也有对应的公司在深耕。这或许会是 OpenAI 要面临的挑战。

尽管 o3 模型让外界看到了 OpenAI 惊人的技术实力,但关于推理的 Scaling Law 能达到怎样的智能上限、以及 GPT-5 的难产问题,依然让外界对这家公司的技术发展充满疑虑。这次发布会上,OpenAI 将关注点转而放在产品形态、合作生态和落地建设上,也未尝不是一种思路。这两者的结合,可能决定了行业接下来的走向。

 

 

(李源对此文亦有贡献)

 

]]>
半岛娱乐登录地址 Mon, 23 Dec 2024 20:50:47 +0800
<![CDATA[未来十年,谁将主宰科技巅峰?]]> //www.ari-az.com/news/344540 12 月 14 日至 15 日,由半岛娱乐登录地址 主办、798 文化科技联合主办的「半岛娱乐登录地址 创新大会 2025」(GeekPark Innovation Festival,以下简称「IF」),在北京 798·751 园区 传导空间成功举办。自 2011 年首届大会以来,IF 已走过十五年的风雨历程,成为科技圈的重要盛会。

在过去的一年里,AI 和其他新技术深刻改变了全球的产业格局。作为新的技术增量,AI 不仅推动了平台与产品的创新,也带来了创业环境和定义的变革。尤其是在「超级个体」崛起的今天,AI 正引领一场前所未有的「造梦潮流」。这一年,半岛娱乐登录地址 携手行业精英、创业者以及技术领袖,共同探讨 AI 如何重新塑造未来商业与社会生态。

半岛娱乐登录地址 创始人 & 总裁张鹏致辞

这样的背景下,本届大会的主题定为「敢想,敢干!Imagineering」。正如半岛娱乐登录地址 创始人 & 总裁张鹏所言,「不管时代怎么样,科技和生活都不会自己越变越好,需要一群人站出来,需要一群人在非共识的条件下去创造新的共识。」

十五年来,半岛娱乐登录地址 创新大会见证了很多人的洞察与预言。在过去的 IF 舞台上,雷军曾预言手机将取代 PC,王兴看好团购成为本地服务的新趋势,马斯克预测智能电动车将成为未来出行的主流,李飞飞和黄峥分别表达了对 AI 和拼多多创新模式的深刻理解……每一次洞察都在时代的浪潮中兑现,推动了一个又一个「非共识」向「共识」的转变。

半岛娱乐登录地址 创新大会 2025 现场

今年的大会,半岛娱乐登录地址 邀请了 20 多位看见了未来的领军者,围绕大模型、自动驾驶、机器人及其对企业、社会和个人的深远影响展开了深度对话。参会嘉宾深入交流了大模型如何为创业者带来新的时代机遇,以及如何在这个科技变革的浪潮中把握未来。

此外,大会现场还发布了 2024 年度「InnoForce 50」和 2024 年度极客最爱好物,旨在发现在过去一年中,在人工智能及其交叉领域取得创新突破的产品、技术、组织、项目和个人开发者,进一步推动行业内的创新风潮。

 

01

预见未来:2025 年

我们应该期待那些技术突破

 

在这片充满无限可能的科技浪潮中,AI 不仅突破了技术边界,更在思维与应用层面掀起了前所未有的深刻变革。其中有一群人,他们不仅获得了最多的资源支持,也投入了最多的心力。他们的思想和实践,正推动着这一波浪潮不断前行。

今天,我们应当关注这些领军者的身影:他们正在做什么?他们推动了哪些颠覆性进展?未来,他们的每一步,将如何重塑我们周围的世界?

Google DeepMind Senior Staff Research Scientist Nenad Tomašev

Google DeepMind 的 Senior Staff Research Scientist Nenad Tomašev 便是其中之一。Nenad 分享了 AlphaZero 的突破性创新,「AlphaZero 的独特之处在于通过自我对弈生成数据,摆脱了对人类知识的依赖。这一能力使得 AlphaZero 超越了传统的局限,开辟了新的可能性。」他认为,这是 AlphaZero 的重要贡献之一。

Nenad 表示,目前我们几乎在每种模态上都有基础模型,「下一步的发展将是整合这些独立管道,朝着智能体化的方向迈进。从单一模型到能够整合多个子模型的智能系统,这是未来的趋势」。Nenad 强调,智能体系统的关键在于如何将这些子组件有效连接,确保整个系统能够按预期协同运行。

Kaggle CEO D.Sculley

与 Nenad Tomašev 的思考不谋而合,Kaggle CEO D. Sculley 也提出了 AI 领域的深刻转变:「从数据集的收集,到寻求最大、最复杂的模型应用,AI 的范式已发生根本性变化。」他强调,「AI 原生应用案例」将成为未来探索的重要一环,并认为「自主性 AI」(agentic AI)将逐步成为核心议题。随着 AI 技术的不断进步,智能体将不再是简单的工具,而是能提出建议并为人们提供洞察的系统。

百川智能创始人、CEO 王小川

此外,在聚焦未来科技与医疗的深度对话中,百川智能创始人、CEO 王小川与半岛娱乐登录地址 创始人 & 总裁张鹏探讨了「AI 医生如何牵引 AGI 的发展与落地」。王小川明确表示,当前改变医疗供给是最具确定性价值的突破口。他认为,AI 不仅将在医疗领域带来技术革新,更将在个性化医疗服务中展现巨大的潜力。

王小川对于 AGI 的定义,是能创造出真正意义上的「AI 医生」——一个既能进行专业问诊、开具处方,又能提供个性化、持续的日常健康陪伴的智能体。他预测,这一技术将在未来五年迎来突破,并逐步落地。

在这一波创新与变革的浪潮中,我们不仅见证了技术的极速进步,更感受到了行业内部深邃的洞察与战略眼光。自动驾驶、机器人、无人机,以及日新月异的 AI 原生应用,这些新兴赛道早已超越了技术圈的边界,迅速成为公众讨论的核心话题。那么,它们又将如何通过跨界创新与协同,点燃一连串深刻的行业变革,引领未来的发展格局?

地平线创始人 & CEO 余凯

在另一场深度对话中,地平线创始人 & CEO 余凯围绕智能驾驶的用户价值进行了深入的探讨。余凯表示,现阶段智能驾驶的用户体验还远未达到应有的水准,未来需要在多个领域进行迭代与技术突破。目前的中阶智能驾驶技术只能达到「可用」标准,而距离「好用」仍有较大差距,而高阶产品更是远未达到「可用」的标准。

对于未来的自动驾驶,余凯预测,在未来三到五年内,自动驾驶将迎来一场「大战」。这是技术突破和应用落地的关键时刻,整个行业将进入一个激烈竞争的时代。然而,他也表示,相较于自动驾驶技术,人形机器人仍处于发展初期阶段,至少需要五到十年才能达到实用的标准。

宇树科技创始人 & CEO 王兴兴

与此同时,宇树科技创始人 & CEO 王兴兴也在活动中分享了他对人形机器人发展历程中如何跨越「窄门」的见解。王兴兴认为,虽然当前人形机器人领域正迎来热潮,且 AI 技术的应用已得到广泛认可,但机器人 AI 技术仍处于创新阶段,全球尚未找到最优的技术发展路线。他特别提到,当前最大挑战不在于数据问题,而在于机器人通用模型的 AI 架构问题。

王兴兴预测,人形机器人将在五年内将成本降至 2 万元。但他强调,行业的发展不应单纯依赖价格战。「如果行业内开展持续的价格战,这将对整个行业造成严重的负面影响。」他认为,行业的真正突破应当在于技术创新与模型架构的进步,而非通过压低价格来竞争市场份额。

除了上述几位科技领袖,百度副总裁、文库事业部、网盘事业部负责人王颖,脑虎科技创始人 & CEO 彭雷、无界方舟 AutoArk 创始人 & CEO 曾晓东,高途教育科技集团联合创始人罗斌,Soul App CTO 陶明等国内优秀的产品和应用开发者,就 AI 时代新应用的探索等问题,分享了他们的观点。

 

02

成为超级个体的「秘诀」

 

在这个瞬息万变的时代,只有那些不断追求创新、敢于挑战自我的人,才能把握住属于自己的机遇。而这种机遇的背后,正是技术的力量、平台的助推和创造的无限可能。无论是在人工智能的浪潮中,还是在内容创作的蓝海里,真正的价值永远来自于那些敢于用心创造的「超级个体」。

如果你是一个人或者只有一个小团队,如何利用技术红利和平台助推,成为「超级个体」?

360 集团创始人周鸿祎

在活动现场,360 集团创始人周鸿祎围绕「大模型时代,年轻人值得做什么?」这一主题展开了讨论,并分享了他对 AI 时代的独到见解。他表示,很多互联网从业者可能认为,AI 与互联网相似,行业格局已经初定。但他强调,AI 将是一个比互联网更大的机会,互联网的游戏规则和思维方式并不完全适用 AI 时代。因为 AI 不仅仅是一个连接工具,它更是一种直接提升生产力的手段,具有深刻改变生产力的潜力。

他还提醒道,天天用大模型做一些屠龙之技,并非长久之计。OpenAI 明天发布一个新功能,可能就能迅速覆盖你的技术领域。因此,周鸿祎建议,创业公司应专注于垂直行业的解决方案,通过低调且高效的市场深耕,找准自己的独特竞争力。

小宇宙 App CEO Kyth

在另一场深度对话中,小宇宙 App CEO Kyth 与乱翻书主理人潘乱,就播客的发展和内容生态展开了探讨。Kyth 表示,播客的成功并非依赖内容的数量,而是建立在「稀缺价值」之上。他认为,未来的播客仍将在这一框架下发展——在内容丰富的世界中,提供独特且有价值的声音。

随着技术的进步,Kyth 提到,像 Notebook LM 这样的工具已能够迅速生成内容创作,从简短文档到 5 至 10 分钟的对话,甚至是 50 分钟的综艺节目。然而,他强调,「相比 AI 生成的播客,我坚定支持真人播客。」尽管 AI 能生成无数个 50 分钟的播客,但在信息过载的时代,时间变得愈发稀缺。「我们会选择那些真正用心创作的内容,因为真实和用心是无法被取代的。」

在这个瞬息万变的时代,优秀的产品不仅是对技术的深刻理解,更是对社会需求的敏锐洞察。当创新与需求深度共鸣,时代的车轮便开始滚滚向前。那要如何拿到与时代共振的新产品方法论?

怒喵科技创始人 & CEO 李楠

在大会现场,怒喵科技创始人 & CEO 李楠提出了一个深具启发性的问题:「下一个三年,增长 100 倍的赛道为何不会重复历史?」他大胆预测,AI 眼镜将成为未来的万亿级市场,并预计在未来 12 个月内实现 10 倍增长,三年内有可能增长 100 倍。李楠对这一预测充满信心,认为这一领域的爆发性增长已是「定局」,并将成为下一个颠覆性的技术赛道。

影石 Insta360 创始人 刘靖康

与此同时,影石 Insta360 创始人刘靖康分享了他对硬件创业的见解。刘靖康表示,做硬件创业,必须明确三点关键要素:首先,你需要解决竞争对手无法解决的问题;其次,你的方案必须在现有市场中没有明显的短板;最后,你要做好营销,让目标客户清楚了解前两点。

在这场充满创新与变革的大会上,我们见证了一个更加智能、更加个性化的未来正在悄然成型。从大模型到自动驾驶到,从 AI 医生到人形机器人、AI 眼镜……每一项突破都指向一个更广阔的世界。而在这片光芒背后,是那些敢于探索、敢于梦想的创新者们,他们通过独到的视角和深刻的洞察,在这片波涛汹涌的技术海洋中,找到了属于自己的航道。

当 IF 2025 大会落下帷幕,它并非终结,而是新篇章的开始。展望未来,AI 与其他前沿技术将在更多领域引发深刻变革,行业的边界将愈加模糊,创新的机会也将更加广阔。未来的道路,充满挑战,也充满机遇。每一次的技术突破,背后都有无数的探索与付出,每一步的前行,都需要我们怀揣梦想,敢于打破常规,迎接未知的可能性。

这一切,才刚刚开始。

]]>
半岛娱乐登录地址 Mon, 23 Dec 2024 14:55:04 +0800
<![CDATA[FlipGo 双屏折叠便携屏:开启自由办公新时代]]> //www.ari-az.com/news/344527 后疫情时代,人们对工作方式有了全新的思考。效率不再与固定的办公室划等号,取而代之的是对灵活办公、随时随地提升生产力的追求。无论是追求远程办公自由的数字游民,还是经常出差的商务人士,都代表着一个显著的趋势——现代职场人渴望打破空间限制,在任何场景下都能保持高效工作状态。

FlipGo 双屏折叠便携屏在这样的背景下应运而生。作为新一代便携显示解决方案,它采用创新的磁吸支架设计,实现了 3 秒快速展开和自由角度调节,让多屏办公环境的部署前所未有地便捷。

FlipGo 提供两种尺寸选择:16 英寸版本配备 2.5K 高清屏幕,采用 16:10 宽屏比例,整机重量为 1.6kg,适合需要更大视野的专业用户;13.5 英寸版本则采用生产力优先的 3:2 黄金比例,配备 2.2K 清晰分辨率,重量仅为 1.1kg,为追求灵活便携的用户提供理想选择。两款产品均支持 100% sRGB 广色域,搭配 9mm 的超薄折叠设计,轻松放入常见的笔记本内胆包,让高效办公随身可得。

FlipGo 的创新设计已获得国际认可——斩获 2024 年 iF 设计奖和红点设计大奖双项殊荣,并在 Kickstarter 平台收获超 100 万美元众筹金额的傲人成绩。这些来自全球市场的肯定,印证了 FlipGo 在效率办公领域的开创性价值。

在移动办公已成为新常态的今天,FlipGo 为现代职场人带来了全新的工作体验。数字游民可以在咖啡馆轻松部署双屏工作站,让多任务处理更加从容;开发者能够同时查看代码和调试界面,显著提升开发效率;设计师则可以在主屏创作的同时,在副屏实时预览效果,让创意工作流更加顺畅。

而在商务出差场景中,FlipGo 的价值更加凸显。它能让酒店房间瞬间变身专业工作站,也能在商务洽谈中快速搭建多屏协作环境。创新的 Type-C 一线通技术支持供电与信号传输,无需额外电源适配器,真正实现了即插即用。这不仅减轻了随身携带的负担,更为不同场景间的切换提供了极致便利。

为适应高强度的工作需求,FlipGo 在功能设计上追求极致便利。内置的多功能扩展 HUB,支持外接 U 盘、移动硬盘、键鼠等各类外设,让这款便携显示器不仅仅是显示设备,更是移动办公的效率中心。配合双屏无缝协同的优势,为用户打造出真正的移动工作站体验。

FlipGo 的诞生,源于对后疫情时代工作方式的深度思考:每个人都应该拥有不受限制的理想办公环境。通过创新的双屏设计和便携解决方案,我们让高效办公不再局限于固定场所,而是成为随身可得的生产力工具。

在这个追求工作自由与效率并重的时代,FlipGo 正以其突破性的设计和卓越的使用体验,重新定义移动办公的可能性。无论是在联合办公空间挥洒创意,在咖啡馆专注工作,还是在商务旅程中保持生产力,FlipGo 都能让您随时随地部署理想的多屏办公环境,让效率始终伴随左右。

]]>
半岛娱乐登录地址 Mon, 23 Dec 2024 14:09:29 +0800
<![CDATA[看看产业里 AI 应用的进展吧,它治愈了我的 AI 价值焦虑]]> //www.ari-az.com/news/344526 每到年底总要复盘,我复盘了下自己过去 2 年的注意力,2023 年主要放在大模型的新进展,2024 年开始比较多地关注应用的发展。超简单地总结下,那就是 2023 年被技术的跳跃弄得眼花缭乱,2024 年被很少看到 PMF 弄得抓耳挠腮。

你会发现,当把目光放在消费级应用时,无论是软件还是硬件,面对的问题其实很复杂。除了 AI 技术本身的能力够不够,还有产品和工程上的可实现性,交付用户价值的成本和收益的设计,躲开必然的巨头的阴影和同行的内卷竞争……当然,这一切还有个大前提,还要基于需求有创新性的洞察。

必须面对这么多复杂要素的组合,可能就是今年全球 AI 应用的投融资项目数量基本与去年持平,而且大头还在 ToB 端,并没有迎来想象中的 AI 应用爆发的原因。

前段时间接到了「创原会」的邀请,说可以来看看在工业和科研领域的一些 AI 应用进展,我就以「世界观旅行」的心态昨天去学习了下,突然感觉,果然看看更大的世界总会有收获,这次甚至治愈了不少内心对 AI 价值的焦虑。

在这次的「2024 创原会年度技术峰会」里,简单说最大的感受是,过去一年 AI 实体产业里中带来的正反馈是超预期的。核心的原因是,这里值得用「锤子」去敲的「钉子」太多了,技术的供给只要改变,价值就会被立即释放。

所以趁着热乎劲,我也在第一时间把我「世界观旅行」里的一些感受,记录下来分享给大家。

 

实验室、田间地头、生产车间,AI 改变了什么

1,「AI+水泥」比「鼠标+水泥」更厉害

我从国内这领域的巨头海螺水泥那里增加了不少「奇怪的知识」,比如在水泥行业的生产管线上,至少有 15 类 200 多个场景,正在因为 AI 的到来,让水泥的天花板再次打开,其中涵盖了从矿山开采到水泥发运再到商品混凝土所有工序。

举个例子,就在质量预测这一个场景,AI 通过分析不同的生产条件、不同的原料对于质量的影响,可以实现熟料 3 天、28 天两个强度的预测,这样就可以减少生产过程中的冗余调整,更精准地提升水泥混合掺比、来降低生产的成本。

海螺水泥觉得从设备、安全、质量、园区、决策等各个场景,水泥生产的效率都有大量的改进空间。人家满眼都是看到 AI 带来的技术能力新供给后,想要做事的兴奋。你会发现在这样长流程管线、真实的制造业环境里,AI 带来的价值非常确定。「钉子就在那里」,你不用去想象它是否存在。

2,AI 就是药神!

再拿人们都深有体感的医疗健康痛点来说,AI 正在里面「大杀四方」,在药物研发的整个流程中大幅加速研发周期和成功率、降低成本,那些冷门、偏门的病也有机会被看见、被治愈。

以疾病药物研发为例,传统药物研发往往在 10 年以上,成本高到可能超过 20 亿美元,研发过程中统计上的失败率在 90% 以上。那也就不难理解,为什么冷门偏门的疾病不被投入资源和精力了,并且一个有效的药物出来后往往会经过很长的价值回收周期才能变成「普通人能负担的药」。

但随着以 Alphafold 系列模型在蛋白质结构预测和设计领域的效率提升和效果改进,药物研发彻底变天了。比如这次就在「创原会」上,听到了针对一种过去无人问津的利什曼病(黑热病),AI 发现了世界上首个具有预防效果的小分子药物。

叠了 AI buff 后的生命科学正在迎来它的时代。Alphafold2 已经充分论证了 AI 在蛋白质结构预测上的「无敌」,过往用实验的方法花费几十万、数年的工作量,现在只需要几十秒,而且预测准确率也比过往高几十个百分点。蛋白质结构的精确预测对于疾病治疗和药物研发至关重要。

总体感觉,现在 AI 模型通过加速靶点发现、药物筛选和药物结构设计,传染病靶向药物的研发周期便可以从 10 年缩短到 3 年或更短,同时也降低了研发成本,让小型制药公司和学术机构也能参与原创药物研发,当然也会让病人也越来越负担得起。

谁都不是药神,但 AI 就是药神,这确实令人期待。

3,领域专有数据的魅力,谁用谁知道。

基础大模型的通用能力加上领域专有数据的训练,在很多领域的价值是超预期的。

比如,这次学到了一个我们平时很难接触的油气开采领域的进展——地球物理大模型,已经应用在深层复杂构造形油气田的勘探、安全监测等各个方面,提高了油气发现的效率和勘探空间。这背后主要是通过把过去行业数据和经验积累「喂」进大模型,带来了场景特有的理解能力,使解决方案的改进效率与效果都立竿见影,哪怕在构造复杂、深地信号弱、干扰大的环境中,也可以进一步勘探。

再比如卫星遥感领域,我们都知道火箭发射成本未来会越来越低,卫星获得的太空视角的空间数据会越来越充分和实时,那么获得数据以后需要用 AI 对于数据进行有效的处理,就是非常关键的问题。

现在遥感影像大模型的运用可以让原先人工用鼠标标注一个月的数据,在 10 分钟内完成完整的解析过程。这样数据处理效率的提升,就可以给卫星遥感的应用拓展新的市场,因为显然 AI 技术的应用也会使遥感卫星能够更好地识别和理解更多有意义的信息,比如像天气、农作物收成、道路规划、路运海运交通等等。

把各种空间数据信息,通过 AI「从看见到看懂」,这是正在被解锁的新资源,我相信这个资源对很多产业都会带来效率提升的连锁反应。

 

另一种 AI 世界观

4,工业领域的 AI 变革不是一次冲锋,是一场冲浪

「创原会」里我这次认识的人,其实有很多来自工业领域,他们的风格和思考的问题角度和互联网圈子的 AI 创新思路还挺不一样的。听他们分享和与他们交流,我感觉人家最不缺的就是进取心和用 AI 的决心,也没有什么特别的焦虑,因为现在就可以摘的果实(AI 确实可以解决的问题)太多了。

如果说有什么共性问题:那就是 AI 技术还在迅速地变化,很多对产业技术链条的重塑,没有办法一次冲锋就一步到位,在这个觉悟下,要从哪开始到哪去?该练的「核心力量」到底是什么是他们思考和我讨论最多的。

以往的信息化和数字化时代,大家可以通过上套系统,用一次冲锋来实现跨时代,但 AI 时代是一场「动态冲浪」,这个情况下,把基本功做好,实践上稳扎稳打,技术上与时俱进,才会让生产力再上一个又一个台阶。

当年从蒸汽机时代进化到电气时代,所有率先跨时代的工厂,第一个重要动作就是「改厂区格局」,把围绕着蒸汽机和各种管道,齿轮形成的「动力链条」来设计的厂区,变成通过电线就能赋能,但对于生产流程更合理的新生产线结构。

我听了华为云 CTO 张宇昕的分享,感觉他说的也是这个问题。大模型这个变量正在改变云、也正在改变云的使用。以 AI Native 的视角重塑算力、云和模型,在业务里形成「以知识为中心」的数据飞轮,才能带来源源不断的 AI 原生应用的竞争力。这就是从数字化向智能化跨越,在「冲浪运动」里最会被用到的那个「基本功」吧。

5,算力!算力!

听华为云讲,预计今年年底,企业对 AI 算力的需求就会超过对通用算力的需求。当以 CPU 为中心的主从架构跟不上千亿、万亿模型的训练和推理,数据中心逐渐演进到以 AI 算力为主的多元算力对等全互联的架构。其实这波 AI 的突破就是算力带来的,Scaling Law 首先是算力能 Scaling。

过去短短 2 年,从万卡集群这个世界上只有几个人有能力搭建,到现在没有 10 万卡集群能力在基础大模型上就不能上牌桌,再到最近马斯克号称要迈向百万卡集群的搭建,真是令人感慨。

显然华为云在这方面在做很多工作,而且可能不只是单纯堆算力的问题。其实单在算力这一个点上,门道还很多,我印象比较深的还有一点是华为云提到的现在影响大模型训练和推理效率的一大瓶颈——内存,「没有先进存力、算力也无法充分发挥作用」,因为模型放不进去算不过来。这也是不断能看到不同算力厂商抗衡英伟达的突围点,比如 AMD。

6Agent 能不能把金字塔倒过来

会上看到这样一张图,很体现像如今的 AI 价值焦虑问题。

整体看,现在 AI 产业呈现出一个金字塔的分布,最上层所有应用加起来可能都敌不过芯片层年入千亿美金的英伟达。但是相对成熟的云这个产业,已经是一个倒金字塔的分布了,这意味着应用已经非常丰富,获得了充分的商业回报,享受到云的红利,形成正循环。

AI 很明显还没有走到这个状态。但今年全球所有大公司在基础设施上的巨额砸下 Capex(资本支出),拼命做芯片、扩算力背后,其实是对上层的应用爆发有非常大的期望。

现场看到的 AI 落地实践,也让我感觉 AI 应用开始爬坡了,相应地,更广普的应用也值得期待。现在也觉得共识是,Agent 这种形态,在被领域和场景数据加强的「行业模型」支持下,是核心的突破口。

2025 年的看点,应该就在这里。

7用 AI,改变供给

有一位嘉宾分享的时候提到要充分应用数据和 AI 的能力「从满足需求,到激发需求」,他当时举的例子是就像字节跳动一样充分利用数据和 AI,激发了新需求,引领了短视频。以及他也认为 SHEIN 也是一个例子,在服装、零售这么卷的行业,它能够把它几年之间做到去年 300 多亿还在百分之三四十的增长,充分应用了数据和 AI 能力。

大方向我觉得说的没错,但是我稍有不同的观点是,改变需求是一件非常难的事情,或者说激发需求就是需要从满足需求开始的,只有对满足需求的「供给」足够充分,才有机会谈到「激发」的问题。

字节和 SHEIN 在「改变供给」上是怎么解决的,是「激发需求」的前序问题。还是要顺着明确的存在的需求去通过 AI 改变供给,能改变供给就能改变需求,最终供给和需求的双向丰富,也一定可以重塑连接,这是 AI 商业创新的「本垒打」。

把 AI 生产力组织好,改变供给,就是第一垒。

82025 可以预期的 AI 场景:合成数据ASIC 芯片、编程、具身智能、AI 搜索和智能体。

这个基本上是共识,只结合最近的新闻两个点:

这两天 Databricks,以 690 亿美金的估值融资 100 亿美金,比 OpenAI 最高的一笔融资(66 亿美元)还多,这就是在用真金白银印证:AI 是基于数据的,所以在做 AI 应用的过程中,数据是最值得思考的管线和资产。

另一个新闻是上周五博通的股票在一天之内上升了 24%,因为微软、Meta 和谷歌跟博通谈了定制 AI 芯片,定制的 ASIC 能够做到在特定场景下的性价比和功耗最低。

英伟达是通用之王,但是在特定场景下就会出专项冠军,博通享受了这个红利,这是「模型定义芯片」的现在进行时,也是做 AI 落地应用要考虑的一个要素。

9,「求解器行业 AI,可能是中国最强烈的 AI 需求

会上记了一组数据,

「在中国,制造业仍是经济核心,在联合国所定义的 666 个小的产业中,中国是全球唯一一个各种产业门类齐全的国家,并且其中有 220 多个行业是全球第一的,中国制造业的规模连续 14 年全球第一。」

这串数据翻译一下就是,制造业领域的经验积累正是在中国做 AI 应用时的比较优势——knowhow 和场景数据。以服务业为核心的美国更需要「NLP」(自然语言处理),中国则更需要「求解器」和「行业 AI」,在制造业发挥作用,符合中国国情,当然我理解这可能也确实是华为云在努力深耕的方向。

理解环境的特点和需求,也是一个创新者要重点思考的问题。华为云对这个问题的观察,提供了一个新的视角。

 

]]>
半岛娱乐登录地址 Mon, 23 Dec 2024 13:50:03 +0800
<![CDATA[传苹果研发「智能门铃」;美总统赞成 TikTok 继续运营;汤姆猫推 AI 陪伴机器人,1499 元]]> //www.ari-az.com/news/344503

特朗普表示赞成 TikTok 继续在美国运营

当地时间 12 月 22 日,美国当选总统特朗普在亚利桑那州首府菲尼克斯发表讲话时表示,他赞成 TikTok 在美国继续运营一段时间。这是特朗普迄今为止反对 TikTok 退出美国市场最强烈的信号之一。(来源:央视新闻)

传苹果将推出带 Face ID 等功能的智能家居门铃

据彭博社的 Mark Gurman 报道,苹果正处于开发带有 Face ID 的智能家居门铃和门锁系统的早期阶段。他在今天的 Power On 时事通讯中表示,这款门铃将无线连接到兼容的锁,允许用户使用 Face ID 自动开锁。他说,这款门铃可能会与第三方 HomeKit 锁配合使用,但苹果也可以与其他品牌合作,提供一体化解决方案。

苹果的门铃将与亚马逊的 Ring 系列门铃竞争,但古尔曼没有透露苹果的解决方案是否会采集视频,苹果需要体现其智能家居门铃在隐私和安全方面的优势。如果该产品发布,Gurman 预计它将配备自行开发的 Wi-Fi 芯片,据说该芯片拥有一个安全飞地(Secure Enclave)来保护用户数据。(来源:cnBeta)

 

谷歌「新技能」陆续推送:Gemini 帮你快速总结 PDF 内容

12 月 22 日消息,谷歌正在不断为自家的 AI 助手 Gemini 解锁新技能,并将其集成在搭载 Android 15 且把 Gemini 设置为默认助手的手机中。

其中,「询问此 PDF」是最新发布的 Files by Google(谷歌官方文件管理器,也称「文件极客」)更新的一部分。根据 Android Police 今日报道,这项功能起初在 Play 商店上的描述是「即将推出」,但目前已经陆续开始推送。

该媒体的记者、同时也是 Android 有关信息爆料人的 Mishaal Rahman 表示,这一功能已开始推送,但并非所有 Gemini 用户都能使用。(来源:IT 之家)

香港中文大学开发新型基础 AI 模型,多种眼科疾病诊断能力优于人类医生

12 月 22 日消息,据《南华早报》报道,香港中文大学(CUHK)的研究人员开发了一种新的基础人工智能模型,能够帮助解决眼科临床任务,特别是在疾病筛查和诊断方面。随着生成式 AI 在医学领域的应用逐步增多,这一技术有望带来更广泛的影响。

这一名为「VisionFM」的新模型在诊断和预测多种眼科疾病方面表现出色,研究人员称,随着数据量的增加,这一模型可能会被广泛应用于更多的临床场景。相关研究已于上个月刊登在《NEJM AI》期刊上。

研究表明,VisionFM 在诊断 12 种眼科疾病时的表现与中级眼科医生相当,甚至更为精确。尤其在预测青光眼的进展方面,该模型的表现超过了眼科领域的第一个基础模型——RETFound。

VisionFM 的推出恰逢医学界对生成式人工智能的关注与日俱增,当前越来越多的研究人员和医疗专家开始探索生成式 AI 在改善医疗服务中的潜力。(来源:IT 之家)

 

Steam 数据显示:今年用户仅花了 15% 时间玩本年度发布的游戏

12 月 22 日消息,Steam 年终回顾数据显示,Steam 用户在今年仅花了 15% 的时间来玩今年最新发布的游戏。相对应地,有 47% 的时间花在过去一至七年间推出的游戏上,另有 37% 的时间则集中在那些已经发布超过八年的经典游戏上。

据 PC Gamer 于 20 日报道,今年 15% 的比例相比 2023 年 9% 的人均新游戏时间已有了显著增加(但相比 2022 年的 17% 有所下降)。因此看来,2024 年实际上呈现了一定程度的回升,预计由《绝地潜兵》《三角洲行动》等在线游戏带动。单机游戏方面,《黑神话:悟空》凭借其惊人的同时在线人数,在 Steamcharts 上成为焦点。

Steam 目前已拥有超过 20 万款游戏,而 2024 年发布的游戏数量相对较少,仅为 18000 款。报道称,造成这一趋势的原因包括老游戏价格较低、Steam Deck 适配程度、老牌在线游戏常年占据「最畅玩」排行榜等,较新的游戏面临极大挑战。(来源:IT 之家)

 

《黑神话:悟空》获 IGN 2024 社区投票奖「年度最佳游戏」奖

12 月 22 日消息,IGN 揭晓了社区投票奖的获奖名单,年度最佳游戏由《黑神话:悟空》摘得,取得 17.4% 的得票率。

在 12 月 20 日晚间播送的《新闻联播》节目中,游戏科学未来规划 PPT 得到曝光:将《黑神话:悟空》做成历史销量最高的单机动作角色扮演游戏。《黑神话:悟空》已陆续拿下 2024 金摇杆奖年度游戏大奖及「最佳视觉设计」奖、2024 拉美游戏奖「年度游戏」「最佳 PC 游戏」奖、TGA 2024 最佳动作游戏奖及「玩家之声」奖。(来源:中关村在线)

 

蔚来李斌:蔚来 ET9 订单超预期,首发 999 辆全卖完

12 月 22 日,蔚来创始人、董事长李斌对外表示,蔚来 ET9 首发限量版已卖完,订单量超预期。在 12 月 21 日举行的 NIO Day2024 上,蔚来旗下智能电动行政旗舰车型——ET9 正式上市,整车购买方案起售价为 78.8 万元,电池租用方案起售价为 66 万元。

蔚来推出了 999 辆 ET9 首发限量版车型,售价为 81.8 万元。据李斌透露,蔚来 ET9 将于明年 3 月正式开启交付,优先交付首发限量版。(来源:证券时报)

领克 Z20 纯电 SUV 上市,新能源车型销量超六成明年推插混 SUV

12 月 22 日,领克汽车宣布其全新纯电紧凑型 SUV——领克 Z20 正式上市。这款新车基于 SEA 浩瀚架构打造,采用了领克家族最新的 The Next Day 设计语言,预售价格区间为 14.6 万元至 16.1 万元。

领克汽车在领克 Z20 上市后的媒体群访活动中透露,该品牌新能源车型销量占比已超过 61%,总体均价超过 17 万元,未来 A 级、A0 级、A00 级车型将是领克纯电的「主场」,并计划明年推出一款大型插混 SUV。(来源:第一电动)

 

汤姆猫推出 AI 童伴机器人:支持主动聊天、情绪识别,1499 元起

12 月 22 日消息,汤姆猫在京东等平台推出 AI 童伴机器人,共有经典款、豪华款、尊享款三个版本,售价分别为 1499 元、1699 元、1999 元。

 

商品页面显示,这款产品配备「灵动双眼」,支持情绪识别、趣味打断、主动聊天等功能。无需触发按键,一声「汤姆猫」即可切换对话场景。此外,该产品还支持一次唤醒,连续对话。功能上,新品支持中英文双语交互、万物百科等,产品外观为肤感硅胶材质。

汤姆猫此前介绍称,AI 语音情感陪伴机器人的头部设有传动装置,可以自动根据听到的声音辨别位置与方向,120° 自由转头,面向用户进行语音对话。此外,该产品支持耳朵和嘴巴自然活动,设计了 20 多款灵动表情;3000 毫安时容量电池,产品采用肤感硅胶材质,可自由摆动的手臂。(来源:IT 之家)

「AI 教师」上岗,美国亚利桑那州推出完全由 AI 教授学术课程的学校

12 月 22 日消息,据 TechCrunch 报道,美国亚利桑那州特许学校委员会批准了一所新的在线学校——Unbound Academy,但这所学校有一个独特之处:学术课程全面由 AI 授课。

在美国,特许学校通常具有比传统公立学校更多的自主权,尤其是在课程设计和教学方法方面。

Unbound Academy 提出的申请则是首次尝试用「AI 驱动的自适应学习技术」将课程压缩到两个小时以内。其教学模式依赖于在线教育平台,学生通过「互动、智能化」的平台进行学习,这些平台会根据每个学生的学习速度和风格进行动态调整。虽然学校会有一些工作人员,但这些人可能并不是经过认证的教师,而是「熟练的指导员」,负责监控学生的学习进度,并为学生提供个性化的干预和辅导。

学术授课的时间仅为两个小时,剩下的时间将用于各种「生活技能工作坊」,内容包括批判性思维、创造性解决问题、财务管理、公共演讲、目标设定以及创业等。该学校将面向四到八年级的学生,完全通过在线方式授课。(来源:IT 之家)

 

]]>
半岛娱乐登录地址 Mon, 23 Dec 2024 11:45:40 +0800
<![CDATA[短剧出海的秘密:ReeIShort如何让外国人爱上「霸总」?]]> //www.ari-az.com/news/344502 整理|连冉

编辑|靖宇

 

头图来源:ReelShort

 

在内容面前,全球观众的相同性远大于不同,当短视频网站和 APP 席卷全球之时,影视剧的制作和展现形式也因为这个新型媒介的诞生而发生变化,让国内网友趋之若鹜的短剧,也在让外国网友废寝忘食。

在这一全球化趋势的背景下,ReelShort作为一个面向海外市场的短剧平台,到今年 9 月已实现全球双端内购收入约 1.42 亿美元,是 2023 年全年收入(2888 万美元)的 4.92 倍,增长势头强劲。

ReelShort是CMS于2022年面向海外推出的短剧产品,也是首家将国内一分钟短剧落地北美市场的平台,其母公司CMS(枫叶互动)旗下还拥有多个面向C端用户的其他产品,包括互动式视觉阅读平台Chapters、动画产品Spotlight、浪漫小说平台Kiss 等。

在半岛娱乐登录地址 IF2025 创新大会上,Crazy Maple Studio 副总裁南亚鹏在主题演讲中详细回顾了ReeIShort从进入海外市场到获得成功的历程,阐述了中国制造的短剧为何能够在海外市场脱颖而出,并分享了未来海外市场还有哪些机会。

 

以下为南亚鹏核心观点摘录:

  • 海外用户对短视频的接受程度越来越高;较强的付费意愿;碎片化时间消费的需求增长;偏好紧凑、富有节奏感的内容;特定题材的吸引力——这些都是海外市场短剧能做起来的原因所在。
  • 作为海外短剧市场的领先者,ReelShort对爆款定义类似于游戏行业的思路,主要关注三个关键维度:吸量(引流)效果,引流效果直接影响剧集是否能成为爆款;留存率,高留存率代表剧集具备较强的吸引力和内容粘性;变现能力,用户进入平台后,是否愿意为内容付费,成功的爆款需要在用户付费上有显著表现。
  • 一个爆款短剧,必须在上述三个维度上都表现出色;当这三者协调并达到最佳效果时,一个大爆款就出现了。
  • 目前,海外市场的主要制约因素是优质本土自制内容的稀缺。虽然北美市场占主导地位,东南亚市场也在逐步发展,但整体市场对于本土高质量自制内容的需求仍然非常强烈且供给不足。
  • 海外市场目前处于供不应求的状况,国内企业可以通过开发本地化APP;在当地制作短剧内容再通过平台分发;与短剧平台合作,将短剧及长剧内容推向全球观众;品牌植入等方式抓住海外市场的机遇。

预计未来几年,短剧出海市场规模有望达到百亿美元级别,海外市场供需不平衡的现状,对国内出海企业来说,正是机遇所在。

以下为南亚鹏在半岛娱乐登录地址 IF2025 创新大会上的演讲实录,由半岛娱乐登录地址 整理。

 

南亚鹏:今天我来跟大家回顾一下 ReeIShort在海外做海外短剧的一些经历与收获,以及对于未来海外短剧市场发展的一些看法。

今天的主题是《微短剧为什么能够在海外收获海外观众》,回顾在海外推广微短剧的历程,最早可以追溯到两年前——2022年8月,CMS推出了ReeIShort微短剧APP。

在此之前,CMS已经在美国市场运营了7年的内容公司,专注于互动视觉小说类游戏,并且取得了较为显著的市场成绩,成为细分赛道的头部产品,用户粘性较强。到2020年,CMS开始涉足网文产品,直到2022年正式进入海外微短剧市场。

在当时,中国的微短剧市场也正处于快速发展的初期阶段。那么,为什么CMS会选择从海外市场切入微短剧呢?这与CMS自身的海外经历密切相关。

接下来,简要回顾一下CMS在海外市场推广微短剧的历程。ReeIShort微短剧APP于2022年8月上线,实际上,早在2022年初CMS就开始了内部立项。

在产品正式推出后,我们首先面临的挑战是如何丰富内容,找到能够打动海外观众的微短剧形式。在这个过程中,我们进行了大量的探索,经过约10个月的努力,直到2023年6月,我们通过一系列剧集尝试在YouTube平台进行推广,其中每集时长约1分钟的短剧集在三天内便获得了几百万的播放量。这给了我们很好的信心,我们看到海外用户对微短剧这种产品也能够接受。

随后,我们借助在游戏产品中积累的流量投放能力,采用类似的推广模式,不断复制和优化我们的内容。到了2023年第四季度,我们看到市场开始关注ReeIShort这款产品。在美国苹果应用商店和安卓应用商店,ReeIShort的下载量一度跻身榜单前列。在这一过程中,TikTok及其他平台也体现了微短剧内容的受欢迎程度,进一步增强了我们对海外市场潜力的信心。

《Trailer - Never Divorce a Secret Billionaire Heiress Full Movie》|图片来源:ReelShort

 

这是新放的一部当时在 YouTube 上表现非常好的剧集,大家可以感受一下。

大家看了这个剧集,是不是感觉很有中国短剧的元素在里面?其实这是我们去年做的一些尝试,通过这些剧集让我们看到了海外市场的用户对中国微短剧的形式有一个比较好的接受度,所以后面我们自己在产能提供上不断地加大这方面的投入。

海外用户为何也爱短剧?

我们自己也分析了一下,为什么海外的用户会喜欢微短剧。

1. 整个海外用户对短视频的接受程度越来越高,像 TikTok、YouTube 等很多竖屏的短视频在欧美普及程度越来越高,让微短剧这一内容形态得到了更好的接受和认可,为中国微短剧在海外市场的推广提供了良好的基础。

2. 较强的付费意愿。海外用户的付费能力比较强,对于微短剧这种新产品形态,他们也愿意进行付费,这也是能把海外微短剧做起来的一个重要的推动因素。

3. 碎片化时间消费的需求增长。在消费上来讲,区别于长剧,现在用户对于碎片化时间的消费需求越来越重。通过短视频,通过 TikTok,可以看到用户对于碎片化时间或者优质碎片化时间的内容是非常渴望的,这也是海外用户喜欢微短剧的一个重要的因素。

4. 偏好紧凑、富有节奏感的内容。从内容消费上来讲,用户更愿意看到节奏非常紧凑,情节反转,包括爽点比较密集的产品形态。 TikTok 里面已经有很多这样的内容,微短剧做的比 TikTok 上免费的内容更加精致一些,它里面的内容爽点会更加经过细心的设计,能够让用户很快地、高效地在很短的时间内得到满足。

5.特定题材的吸引力。 在题材选择上,微短剧在海外市场有着较大的潜力,尤其是女性题材、狼人、吸血鬼、大女主反转、隐藏身份等类型。

ReelShort一直在做新内容的尝试,希望能有更多的品类、题材的内容能够扩圈现有的用户,毕竟海外微短剧的 APP 主要是满足用户对于内容的消费。

跟大家汇报一下整个大致的市场规模。

2023 年,ReelShort收入规模大概是 1.7 亿美金,累计下载 5000 多万次,已经能够验证出这会是用户真实喜爱的一种形态。

 

图片来源:ReeIShort 

这是中国市场的规模。两三年的时间,中国微短剧的收入已经超过了中国电影票房的收入规模。

再看海外,2024 年的时候,光看 2024 年上半年,对比 2023 年有 10 倍以上的增长,2024 年截至到上半年月度流水收入,ReelShort通过 APP 充值的流水收入已经达到了 1 亿美金,现在月度收入已经在 1.5 亿美金以上,全年的规模会在 15 亿-20 亿美金之间。

回顾最初进入微短剧行业的动机和思考,其实是基于CMS在内容领域积累的经验。因为我们一直在做内容,我们希望通过网文、网游和微短剧,构建一个内容生态的闭环。

CMS的内容生态闭环|图片来源:半岛娱乐登录地址

 

网游是我们比较早做的一个产品,第一款产品是互动视觉小说的游戏产品。后来我们又做了网文的产品,当时网文产品有很多优秀的作品经过深度化的改编推向了海外市场。

这让我们建立了一个信心,很多中国的内容和产品形态,在海外是有相当大生存空间的,特别是当我们做网文的时候,我们发现在网文变现方式上来讲,还有网文内容的情节设计,对于海外用户来讲还是比较新颖的。

过去在我们做海外网文之前,海外的网文通常都比较短,没有像中国几百万字的长篇网文,我们把中国的网文经过深度改编,世界观改编以后,推向海外用户的时候,用户是非常喜欢的。

正是基于这两款产品的成功经验,我们看到了可以将之前的积累应用到微短剧这个新领域的巨大潜力。我们之会有一个漏斗模型,优秀的故事首先来自于网文,验证了这些故事的市场潜力之后,我们再尝试进行游戏化改编,进一步验证这些故事的变现可能性,最后才会考虑投资制作短剧,特别是考虑到好莱坞短剧制作的成本较高,我们在这一过程中会更加谨慎和精细化地运营。

经过两年的发展,这一模型也在不断调整和完善。大家知道微短剧现在在海外的产品形态上是大 DAU 的产品,相对于网文来讲,它的门槛是非常低的,它的用户群是更大的,我们现在也在尝试很多故事,观众看完微短剧以后,我推给用户,喜欢玩游戏的用户,可以玩互动视觉小说游戏,就像奈飞上现在播完剧以后,底下也会出一些游戏产品,另外喜欢看网文的观众可以在看完我们的短剧之后,可以到网文里面看更完整的故事。所以短剧现在其实已经在给我们其他的产品引流了。

ReeIShort商业探索之路

最初,在我们开始制作微短剧时,投入的资源相对有限。在2022年,我们不仅参考了中国微短剧小程序的发展模式,还对标了海外一些竖屏短剧尝试的企业。

Quibi就是一个典型案例,它成立于2017年,由梦工厂创始人创立,它的目标是做竖屏版的奈飞,当时融了十几亿美金,得到了好莱坞主要Studio的投资,并投入了两年多的时间打造片库,最终在2020年上线。然而,经过半年多的市场尝试后,这个项目宣告失败。

当时可能很多人会说用户是不是真的会喜欢这种微短剧的形式?其实我们自己在做这个市场的时候跟它进行了对比和对标,我们正是在比较有限资源的情况下,更多的是用一种移动互联网的打法去做这款产品。

首先根据我们自己的资源禀赋,优先切入我们最熟悉的用户,之前做Chapters 产品时,我们对欧美女性用户有着较深入的了解,因此决定将她们作为目标用户,以她们偏好的内容为主打,而不是一开始就选择更广泛的市场。通过这种细分市场的切入,我们能够更精准地触达目标观众。

在付费模式上,我们也没有像Quibi那样一开始就采用订阅制,因为在初期,内容量较少时,很难让用户一开始就接受订阅形式。所以我们采取了更灵活的付费方式,比如说分集解锁进行付费,用户在这个过程中不喜欢看了可以随时离开,这为用户提供了更多的选择权。

这些策略让我们能够在初期有限的资源投入下,持续摸索市场需求,最终探索出一种可持续发展的商业模式。

做剧、做视频,大家都希望能够出爆款,但作为一个平台方,我们自己在做自制内容的时候,我们给自己的爆款定义有点类似于游戏行业的一些思路,主要关注三个关键维度:变现性、吸量性以及留存。

吸量是说我们做微短剧的是用很多短剧剧集来进行引流,投放的效果是不是很吸量,这是能够决定你的剧是不是能成为一个爆款的关键因素。

留存是指用户观看剧集后是否会继续留在平台,是否会观看多集,甚至会持续关注更多剧集。良好的留存率意味着用户对剧集的兴趣和内容的粘性较强。

最后是变现,用户进入平台后,是否愿意为内容付费。

一个爆款短剧,必须在这三个维度上都表现出色。当这三者协调并达到最佳效果时,一个大爆款就出现了。

《The Double Life of a Billionaire Heiress》|图片来源:ReelShort

 

目前,我们已经拥有了一些在全球范围内播放量突破亿次的作品。像《the Double Life of a Billionaire Heiress》这部剧,其生命周期已超过一年,而且流水收入已经可以跟一些电影的票房收入媲美了。除此之外,我们还有《Baby Just Say Yes》等改编自中国故事的作品,通过深度改编,邀请欧美演员参与拍摄,效果也非常好。

我们也在不断尝试新的题材,《Breaking The Ice》是部冰球题材的短剧,结合了运动题材,在今年8月的奥运期间,取得了非常好的成绩,播放量一度超过了当时奥运转播的一些平台。

目前看到海外用户对于欧美本土自制的内容,需求量非常大。ReeIShort 今年主要解决的是如何建立海外微短剧的工业化产能的布局,主要是通过自己扩建自己的团队,包括在日本、韩国找一些公司合作,迅速地拉升产能,目前每周能够上线 4 部剧,这些给了用户一个比较好的正向预期,因为用户希望进入到 ReeIShort 平台上总是能够看到一些新的内容。

做了两年的时间,ReeIShort 在欧美用户的心智中有了一些品牌的认知,很多用户会开始陆陆续续到平台上搜索一些新剧,可能这些新剧不一定是我们自己自家去做的,但用户慢慢在认为 ReeIShort 可能是一个微短剧的精品平台,大家会在这个平台上找到自己喜欢的优秀内容,也是因为这个原因,美国的《时代周刊》也把ReeIShort评选为「2024 年最有影响力的全球 100 家公司」,也是说海外的媒体上已经看到了这种微短剧的形态很可能对于整个视频分发行业会有巨大的变化。

海外市场还有哪些机会?

刚开始介绍到,我们一个好的故事会在三个平台上,网文和网剧同时进行变现,前面的嘉宾也介绍了,如何把 IP 更好地变现,提供更好的价值,我们目前在做这方面的尝试,短剧播放完以后,网文和游戏都可以有进一步的变现。

ReeIShort一直跟中国的一些出海的合作伙伴们在合作,特别是中国这两年诞生了非常多优秀的中国短剧,我们会把这些短剧有两种模式,一种模式是经过翻译配音推向海外市场,另外一种模式是将这些短剧的剧本,包括一些网文经过改编,请美国演员进行拍摄,这给整个市场上半年带来了 1000 亿人民币以上的回报,可以看到不管是中国的翻译剧出海,还是中国剧本的改编,海外都有非常好的市场。

我们也在跟中国头部的出海公司企业来联合合作,游戏和电商通过短剧进行植入,帮他们进行推广,同时也跟 OPPO、VIVO 等一些手机端的厂商合作,能够很好地丰富他们应用商店里面的内容。

目前,海外市场整体上来讲,内容稀缺是制约这个市场发展的一个非常关键的因素。整个市场目前还是以北美为主,东南亚市场也在不断发展跟进过程中。但整个大盘上来讲,大家对于优质本土的自制内容是非常渴望和稀缺的。

海外市场存在供需不平衡,我们分析有几个方面,国内出海的伙伴们有可能会介入到这个市场里面:

  1. 可以在特定的区域市场布局开发自己的 APP,但这个前提可能要求这些开发商最好是之前有过类似市场的产品,对于本地市场的用户有比较深入的了解。
  2. 短剧内容创作者可以在当地进行制作,再在平台上进行分发,包括在日本、韩国、东南亚、北美等地区,创作者可以提供优质内容来丰富整个市场,也能够从中获得非常好的回报。
  3. 国内内容版权方可以将自己的短剧,包括长剧来跟短剧平台进行合作,通过短剧进行分发到全球主流用户的观众面前。
  4. 品牌企业,特别是出海品牌企业,无论是游戏,还是电商,都可以通过短剧平台进行品牌植入。我们之前跟腾讯有一些合作,进行过品牌的植入,这种品牌植入也能够通过短剧帮助把产品推广到最主流的欧美人群面前,也是一个双赢的方式。

以上,大家都可以一起参与到海外微短剧发展的进程。

 

]]>
半岛娱乐登录地址 Sun, 22 Dec 2024 12:17:09 +0800
<![CDATA[传 GPT-5 开发不顺;蔚来第三品牌新车首秀,预售价 14.88 万元;广电总局要求加强微短剧片名审核]]> //www.ari-az.com/news/344500

OpenAI 开发其下一个主要模型 GPT-5 的努力正落后于计划

据《华尔街日报》最新报道,OpenAI 开发其下一个主要 AI 模型 GPT-5 的努力正落后于计划,其结果还不能证明巨大的成本是合理的。这与 The Information 早些时候的一篇报道相呼应,该报道称,由于 GPT-5 可能不像以前的模型那样代表着巨大的飞跃,OpenAI 正在寻求新的战略。

但《华尔街日报》的这篇报道包含了有关代号为 Orion 的 GPT-5 历时 18 个月的开发过程的更多细节。

据报道,OpenAI 已经完成了至少两次大型训练运行,其目的是通过对大量数据进行训练来改进模型。最初的训练运行比预期的要慢,这暗示着更大规模的运行既费时又费钱。据报道,虽然 GPT-5 的性能比前代产品更好,但它的进步还不足以证明维持模型运行的成本是合理的。

《华尔街日报》还报道说,OpenAI 不仅仅依赖公开数据和授权协议,还雇人通过编写代码或解决数学问题来创建新数据。此外,OpenAI 还使用其另一个模型 o1 创建的合成数据。

OpenAI 没有立即回应置评请求。该公司此前曾表示今年不会发布代号为 Orion 的模型。(来源:cnBeta)

业界首款面向全场景数智安全,华为等 15 家单位联合宣布 openHiTLS 密码套件开源

12 月 22 日消息,据「华为开源」官方消息,2024 开放原子开发者大会暨首届开源技术学术大会昨日(12 月 21 日)在武汉召开。

来自西安电子科技大学、山东大学以及华为等 15 家单位联合宣布 openHiTLS 密码套件开源。

据介绍,openHiTLS 是业界首款面向全场景数智安全、独立创新的开源密码套件,有以下特点:

  • 算法丰富:openHiTLS 提供丰富的算法原语、高性能商密算法、数字证书与安全协议能力,支持应用平滑迁移到后量子算法
  • 剪裁灵活:openHiTLS 打造开放架构,分层解耦,可灵活裁剪,支持应用快速迁移和算法演进
  • 性能卓越:openHiTLS 提供代数、指令集优化和硬件卸载能力,软件优化和硬件加速齐下
  • 安全可靠:全面的开发和测试活动及先进的形式化和侧信道验证技术,确保 openHiTLS 安全可靠
  • 全场景应用覆盖:openHiTLS 支持商密 / IETF / ISO 等国内外标准,通过灵活可裁剪架构,全面覆盖从云端到终端,从 IoT 到 5G 等各类应用场景,保护数据安全

会上同时发布了 openHiTLS 密码开源社区治理架构,正式成立社区技术委员会、用户与生态发展委员会。通过社区开源合作,促进密码技术的创新与共享,降低企业密码技术研发成本,加速密码技术的普及与应用,形成国际交流与合作。(来源:IT 之家)

 

库克在最新采访中谈及公司是否考虑过投资 OpenAI

苹果首席执行官蒂姆・库克在接受《连线》杂志采访时讨论了广泛的话题,包括 Apple Intelligence 的帮助有多大,以及他是否考虑过投资 OpenAI。

库克表示,苹果内部从未讨论过 AI 收费的问题。他认为,AI 如同多点触控技术一样,是推动技术革命的基础功能,而非盈利点。

该媒体报道称苹果公司将 AI 视为类似多点触控的基础技术,并非直接盈利工具,而是推动产品创新和提升用户体验。库克的这一表态也凸显了苹果与其他 AI 公司的差异化战略。

 当被问及苹果公司是否有意投资 OpenAI 时,库克表示,公司从未忽视过这家初创公司的存在,但如果做出了这样的决定,那将是一个罕见的举动。库克还提到了 ARM,暗示其在早年的重要性,最终帮助苹果达到了现在的高度。(来源:cnBeta)

极越公关负责人徐继业确认离职,微博发长文细数「业绩」

昨天上午,极越汽车公关负责人徐继业启用了个人微博,并通过首条博文宣布了自己从极越离职的消息。他在这篇长文中,细数自己加入极越以来所取得的「个人成就」。

12 月 20 日上午,有消息称极越公司发布内部邮件,宣布因「在其朋友圈发表分裂员工的不当言论」,解除公关负责人徐继业的劳动合同,并通报批评。

对此,徐继业回应表示在此邮件出现之前,并未接到任何通知,一直联系 HR 负责人和 CEO 夏一平,均处于联系不上状态,并称「不排除有人盗号散布不实言论」。

当日午间,徐继业再次在朋友圈发文称「基本搞清楚这是个假诏」,并表示「回头弄点好瓜给大家尝尝」。(来源:IT 之家)

 

小鹏汽车澳大利亚首家门店开业

12 月 21 日,小鹏汽车宣布其澳大利亚首家门店开业,现场主要展示了小鹏 G6 SUV 车型及小鹏飞行汽车。此前,小鹏汽车表示小鹏 G6 大规模发往澳洲。

为扩张海外市场的一部分,小鹏汽车近期除了在澳大利亚进行业务外,也正在推进亚太地区泰国、新加坡、马来西亚等市场的汽车销售计划。

TrueEV 公司首席执行官 Jason Clarke 表示,自己相信小鹏汽车的产品序列和设计特点都「非常适合」澳洲市场,此次合作也标志着当地智能电动汽车系列产品迎来「重大飞跃」,并将提供卓越的充电技术与配套功能提供支持。(来源:界面新闻)

 

广电总局要求加强微短剧片名审核:拒绝哗众取宠、低俗庸俗

12 月 21 日消息,据央视新闻今日报道,国家广播电视总局网络视听司发布管理提示(加强微短剧片名审核),其核心要义是对微短剧片名出现的不良倾向进行及时纠偏,并在导向、体例、艺术等方面提出新要求。

由平台负责自审的「其他微短剧」内容违规问题虽已大幅减少,但片名哗众取宠、低俗庸俗的顽疾严重拉低了微短剧行业整体形象,亟待治理。据了解,流量、利益成为部分微短剧制作和播出平台敢于在片名方面走偏、打擦边球的重要动因。

对此,管理提示提出,「小程序类微短剧为刻意追求投流效果,片名问题尤为严重,必须严加整治。」为及时纠正和扭转部分微短剧在片名上的跑偏倾向,管理提示就加强片名审核工作,分别在导向、体例和艺术上提出新要求。(来源:IT 之家)

新款 HomePod 配备 7 英寸显示屏、A18 芯片等,据称将于明年发布

据 DigiTimes 报道,苹果计划于 2025 年发布配备 7 英寸 LCD 显示屏、A18 芯片并支持 Apple Intelligence 系统的新款「HomePod」。

目前还不清楚配备屏幕的 HomePod 的价格,但苹果似乎正瞄准一个合理的价格。在本周的一篇付费报道中,供应链刊物称,苹果已选择中国制造商天马为该设备供应液晶面板,每块面板的价格为 10 美元,「极具竞争力」。

目前还不清楚苹果是否会为该家庭中枢使用 HomePod 品牌,还是会选择全新的命名。目前还不清楚当前的 HomePod 扬声器是否会在明年进行更新,但新的 HomePod mini 预计将在明年推出。(来源:cnBeta)

 

蔚来第三品牌 firefly 萤火虫全球首秀:预售 14.88 万,明年 4 月上市

在昨晚举行的 NIO Day 2024 活动中,蔚来带了旗下第三品牌 firefly 萤火虫全球首秀,首款车型正式亮相。新车预售 14.88 万元,将于 2025 年 4 月正式上市。

新车正面配备「三重奏」大灯,配备同级最大 92L 前备箱,后座翻折后连成超大纯平空间超 1250L。该车车身结构高强度钢与铝合金材料使用占比高达 83.4%,超宽双前防撞梁,超强双前门防撞梁,配备同级最多的 9 个安全气囊。

关于这款新车的配置信息,官方暂未透露太多,新车将于明年 4 月上市,预售价 14.88 万元,199 元预订金抵扣 2000 元购车款。此外,蔚来及乐道品牌用户提车后获赠 30000 积分,其中 ES8 创始版用户提车后获赠 50000 积分。(来源:IT 之家)

科学家正尝试利用 AI 开发世界上第一个虚拟人类细胞

斯坦福大学、基因泰克公司(Genentech)和扎克伯格基金会(Chan-Zuckerberg Initiative)的专家们共同努力,旨在利用人工智能开发世界上第一个虚拟人类细胞。这项开创性的工作将极大地提高我们对人类生物学的认识,促进硅学实验,加快医学研究,并为个性化医疗铺平道路。

研究人员正在探索世界上首个虚拟人类细胞,这是一个人工智能驱动的模型,旨在模拟人类生物分子、细胞和组织的复杂行为。这项创新可以为了解生物学的复杂性和推动医学研究开辟新的途径。(来源:cnBeta)

 

]]>
半岛娱乐登录地址 Sun, 22 Dec 2024 08:58:35 +0800
<![CDATA[999 元的 AI 眼镜来了,闪极拉开「百镜大战」序幕]]> //www.ari-az.com/news/344498 作者 | Li Yuan 

编辑 | 郑玄

 

2024 年最火的 AI 硬件之一,当属「Ray-Ban Meta」智能眼镜。在出货量突破 100 万台后,科技界的人们迅速意识到,这非常可能是智能硬件的下一个超级品类。

笔者自己 自费购买了一台 之后,在生活中,无意种草的概率也高的惊人。不过,对于被种草的人,笔者经常补充一句,如果不着急的话,可以等等国内的仿款——「Ray-Ban Meta」智能眼镜虽好,但是由于众所周知的原因,语音功能的使用时常受限,AI 功能的开启更是相对较难。

业界消息一直显示,国内目前有数十款甚至上百款「Ray-Ban Meta」智能眼镜的仿款正在研制。年末,包括百度、小米、雷鸟等知名厂商更是宣布了自己的无显示功能的 AI 眼镜计划。

而跑的更快的小厂,则已经拿出了自己的产品。12 月 19 日,闪极科技在深圳举办发布会,正式推出了首款产品「AI 拍拍镜」,并表示将是中国 AI 眼镜的首批量产产品。

从产品功能和外观而言,「AI 拍拍镜」几乎完全对标「Ray-Ban Meta」智能眼镜,而价格则约为「Ray-Ban Meta」智能眼镜的一半——前五万台共创版的价格为 999 元,还可以通过打卡返现金券。优惠的价格,导致发布会后没多久,各平台的预定链接已经全部卖空下架,而闲鱼上已经挂上了不少 1499 的原价链接。

虽然硬件较「Ray-Ban Meta」智能眼镜更便宜,闪极留下了软件使用付费的商业模式的空间——两个 AI 功能,AI 闪极和 AI 云盘,年订阅价格 299 元,不过首年免费。

半岛娱乐登录地址 在线下参与了闪极的发布会,简单体验了产品,并采访了闪极 CEO 张波。

张波是魅族手机的老兵。2020 年,张波成立闪极,最出名的产品为充电宝系列。闪极的充电宝走高端路线,利润率较高。2024 年,闪极年度营收达到接近 2 亿,60% 的产品销量在海外。

在采访中,张波发表了不少对 AI 眼镜的行业观察,并透露商业数据:闪极预期第一年能够卖 50 万台 AI 眼镜,就能做到盈亏平衡,而目前手里已经掌握大量订单,已经完成了明年的大部分销量。

 

01

AI 拍拍镜:长续航是亮点

 

闪极此次发布的眼镜,本身与 LOHO 眼镜合作生产。首批发布,主要为黑色镜框款。预计春节期间,可在千家线下 LOHO 店体验到闪极的产品。

闪极介绍,目前选择黑色树脂材质,主要是出于量产的考虑。金属和板材材料大批量生产相对更加困难。不过明年闪极预计还将推出数十款其他款式的 AI 眼镜。

对于一款 AI 眼镜,人们最关心的问题之一,就是重量。在这点上,闪极的 AI 眼镜和「Ray-Ban Meta」智能眼镜相差不多,重约 50g。在目前国内生产的 AI 眼镜中,不算最轻便的一批。

闪极似乎在重量和续航上做了一个取舍,选择了比普通眼镜(15-30g)更重的重量,但是使用了更高的电池容量,增强续航时间。同时闪极也采用了平衡性的设计,宣传让眼镜戴起来像 30g。在短暂的试戴中,笔者确实觉得第一感觉比「Ray-Ban Meta」智能眼镜稍轻一点。

拍照是闪极重点发力的领域。

搭载索尼 1600 万像素、123 度超广角装置摄像头模组。从拍照参数上,闪极的 AI 眼镜比起「Ray-Ban Meta」智能眼镜有微弱优势。而摄像上是 1080p,30 帧,与「Ray-Ban Meta」智能眼镜一致。

半岛娱乐登录地址 没有实测到拍照效果。不过以「Ray-Ban Meta」智能眼镜作为对比的话,目前的 AI 眼镜基本上拍照处于刚刚可用的阶段,微弱的优势对于习惯了高清拍照的用户而言可能不会有太明显的感知,不过如果比「Ray-Ban Meta」智能眼镜的拍照更弱,则可能用户更容易有比较明显的感知。

视频单次录制时长 1-5 分钟可调,目前还没有直播功能——团队表示并不是技术问题,而是目前并没有平台合作直播接口,如果有直播接口可以马上更新直播功能。

与「Ray-Ban Meta」智能眼镜相比,一个有趣的地方是闪极的录制为横屏,而「Ray-Ban Meta」智能眼镜的录制为竖屏,如果接入直播功能的话,后续可能会有些不同的影响。

虽然整体产品对标「Ray-Ban Meta」智能眼镜。几处细节,仍然能体现出闪极在做 AI 眼镜时,还是有加入自己的思考。

首先是长续航功能。

除了前面所述的闪极 AI 眼镜本体的 450 毫安的电池设计,闪极还推出了一个略不优雅但很实用的长续航解决方案——增程环。

增程环挂在脖子上,相当于眼镜的一个移动充电器,使用磁吸式接口,可以边充边戴,保证眼镜能够保证更长续航。

虽然这一设计略微诡异,但是对于目前智能眼镜的佩戴者而言,续航确实是一个绝对的痛点。

笔者自己佩戴「Ray-Ban Meta」智能眼镜时,基本上只要有在认真使用语音/拍照功能,续航只能维持半天左右。而对于近视程度比较深的用户而言,眼镜是时刻必须佩戴的必需品。半岛娱乐登录地址 之前采访 AI 眼镜的重度使用者时,曾发现有使用者为了全天保持佩戴 AI 眼镜,购买三幅 AI 眼镜轮换佩戴。

闪极还表示,未来增程环可能还将辅助增加眼镜的存储和算力。看起来增程环这一设计,可能将长期在闪极眼镜中存在。

其二是眼镜盖的设计。

闪极为眼镜增加了几种不同的磁吸眼镜盖设计。其中一些眼镜盖可以用来使眼镜一秒变墨镜,更具时尚感。闪极还专门设计了一个眼镜盖,用来遮挡摄像头。

不得不说这是一个很前瞻性的设计。当拍照眼镜迅速普及,偷拍者也在不停地试探硬件的边界,可能导致人们对于拍照眼镜本身,可能会越来越在意。磁吸变普通眼镜的功能,在现在似乎还不是一个对消费者很重要的功能,但确实能体现团队对于拍照眼镜,是有深入思考的。

第三,AI 功能的设计。相对于「Ray-Ban Meta」智能眼镜,闪极更强调」记忆「这个概念。除了一个拍照眼镜,它也想做一个录音笔,想做到之前 limitless.ai 类产品能做到的全天候记录的功能。

而目前,已经能尝试的功能是 AI 闪记功能。可以用语音告诉大模型一个车牌号之类的信息,之后可以直接问模型,我之前记录的车牌号是什么。

闪极还推出了 AI 云盘的功能。如果用户不选择云盘服务,则可以用机身储存存储视频,而选择 AI 云盘服务,则可以在线储存视频,未来有机会使用视频推理功能,真正从视频中,快速找到自己的回忆。

相对于拍照等硬件的设计,团队对 AI 功能的设计是有前瞻性的,不过在目前的版本,体感上 AI 目前真正能实现的功能还不多。

在短暂的现场测试中,笔者没有能够很好地测试到闪极的音频功能。不过有一点似乎有些遗憾,相比于「Ray-Ban Meta」智能眼镜,目前闪极的眼镜还不能蓝牙播放音乐,只能播放机内存储的音乐。

 

02

巨头为 AI 做眼镜,小厂为眼镜找 AI

 

在发布会后的群访中,闪极也回应了许多外界关心的问题。

作为第一个发布量产级别的 AI 眼镜的厂商,闪极 CEO 张波表示,目前虽然有不少 AI 眼镜厂商都在研制 AI 眼镜,但是做 AI 眼镜,其实卡点很多。

「AI 眼镜的生产难度的是非常高的,是无法复用手机过去的供应链的。它的精细程度,它的材料体系都完全不一样。每个环节都可能成为卡点。」张波表示,「很多产品对标「Ray-Ban Meta」智能眼镜,但你要 1:1 复制「Ray-Ban Meta」智能眼镜是不可能的,Meta 用的高通的芯片,我们都用不了。」

闪极在这点上实际上是选择与紫光展锐合作生产芯片,和索尼一起重构了整个摄像头的架构,保证了眼镜的摄像头能够低功耗运行,同时做到防抖。

闪极也回应了产品搭载大模型的问题。

在闪极产品发布之前,有很多猜测闪极的 AI 眼镜将搭载哪个大模型。闪极最后的选择是,不搭载某个单个的大模型,而是根据不同的功能选择不同的大模型来搭载。

张极直言这是一个商业化的问题,「现在大部分大模型都在倒贴我们用,我们为什么不用?」

搭载云端大模型,也暂时不会对产品本身的端侧调优造成影响。张波表示,目前端侧的双系统,无论主系统活跃还是休眠,端侧都可以做到拥有所有的唤醒词和功能指引词。张波表示,端侧的语音识别能力甚至比 Meta 更强,能识别更多的指令。

「什么时候自研模型?很明确,当我们用第三方模型没有自己自研模型便宜的时候。」张波表示。11 月刚刚有消息,零一万物联合创始人潘欣出任闪极科技合伙人。潘欣曾是 Google Brain 的首位研究软件工程师,后先后在百度、腾讯与字节跳动做 AI 模型的开发。

事实上,在 AI 眼镜这款硬件开始露出潜力后,曾有不少人判断这将是一个巨头的生意。

正如当年的 AI 音箱一样,对于巨头来说,硬件上能不能挣钱,并不是首要考虑的问题。能够占据下一个时代人们智能硬件的入口,能够获取人们的交互数据,才是巨头们更关注的问题。

如果 AI 眼镜真的能成为下一代智能硬件,其贴身性,always-on 的特征,注定会带来非常多个性化的数据,而且是全新的,互联网上没有的数据,这是对于巨头而言,最重要的。而相比之下,巨头可能愿意为了入口的重要性,为了能够让自己的 AI 获得最好的数据,不关注硬件本身的利润,甚至补贴硬件,低价获取市场占有。

在这样的逻辑下,一直推动 AI 眼镜前行的,也一直是 Google,Meta 这样的巨头企业。而一向不太涉及硬件的字节跳动,也在 AI 技术成熟之后,开始研发 AI 耳机,行业普遍认为字节跳动也在同时研发 AI 眼镜。

而此次闪极的发布,则让我们看到,行业的另一极也正在发力。目前团队只有一百多人的闪极,相比于巨头可以说是一个小厂。不过通过一年前的提前立项和对于供应链的熟悉,闪极成了中国第一批能够量产 AI 眼镜的品牌。

闪极背后不止是闪极。在会后采访中,张波表示,闪极在和供应链的合作中,得到了不少支持。甚至有些合作伙伴,做到后来可能并不会在这款产品上获得太大利润,但大家都认为这可能是一款增长的产品,是未来的发展方向,因此也愿意配合。

闪极表示,当时开始融资后,一个月就拿了一个亿的融资。对于投资人而言,也是一样。AI 眼镜承载着增长的希望,而不能投资大厂的投资人,如果仍然想投资这个方向,将资金汇聚起来,投资跑的快的小厂,似乎也可一博。

相对于巨头而言,这些站在闪极背后的人,更像是看到了 AI 眼镜所带来的机会,以硬件出发,想做出一款可用的产品。而 AI,只是产品的一环,能够采用拿来主义先让硬件跑起来,卖得动,不断迭代硬件才是更重要的。

拿到了速度优势的闪极,能否率先利用补贴和硬件设计,卖出足够多的 AI 眼镜,支撑硬件不断迭代,与大厂相抗衡呢?

目前,谁都还无法判断。闪极似乎也已经意识到了它所面对的未来,在发布会开始前,门口摆放了一个巨型的大卫雕像。这场战役,是大卫与巨人格利亚的对抗。是巨人获胜?还是弱小的大卫获胜?战役的序幕已经拉开。

*头图来 源:闪极

本文为半岛娱乐登录地址 原创文章,转载请联系极客君微信 geekparkGO

]]>
半岛娱乐登录地址 Sat, 21 Dec 2024 12:37:03 +0800
<![CDATA[OpenAI发布高级推理模型o3;传雷军亲自重金招募大模型领军人才;小米 YU7 无伪装实车曝光]]> //www.ari-az.com/news/344497

 

OpenAI 发布高级推理模型 o3

OpenAI 发布了下一代推理模型 o3,这是今年早些时候发布的 o1「推理」模型的最新版本。就像 o1 一样,o3 是一个模型家族,o3-mini 是一款更小的精简版模型,专门针对特定任务进行了微调。OpenAI 声称,至少在某些条件下,o3 可以接近实现 AGI。OpenAI 总裁 Greg Brockman 表示,最新的推理模型 o3 是一个突破,在最困难的基准上有了阶跃函数的改进。现在开始安全测试和红队演练。

OpenAI CEO Sam Altman 在直播中说:「我们认为这是 AI 下一阶段的开始。你可以使用这些模型来完成越来越复杂、需要大量推理的任务。」他还夸赞 o3 在编程方面的表现令人难以置信。

(来源:财联社、智东西)

 

意大利对 OpenAI 处以 1500 万欧元罚款

意大利隐私监管机构 Garante 周五表示,在结束对 ChatGPT 开发者 OpenAI 使用个人数据行为的调查后,决定对 OpenAI 处以 1500 万欧元(1558 万美元)的罚款。

Garante 是欧盟在评估 AI 平台是否符合欧盟数据隐私制度方面最积极的监管机构之一。Garante 表示,它发现 OpenAI 处理用户的个人数据「是为了在没有充分法律依据的前提下训练 ChatGPT,违反了透明度原则和对用户的相关信息义务」。对此,OpenAI 没有立即发表评论。他们此前曾表示,他们认为其做法符合欧盟的隐私法。

去年,意大利监管机构因涉嫌违反欧盟隐私规则而短暂禁止在意大利使用 ChatGPT。在微软支持的 OpenAI 解决了有关用户拒绝同意使用个人数据训练算法的权利等问题后,该服务被重新激活。(来源:新浪财经)

 

美国要求英伟达调查其芯片如何流入中国

据国外媒体报道称,美国商务部已经要求英伟达调查其芯片如何流入中国。

报道中提到,该芯片巨头已要求 Super Micro Computer (SMCI.O) 等大型分销商,以及戴尔科技(DELL.N)对东南亚客户进行抽查。AMD 和戴尔生产的服务器产品中嵌入了英伟达的人工智能芯片。英伟达发言人在电子邮件回复中表示。「我们坚持要求我们的客户和合作伙伴严格遵守所有出口管制限制。任何未经授权的二手产品转售,包括任何灰色市场转售,都会给我们的业务带来负担,而不是好处,」

对此,戴尔表示,公司要求其分销商和经销商遵守所有适用的法规和出口管制。

对于上述情况,有知情人士直言,在某些情况下,走私者甚至更改了服务器操作系统的序列号。(来源:快科技)

 

消息称雷军亲自重金招募大模型领军人才,DeepSeek 罗福莉将加入小米

据第一财经新皮层报道,DeepSeek 开源大模型 DeepSeek-V2 的关键开发者之一罗福莉将加入小米,或供职于小米 AI 实验室,领导小米大模型团队。

罗福莉硕士毕业于北京大学计算语言学研究所,毕业后加入阿里达摩院机器智能实验室。她主导开发的多语言预训练模型 VECO(同时支持多语言理解和生成的跨语言模型),被纳入阿里达摩院深度语言模型体系 AliceMind。

2022 年,罗福莉离开阿里,在 DeepSeek 担任深度学习研究员,参与了 DeepSeek 的 MoE 大模型 DeepSeek-V2 的开发。知情人士称,雷军认为小米在大模型领域发力太晚,于是亲自挖人,重金招募能够领军小米大模型的人才,支付的薪酬水平在千万元级别。

2023 年 4 月,小米 AI 实验室下设了专门的大模型团队,任命栾剑担任负责人,向小米技术委员会副主席、AI 实验室主任王斌汇报。栾剑曾任东芝(中国)研究院研究员、微软(中国)工程院高级语音科学家、微软小冰首席语音科学家及语音团队负责人等职位。(来源:IT 之家)

 

Grammarly 收购 AI 公司 Coda,将为企业推出大模型 LLM 助手 / 语法检查工具

根据 Grammarly 官方新闻稿,Grammarly 公司现已收购一家 AI 初创公司 Coda,将涉足 AI 生产力领域。在所有收购程序完成后,Coda 现任首席执行官 Shishir Mehrotra 将接任 Grammarly 的新首席执行官,而现任 CEO Rahul Roy-Chowdhury 将卸任,转任顾问角色,双方未公布具体收购金额。

据悉,Coda 由前微软与谷歌员工 Shishir Mehrotra 和 Alex DeNeui 于 2014 年创立,该公司的主要产品是一个云端多人文档编辑器,整合了电子表格、演示文稿、文字处理和应用程序功能,用户可在平台上创建百科、数据库或项目文档等多种内容。

Grammarly 表示,此次收购旨在整合双方的技术资源,该公司计划在内部通过结合 Coda 的 AI 工具和界面,转型为全面的「AI 生产力平台」,为企业提供生成式 AI 助手和各种生产力工具。(来源:IT 之家)

 

汤姆猫首款 AI 机器人产品今日发售,支持情绪识别、主动聊天等

汤姆猫发布投资者关系活动记录表,公司首款 AI 童伴机器人将于 2024 年 12 月 21 日对外发售,该产品针对 3-11 岁青少年儿童设计,具备情绪识别、主动聊天、双语互动、万物科普等功能。目前,公司研发的 AI 机器人、AI 讲故事等产品的主体功能均已初步完成研发工作,业务团队正推进相关产品的上线计划,待相关工作完成后,公司将尽快推进产品的发行与上市。(来源:财联社)

 

 

华为快充自动充电机器人亮相,适配超充联盟所有车型,明年上半年量产

据博主 @ 不是郑小康 今日晒出的图片,华为快充自动充电机器人亮相,并称「不是 Demo,明年上半年就会量产」。

他还表示,华为快充自动充电机器人适配了所有华为超充联盟的车,覆盖品牌包括哪吒汽车、小鹏汽车、比亚迪汽车、极狐汽车、阿维塔汽车、赛力斯汽车、江汽集团、长城汽车、理想汽车、广汽集团和奇瑞汽车等。

从外观来看,该机器人采用银白色机械臂,搭配华为 600kW 液冷超充,旁边写着「一秒一公里」标语,目测还有摄像头以及雷达,可识别汽车充电口并自动进行充电。

华为超充联盟于今年 4 月正式成立,号称让有路的地方就有高质量充电。据悉,参与华为超充联盟的车企包含哪吒汽车、小鹏汽车、比亚迪、北汽极狐、阿维塔、赛力斯、江淮汽车集团、长城汽车、理想汽车、广汽集团、奇瑞汽车等。在智界 S7 及华为全场景发布会上,华为常务董事、终端 BG 董事长、智能汽车解决方案 BU 董事长余承东曾表示,到 2024 年底,为将部署超 10 万个全液冷充电超级快充。(来源:IT 之家)

 

小米首款 SUV 汽车 YU7 无伪装实车曝光,雷军曾称已开启大规模路测

12 月 20 日上午,北京当地的车友会晒出了一组小米首款 SUV 汽车 YU7 的无伪装实车图,据称位于北京雁栖湖。

小米 YU7 的外观基本延续了小米 SU7 的设计风格。车头采用封闭式设计,大灯轮廓以及前包围造型基本不变。小米 YU7 车尾采用贯穿式风格,后包围造型风格同样保持不变。此外,该车在车顶设计有后扰流板。

申报数据显示,小米 YU7 长宽高分别为 4999/1996/1600 毫米,轴距为 3000 毫米,采用 5 座布局。小米 YU7 搭载双电机系统,前电机最大功率为 220 千瓦,后电机最大功率为 288 千瓦。同时,该车匹配三元锂电池组。雷军 12 月 10 日在微博表示,小米 YU7 SUV 目前正在进行大规模路测,预计明年六七月正式上市。「希望 YU7 测试车可以尽早拆除重伪装,有助于我们做更全面、更细致的长时间大规模测试,来确保产品质量,做出更好的产品。」(来源:IT 之家)

 

小红书大批封号引热议,客服称未说明处罚时间就是永封

12 月 20 日上午,「小红书封号」话题登顶微博热搜,多位用户反馈小红书昨晚集中封号。对此,小红书官方客服回应称,账号处罚情况只和账号违规程度有关,具体以收到的站内信通知为准。有说明处罚时间的,到时间会自动解除处罚,建议耐心等待,期间不要违规;如未说明处罚时间的,就是永久性。

用户晒出的图片显示,被封号的理由各不相同,比如「涉及批量发布成本较低、同质化并进行引流或牟利的内容、如薅羊毛、导流等」「在笔记或评论中频繁采用刻意夸大事实、编造故事、题文不符等低质量营销手法来推广商品或服务,以及在笔记或评论中频繁将其他用户引导至第三方平台」等。

12 月 19 日,小红书官方发布黑灰产账号治理阶段进展公告(四):

11 月 18 日-12 月 16 日,小红书「黑灰产账号」治理专项团队一共处置账号 1,259,709 个,其中 10 万粉以上账号 252 个,1 万粉以上账号 4941 个。

黑灰产矩阵账号主要操作方式是前期养号,后期转售账号,「换头」变现。黑灰产团伙首先通过常见手段养号,例如,批量发布同质化且低质的游戏或影视综二创视频,把矩阵账号养到高粉;随后,黑产团伙或高价售卖高粉账号,或删除或隐藏历史养号内容,「换头」发布水下软广等违规营销内容,进行变现。个人账号如采取类似手段养号,也会从严处置。

本期将展示平台近期重点打击的两类黑灰产团伙导流手法,他们利用影视剧资源和占卜预测的手段,以营销导流、养号涨粉为目的,薅取平台流量,危害平台生态。(来源:IT 之家)

 

]]>
半岛娱乐登录地址 Sat, 21 Dec 2024 08:55:11 +0800
<![CDATA[内容创作的「Windows 时代」来了]]> //www.ari-az.com/news/344482

 

整理 | 连冉
编辑 | 靖宇

大模型横空出世,大量 AI 产品迅速涌现,尤其在内容领域,诸多文生文、文生图、文生视频类产品备受关注。

但回到真实内容创作场景,用户仍然面临信息过载、工具繁杂、需求不明确等一系列问题。如何让 AI 产品「听懂」用户的真实表达,摆脱生成结果的「AI 味」,仍然是很多团队正在攻克的难题。
而目前,AI 创作工具的难点,仍然在用户如何能够高效、精准的创作出「直接可用」的内容,而不需要跨平台、多格式来回切换的繁复操作;在内容消费上,海量信息导致了用户的效率低下,在高质量内容的智能查找、筛选、整理等环节的难点尤为明显。
只有打破现有工具的局限,让智能化贯穿内容领域全流程,内容生产和消费的格局才能真正改变,用户的需求才能被更好地满足。
「自由画布」正是百度文库和百度网盘基于这样的用户需求而推出的,它并非单纯的创作工具,而是一个全新的操作系统,打造了大模型时代的全新交互方式,使得内容创作不再局限于单一的工具和格式,而是实现了多模态的融合和流畅的操作体验。
正如 Windows 操作系统对 DOS 的颠覆,改变了人们与计算机互动的方式,提升了系统的通用性和用户体验,「自由画布」则为内容创作领域带来了革命性的变化,它不只是工具的升级,更是对过去内容系统的一次深刻重构。
在半岛娱乐登录地址 IF2025 创新大会上,百度副总裁,文库事业部、网盘事业部负责人王颖在《内容生产与消费,全域新变革》的主题演讲中分享了百度文库和百度网盘在大模型重构后的全面变革,展示了 AI 如何打破创作工具的限制,实现从「单点创意」到「全流程创作」的无缝连接。
百度文库和百度网盘通过 AI 技术的赋能,正成为「内容生产的起点」和「内容消费的终点」,成为内容产业全链路中的关键枢纽,对内容产业格局进行着深刻的重塑。
 

01

内容的未来是什么?
在过去一年,随着大模型横空出世,大家都在思考,关于内容的未来,到底应该是什么样的?
内容领域可以分为两个层面:一是内容生产,二是内容消费。
当前,在内容生产方面,痛点非常明显:创作工具特别多,上手门槛也特别高。制作一个好内容,不但周期长,而且成本很高,制作的过程中非常容易灵感枯竭。这极大地限制了内容生产力的发展,导致创作效率低,不会创作的又不会表达。AI 让内容生产彻底打破了工具的束缚,突破了能力的限制,用户只需要有想法就能创作,真正实现「创想即创作」。
在内容消费方面,信息过载一样是消费的痛点,因为信息过载带来的效率低,而消费形式单一又导致使用有限制。比如,大段的视频其实干货就 2 分钟,但又没办法迅速找到,找到了有用的信息,又因为不同形式的使用需要不同的操作,使用起来会变得很困难。

 

王颖在半岛娱乐登录地址 IF2025 创新大会|半岛娱乐登录地址
在内容消费的未来,如何打破模态的边界,不再被单一的模态限制,而是能迅速找到最有用有趣的内容,满足用户的需求?
带着对内容生产和消费的全新理解和希望,百度文库和百度网盘进行了全域的变革。
AI 重构后的百度文库和百度网盘,能让 AI 和用户共同创作、用 AI 辅助用户进行全模态的消费,成为内容生产的起点和内容消费的终点。
针对用户「创作、编辑、存储、管理、查找、观看、使用,分享」等旅程的每一个环节,百度文库和百度网盘基于百度文心大模型等系列大模型,百度文库公域的专业数据以及百度网盘私域的用户授权数据建立了数据层、算法层、基建层和能力层,在每一个生产和消费的环节服务用户。
 

02

内容创作更高效
在学习办公场景,PPT 制作一直是许多人面临的难题,想要制作一个专业的 PPT,门槛非常高。
百度文库去年在全行业率先推出智能 PPT,截止目前,百度文库是智能 PPT 领域市场占有率第一名,目前市占率达到 80%。
近一年多来,百度文库持续在 PPT 深耕,除了提供了一句话指令和多文档生成 PPT 以外,近期又推出智能 PPT 新能力——支持生成带有专业排版布局的 PPT。
在如今友商只能画简单 PPT 的时候,百度文库已经可以生成带有专业图表、专业逻辑图、专业数据的 PPT,效果就像专业的 PPT 设计师生产的内容。
此外,草稿 PPT 美化,也是百度文库新推出的能力。用户只需要将简单的 PPT 给到百度文库,几句话、几张图甚至几个文字,百度文库就可以基于用户上传的 PPT 草稿进行美化和创作,形成一个专业精美的 PPT。在百度文库,未来 PPT 全部的场景和需求,都不再成为任何人的创作痛点。
写报告和写论文一直是很多用户的刚需。百度文库已经推出了专业的长文生成能力,用户只需输入主题,AI 即可自动生成逻辑清晰、内容专业、带有专业图表数据的长篇文章。无论是论文、研究报告还是工作总结,百度文库都能够支持高效生成,并保证内容的专业性和时效性。
打开百度文库,只要输入想创作的主题,AI 便可以迅速生成逻辑清晰的专业大纲,并支持用户编辑。根据大纲,AI 可以迅速生成一个数万字的格式专业、内容丰富而严谨的论文,并带有专业的图表和数据。目前百度文库生成的 AI 长文,引用的图表和数据都有专业的数据源,完全保证专业度,正确性以及时效性都达到了行业的领先水平。
罗兰贝格全球合伙人李冰表示,百度文库的 AI 研报,已经像有一定经验的咨询顾问写出的东西。
在家庭教育场景,AI 有声画本是百度文库非常受欢迎的一项功能,有很多父母用百度文库 APP 制作画本。
譬如,孩子不认真写作业怎么办?AI 可以快速生成一个寓教于乐的画本大纲,基于大纲就能够生成一个画本故事,有配音,甚至还能生成英文版。同时,百度文库的 AI 画本还支持用户上传自定义头像,让每一个孩子都拥有自己的专属故事。这样有代入感的画本,让孩子会更容易接受,家庭教育也不再成为难题。而无论是表现力,一致性,以及人物写实性上面,百度文库智能画本上都达到了行业领先水平。
在教育领域,用户对专业课题不清楚时,希望通过搜索了解更全面的信息,百度文库可以提供资料详尽、内容专业和框架完整的 AI 搜索能力。即使再小众的名词也可以借势清楚。这背后,是文心大模型的领先能力和百度文库数十亿的专业内容。
譬如,如果想全面系统研究三星堆文化,其实非常复杂。而百度文库在一分钟内就实现了整合全网不同来源的信息,然后进行速览、详答、延展,同时给到树状表格和流程图进行结构化的表达,让用户获得信息的效率更高、内容更准确。
最近兼职,也成为许多人生活中的一个关键词,越来越多的人开始寻求在工作之余或课外时间,通过兼职来增加收入,写小说、画漫画也成了广泛的副业。
百度文库有个不完全调研,兼职行业人数和收入排名前三的行业,小说都位列其中。百度文库深耕兼职赚钱场景,智能小说能力可以帮用户快速生成节奏起伏、情节生动的小说,还可以一键转化为漫画,并提供多种画风选择,整个过程非常丝滑。
一位小说爱好者表示,没想到用百度文库辅助生成的 AI 小说,在第三方平台发布能够迅速收获了上万点赞,而他之前从来没有写过小说。还有一个用户在百度文库生成小说后,一个月挣了 2 万元。
这些,都是百度文库在大模型重构后带来的变革——大模型真正与人共创,彻底颠覆了内容生产领域,也让用户的内容创作效率得到了指数级提升。
 

03

内容消费更便捷
在内容消费领域,百度文库和百度网盘也推出了各种有趣、高效,帮助用户消费内容的 AI 工具。
比如,用户以往拿到纸质的内容,想要变成电子版的是一个痛点,现在大部分的扫描软件只是把纸质版的内容变成图像,而现在百度网盘的简单扫描,可以把纸质版内容直接扫描成数字文档版,同时可以对文档进行编辑和加工、对外文文档也能一键翻译,甚至还可以扫描纸质表格,形成 Excel,彻底帮用户实现了不同介质和语种的文件转化、存储和管理。
在工作场景中,会议纪要是一个高频任务。百度网盘推出了简单听记,可以快速帮助用户用 AI 整理音频格式的会议纪要,一键就可以转成文字版,并提供多种专业模板。简单听记还可以自动把会议纪要中关键的数据整理成表格,方便用户迅速吸收关键信息,并可以存储在网盘,或者进行一键链接分享。这个功能一经推出,受到了非常多金融行业从业者的好评,解决了他们在听财报问题上的痛点。
看视频也是日常消费内容的高频场景。以往用户在观看网课视频时,通常需要完整观看整个视频才能消化和吸收学习内容,如果要复习,还需要重新观看视频,既费时又费力。
但是如今,如今百度网盘已支持 AI 自动生成视频摘要和分段总结,能够快速定位并总结视频中的关键信息,还可以生成 AI 课件。用户还可以在观看视频的同时做笔记,大大提高了学习效率。
另外,百度网盘也提供了丰富的功能,帮助用户轻松实现内容分享。百度网盘的一刻相册,可以通过 AI 的图片理解能力,一键生成社交文案,无缝发布到社交媒体上,社交文案还会带有有趣的表情,图文并茂的迅速展示用户想要分享的内容。
AI 多图成片,也是百度文库推出的一项广受好评的功能,可以将多张照片转化为生动有趣的视频,同时实现风格化和个性化。用户可以选择多种风格,让每个人分享的内容都充满独特的个人风格,制作视频再也不是难题。
 

04

全新的内容操作系统
以上诸多能力,只是百度文库和百度网盘上百项 AI 能力的其中一小部分。而所有的功能都可以由三个环节构成:输入、处理、输出。用户只需输入想法,交由百度网盘和百度文库处理,最后输出所需要的内容。
百度文库和百度网盘的宗旨,就是希望帮助用户打破时间、空间、设备、模态的限制。无论何时何地使用何种设备,用户都可以通过任何形式输入需求。跨模态的 AI 处理能力,生成并输出各种形式的内容——无论是图片、文字、声音还是视频,用户可以轻松消费和分享,以最便捷的方式满足自己的需求。
「输入、处理、输出」,这实际上就是操作系统的核心功能。具备了完整的内容输入、输出能力以及多模态的处理能力,百度文库和百度网盘将成为全新的内容操作系统。2024 年 11 月的百度世界大会上,百度正式发布了这一操作系统的 beta 版产品——自由画布。
通过自由画布,用户可以将百度网盘、本地电脑及公域中的各种素材(如文本、音视频、PDF、URL 等)自由拖拽到画布中进行编辑,打破了不同平台、多重格式编辑的壁垒。
比如,《黑神话·悟空》带火了大同旅游业,让很多人开始了解这个城市的魅力。如果想去大同旅游,用户可以通过自由画布轻松生成旅游文案和景点推荐,甚至发起招募寻找同行伙伴。用户只需将大同的相关文本、图片、音频等素材上传,AI 便能一键生成完整的旅游攻略,并根据攻略创作社交文案。

百度文库和百度网盘,也正朝着成为内容生态中的关键枢纽的目标迈进,而在大模型重构下的「自由画布」不仅是创作工具的集合,更是一个强大的内容操作系统,承载着更加自由、灵活、多样的内容生态。

随着技术的不断演进,可以预见,未来的创作不仅仅是传统的「AI 输出内容」。在「自由画布」中,用户不再是单纯的「输入者」和「输出者」,而是与 AI 共同探索创意的伙伴。这种人类与 AI 深度协作、共创的关系,将催生出无数创意的火花,推动各行各业的内容创作迎来一个「自我进化」的时代。
]]>
半岛娱乐登录地址 Fri, 20 Dec 2024 16:04:18 +0800
<![CDATA[大模型落地,苦「最强」久矣]]> //www.ari-az.com/news/344471 没有刷不了的榜,只有还没 over-fitting 的数据集;

没有搞不定的第一,只有还没加够 XX 领域,XX 尺寸,XX 语言的限定词。

尽管自 2012 年深度学习复苏之日起,AI 打榜就成为了行业默认惯例,但历来如此,就是真的正确吗?

去年 9 月,一篇 LLM 味爆棚的反讽文章,在 arXiv 引起轩然大波《Pretraining on the Test Set Is All You Need》,(别搞大模型了),你只需要在测试集上预训练就够了。

吐槽了市面上层出不穷的各种大模型测试榜单之外,这篇论文,直白点名了 phi-1、TinyStories 和 phi-1.5 几个大模型在明目张胆搞榜单造假。

比如,使用测试集中数据提问 phi-1.5,模型会立刻给出一个精准的回复,但只要改变一个数字或者改变一下数据格式,回答立刻变得牛头不对马嘴幻觉频出。

原因很简单,为了刷榜,模型对 MMLU、GSM8K、Big-Bench、AGIEval 等公开数据集,做了针对性训练。

过拟合的 A 面,是让模型在打榜过程中取得了人人都是大模型第一的地位,B 面则是,模型的泛化能力被极大削弱,失去了大模型应有的创造与思考的能力。

大模型落地,苦「第一」久矣。尽管,这已经成为大模型产业心照不宣的秘密。

那么,「第一」真的代表更强的能力吗?所谓的最强大模型真的存在?行业落地,又到底需要怎样的标准?

或许,前赴后继的刷榜本质,是独属于大模型产业的强者傲慢。

 

01

最佳大模型的傲慢与偏见

 

一定程度上,基准测试失真,于大模型而言,表面上看是标准问题,实际上是宣传问题,本质上则是如何落地的商业模式难题。

Scaling law 的主导下,进入万亿参数时代的大模型强者恒强成为唯一的生存密码:根据公开信息披露,仅 GPT4 就有约 1.8 万亿参数,其训练过程,需要消耗约 2.15e25 FLOPS 算力,更直观来说,需要约 25,000 个 A100 GPU,马力全开,训练足足 100 天。以云上每个 A100 GPU 每小时 1 美元来算,理想情况下,一次训练的成本就需要花费至少 6000 万美元。

与此同时,头部大模型玩家,平均两个月左右,就会迎来一次技术或产品的迭代;而形成鲜明对比的是,国内的大模型六小龙,即使如今估值最高的智谱,算上最新一轮融资,其总融资额,也不过 55 亿。

一边是不断膨胀的参数,不断增加的成本;一边是盲盒黑箱式的技术原理,与用户之间的不断加深的认知壁垒。如何在这场强者恒强的生存竞赛中证明自己的价值,打榜自然也就成了最直观的捷径。

但这一切的前提是,大模型落地,真的存在所谓的最强大模型吗?

答案或许是否定的。

技术落地与研究不同,具体到场景之中,强如 Open AI、谷歌与 Anthropic 也不得不面临技术、时延和成本之间的不可能三角。因此面对不同需求,往往对应着不同的最优解法:其中 Anthropic 的 Claude 分为增强版 Sonnet 与轻量版 Haiku;GPT 4o 分为标准版与 mini 版;谷歌 Gemini 则分为增强的 Pro 版与尝鲜的 Flash 版。

而一个违背直觉的数据是,各大模型的增强版与 mini 版,在实际部署中,往往是拥有更低时延与低成本优势的 mini 版本,会更受欢迎。

即使单纯聚焦到技术的单一维度,「最强模型」也同样是个伪命题。在相对客观的物理、化学和生物学、数学、天文等科目中,各家大模型评分往往各有千秋;而一旦将视角转为写作、绘画、视频生成,那么如何评定最优大模型,1000 个读者有 1000 个哈姆莱特。

作为全球最大的云服务平台,亚马逊云科技,就曾注意到:在亚马逊云上,不同开发者往往会关注不同性能,比如,有人会关注更低的延迟、更低的成本,有人更关注模型是否具备微调能力、能更好地协调不同知识库以固定数据,还有团队更关注模型的多模态能力,或者知识扩散迁移能力。

也是因此,什么才是所谓的最强大模型,在一轮轮热潮中,这个话题被反复讨论、被热议、被反思,但从来未被解决。

但可以肯定的是,任何单一维度的「第一」「最强」叙事,都是对复杂场景的简单化。

 

02

Choice is All You Need

 

「最强」=无敌,只是技术至上者的傲慢,以及对用户真实需求的偏见,这一点已经在无数行业中被反复证实。

二十一世纪初期,许多经济学家、产业学家,在观察了日本一众历史优势产业的发展之后都发现了一个怪状:

无论电视机,亦或半导体,乃至汽车,日本无疑是「最强」叙事的顶级推崇者,以及最佳实践案例,但最终的解决却无一例外,集体走向没落。

比如,日本的电视,在显像管时期做到画质最高,却在短短几年被更轻薄的液晶打败;日本面向大型机时代研发的存储芯片,一度做到保质期 30 年,却在消费电子浪潮中被韩国三星质量参差不齐的低价「次品」打败;日本的汽车,在燃油车时代无疑是最耐用、最保值的代名词,甚至是新能源时代,也一步到位发展了最清洁的氢能源燃料电池,却唯独错过了近十年来最大的汽车产业变革热潮——电动化。

为什么「强者」最先被淘汰?生物学家给出了解答——日本产业,陷入了加拉帕戈斯陷阱,一个在如加拉帕戈斯群岛般单一的环境中进化出的「最佳」,往往在面对复杂的真实场景与需求会显得格格不入,乃至不堪一击。

相比「最佳」,行业更需要的是,需求被看见,过程有的选,结果更适合。

就像数据库领域,即使传统的 SQL 数据库已经常年占据统治地位,依然会有各种各样的 noSQL 数据库冒出,甚至在 noSQL 数据库还会区分出图数据库、文档数据库等不同类型。

AI 框架,也是个最好的例子,TensorFlow 之前,cafe 就足以满足市场的需求,但此后 TensorFlow 出现,一统天下,然而,没几年后,PyTorch 就横空出现,从学术领域出发逆袭,成为一代新的框架之王,但与此同时,TensorFlow 以及其他小众 AI 框架,依旧在工业领域占据相当的市场份额。

套用大模型 er 们的经典句式——Choice is All You Need。

亚马逊 CEO Andy Jassy 在不久前的举办的一年一度的云服务 re:Invent 大会上,就分享了这样一个观察:

「在亚马逊内部,所有开发者都有自主选择的权利,原本以为大家都会选用 Anthropic 的 Claude 模型,毕竟过去一年多它在全球属于性能顶尖的模型,确实有很多内部开发者在使用 Claude 模型,但他们也会采用 Llama 模型、Mistral 模型,还会运用自己开发的一些模型,甚至会使用自行研发的模型。」

比如,金融行业更需要内容生成的绝对准确性;大部分企业,则需要在性能与成本之间,做反复的平衡。甚至,同样是绘画,在诸如还原山海经之类场景中,大模型幻觉就是产生想象力的最佳礼物;而在绘制写实风漫画或人物建模,任何的幻觉都会带来最终结果的灾难性失控。

既然评判的标准五花八门,那么与其替用户选择,不如给足用户选择。

 

03

亚马逊云科技的 Choice matters

 

事实上,让客户有的选,是各大公有云厂商都在宣传的口号。但何谓有的选,选择的范围如何,背后的定义却往往各有千秋。亚马逊云科技无疑是其中,最开放、最激进的一个。

在亚马逊云科技,有的选,可以被解读出三重含义。

第一重,性能还是成本,用户有的选。

re:Invent 期间,亚马逊云科技推出全新发布的自研 Nova 基础模型,一共包括 Micro、Lite、Pro、Premier 四个版本。其中,可以做到 210 tokens/s 的 Amazon Nova Micro 是纯文本模型,主打高效级;其余三大多模态大模型中,Lite 主打轻量级,Pro 主打平衡,旗舰模型 Amazon Nova Premier,则主要用于应对复杂任务。

第二重,亚马逊云科技 or 其他,用户有的选是最高原则。

相比自研的 Nova 基础模型,如何支持更多的模型上架亚马逊云科技,才是这场大会真正的主角。

通过将电商中的货架概念用在了云服务与大模型,亚马逊云科技的大模型货架 Amazon Bedrock 不仅上架自家的 Nova 系列,同时还上线了亚马逊投资的 Anthropic 的 Claude 系列。

此外,Amazon Bedrock 提供 Meta 的 Llama、AI21 Labs 的 Jurassic、Mistral AI、Technology Innovation Institute 的 Falcon RW 1B 和英伟达 NIM 微服务等 100 多种业内一流的大模型。

不仅是通用大模型,金融领域的 Palmyra-Fin,翻译明星 Solar Pro,多模态方向的 Stable Diffusion 、音频生成方向的 Camb.ai,生物学方向的 ESM3 生成式生物学模型,也全部在 Amazon Bedrock 上架。

主打一个从自研到第三方,从文本到多模态,从通用到垂直,只要用户需要,Amazon Bedrock 应上尽上。

当然,不只是有的选,最重要的也就是第三层,亚马逊云科技不仅要让客户有的选,更能低成本的选。

如果只是上架第三方模型,那么行业内大部分公有云企业都能做到。

但如何避免云服务企业又做选手又做裁判还当发令员,能够真正做到不偏心自研产品,以用户需求为导向,还需要观察云服务公司究竟如何设计用户选择的门槛。

首先是定价,如何在亚马逊云科技销售模型,定价由模型提供商自行设置。

与此同时,为了降低用户使用大模型的成本以及选择难度,Amazon Bedrock 还提供了自定义微调和 模型蒸馏 (Model Distillation)功能以及多智能体协作工具(Multi-agent collaboration)、自动推理检查(Automated Reasoning checks)等功能。

一方面,帮助企业更好的选择合适的模型,另一方面,加速不同的模型与智能体之间的高效协同。

当然,这种有的选,不止体现在模型侧,在算力、数据库领域同样如此。

比如,在算力上,亚马逊云科技会提供不同层级的 EC2 实例,用户可以根据自身的计算需求选择标准服务器或者更强大的 UltraServer,不必受限于单一芯片平台或算力方案。

数据库方向,亚马逊云科技打破 CAP「困境」,推出无服务器分布式 SQL 的数据库 Amazon Aurora DSQL 以及完全托管的无服务器 NoSQL 数据库 Amazon DynamoDB global tables,尊重客户真正的需求。

从模型到算力再到数据库,一切决策的最高原则都是「Choice matters」,让用户去自由决策。

 

04

尾声

 

在经济学中,有一个有趣的悖论叫古德哈特定律。

其提出背景是,一旦我们过度关注乃至管理一个经济指标时,往往会为了达成这一指标而扭曲真实目的,以至于牺牲其他方面的利益,以至于指标本身失效。

AI 领域同理,当参数与性能变成唯一指标,其强大的扭曲力场会让真实的用户需求被忽略。

尽管,用 AI 替代客服所以更关注成本,用 AI 帮助手残画出想要的画面所以更关注多模态能力,用 AI 帮助企业完成质检优化所以更关注效率这样无数的细小变革,才是 AI 改变世界的真正组成。

而在这一过程中,用户的真实需求被看见,被尊重,有选择,正是一切进步发生的基础。

]]>
半岛娱乐登录地址 Fri, 20 Dec 2024 14:47:02 +0800
<![CDATA[买了 3 副 AI 眼镜的人,心里到底在想什么?]]> //www.ari-az.com/news/344434

站在 2024 年年底,国内「百镜大战」已经正式打响的当下,再谈论 Ray-Ban Meta 似乎已经有点「过版本」,甚至在科技圈,已经很少有人会对「佩戴着 Ray-Ban Meta」这件事感到奇怪。

 

但当你身边十个人中有超过四个人都在佩戴 Ray-Ban Meta 时,还是会产生一种强烈的陌生感。这就是近期我在深圳出差时的感受。

这种场景在手机等消费电子产品的发布会上更为明显:甚至有几个瞬间,我都明显感到身边的 Ray-Ban 的数量,甚至比这款 AI 眼镜在美国湾区的出现频率还要更高。

从观察来看,虽然当前 Ray-Ban Meta 的用户还先主要聚集在科技行业相关从业者之间,但从自媒体博主,到深圳硬件公司的创业者,都分布着 Ray-Ban Meta 的拥趸。

这样的现象之所以「诡异」,并不只是因为 Ray-Ban Meta 是首款做到如此高频率出现的智能眼镜,还有这款产品从未在中国正式开售的事实。甚至 Ray-Ban Meta 也没有在紧邻深圳的香港发售,这意味着购买一副 Ray-Ban Meta 实际上还有相对更高的学习成本。

甚至,笔者碰到有的同行,一次携带两套 AI 眼镜,以满足全天使用的需求。

AI 眼镜确实要火了吗?以 Meta AI 为代表的 AI 眼镜,又是如何让消费者乖乖掏钱的

 

01

 

「四眼」,有了新意义

 

首先需要明确的是,以 Ray-Ban Meta 为首的智能眼镜,其实并不能与以往带有显示功能的 AR 眼镜混为一谈,不然就很容易忽视它们的核心竞争力——在智能功能之外,首先是一副有着高可用性的正常眼镜

在 Ray-Ban Meta 二代发售的初期,海外博主对于 Ray-Ban 的推荐还普遍存在着一种「刻板印象」:你必须先是一个「太阳镜爱好者」,你才有可能是 Ray-Ban Meta 眼镜的目标用户,反之则很难将它作为日常佩戴产品每天使用。

但这个刻板规则在中国就迅速被改变,原因也很简单,中国有着近七亿的庞大近视人群。在高校学生以及互联网行业近视人群的比例更是能突破 80%。

这一「社会问题」,在遇到智能眼镜的普及时,反而变成了一种奇特的「市场特色」:由于对近视用户,佩戴一副眼镜本身已经是属于日常生活必不可少的习惯动作,因此以往 AR 眼镜做梦都在不断追求的「让用户每天佩戴超过四个小时」目标,在遇到中国用户之后瞬间变成了「基本操作」。

除了眼镜这一载体本身所赋予的属性,2024 下半年快速降低的购买成本,也在助推着 Ray-Ban Meta 在中国内地的用户数量爆发。由于国内用户大多还是依靠包括闲鱼在内的国内代购来入手 Ray-Ban Meta,所以在人群中最常见到的,其实还是黑色经典款——百搭配色意味着适合大多数用户,也意味着在大批量进货的代购商眼里最受欢迎,因此售价往往也是最低的版本。

据一位闲鱼卖家介绍,仅闲鱼一个平台,近期每周就能出货超过三百副,他还引入了为用户提供第三方配件以及配镜服务的支持,让更多新手用户降低学习成本与使用门槛。

在这样的大规模出货支持下,当前二手平台一副全新 Ray-Ban Meta 售价仅有 1900 元人民币左右——这个价格已经与售价 1899 元的 AirPods Pro 几乎相同——这更给了一些用户「用智能眼镜去替换耳机」的一个迈出第一步的尝鲜动机。

但这其实还并非当前购入 Ray-Ban Meta 的「史低价」:在黑五或圣诞期间叠加电商平台的返代金券折扣,实际价格甚至能到 1400 元。这让黑色星期五期间,出现不少外媒打出了「买 AirPods 不如买 Ray-Ban Meta」的标题「带货」。

Ray-Ban Meta 降价之后更香了|图片来源:ZDNET

在全天佩戴眼镜成为硬性需求之后,续航成为了明显的短板。Ray-Ban Meta 实际使用续航只有四个小时,因此对于一部分爱好者,购买两副 Ray-Ban 同时使用才是常态。在其中一副眼镜的电量耗尽后,可以从充电盒中拿出另一副「无缝」切换使用。

对于绝大多数普通用户,这样的组合已经足以满足全天的正常使用,但仍然有极少数用户会为了实现真正的多日续航,会再多购买一副,组成两个充电盒三副眼镜的「超级组合」。

一位深圳自媒体博主在向笔者介绍他的这种搭配时,表示如此极致的搭配,目的就是为了在重度录制视频以及通话需求面前,能做到「永远戴着一副眼镜」。

对这些重度用户来讲,目前限制他们的因素只有软件。目前 Meta 限制同一部手机最多只能配对两副眼镜,而大部分用户每天日常生活最常用来接收通知/短信等消息的设备,往往也集中在一部手机上。

他也承认 Ray-Ban Meta 在音质上其实完全不能与 AirPods 相提并论,但已经足够满足电话会议或是微信语音这样的日常通话需求。但他此前在使用 AirPods 时,却从未动过「全天都佩戴着 AirPods」的想法。

「毕竟戴着眼镜对别人来讲不会很奇怪,戴着耳机的话多少还是会有些不方便的」。这里他指的当然是以 AirPods 为代表的 TWS 耳机戴在耳朵上,经常会被别人误认为处于一种「勿扰模式」,对方会因此难以判断是否方便沟通,从而很大程度上影响日常生活沟通的情况。

开放式设计的骨传导耳机倒能避免这个问题,但这类产品往往在与眼镜搭配时容易出现干涉问题,这一点对于眼镜用户来讲并不算特别友好,因此整合了耳机属性的智能眼镜,在满足上述需求的同时,也真正让用户觉得「全天佩戴是一件很自然的事」。

这个产品逻辑其实与近两年华为、小米推出的「音频眼镜」有很强的相似之处——这些音频眼镜并没有过多强调 AI 或拍照相关功能,但同样快速收获了一批用户,并成为智能眼镜市场中销量最高的品类。

国产智能眼镜市场占有率分布图|图片来源:洛图科技

但在 Ray-Ban Meta 之前,鲜有产品在市场上呈现出这种爆发性的增长趋势:这些产品往往难以摆脱小众的标签,即使已经做到细分赛道出货冠军,我们在日常生活中仍然很少能见到佩戴着这些眼镜的用户。

对 Ray-Ban Meta 而言,破解这一困境的另一个重要因素,是它那做到前无古人的「时尚」属性。

 

02

 

人人都爱时尚

 

显然,仅仅是「取代 AirPods」,还并不足以让 Ray-Ban Meta 成为这样一款受到众多用户喜爱的智能眼镜。

大部分中国用户,并没有使用 Instagram 或是 WhatsApp 的习惯,也就意味眼镜支持的各种 Meta 软件增强功能,其实也并非这些中国用户购买的首要需求——在笔者接触到的数名 Ray-Ban Meta 重度用户中,甚至有几位在日常完全不会使用 Meta AI 的相关对话辅助功能。

Meta 手机端配对 App 中提供第一方 App 的功能适配|图片来源:半岛娱乐登录地址

对不少普通用户来讲,自己是否喜欢眼镜外观这件事,显然优先级要比「智能功能是否完善」要更高——这往往是此前众多智能眼镜品牌忽视的一点。

而 Meta 在这一点上展现出了远超硬件厂商的前瞻视野,一直通过与行业内顶级的眼镜配件品牌合作,通过强化 Ray-Ban Meta 的时尚属性来拓展更多的用户群。

在 Ray-Ban Meta 二代发布后,Meta 没有像一般传统硬件一样开始聚焦于软件更新,而是仍然持续投入资源,拓展着眼镜的外观设计,仅今年就发布了三个新镜架款式,并在官网提供了超过两百种的款式搭配组合,让 Ray-Ban Meta 拥有了超过 Apple Watch 的时尚属性。普通用户也更愿意将它作为 EDC(日常随身物品,Everyday Carry)穿搭出街,不会有电子产品自带的浓重「电子产品」标签。

这是除 iPhone 之外,第一次我买数码产品让她很喜欢」,一位深圳的 Ray-Ban Meta 用户,同时也是硬件创业公司员工向笔者介绍到给他最近的女朋友买的新款 Skyler 镜框版本——这就是 Meta 在今年十月刚刚推出的镜架版本,相比男士更加偏爱的经典 Wayfarer 飞行员款以及 Headliner 版本,这款凭借着更加时尚的外观上市后受到了不少女性用户的喜爱。

Meta 于十月推出的新款 Skyler 镜框,受到不少女性用户青睐|图片来源:Meta

除了眼镜镜架款式,Meta 还在一直探索着 Ray-Ban Meta 作为眼镜的时尚属性,例如更有科技感的限量全透明款,如今同样受到中国用户热捧,甚至实际销售价格被炒至 8000 元以上;还有以及根据外部紫外线程度极速变色,在普通镜片与墨镜之间切换的镜片定制选项。

这些都是完全不同于此前智能眼镜的「新套路」,已经随着 Ray-Ban Meta 在世界各地,甚至是从未真正上市的市场大获成功,证明了这是一条可行之路。

在国内市场被炒到超过八千元的透明款 Ray-Ban Meta|图片来源:Meta

 

03

 

已经开启的「百镜大战」

 

从这些实际用户的体验中,其实不难看出,Ray-Ban Meta 在深圳的高频出现,既有用户的快速增长,也离不开用户愿意全天佩戴这一点的加持,大幅提升了它的「出镜率」。

在同时解决了「全天佩戴」与「时尚」这两个关键需求之后,Ray-Ban Meta 快速收获了用户之间的自发认同,并取代了原本 AirPods 的生态位——「毕竟眼镜大部分时候都戴在脸上,自然不容易像 AirPods 一样乱丢」。

毫无疑问的是,在有着众多 Ray-Ban Meta 狂热用户、「人杰地灵」的深圳,同样也在孕育着众多 Ray-Ban Meta 的竞品:据不完全统计,仅 2024 年下半年,就已经有各行各业的硬件厂商涌入这条赛道,希望分一杯羹。

其中不仅有雷鸟、魅族这样的传统 AR 眼镜大厂,也有众多类似谷东科技、影目科技这样的创业公司,乃至像闪极这样此前完全没有 AI 眼镜制造经验的硬件品牌。

回车科技(LookTech)发布的 AI 眼镜,外观设计与 Ray-Ban Meta 高度接近 | 图片来源:回车科技官网

Ray-Ban Meta 的成功与目前 AR 眼镜行业中的一个声音「AR 眼镜将会取代手机」相反,Ray-Ban Meta 能快速收获大量普通用户的一个重要因素,恰恰是因为它完全不能取代智能手机,并且无论是与手机还是手表等设备搭配使用,都能获得不错的体验。最重要的或许还是:它是一款真正能够解放双手的智能硬件。

目前 Ray-Ban Meta 在实用与时尚之间的探索,恰恰说明了智能眼镜正处于从小众的「极客玩具」,真正走向大众消费品的阶段。Apple Watch 早期在宣传上同样将时尚属性作为其主要卖点,但后来随着健康监测传感器的快速小型化与完善,迅速找到「健康/专业健身监测工具」的新定位,并在 2022 年年销量已经突破了 5000 万。

比起新品发布时的轰轰烈烈,或许这种用户之间自发的「安利」,更能提升产品在普通用户之间的知名度,也意味着智能眼镜在「实用」+「时尚」这一组合拳下,真正找到了能够俘获用户的一条捷径。

 

]]>
半岛娱乐登录地址 Fri, 20 Dec 2024 09:04:43 +0800
<![CDATA[苹果就 AI 与腾讯字节谈判;百度、吉利垫付,极越员工获「N+1」赔偿;余承东称智界要打造年轻人 DreamCar|极客早知道 ]]> //www.ari-az.com/news/344432

智界 R7 上市,余承东:智界打造最懂年轻人的 Dream Car

12 月 19 日消息,鸿蒙智行智界 R7 今日正式上市,新车提供 Pro 及 MAX 两款配置(IT 之家注:前者无激光雷达,后者有),售价分别为 24.98 万元和 28.98 万元。

华为常务董事、终端 BG 董事长、智能汽车解决方案 BU 董事长余承东今日在直播中谈到了新车的设计,他称「智界系列的设计团队很多都是 90 后、00 后,用他们的渴望,打造最懂年轻人的 Dream Car」。

据 IT 之家今日早些时候报道,鸿蒙智行智界 R7 增程版汽车尺寸为 4956/1981/1634mm、轴距为 2950mm,该车全系配备座椅通风、加热和按摩功能,副驾配备零重力座椅,支持 18 向调节、10 点按摩,带有长度为 340mm 的可加热式腿托。其全系标配电动遮阳帘,前、后排均含双层隔音隔热玻璃,后排配有隐私玻璃。

新车搭载型号为 SQRH4J15 的 1.5T 发动机,最大功率 115kW,匹配 36.019kWh(官方海报数据为 37kWh)磷酸铁锂电池组,最高车速 200km/h,CLTC 纯电续航为 251km、综合续航 1570km,WLTC 百公里油耗 5.68L。(来源:IT 之家)

消息称苹果与腾讯、字节跳动谈判,希望在中国推出 AI 功能

12 月 19 日,据路透社报道,三位知情人士称,苹果公司正在与腾讯、字节跳动谈判,希望将这两家公司的人工智能 (AI) 模型整合到在中国市场销售的 iPhone 中。

作为 AI 系统 Apple Intelligence 的一部分,苹果从本月开始在其 iPhone 中整合 ChatGPT 聊天机器人。但是在中国市场,苹果的 AI 功能需要与本土公司合作。

知情人士称,苹果与腾讯、字节跳动的谈判涉及使用后两家公司的 AI 模型,这一讨论尚处于非常早期的阶段。科技网站 The Information 在本月报道称,苹果也曾与百度进行谈判,希望在 iPhone 中整合百度的 AI 模型,但是谈判遇到了挫折,原因是技术问题,其中包括双方在使用 iPhone 用户数据训练 AI 模型方面的争执。

截至发稿,字节跳动不予置评。苹果和腾讯尚未回复置评请求。(来源:凤凰网科技)

消息称极越员工获「N+1」赔偿,垫付资金由百度、吉利打入

12 月 19 日消息,据 21 财经今日报道,在有关部门的协调下,极越将按照「N+1」的标准为员工提供经济补偿

其中,N 为司龄起算日至 2024 年 12 月 20 日的服务期限折算,「1」为上个月的基础月薪和津贴(餐补及话补)。截止到离职日尚未享有的年假及调休予以折算。

1、经济补偿:将按照「N+1」的标准提供经济补偿。其中,N 为司龄起算日至 2024 年 12 月 20 日的服务期限折算,「1」为上个月的基础月薪和津贴(餐补及话补)。截止到离职日尚未享有的年假及调休予以折算。

2、工资与社保、公积金:工资结算至 2024 年 12 月 20 日。将为员工缴纳社会保险和公积金至 2024 年 12 月,并在人社部门要求的办理时间前办理缴纳完成。

3、特殊安置:对于处于「三期」(孕期、产期、哺乳期)、工伤、医疗期的员工,原则上保留工作岗位直至相应情形结束,如个人有协商意愿,可联系 jidu@jiduauto.com。

4、履行方式与时间:在相关政府部门的指导和见证下,建立监管共管账户,代集度公司于 2025 年 1 月 20 日之前支付工资及经济补偿,垫付资金由百度、吉利打入。

此前,百度与吉利发表联合声明,表示将以高度负责任的态度,积极协助极越管理层处理员工社保缴纳、离职员工善后问题,以及维护用户车辆正常使用、售后和维修保养。据媒体报道,12 月 12 日,百度与吉利内部已经发起内部转账流程,为极越员工缴纳了 11 月社保。(来源:21 财经)

印尼批准苹果公司 10 亿美元投资计划,将取消 iPhone 16 销售禁令

12 月 19 日消息,彭博社援引知情人士的话透露,印度尼西亚已批准接受苹果 10 亿美元(IT 之家备注:当前约 73 亿元人民币)10 亿的投资,政府将解除对其 iPhone 16 的销售禁令。

知情人士表示,印尼总统普拉博沃在周末的一次会议上听取了有关政府与苹果公司之间拉锯战的简报,批准政府接受苹果的提议印尼,并敦促其内阁在未来吸引更多投资。

他表示,苹果供应商将在巴淡岛开设一家 AirTag 工厂,该工厂预计初期将雇用约 1000 名工人。据称,巴淡岛距新加坡仅有约 45 分钟渡轮航程,这也将使公司免于缴纳增值税和奢侈品税以及进口关税。消息人士表示,该工厂最终预计将占据 AirTag 全球产量的 20%。

除这家工厂外,10 亿美元投资案中另一部分计划用于在万隆建立一家新工厂,以生产其他类型的配件,并资助该国的苹果学院。

消息人士表示,普拉博沃已指示经济事务协调部带头完成交易,但印尼政府尚未就何时恢复 iPhone 16 销售许可提供时间安排,鉴于印尼此前曾撤回过类似决定,这项计划也可能会出现意外。(来源:CnBeta)

OpenAI ChatGPT 变身桌面助手:支持 Xcode、Notion 等 30+ 应用,AGI 彩蛋曝光

12 月 20 日消息,「12 days of OpenAI」活动进入倒数第 2 天,OpenAI 公司主要演示了桌面版 ChatGPT 的功能改进,强调 ChatGPT 正从聊天机器人向 AI 智能体工具进化,让其在桌面环境中高效执行任务并实现无缝协作。

第 11 天活动的主题名为「Work with apps」,宣布 ChatGPT 新增支持 Apple Notes、Notion、Warp、Xcode 等 30 多个应用程序,在视频中还演示了 ChatGPT 如何与 Notion 应用程序协同,提取文档选定部分的内容并生成相关内容。

还展示了 ChatGPT 如何分析 Warp 中的 Git 评论,并以假日主题条形图呈现结果;以及演示了 ChatGPT 在 Xcode 中使用 macOS 辅助功能 API 的能力。

结合此前曝光过的「Super Secret AGI」日历活动,这些迹象都指向 OpenAI 积极布局通用人工智能(AGI)。(来源 IT 之家)

谷歌让 12 个 AI 大模型攒局玩「大富翁」:Claude3.5 爱合作,GPT-4o 最「自私」

给大模型智能体组一桌「大富翁」,他们会选择合作还是相互拆台?实验表明,不同的模型在这件事上喜好也不一样,比如基于 Claude 3.5 Sonnet 的智能体,就会表现出极强的合作意识。

而 GPT-4o 则是主打一个「自私」,只考虑自己的短期利益。

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体,这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似,但相对简单,玩家只需要对手中的「资源」做出处置。这当中,虽然每个玩家心里都有各自的小九九,但作者关注的目标,是让总体资源变得更多

测试下来,作者发现基于 Claude 的智能体种群的平均资源量每一代都稳步增长,总体合作水平越来越高。

相比之下,基于 GPT 的智能体种群合作水平总体呈现下降趋势,看上去非常「自私」。

基于 Gemini 的种群表现则介于二者之间,它们的合作水平有所提高,但和 Claude 比差距还是很大,并且表现不太稳定。(来源:量子位)

TrendForce:2024 年 VR、MR 头戴产品出货量预计约 960 万台,同比增长 8.8%

12 月 19 日消息,根据 TrendForce 今天发布的最新调查报告,2024 年 VR 与 MR 头戴设备的出货量预计将达到约 960 万台,同比增长 8.8%。

在这一市场中,Meta 的 Quest 系列产品将继续占据主导地位,以 73% 的市场份额稳居第一,而 Quest 3S 将成为推动该系列产品出货的主要动力,预计年增长率将达到 11%。

此外,索尼 PS VR2 则以 9% 的市占率位列第二,但由于功能支持不够完善和应用场景受限,今年的出货量预计将下降 25%。

苹果 Vision Pro 虽然产品价格高昂且应用资源有限,但仍以 5% 的市占率成功拿下出货量第三名。

TrendForce 预估,苹果最快将于 2026 年推出新一代的 VR 与 MR 产品,可能包括高端与主流两款设计。这将为 VR / MR 市场带来新的竞争格局和更多的选择机会,预计将进一步推动市场的发展。

分析师表示,全年出货情况反映出市场三个主要趋势:一是低价产品成主流;二是应用从娱乐扩展至多元生产力工具;三是 OLEDoS 成为高端近眼显示产品技术首选。未来几年这三大趋势将持续影响全球 VR 与 MR 产业生态发展。(来源:IT 之家)

消息称一位三星员工因曝光 Galaxy S25+ 手机实拍图遭解雇

近来关于三星 Galaxy S25 系列手机的各种爆料消息不断,这也促使三星对内部进行一系列整肃行为,消息源 Max Jambor 透露,目前有一位三星员工因为在曝光 Galaxy S25 系列手机工程机实拍图时,忘记遮挡工程机序列号,遭三星查处并解雇。

据悉,这是一款 Galaxy S25+ 机型,照片主要展示了该机的底部「下巴」,并带有相关工程机序列号内容,不过并未展示其他有价值信息。

12 月 18 日报道,爆料人 Evleaks 今日放出了三星 Galaxy S25 系列手机发布会邀请函,最新的 Galaxy Unpacked 活动将于当地时间 2025 年 1 月 22 日在美国举行。(来源:IT 之家)。

闪极 AI「拍拍镜」智能眼镜发布:接入数十家大模型,售 999 元起

12 月 19 日消息,闪极今晚正式发布新款 AI 智能眼镜——闪极 AI「拍拍镜」,零售价 1499 元,共创版售价 999 元(春节前限量 5 万台),打卡返全款代金券、90 天无理由退货,今晚 10 点开启定金预售。

从官方介绍获悉,这款新品采用更符合亚洲脸型的人机设计「佩戴舒适」;配备弹簧镜腿,贴合不同头型,适合不夹脸,镜腿超高自由度翻折;配备「无感」气垫鼻托,多种尺寸、不压鼻梁。新品采用经典风格,可搭配各式各样的磁吸镜片。

这款新品搭载全球第一款 AI 记忆系统「录眸 OS」,支持 AI 云盘、AI 闪记、Al Agent Store 等功能,云端 AI 中心接入数十家大模型,支持接入私有 Al 模型。其中,AI 云盘支持云端全量存储每天所拍所录,实现全链路端云一体加密。(来源:IT 之家)

微信灰度测试“送礼物”功能 :商品限价 1 万元,不支持珠宝及教培小店

 12 月 19 日消息,微信小店近日灰度测试“送礼物”功能,并于 12 月 17 日发布了相关使用指南。

据了解,除了珠宝首饰、教育培训类目外,其余微信小店商品将默认支持“送礼物”功能,且商品款式原价不得高于 1 万元。

具体来看,满足规则的商品和店铺将自动开通“送礼物”功能,用户轻触“送给朋友”拉起“确认礼物”页面,选择款式、浏览金额、选择朋友并完成支付后,礼物即自动送出。收货地址由接收方填写,在收下礼物前,接收方还可以选择更换该商品下价格相同的其他款式。(来源:IT 之家)

人类首份月背古磁场信息:中国科学院嫦娥六号月球样品最新研究成果登上《自然》

12 月 20 日消息,中国科学院宣布通过分析嫦娥六号月球样品获得了人类首份月背古磁场信息,相关成果于北京时间 12 月 20 日凌晨在线发表于国际学术期刊《自然》上。

论文摘要:

月球发电机(即月球磁场)的演化对于解读月球深部内部结构、热历史和表面环境至关重要。先前对月球正面采集的样本进行的古地磁研究已经确定了月球磁场的大致变化。然而,有限的时空古地磁约束使月球发电机的演化变得模糊不清。

嫦娥六号任务带回了首批距今约 28 亿年(Ga)的月球背面玄武岩,为研究全球月球发电机演化中一个关键的时空间隙提供了一个独特的机会。

在此,我们报告了从嫦娥六号玄武岩中获得的古强度(约 5–21 μT),提供了来自月球背面的第一个磁场约束,以及 3 到 2 Ga 之间漫长间隔内的关键锚点。

新结果记录了磁场强度在之前 3.1 Ga 左右急剧下降后出现的反弹,这证明了中期偏早期阶段(约 2.8 Ga)存在活跃的月球发电机,并反驳了月球发电机可能在 3 Ga 后一直处于低能状态直至消亡的说法。

该结果表明,月球发电机最有可能由底部岩浆洋和 / 或岁差驱动,可能还辅以其他机制,例如地核结晶。

新华社指出,这项成果填补了月球磁场中晚期演化的数据空白,为研究月球磁场演化、探秘「月球磁场发电机」提供重要依据。(来源:新华社)

 

]]>
半岛娱乐登录地址 Fri, 20 Dec 2024 08:42:23 +0800
<![CDATA[AI 教育的「iPhone 时刻」,就是现在?]]> //www.ari-az.com/news/344415 因材施教,是从有教育这个概念开始,人类就一直有的教育梦想。

然而受限于现实因素,在过去,将教育普及到所有人身边,已经十分困难,因材施教更是一个梦想。

在过去十年间,通过互联网尤其是移动互联网的普及,教育普及,已经有了极大的进步。而目前的AI时代,我们第一次看到了因材施教的曙光。

成立于 2014 年的高途集团,就是教育普及浪潮下的先行者。通过独创"在线、直播、双师、大班课"的模式,高途将优质的教育体系带向了 9000 万学生,让他们的人生通过教育得到了改变。

步入 2024 年,已经有十年教育经验的高途集团,对于 AI+ 教育,也有了新的思考。

高途教育科技集团联合创始人罗斌,在 12 月 14 日,来到半岛娱乐登录地址 IF2025 创新大会,分享了他对AI教育的观念。

他表示,在过去,教育即使经历了很多变化,而真人老师教学,学生自己吸收内化的结构并没有变化。而今天,这样的结构很可能会发生新的改变。AI能够助力教育走向个性化、导航化、集成化、专业化。下一个时代的智慧教育,一定会从以老师为中心,转换到以学生为中心。

以下为罗斌在半岛娱乐登录地址 IF2025 创新大会上的演讲实录,由半岛娱乐登录地址 整理。

 

AI+教育,什么变了,什么没变?

大家好,我是高途教育科技集团联合创始人罗斌。

高途是一家成立于 2014 年的科技教育公司,今年刚好是我们创立的第 10 周年。

在过去的10年时间里面,高途已经累计服务了 9000 万的学员。从去年开始,我们正在开拓线下业务,包括中国国家跳水队的运动员,今天也是高途的学员。高途今天面向从幼儿到小学、初中、高中、大学和成人,比较广泛的人群,提供了丰富的教育产品。

高途集团经历过十年时间,完整经历了互联网和科技对于教育这样一个传统行业带来的一些变化和变革。

在最早期,计算机更多地是作为教学过程的辅助系统存在。

有了互联网以后,它打破了时空的限制。

而有了移动互联网,短视频+直播这样的技术带来了更多的变化和变革。

但是在过去这么多年里,有两个基本的变量是没有发生变化的:

第一,教育的构成是通过真人老师和学生的教学互动过程来完成的。

第二,知识的掌握和吸收内化是靠学员自己来完成的。

这就会导致不同学生,在同样老师、同样课程的安排下,取得的效果会有巨大的方差。

而今天,到了 ChatGPT 大模型时代,我们发现,这两个变量正在发生一些新的变化。

教育这个行业的本质,是为我们的学员带来变化。这个变化可能有不同层次,可能是认知层面的变化、可能是技能的变化、可能是考试结果的变化,也有可能是从底层的人格层面上带来的根本性的变化,这一点是没有变化的。

高途教育科技集团联合创始人、高级副总裁罗斌 AI 给教育带来的改变|图片来源:半岛娱乐登录地址

在传统上,要帮助不同的人,实现他自己的改变目标,其实挑战难度是比较大的。

大家都比较熟悉互联网网课。在网课这种模式下,大家会发现虽然我们的老师很优秀,课程很优质,但学员的完成度非常低。所以在很多年的时间里面,虽然很多企业、很多学校在尝试通过互联网的方法来传播知识、传播课程,但并没有取得非常好的效果。

在高途过去 10 年创业的过程中,我们对这样的 MOOC 网课产品模式,进行了创新和升级,形成了「在线、直播、双师、大班课」的模式。

通过在线,实现了优质老师资源的更大覆盖;通过直播,实现了学员更好的沉浸感和互动感;通过双师,也就是一个主讲老师+一个辅导老师,我们可以帮助一个学员形成更好的学习习惯,帮助他坚持学习,在他需要帮助的时候提供相应的陪伴和答疑的服务;通过大班的模式,我们可以发挥整个互联网规模化的效应,在商业上是一个更加高效的方式。

在互联网时代,我们通过这样一种产品和业务形态的创新,帮助学员带来比较好的效果。

不过今天,我们走到了AI大模型时代,大家开始更关心另一个问题:AI 和教育的结合会带来什么样的重要变革?

我们看到了很多教育企业和AI的合作,包括可汗学院、Duolingo 这样的企业,都在和 AI 进行深度融合,一些科技大厂的一些中高层也在积极的投入到教育赛道的创业过程中来。很多行业的从业者,都会有开始担心,我的商业模式、我的产品业态会不会被颠覆,我的企业的发展和生存会不会面临巨大的挑战?

AI+教育,下一个阶段怎么走,我也没有确定性的答案。但综合 AI 时代的变与未变和我在高途的十年经验,我认为,下一个时代的智慧教育变革,关键可能在几点发生变化:个性化、导航化、集成化、专业化。

个性化、导航化、集成化、专业化

我们可以展开来看。

首先就是个性化。我们刚才提到,在传统教育中,要帮助不同的人,实现他自己的改变目标,其实挑战难度是比较大的。

而我相信,下一个时代的智慧教育,一定有一个非常重大的变化,就是从以老师为中心或者以学校为中心,转换到以学生为中心。

我们刚才也提到,同样的老师、同样的课程安排下,有的同学可以考上清华北大,有的考上二本。这是因为每个学生学习能力、学习状态、学习节奏存在非常大的差异。

在AI时代之前,我们的教育重点,可能地在将教育普及到更多人这个方向——也就是解决更多有没有或者好不好的问题。但是下一个阶段,我们可能真正要解决问题是怎样能让每个人都取得很好的学习效果。

这可以分为四个层次:学习效率、学习体验、学习习惯、学习动力。理想的学习效果,是能够让学生愿意主动坚持学习,同时有好的学习效率,最终才能获得好的学习效果。

理想的学习效果所对应的理想的教学状态,是有一个非常优秀的导师根据学生的实时学习状态,给他提供非常个性化的教学和引导。这个老师需要全知、全能、全心。这个老师知识水平没有任何问题,教学技巧没有任何问题,投入度和教学状态也是保持在一个非常理想的状态。

这样的老师本身在现实中,很难寻找。

这样还不够,我们还需要从课程的研发,到学员的诊断,到规划,到学习,到练习,到测试,完成一个完整的 PDCA(计划/执行/检查/行动)的循环。

这个过程本身也非常复杂,我们常常很难对一个学生真正学习状态和当前他的知识水平掌握的程度有非常深入的了解。

这两者都是AI未来可以在教育中起作用的地方。

我们现在就有一个非常重要的基础设施—— CDP(客户数据平台)。可以收集学生简单的特征,比如说年龄、性别、兴趣爱好,偏好等等,而如果我们在CDP中收集到每个学生在知识点上的掌握程度和水平,未来更有可能提供一个真正意义上的个性化的教学服务,

第二个可能的关键要素是什么?是导航化。

我们想要帮助学生,从目前状态,走到到学生需要的状态。以自动驾驶为类比的话,我认为教育本身,未来应该能够通过建模和规划策略,做到高确定性的稳定交付,这就是导航的概念。

举个例子,我们的学员想去考雅思,我们现在观察到学员的听说读写四门加在一起是 5 分的水平,但是想要申请海外的一所优秀院校,需要雅思 7.5 分,怎么能够让听说读写这四个科目上都提升到一个理想状态?

我们对考试本身进行建模。假如说每个科目里面都有 100 个知识点需要进行考试,我们去了解道每个知识点重要度是什么,考试中得分点是多少,权重是多少。同时我们去了解,每个知识点难度是多少,如果从 0 到10分的话,应该打几分。

当知道重要度和难度之后,我们将其转变为一个规划问题。

我们根据学生的能力,尽量把学生有限的时间花在得分点比较高,同时难度比较低的知识点上,这样就能在有限的学习时间里面取得好的效果。

接下来是集成化的概念。

要完成真正意义从A状态到B状态的过程,只靠老师和学员自己来去完成的话很难的。

拿我们看病作比方。比如说今天我们身体不舒服,我们希望能够改善自己的状态,我们会去医院。但医院并不只有医生。我们可以回想一下整个旅程是什么样的。我们先去挂号,然后去到门诊跟医生进行交流,他会给你开一个单子,我们接下来需要去做验血或者拍X光,拿到结果之后,医生再给你做进一步确认,最后给你开一个药方,然后领药,回到家吃药,过一段时间再来复检。如果比较严重的问题的话还需要动手术。所以在医院是非常多角色来去协同,为你提供服务的过程。

教学场景也是,除了直接教学服务的老师以外,还有两个非常重要的东西是督学体系和辅助体系。

督学体系就是帮助学员做目标的管理、诊断的规划、过程管理、激励反馈等等这一套东西看似并没有提供直接的教学服务,但是他在外围这一套配套的东西能够让学生保持良好的学习习惯和效率非常重要的一套内容。

另外为了让过程变得更加高效和体验更好,需要有一些辅助手段完成这个过程。比如说个性化的工作,一些游戏化、互动化的设计,都是让整个过程变得更加高效和有效。

为了实现这样一个过程的话,我们需要能够去提供多场景的解决方案的融合,上课课堂上应该怎么跟他进行一个互动,在课前、课后应该提供什么样的配套服务,在线上到线下怎么提供配套的融合。

为了解决这个问题,我们也提出了一个解决方案,我们称之为名师系统力,这是一个名师的角色,但是名师背后有教员老师,还有 AI 大模型、系统化配套的内容,通过完整的解决方案,我们才有可能为学员提供端到端的能够有效达成这样一个结果的逻辑。

所以这里面我们必须要考虑在整个的教学互动的整个过程中,我们如何能够把每个环节都能够变得更加高效和有效。AI的能力在这个里面是能够起到非常重要的作用。

最后,是专业化。

优秀的老师是稀缺的,想要实现理想状态上的个性化教学,我们很难去解决优质的老师的供给问题,而且哪怕是优秀老师它的状态、它的时间,它在每一个专业的维度和知识点上表现也会存在差异。所以为了解决专业化问题以外,除了专业化老师以外,需要通过 AI 和真人相结合的方法来去混合的提供教学服务。

我们如何跟 AI 相结合?不同的AI能力调用方式带来效果差异是很大的。

以地图导航举例子,有三种不同的模式:一、AI by Human Loop,AI作为工具辅助人完成驾驶。二、把 AI 能力设计到链路中,就像开车过程中打开导航,当需要右转弯时就提示你,这个过程是由人和AI共同协同完成。终极状态就是类似于智能驾驶,绝大部分的情况下都是由 AI 来去完成驾驶过程,真人只需要在必要时做一些介入和干预就可以了。

今天很多人把注意力放到大模型的一些底层的能力上,但是对绝大部分的从业者而言,大家可能需要更多去思考,假设我们今天有了非常强大的AI能力之后,如何把它集成到整个产品和业务链路中,能够为客户真正创造价值,能够为业务创造价值,这是比较重要的问题。

今天大家讲 Agent 概念比较多,我对 AI Agent 的理解是,端到端完成特定任务专业化的、数字化的劳动力。

还是以医疗行业做类比,比如说今天身体不舒服,进到一家药店,如果今天得的感冒,他给你感冒药,你服用身体就会变得更好。如果你是支气管炎,你就吃支气管炎的药,每个药品解决针对性问题不一样。

今天,有了 AI 的能力,有了 Agent 这样一个模式,我们未来有无数的能够完成特定任务的数字化的劳动力,这种劳动力如何能够集成到你的业务链路里面,能够在组织里面合力的调用,带来效果存在巨大差异。

教育场景也是类似的逻辑,在不同的节点上,在不同任务中,我们都可以尝试用AI能力来去帮助我们去解决不同类型的问题。有些类型的问题比较简单,它可能提供的只是简单辅助逻辑,有些问题比较复杂,需要人和AI更加复杂的协同,才能取得预想的效果。

很多人都在关心教育这样一个赛道,因为这个赛道的规模很大,而且是一个相对刚需的市场,但是不同的企业在这个生态中可能选择的生态位存在区别,今天提供的是保健品还是药品,还是开一家药房,还是开一家医院,还是开一家医疗集团,还是做一个面向这样一个行业的供应商,采用不同的商业模式,你在这个行业里面取得的效果是不一样的。

已经在教育行业中的或者对教育行业有兴趣的一些从业者、创业者,都应该仔细思考一下,我们该如何选择,如何结合好AI能力和商业模式定位。

高途使命是让学习更美好,点燃兴趣 + 培养习惯 + 塑造人格。

我们希望借助AI的力量,能够不仅帮助学员掌握知识、取得很好的结果,还能真正从底层去改变一个人的认知模式,去改变一个人的大脑结构和认知模型,让这个人在底层算法维度和模型维度成为一个不一样的人。这个对教育而言更重要和更有挑战性的命题。

借助AI的力量,高途集团希望在接下来 10 年里,帮助学员们都成为更好的自己。

]]>
半岛娱乐登录地址 Thu, 19 Dec 2024 16:27:08 +0800
<![CDATA[具身智能出不来「 ChatGPT」,为什么?]]> //www.ari-az.com/news/344405 2024 年,具身智能无疑是 AI 领域里最火热的新赛道之一。

相较于目前大语言模型在数字世界里带来的技术变革,具身智能描绘了通往未来世界的另一条路径:大量具有智慧的机器人出现在真实的物理空间中,通过参与到人类生产、生活的各个环节,改变人类的生活方式。

但和大语言模型可以利用海量互联网文本、图像资源进行快速学习不同,在具身智能领域里,机器人缺少低成本、高效率、多样性、可泛化的学习数据。

如果只基于 Transformer 架构的大语言模型(如 ChatGPT),人类无法实现具身智能。海量物理正确的训练数据如何快速获取,是迈向具身智能前的世界级难题。

13 年前,黄晓煌回国创业。回国前,他在美国伊利诺伊大学学习 GPU 计算,也在英伟达做过云计算。他一开始的创业方式,是希望用 GPU、云计算来做物理仿真,但在当时,极少有人可以理解 GPU 通用计算的价值。于是,黄晓煌用 GPU 进行光学仿真,并应用对家装场景里,把过往需要几十分钟的渲染提速到了 10 余秒,自此开始了群核科技的创业之路。

多年后,凭借着在家装渲染、工业 4.0 生产对接中积累的海量数据,在具身智能的技术巨浪袭来时,群核科技终于脱下「家装公司」的外壳,浮出水面。他们希望可以在数字世界和物理世界中间,搭起一道桥梁,通过海量可交互的、物理正确的三维数据,推动具身智能的发展。

以下是群核科技联合创始人兼董事长黄晓煌在 IF 2025 主舞台的演讲全文。在演讲中,黄晓煌分享了群核科技的创业故事,以及他们对具身智能时代的思考。由半岛娱乐登录地址 整理。

 

ChatGPT 解决不了的 「叠被子困境」

大家好,我是半岛娱乐登录地址 的老朋友,来自群核科技的黄晓煌。今天我介绍的主题是:如何让 AI 从数字世界走向物理世界。

大模型到来之后,所有人都想知道它能为我们做什么。我们的下一代已经成为了「AI 原生娃」。我女儿刚学会认字,但她已经能很自然地对着各种镜子和屏幕喊「小度小度」或者「小爱同学」了。

但他们目前还只能跟虚拟人物进行沟通,我们更希望孩子们跟物理世界有更多互动,有真实的陪伴。可惜即便 AI 现在已经可以吟诗作画,但就算叠被子这么简单的家务,机器人都实现不了。

当我们谈到具身智能或者机器人的时候,「叠被子困境」是一个非常典型的场景。

目前的 ChatGPT 大语言模型,可以很容易地让机器人理解人类的指令,「给我叠一个被子」,它也可以通过视觉判断哪床被子是叠好的、哪床被子没叠好,但它很难执行。或者当它学会叠一床被子后,换个形状可能就又不会了。

机器人的大脑在数字世界里,但身体却在物理世界中。解决这类问题,最关键的是在物理世界和数字世界里面建立一个桥梁。而 ChatGPT 一类的大语言模型是无法实现的,我们需要一个全新的大模型。

让机器人正确理解物理世界,关键是要有海量可交互的三维数据。很多大语言模型都是根据互联网上的语料信息、图片或视频训练出来的,但这些内容只是一堆静态的记忆,训练出来的东西跟物理世界是相违背的。

这里有一个简单的例子,左边是由 Stable Diffusion 大模型生成的卧室场景,右边是由我们的矩阵 CAD 引擎生成的。乍一看都挺漂亮的,但左边这张存在多处物理不正确的地方:比如有的床头柜悬空、有的柜门无法打开。我们需要在大模型脑海里呈现右边这种内容,来指导真实的生产制造。

Diffusion 模型生成的图片和视频,目前还存在和许多物理 bug | 图片来源:群核科技

 

群核的创业之路:家装公司收到硅谷来信

说说我的个人经历吧。我一开始在美国伊利诺伊大学香槟分校学习 GPU 高性能计算;后来去英伟达做了 CUDA;回国后成立群核科技,做了 3D 云设计平台;现在又在关注具身智能。

经常有朋友问我,为什么你选择这样的创业路线?我想说,在中国创业没办法太阳春白雪,要脚踏实地跟着时代走。

刚开始创业的时候,我想用 GPU、云计算来做物理仿真。但是回国一看,发现当时投资圈热门的都是移动互联网、O2O,我所想做的项目根本融不到钱。跟投资人讲 GPU 通用计算,在那个年代几乎就是对牛弹琴,更不要提物理仿真了。

后来,我们想到了用 GPU 来做光学仿真,把原来需要几十分钟、一个小时的效果图渲染提速到了 10 秒钟,为家装设计师提速。这个「家装 OTO」的概念,很快成为了资本最推崇的项目,帮我们融到了很多资金,让酷家乐成功上线并成为了设计师首选的设计工具。

下一步,我们抓住了工业 4.0 改革里,传统工厂打造柔性生产线的需求,用我们的数据帮助工厂进行升级。我们用物理仿真、数字孪生,把每一件商品拆解成一个个零件,通过流水线机器人以及传送带实现柔性生产。

但这依然不够,因为这些工厂里所有的机械臂都是没有智慧的。你告诉它往左就往左、往右就往右,机械臂是没有智能的。一旦进行微小的改动,所有一切都要重来。所以,现在的无人工厂实际上还不是真正的无人工厂。

那段时间我非常苦恼,但我们已经见识到了物理正确数据的价值。直到有一天,我看到马斯克提出用人形机器人在工厂生产汽车,就觉得工业 4.0 的下一步是把流水线机器人变成人形机器人。我觉得这是未来,而群核科技就是这些所有机器人训练的「道场」。

 

群核科技的空间智能探索之路 | 图片来源:半岛娱乐登录地址

这些年我们做 3D 云设计平台,尽管路径一些曲折,但也积累了海量的三维数据:3.2 亿个 3D 模型、不计其数的物理正确的三维场景、月活接近 8000 万,服务了 200 多个国家和地区。我们在这个过程中始终相信,物理正确的空间数据是可以用来训练大模型的,我们的科研人员也一直在训练,在等待一个机会。

2018 年,我们的科研人员跟帝国理工、南加州大学共同发布了一个室内智能数据集方案。这是当时全球最大的室内场景认知深度学习数据集,一下子在学术界很热。

有一天,我们收到了一封硅谷最大公司的邮件,希望跟我们进行空间智能的合作。当然我们甚至怀疑是骗子。几万亿美元的大公司,怎么会找一家创业公司合作空间智能。但这的确是真的。在合作的过程中,我们发现了这些大公司在解决了算力、算法问题之后,他们面临的问题是,缺少海量的、可交互的、物理正确的三维数据。

我们跟目前全球这个领域最靠前的公司基本都达成了合作。这两年,中国的空间智能、具身智能也爆发式地增长,我们也跟国内头部公司达成了合作。这个时候,我觉得技术奇点到来了,我们的机会也来了。

 

具身智能的世界级难题:数据

我们发现,现在不管是空间智能还是具身智能,有四个最关键的问题需要解决:算法、算力、数据、机器人硬件。

算法层面,目前是百花争鸣的状态,有非常多算法。

算力层面,国外以英伟达为代表,国内也有地平线等公司在快速地解决这个问题。我觉得算力已经过了技术的奇点,可以支撑人造的智慧了。

机器人硬件层面,中国更是独霸全球。

而目前世界级难题的是:如何给机器人提供用来训练的可交互的数据?这就是我们要去解决的。

群核科技联合创始人兼董事长黄晓煌 | 图片来源:半岛娱乐登录地址

目前用来训练具身智能的方式,主要有两种

第一种,以斯坦福大学的 Moblile Aloha 为代表,它通过用设备来采集人在物理空间中的动作,来训练机器人。但是它的采集成本非常高,而且空间非常受限。

第二种,也是目前学术界比较火热的,通过仿真数据来做机器人的训练。目前新一代的算法论文都是基于这个逻辑,李飞飞的文章也都是这个逻辑。因为它才真正可以实现在海量的空间里面做物理训练,让机器人能够拥有足够多的适应性。

相比真实的训练环境,仿真训练主要有以下四个巨大的优势

第一,低成本。假如用一个真实的空间训练一个机器人,那么每训练一个场景都要盖一个真实的房间,那这个成本实在太高了。

第二,高效率。在物理世界里,时空是确定的。如果训练一个机器人需要 1 天,那么训练 1 万次就得 1 万天,时间没有办法压缩。但在数字世界里,时间是可以被压缩的,物理世界里要用 1 万天跑完的数据,数字世界里也许 1 天就可以跑完。

第三,多样性。在现实世界里面,要找到各种各样不同场景是非常困难的。如果我们想训练一个机器人去火星上帮人类干活,但没有办法先把一堆设备送到火星上去提前训练。合成数据解决了多样性问题。

第四,可泛化性。李飞飞发表的文章里提到了「数字表亲」的概念,可以生产类似的场景进行训练,从而实现举一反三。否则我们训练出来的机器人只能在一模一样的房间里干活,离开了那个房间,还是啥都不会。

相比真实场景,仿真数据用于具身智能训练拥有诸多优势 | 图片来源:半岛娱乐登录地址

那么,群核科技的核心优势是什么?我们为什么能一起参与这个有意思的征程呢?

我们通过多年的 3D 云设计平台,积累了海量数据,用这些数据训练了自己 CAD 的大模型。这些大模型可以阅读人类的 CAD 文件、图片、手绘等,然后把这些内容再转换成物理正确的空间场景。我们也自建了 1 万多台高性能计算服务器,专门用来训练、推理、渲染。我们希望用物理正确的合成数据,来帮助所有具身智能的机器实现训练。

今年,我们推出了新版本的 SpatialVerse 来赋能 AI 空间智能。因为传统的三维数据太「干净」了,没有办法直接用来训练机器人。我们需要 AI 对这些原始的数据进行物理增强:告诉机器人哪里是抽屉可以打开,可以打开多少程度;物体的重力是多少;哪里是门可以打开,是往里开还是往外开等等。

其次,在机器人训练的时候需要有各种语义信息在里面,过去都是人工标注,现在要用 AI 给它自动标注好。

另外,环境加强也很重要。我们平常人生活的环境不是像 3D 世界里面那么纯净的,包括你的房间里面有纸巾、有动物的毛发等,但是在数字世界里没有,你要把它以某种方式加回去,让一个空间不是一个纯净的空间,它需要更接近于真实的空间。

最后是隐私问题。前阵子全球最著名的公司之一被曝出在采集物理数据的时候,不小心拍到了房屋主人上厕所的视频。合成数据就没有这个问题,它不会涉及到人类隐私的问题。

我们今年和上海人工智能实验室一起发布了具身智能训练的新范式,多模态的 3D 数据解决方案,就是大规模的动态场景生成,渲染+物理真实感以及高分辨率的场景分割。这里面的空间场景都是基于我们 SpatialVerse 的解决方案。

具身智能未来将进入更多场景中 | 图片来源:半岛娱乐登录地址

我以上展示的这些肯定不是空间智能、具身智能的全部,它只是开始。具身智能还会进入到我们更多的场景,除了在我们工厂里面工作,还会进入到我们的商业空间里、办公室里,家庭里。未来,我们的生活场景里面会充满了空间智能、具身智能的机器人。

当然,所有的使用场景都需要丰富的物理正确的三维数据给它们训练,因为大家不希望一个没有训练过的机器人在你家里面。一个 300 公斤重的机器人,万一发起疯来,谁都受不了,所以我们得确保它在足够多的空间里训练过,才能够进入到我们工作生活的环境里,这是非常重要的。

我相信未来肯定是具身智能、空间智能的时代,我相信从生产制造再到商业空间再到我们家庭场景,它会充斥到我们每一个角落,就像叠被子那一刻被机器人完美地解决了之后,机器人就会解决我们日常生活中各种各样所需要的问题,我也希望群核科技能够成为中间重要的推力之一。

欢迎各位小伙伴跟群核一起走向技术的彼岸。

]]>
半岛娱乐登录地址 Thu, 19 Dec 2024 15:49:45 +0800
<![CDATA[好产品与时代共振|2024 年度极客最爱好物]]> //www.ari-az.com/news/344404

 

 

 

 

 

 

]]>
半岛娱乐登录地址 Thu, 19 Dec 2024 15:47:24 +0800
<![CDATA[对话阿里国际站总裁张阔:AI 时代的电商应该怎么做?]]> //www.ari-az.com/news/344392  

面对 AI 的汹涌浪潮,所有中小外贸企业都在关心一个问题:「AI+外贸」最终会形成的最大变体是什么?

十月底,阿里巴巴国际站全新升级了全流程 AI,发布了 4 款 AI Agent,核心是围绕外贸生意中,商家最关心的发品、接待、营销、风控四个外贸环节做了改进,实现了外贸经营的托管。

这反映了阿里国际数字商业集团在 AI 布局和落地上的迅速。在大模型浪潮之后,阿里海外迅速拉起一支 AI 队伍,分为 ToB 和 ToC 两个方向,分别由阿里巴巴国际站总裁张阔和阿里海外 ai business 负责人张凯夫负责。

对于阿里 B 端海外电商要怎么做 AI、以及如何做到一款真正能帮人做生意的 AI,阿里巴巴国际站总裁张阔对半岛娱乐登录地址 分享了他的思考。

在他看来,当前市面上大部分的 AI 产品,还只是一系列提效的小工具,停留在帮人做一些重复性的琐碎工作、提升某个单点环节的效率。而阿里国际站此次则将 AI 升级为了助手,它能够实现更一站式的托管和提效。

阿里国际站成立于 1999 年,是阿里巴巴集团的第一个业务板块。它伴随着中国外贸需求的崛起,早期产品就像「365 天不落幕的广交会」,核心是在信息层面,将中国外贸商家连接给全球采购客户。2017 年开始,阿里国际站开始深入交易层面,推出全球金流、物流等履约服务,向一个交易平台转变。

张阔正是在此时加入国际站、并推动了这次业务转型。在此之前,他在淘宝负责开放平台,也参与了淘宝从线上网站向交易平台的转变。国际站在转型之后,业务价值大增,目前平台交易额较当时有 100 倍以上增长。

在张阔看来,AI 会是一次更大的增长机会。除了线上交易外,目前外贸交易的线下环节,比如交钱易货、寻找供应商等,都能通过 AI 继续线上化。他认为,阿里国际只实现了 AI 时代 B2B 生意形态的 10%。这个 25 年历史的业务,正加速扑进新的技术浪潮中。

在与半岛娱乐登录地址 录制的一期播客中,张阔聊到了 AI 时代电商的布局和打法、国际站的历史和关键转型、海外政策变化和结构性机会、以及中国外贸商家的新机遇等。以下是访谈实录:

 

阿里国际站总裁张阔|图片来源:阿里国际站

 

B2B电商痛点更多,用AI来改造的意愿更急迫

半岛娱乐登录地址 :2022 年底大模型浪潮出现的时候,你当时感受怎么样?你怎么思考AI对电商业务的改变?

张阔:我们思考 AI 大模型本身,它像是一个搜索的生意、还是更像是个云的生意?

搜索本身就是一种应用,只需要一家就足够了、占据 90% 以上的市场份额,剩下都是长尾的。而云就不会只有一家,会非常多,且各自提供的服务不一样、成本会越来越低。我们去看大模型,可能更像是云的生意。

随着成本的不断降低,云服务本身不是终点,云上应用提供的价值才是终点。如果没有上面的应用,其实云本身也没有意义。所以我们结合自身特点,肯定是要开发应用。

AI 应用与传统应用相比,有哪些差别?我们觉得有三个方面,第一是对数据本身的理解和使用。第二是交互模式,与以往不同、更加简单。第三是商业模式本身,AI 会极大地影响未来的商业模式。

半岛娱乐登录地址 :对于数据的理解和使用,具体是指什么?

张阔:可以从买卖两端来看。买家侧,最早所有的平台,其实本质上都是搜索引擎。从一个标题开始,在标题下罗列一堆商品或店铺列表,然后将用户需求分发给各个商品和商家,最后在私域中完成交易。这是互联网购物最初的范式。

现在至少有一个变化是买家的需求。很多买家进入平台时,其实并不清楚自己的需求是什么。比如一个 B2B 的买家,它可能是一家创业公司,有一个创业的想法,但并不确定要做什么。他可能想买一台机械自己用、或专门售卖跟圣诞相关的商品,接着它有预算和利润的考虑等,用原有的搜索引擎模式,至少没法在一个平台里完成这些。

现在,我们基于对买家信息的进一步理解,以及对全网数据的整理、蒸馏和重新训练,可以帮助它找到真正的灵感是什么,以及对应的供应商和履约方式。

另外商家侧,机器了解所有外部每时每刻的供需,基于这些供需写的商品描述,肯定比买家自己写的长篇大论要强。最终能提高整体的搜索、推荐效率。所以这是基于对数据的理解、以及新的交互范式提供的新产品。

半岛娱乐登录地址 :电商的核心是搜推广,所以你们改的第一步是搜索?AI 最能解决这件事?

张阔:肯定先改变它,因为这是平台的起点。只不过不同的搜索引擎,切入点或解决问题的方向不同。原来的搜索引擎是快速给用户一个反馈,把全网信息整合,然后基于 PageRank(页面排名)给出 2 万个回复。

但今天,比如你要搜 Forklift(叉车),不再是立刻给你一串商品的模式了。它可能先给你一些商品推荐,然后进一步问你的实际需求,比如你需要的叉车容量是多少?需要几吨的?什么能源类型?是站着操作还是坐着操作?你的大概预算是多少?想在什么时间拿到这个产品?基于所有这些需求,它会为你生成一份推荐的产品和商家列表。

你在这个列表上选出几个感兴趣的对象,我们会帮你把比较这件事做完,直接生成 RFQ(询价单)、跟商家沟通。到这一步,商家拿到的信息,就已经是层层过滤的、接近真实的买家需求。这对双方都是一个效率更大的事情。

半岛娱乐登录地址 :在匹配效率、搜索效率上,AI能提升多少?

张阔:首先,我们根据平台的搜索数据和买家需求,为商家重写商品详情,流量就会好一些。目前优化了 700 多万件商品,支付转化率提升了 50%。

其次,我们把搜索功能推全到整个海外用户,从搜索到询盘回复的转化率提升了 30%~40%。这也是一个显性的、肉眼可见的变化。

半岛娱乐登录地址 :在搜索这件事情上,为什么我们现在看到的国内电商平台改得不多?

张阔: B2C 跟 B2B 也不一样,B2C 也许现在这个体验,就是最好的体验。

如果让你多轮交互找到一个最好的商品,这件事本身你也要花一些精力,但如果关键词一堆,你挨个逛,这也是一种体验。因为你的商品足够丰富,而且消费者大概想要什么东西,它自己就能想象出来。

B2B 的考虑的因素会更多,它下一个决策的金额更大、商品更复杂。如果有一种新的交互方式,能够把它原来需要下沉到跟各个商家去聊的问题,在前期就解决了,这对它来讲就是一个好的体验。那如果是一堆现货放在一起,你就是把它做一个排序,你去体验购买、然后结束了,也许那就是一个更好的选择。

我觉得不一定说有了 AI,所有范式都要改写。我觉得这也是不对的。

半岛娱乐登录地址 :B2B 可能比 B2C,在搜索上改变的意愿更大?

张阔:因为它的痛点更明显,这个事就是必须要解决的问题。

半岛娱乐登录地址 :你谈了很多搜索的改变,那广告和推荐有什么改变?

张阔:推荐跟搜索差不太多。广告侧,就是要改变商家从选关键词开始、进行互联网广告的投放过程,因为那确实是过去范式,没有什么道理。你让销售找到客户说,要买这一页 A4 纸的关键词,可能不是双方想要的。而且人群差异非常大,不同的人的关键词都不同。最终一定是商家在投放时定好预算、ROI,剩下的都由机器完成。

半岛娱乐登录地址 :它会比专业的投手要做得更好吗?

张阔:第一,它至少让新投手们更加接近专业的投手。第二,它会简化大量的人来操作盯盘。今天看到的所有数据,它的转化、ROI 都比人好。因为不同的行业之间差异比较大,所以不是一个统一数字。

半岛娱乐登录地址 :你们在商家侧拎的AI场景有四个,发品、广告、沟通、风控,后两者怎么做?

张阔:沟通上可以用 Copilot 润色你所有沟通内容,或者你晚上打开 Autopilot 自动巡航,早上起来你就看见有很多东西已经聊完了。这个产品帮助买卖询盘的总量至少是 2000 万以上。

风控上,每年各个国家都有不同的规则,你发布商品的时候显示侵权,其实是你对规则不知情、经常有商家抱怨和投诉(店铺)分被扣完了,这些信息其实可以通过大模型更早给你预警。

半岛娱乐登录地址 :总体上是用AI简化商家操作门槛、提高效率,之前跨境电商流行的半托管和全托管模式也是这样。最终AI会不会变成一站式托管,形成全新的商业模式?

张阔:因为我们今天讲的是上半程,就是你要定义发布和营销的产品、让买家来了接好这个询盘,更多的是通过数字化完成的。但下半程,会涉及到跟很多外部金融机构、物流承运商等等打交道,才能完成物理世界的最终履约。我们也有半托管的服务,帮助商家解决这些问题。最终上下半程合在一起,才能帮卖家降低门槛。

在 B2B 领域,我觉得我们不可能帮助商家去代操所有这些事情。尤其涉及到订单贸易,因为卖家这个产品可能在做的时候是不存在的,不是一个现货放在仓库里面、我就把你运出去这个状态。所以商家最重要的是要掌握经营主动权。

半岛娱乐登录地址 :在海外电商公司里,你们在 AI 的布局跑得比较快,为什么可以这么快?AI 会成为海外电商业务竞争的关键吗?

张阔:快慢从时间上讲,不是最核心的问题。最核心还是你找的这个问题对不对,以及用这个产品、技术是不是能解决这个问题。如果你能解决这个问题、PMF 找对了,市场推进的速度就很快。接着客户可以给你更多的反馈,让你产品迭代速度进一步加强。

我觉得对于核心问题是什么,我们想的比较清楚。比如我自己可能一年见上百个客户,很了解大家深恶痛绝的问题。另外,我们本来就是全球化生意,我自己可能一半时间在国外,跟硅谷有很多交流。我见过大家怎么解决业务问题、最好的产品和体验是什么样的,它们已经在市场上验证过了,所以我们也不用走很多弯路。

 

国际站的转型:让全球贸易也能变得跟网购一样简单

半岛娱乐登录地址 :国际站诞生于1999 年、是阿里的第一个业务,那时候中国的外贸需求是怎样的?为什么会诞生国际站?

张阔:外贸存在非常多年了,1999 年现在看来是一个关键拐点。那一年,民营企业出口占中国出口总额的 1%。而今年民营企业出口占中国出口的 64%,过去这些年间有很多东西在驱动变化。

比如数字化,1999 年互联网方兴未艾,你想找到中国的东西几乎就没有。马老师最早创业,从中国黄页开始,后面一步一步做到 alibaba.com,解决了当时信息不对称问题。

比如 WTO,整个中国供给、基建快速蓬勃发展,整个制度侧的改造和迭代,有企业家精神和愿意参与到全球贸易里的人越来越多。从结构上来讲,他们也更能满足全球多元化的需求。

但如果你在 80 年代,可能一屋子人里边能总结出大概三种需求,但今天没有两个人穿的是一模一样,从里到外,这就是差别。为什么是这样?因为全世界需求越来越多元化、碎片化。这种变化它也只有民营企业能够敏锐的、第一个把握住,也只有中国多元化的供给,才能满足全球企业、个人日益多元化的需求。

我们就是在这个宏观变化中间的一个环节,既享受这个时代红利,也通过平台推动更多人加入到这个大市场。

半岛娱乐登录地址 :有人说你们是「365天不落幕的广交会」,核心是在信息层面,将海外买家和外贸商家连接起来?

张阔:最早当你要提到阿里巴巴国际站这个生意,你可能想到的第一支队伍就是中供铁军,去地面做地推。因为那时候 alibaba.com、互联网,让那些工厂的老板相信数字化经济可以做外贸这个事情,本来对他们的理解难度就很大,平台又没有这么大的影响力跟知名度。

很多销售进去可能最早的体验都是,工厂养一条狗、先要跟狗周旋,怎么能进到工厂里见到老板,去讲这个数字化这件事。

半岛娱乐登录地址 :似乎到了2017 年,你们才开始从信息层面深入到交易层面,为什么当时会有这个转变?

张阔:信息不对称是基础,在此之上还要去解决效率、信任、安全的问题,所有这些问题放在一起,是我们平台演进的一个原始动力。

另外产品本身,打磨和找到 PMF 是要有一个过程的。你要同时搭建一个团队、组织,真正把这事做出来,然后让市场上更多的人去接受这件事,本身也需要花时间的。

2017 年的这个节点,第一就是阿里国际站这个组织,大家所有知识和认知的储备是足够的。第二我们对于技术本身的理解、该怎么去打造这个产品、怎么设计更符合全球重要企业的需求,也准备好了。外加整个中国商家 B2B 出海需求,也是日趋迫切。

原来都通过线下方式走,日子也过得下去,因为你自己面对面到银行去能解决问题。后来越来越多的中小企业参与,那种解决方式对他们来说就成本、门槛过高了。整个这个世界肯定是从低效率的地方迁移到高效率的地方,那我们有个更高效的方式去牵引,整个事情就是水到渠成了。

半岛娱乐登录地址 :一些外贸商家会说货款是比较大的问题,对方下了订单、但是没有打钱,你们是不是看到了很多这样的痛点?

张阔:当然。做这个生意的第一个难点就是我要把大量的钱,给一个远在天边的、你也不太认识的人,那我怎么保证这个这笔交易的安全性?这是第一性原理。

以往解决这个问题也有方案,就是买家、卖家到银行开个信用证,到什么条款的情况下,银行就可以拨款。但为了做这个信用证,买卖双方的体量都需要大一些、金额规模也会比较大,这意味着可能服务的订单和客户群体有限。

国际站服务的客户是以中小企业为主,让他们每一笔订单跑到线下银行开一个信用证,难度很大。我们相当于是把所有线下信用证的这些事情进一步的简化,让外贸像网购一样简单。今年一年,所有银行开的信用证加在一起,也没有我们平台的 B2B 订单规模大。因为它更普惠、有更多人可以使用。

半岛娱乐登录地址 :你2017年加入国际站,正是转型发生的时候,你怎么推动这个进程?

张阔:我最开始在淘宝负责开放平台。2010、2011 年左右,淘宝主要的思路也是怎么从原来一个网站、升级成一个平台,让更多的合作伙伴进来、商家有更多的工具等等。我进来后一路上帮助淘宝做平台,建立服务商家的生态体系,最后当上整个商家事业部的总经理。

所以对于要怎么把一个网站变成平台,我是有点经验的。2017 年我加入阿里巴巴国际站,切到 ToB、海外商业,基本是一个大的对角线。虽然 ToB 跟 ToC 差异非常大,但中间也有非常多可以复用的部分。比如交易系统里谁先交钱、谁先发货,这跟淘系其实碰到的问题是一样的。

我们把整个平台从一个像黄页的网站,变成一个真正现代化的 B2B 交易平台,这是我们过去 7 年花精力比较多的一件事。

半岛娱乐登录地址 :这个从信息走到交易的过程,给国际站带来的影响如何?交易额出现了怎样的增长?

张阔:今年 9 月份,跟 2017 年 9 月份比,交易额肯定是 100 倍以上增长。因为我们是一个 25 年的业务,如果看过去五年的增长,每年大概年化 20% 以上。最近这 7 年的成绩,肯定是未来过去这 17 年加在一起的很多倍。

因为你原来的价值非常薄,那你本身的收益也很小。而你提供的价值越多,你本身的收益也越大。这是相辅相成的。

半岛娱乐登录地址 :过去一段时间国际站增长比较好,跟数字化转型有怎样的关系吗?

张阔:过去一段时间(2021-2022 左右)比较特殊,很多供应链受到影响,买家跟卖家之间的关系断掉了。而中国是恢复生产时间最早的,所以那个时间节点对中国民营企业是很大的机会。

在全球整个供应链在重组期间,国际站是全球买家的第一心智,所以平台就会跟着一起增长。我觉得更重要的是过完之后,整个中国和整个阿里巴巴国际站都是踩上一个新台阶,而不是红利结束、回到原点。

它核心的机会可能还是三点:第一是打造更简单的交易平台,让买家跟卖家两边越来越普惠、更多的人可以参与。第二是随着人工智能技术的新一轮迭代,里面有巨大的新机会。第三是供给侧变得更多元,慢慢从一个中国卖全球的平台、变成一个全球买全球卖的平台。这是我们一直不停推进的三件事。

 

国际环境在变化,更多新外贸机遇在涌现

半岛娱乐登录地址 :你在国外考察过程中,有没有什么值得分享的发现?

张阔:我觉得首先是对整个国际贸易大方向的判断和理解。现在新闻看到的是脱钩了、贸易战了、有关税了等等,这个到底对我们意味着什么?以及面向未来,到底什么东西是不变的趋势?

我们 9 月份,刚在美国做了一个 CoCreate 活动,请了 2400 多个海外中小企业到现场。每个中小企业过来,车票、住宿、门票等成本至少在 1200 美金以上。但尽管成本这么高,我们刚开始卖票瞬间就没了,我们带过去的所有样品也是一扫而光。

这说明,海外客户对中国比较有创新的、高性价比产品的需求量是非常大的。2400 个企业就是 2400 个不一样的需求,B2B 的需求天生比较多元化、长尾,所以整个中国丰富、长尾供应链,在全球范围内的竞争力非常广阔。

如果讲其他的国家跟区域就更是了。比如欧洲、拉美、亚太,每个区域对于整个商品需求的结构还是有很大差别的。

半岛娱乐登录地址 :不同海外区域对于整个商品需求的结构有什么不同?

张阔:美国和欧洲一大类的需求就是消费类需求,中国所有这些新奇特的、有创造力的、智能化的新产品,比如 3C 等等相关的产品,需求量很大。它没有太多非消费类的,比如跟汽配、机械相关的需求。

对于发展中国家地区,比如像拉美、东南亚,可能是反过来。所有这些建造类的、五金类的、 MRO 类的,它们的需求量可能要大过消费类。

所以从国际站上来讲,我们其实也是一半消费类的,一半非消类,整体的成交额都在增长。但是每一种结构都有一些迭代和变化,其实每个时间节点可能答案都不一样。

半岛娱乐登录地址 :你们重视哪些市场?

张阔:我们对买家所在国的选择标准有三个:第一是 GDP,这是 B2B 生意的一个上限,如果 GDP 不大,就没有什么太大意义。第二个是政策的相对稳定性,这个可预测性对于 B2B 也很重要。第三才会去看增速,墨西哥或者整个拉美区域,这三点满足得还可以。

半岛娱乐登录地址 :对于中国的外贸商家来说,它们可以怎么抓住新机遇?比如可以去做哪块更有增长的市场?

张阔:国际站的外贸商家供给有三类;一类就是原来传统贸易转线上的;一类是内贸转外贸;一类就是创业者,觉得出海这个方向想象空间非常大,作为创业第一站就来干这件事。

比如一个 60 后商家让人记忆深刻。他做气体压缩机,是一个相对比较专注的领域。我们基于大模型、从国际站上的需求出发给他提供建议。比如可以做新能源相关的压缩,这在海外是一个新兴需求,他后来找到了更多的客户群体。

还有一位 90 后商家,在国际站上开店,只用半年时间,就冲进了这个品类里的 TOP50。他原来做过一点外贸,但基本是出来自己创业,基于整个国际站选品、重新去打造自己店铺和生产线。我们看到它对 AI 的应用非常充分,在平台上属于成长的商家。

通过 AI,不同类型和种类的商家,都可以快速找到一个新增的路径跟赛道。原来的拦路虎,至少可以很快被智能化方式解决。核心还是要找到自己的供应链能力,对于产品、市场的理解,定义好自己的机会,这是最重要的事情。

半岛娱乐登录地址 :AI能对国际站上的数据形成一种消费洞察,反过来影响商家、工厂的供给端吗?

张阔:这些数据都可以给商家作为一个参考。我们也可以基于它店铺、商品,以及买卖双方的沟通带来洞察,对于商家肯定是一个增量机会。但现在技术更多还是一个助手作用,做决策的还是这个老板本身。

半岛娱乐登录地址 :怎么看么国际宏观环境的变化?它会怎么影响中国外贸商家、国际站自身业务?

张阔:放在全球 30 万亿美金的庞大贸易商业体量下,任何一个经济体都是个位数的影响。从海外买家的视角来讲,核心还是看你产品的不可替代性、你的创新力、你的服务力是否足够高。这样无论你有什么样的成本,比如关税成本,也没有太多可以担心的。

我觉得国内最引以为豪的、这些年沉淀下来的大护城河,就是产业能力非常强。任何一个国家和地区想要复制,不是一个年的单位,至少是十几年、一代人的时间。

比如墨西哥这十年,生产制造 GDP 在全球范围内从 1.4 到 1.6,本质变化不大。它的核心瓶颈也是没有足够大的产业工人群体去承载。北美也是一样,比如要在底特律重新开始生产制造,那边产业结构、工人能力可能还需要更长时间。与其要担心很多未来不确定性的事,还不如关注当下、把自己核心能力做好。

半岛娱乐登录地址 :怎么理解B2B 生意未来的增长空间?

张阔:B2B 全球贸易肯定是一个 30 万亿美金的市场。如果从这个视角来看,它的数字化渗透肯定还在一个很早期。今天在平台交易侧、AI 这一侧,我们可能只进展了 10% ~ 20%,未来还有很大空间。

半岛娱乐登录地址 :怎么推动一个25 年历史的业务不断生长?创新的源动力是什么?

张阔:我们最近在讨论文化的迭代,就是我们这波人平时应该怎么样做事,怎么样思考问题。我们希望大家能达成共识的八个字,一是求真务实,二是自我超越。

求真务实就是当前我们解决了一些问题,有一些知道怎么解,但还有更多问题需要进一步的探索和定义。因为跨境 B2B 就是很复杂,上千年前就一直有贸易,数字化是最近这 20 来年的事、智能化是最近这一两年的事,怎么把已有技术应用到这个最有历史感的大业务赛道上,还有很多需要探索的地方。

自我超越就是每一个决定,至少能带来一个肉眼可见的变化。比如现在我们做的事情,如果带来 30% 以上的增长,才可能算解决对了问题。从最开始 PC 到无线化、后来从黄页到交易、现在从数字化走向智能化,叠加到足够长的时间长度、就会发生质变。

半岛娱乐登录地址 :你对国际站的期待是什么?

张阔:我觉得还是求真务实和自我超越。不是向外求,而是向内求。如果能做到这 8 个字,过一段时间再回来看,应该都是不小的变化。

 

]]>
半岛娱乐登录地址 Thu, 19 Dec 2024 13:26:38 +0800
<![CDATA[潘乱对谈小宇宙CEO Kyth:播客是在饱和时代,提供稀缺价值]]> //www.ari-az.com/news/344391  

整理|黎诗韵、Jesse

编辑|靖宇

 

过去两年,中文播客呈现一种加速破圈的趋势。从人群的角度来说,越来越多明星、喜剧演员、品牌机构、知名企业家投资人等纷纷做播客。从内容的角度来说,它渗透到影视、科技、商业、品牌、消费等众多圈层,触达更多听户。

针对播客的发展趋势、国内外播客生态差异、如何设计播客产品等问题,在半岛娱乐登录地址 IF2025 创新大会上,国内最大播客 App 小宇宙的 CEO Kyth、以及头部播客栏目「乱翻书」主理人潘乱进行了一场对谈。

「播客整体上成为了一个更加为人所知的媒介形态。」Kyth 说。

2020 年初,小宇宙产品上线,逐渐成为中文播客 APP 的第一名。谈到为什么能脱颖而出,Kyth 提到当初设计产品时就试图找到重大创新决策上的最优解。比如针对当时播客产品两个未被满足好的痛点,一是内容的发现,二是同好之间的交流,对此小宇宙推出了单集推荐内容、评论区、个性化情感化设计等功能。

当下,美国的播客市场极为繁荣,如马斯克、扎克伯格等社会名流都在录制播客,且大多以视频播客形式。在 Kyth 看来,美国视频播客繁荣背后,一是它代替了部分用户看电视的需求,播客甚至比一些电视内容更接地气;二是随着美国短视频发展,视频播客的切片可以带来更多传播和收益。

但中国可能有所不同。从内容角度,大众要的未必是政治、文化内容。从媒体形态角度,中国的视频、直播生态发展得更为成熟,可能不需要视频播客来传播。

在他看来,目前中国播客发展还在相对小众阶段,还有太多的内容和领域没有被覆盖到。这也正是新的播客创作者的机会。他们可以是某个领域比较高认知的人,也可以是身边的普通人——如果他们能够给观众 30 度角仰望的感受,也是有内容价值的。

而这一切的前提、以及小宇宙未来最重要的目标,还是吸引更多听众进来。「这个是飞轮的起点,听众是引领一切的东西。」他说。

 

Kyth 和潘乱在半岛娱乐登录地址 IF2025 创新大会上|图片来源:半岛娱乐登录地址

 

做一个「突出重围」的播客产品

潘乱:如果回到小宇宙 4 年前创业的起点,当时国内对于播客的接受度,我觉得可以用「陌生」来形容,大家知道播客在中国最早是 2005 年土豆那会儿,还是视频 App 上传的概念,怎么就走到了今天,大家相对更熟悉、更普适的状态?播客在中国的用户规模跟市场认知有什么样的变化?

Kyth:我觉得其实从大盘的角度上来讲,(播客)还是小众。小宇宙播客从上线到现在四年半以来,我会觉得播客在很多人群圈层中的渗透是不断增加的,它整体上成为了一个更加为人所知的媒介形态,也成了一种我们获取信息,包括获得一些快乐、慰藉的一个非常重要的渠道。

但从大众的角度上来讲,我觉得它还处在从小众往外拓一点点的位置。我觉得它处在一个我们 5 年前预想的节奏里面,我们觉得播客的成长大概就是这么一个节奏。

潘乱:「旧时王谢堂前燕,正在飞入寻常百姓家」,播客听众的画像应该怎么形容?科技?先锋?我感觉播客有点像早年杂志的那种感觉。

Kyth:对,就是对各种各样的事都会有一些好奇心的人。我以前也是一个杂志迷,中学的时候会买各种各样的杂志,其实都是对某一块垂直领域的事有好奇心,所以会想找一个集中的渠道来了解更多。

潘乱:其实播客这个事情不只是小宇宙做,中国有非常多的音频平台也都曾试图做过播客,比如喜马拉雅、荔枝、网易云、QQ 音乐等等,包括字节和快手也都上线过独立的播客类的音频产品,为什么今天小宇宙生存下来了?你怎么思考这个市场以及小宇宙是怎么做差异化,走到今天的?

Kyth:分两个话题来讲。第一,我觉得现在还远远没有到最后,所以也不能说只有小宇宙生存下来了,可能后面还会有更多的大厂对播客进行这样那样的一些尝试。但我觉得创业公司,很难以竞争为核心的思考维度去想我该干什么,这相当于一直在应对不确定性,但我们应该用确定性去应对不确定性。

2021 年的时候有一些大厂做了播客产品,但我们从一开始就预想到会有这样的情况,我们立项的时候就想过,如果大厂来做这个东西,我还剩下什么。所以我们从一开始就想得比较清楚,首先我到底什么东西要跟别人做的不一样,我们认为会有人来听播客,播客有得做的原因是什么,什么东西原先市场上的解决方案做的不够好?

我们在 2019 年底、2020 年初的时候调研下来,有两件事是当时市面上一些解决方案不够好的,一个是内容的发现,另一个是同好之间的交流。

对我们来说,我们在上线的时候就把内容发现做了一个比较大的改动,我们和当时的播客产品比较大的区别,就是我们用单集的形式来推内容,而且我们非常强调编辑推荐。这可能和市场上其他的解决方案都不一样,这是根据当时播客受众的一些特点和播客创作者的特点做的阶段性决策。

第二是评论区。当时很多其他产品都告诉我们,对于窄众的兴趣类内容,对于引发强烈个人情感的内容,评论、社区氛围是非常重要的,能做出一些差异化。所以我们把这个东西用在播客上。当时的一些小创新,包括评论区的时间戳,点击之后可以直接跳到对应时间的评论,这也是一些针对内容消费提效的点。

第三是设计,个性化、情感化的设计,大家会看到自己收听节目的收听时长有个排名,我们还会给这个排名赋予一个诗句,这些东西都是我们在第一年的时候想做的差异化的点,这些差异化的点到现在,对我们都依然是重要的创新。

潘乱:我八年前是在创业做最右,当时我跟投资人讲的故事,说中国像网易云音乐、像哔哩哔哩,它们最初在内容本身上没有独占优势,之后都是靠评论构建了社区氛围,靠用户的参与度,让这个社区变的不一样。我觉得今天最能体现这一点的产品就是小宇宙了,小宇宙的评论区让我感觉就像网易云音乐、哔哩哔哩。

Kyth:我觉得你说的很准确,(网易云音乐和哔哩哔哩)这两个产品给了我们一些启示。

潘乱:你第一点说的是你们更重视单集,而非节目。为什么在小宇宙主播的个人页面里面,封面不是显示我每一集单集的封面,而是统一显示节目的封面图像呢?

Kyth:我澄清一下,单集是指在推荐的时候用单集推荐出来,让用户在发现一个节目的时候,首先发现的是它其中的某一集,而不是一整个节目,这样他的决策成本会低一些。

第二个问题,我前段时间正好跟一个朋友聊过这个话题。

第一,我们非常重视节目的品牌感,我们要在 App 里合适的位置更多地露出它的 LOGO,如果我们在节目详情页的单集列表里面,每一个小图都展示它的单集封面,节目 LOGO 的品牌感就会减弱,这是其中的一个考虑。

第二,当我们做生态的时候会考虑界面上,产品形态上的每一个改动,这些改动会在生态里面向创作者传递什么样的信息,因为他可能会理解成我要去「卷」这个东西(单集封面),我觉得现在对于播客主播来说,可能我不希望他把时间精力过多地花在单集封面这件事上,所以对我们来说,这里有很多取舍。

第三,现在我们的设计里面,这个图比较小,单集封面也展示不全,我也看到在另外一些产品里面,这个图展示的面积更大一点的时候会更好看一点,所以这也是阶段性的产品决策。

潘乱:小宇宙还有另外一个非常细节的产品设计。如果你是一个主播的话,你会发现你的个人页面就是你的主题色,不是小宇宙默认的蓝色,好像你为每一个主播专门设置了他的主题,当然可能是由产品完成的,我的意思是,这些种种差异化是基于当时的一种推理,还是基于你的审美?

Kyth:我觉得更多还是科学上的推理。我们把做产品当成是一种探索,比如我们在 2020 年这个时间段要做一个播客产品,要活下来,要赢过原来大家手机里默认会装的一些产品,我们这几年还想要好好发展下去的话,就要在任何决策上,都想办法追求一个相对最优解。

所以,比起千篇一律,我们就会选择主题色,我们就会选择让创作者感觉更好,让一个创作者更了解小宇宙,更认同小宇宙是一个更懂播客的平台,我们不只需要比其他方案好两倍,可能需要好很多倍,可能我们就需要在各种各样的场景想得更多一点。

潘乱:回到播客本身,相较于文字、视频等各种内容形态,播客更独特的价值是什么?似乎它能够带来慰藉,给大家提供情绪价值,这会使我们越来越需要播客吗?

Kyth:我觉得肯定是。声音,包括播客这种长音频的内容,它首先就具备老生常谈的几个特征:亲密感、信任感、陪伴感。我觉得这种魅力顺应了这个时代(背景),大家可能会有更多人生的困惑,比起上一代人会觉得更难一点的时候,播客从内容上让大家睁眼看世界,了解不同的人,不同的世界、不同的职业、行业。

以及我们听喜剧节目,可以获得一些欢笑、放松,又或者还有倾诉型的,一些更加安静的节目,让我们晚上睡前获得一些慰藉、宽慰,发现原来这个世界上还有比我更苦的人。我觉得这些东西都可能是这个时代非常需要的,在过去的两到三年里,也在印证这样的趋势。

越来越多的人了解小宇宙、了解播客,未必是几年前最火的那些节目,有很多可能就是比自己大一两岁的哥哥姐姐在声音的世界里阐述一些他的困顿、他的难处,这就足以让一个大学生,一个刚步入职场的新人,去获得很多价值。

潘乱:我记得你之前在演讲里面提过,互联网可能让更多人变的越来越不开心了,你们做过哪些让用户觉得更开心的产品设计?

Kyth:开心更多靠内容创作者,我们做产品,就是尽可能把这个生态塑造成让人有家的感觉,让人来了小宇宙之后感觉会变得更好。

比如刚才提到的收听时长排名的设计,收听某个节目 100 小时以上的听众会有一个标志,显示在评论区里面。包括语音评论,主播可以向单个用户回复语音评论,这些设计都是想把这个产品做成一个,你能够每天都想要打开一次,有「回家」感觉的产品。

互联网上很多产品已经不再提供这种感觉了,它在这个时代可能是稀缺的。你说快乐也好,或者让不开心变少也好,总之就是希望我们的产品、内容,能给用户带来稍微好过一点的感觉。

 

Kyth 和潘乱在半岛娱乐登录地址 IF2025 创新大会上|图片来源:半岛娱乐登录地址

 

播客内容,还有更多蓝海

潘乱:很多创作者关注一个问题,好内容怎么被发现,小宇宙怎么持续发现好内容,平台怎么平衡人工跟算法的推荐?现在的榜单似乎是一种有效的手段,我看很多主播都期待着有没有上榜?

Kyth:一个是容器,一个是算法。容器就是产品功能,还是会进行更多迭代,包括明年有更多变化。在推荐分发上,则主要是内容与人的匹配、标签设置,我们更加了解用户、了解节目。现在有一些中心化的设施的比重其实在下降,今年编辑推荐在首页上的权重是往下降的,明年还会有更多动作做出来。

这个过程中最重要还是在一个创作者越来越多,听众越来越多,大家兴趣分化的背景下,尽快把对的内容找到对的听众。让更多节目找到听众,让更多的节目能做下去,且有新的创作者进来做。

潘乱:现在尽管播客领域的头部并不大,但大家会觉得,已经有很多头部播客的情况下,一个新主播、新节目如何去获得关注跟流量呢?随着越来越多新节目新主播的出现,小宇宙怎么平衡这种分发机制?

Kyth:主要看「能够为什么样的人提供什么价值」,今天很多播客崛起,有一些趋势,我们之前也没怎么料到。今年有一个播客叫《独树不成林》,一位政治学者,话题挺宽泛的,就是表达欲和表达能力非常强的一个人。

哪怕是在现在,2024 年底,还有太多的内容,太多领域还没有被播客覆盖到,包括有一些领域在去年和前年,播客覆盖程度可能只有 3 分,今年到了 5 分。包括一些男性的品类,像电竞、游戏、体育,都是刚才说的这种级别。

另外一些领域,比如 AI、科技、商业、品牌、消费,今年我们看到他们在稳健的发展。有一些领域,包括互联网、流量领域,想要找一些最优质的内容,最懂的人,这些专业人士都已经在做播客了。

所以从今年开始,播客已经越来越成为某一个领域的专家最适合表达的渠道和平台,因为这个地方有足够的时长,可以让你非常沉浸地,深度地去聊 45 分钟或者 1 小时以上,且你会遇到有耐心的听众。这个是良性的循环。

如果你是某个领域里面相对比较懂、TOP 认知的人,你可以进来做。但如果你不是这种人,其实也有很多节目,是偏素人或普通人,几个朋友一起聊天的形式,能增进感情,有一个相对比较聚焦的定位或者话题,也能够收获很多听众。可能未必需要在一件事上遥遥领先所有人,而是你的内容如果能给听众一个 30 度倾角仰望另外一个人的感受,就很有意思。

潘乱:过去一年里像杨天真等明星和喜剧演员也入驻小宇宙了,这会让主播创作者生态发生什么变化?

Kyth:让这个盘子做得更大,最终会让更多人了解播客。很多人可能是因为某个人来听播客,但他之后会听更多其他播客,这在数据上能得到证实。用户一定会在平台里发现更多内容,少数明星主播的更新频率也不是日更,有更多时间让用户可以找到别节目去听。所以(头部入驻)这件事对播客整体还是好的,不是说会抢其他人的时间。

包括我觉得像你刚才提到的杨天真、李诞,还有更多名人,阎鹤祥、傅首尔,包括之前半边天的主持人张越,他们都开始开个人播客了。如果要提取一个共性的话,就是大家越来越意识到,播客是一个跟别的渠道不一样的,表达自己的渠道。

每个人有每个人的特点和诉求,他们做的播客也各不一样,但是都会找到一个播客跟别的我原来要做的内容渠道不一样的点。比如对于所有女性主播来讲,播客是不需要化妆就可以生产的内容,这是非常解放的事情,我不只一次跟主播交流过程当中听到这个点。

包括今天鲁豫做的《岩中花述》这个节目,其实今年也有点出圈,它的内容质量非常高,以及它是一个品牌播客,对播客商业化也有很正面的影响。除此之外很重要的是,它在告诉新一代年轻的听众,鲁豫是一个什么样的人,一些年纪比较小的朋友,没有看过凤凰卫视,他不知道鲁豫是怎样的主持人。

对这部分朋友来说,鲁豫就像活在动图里面。但像播客这种,节目有足够多的时长,足够的自由度,足够多的场景,可以让你非常清楚地了解一个人,这个东西对名人、各种领域里已经有所建树的人,文字表达者,都是很有诱惑力的选项。小宇宙没有给大家很多包袱说一定要怎样。

潘乱:所以在内容拓圈方面,有哪些新趋势?单就播客来说有哪些是特别有意思的,代表不同尝试的新播客类型?

Kyth:挺多的,大家可以关注明年 1 月我们会推出的 2024 年小宇宙播客大赏,里面系统性地讲了今年看到的很多新的趋势。我觉得可能今年会有更多不一样的尝试,刚才我已经提到了像《独树不成林》这种节目。有很多原来是在别的媒介做创作者的人,也开始做一份播客,或上播客试试看。

像很多歌手,影视剧的导演和编剧、制片人,他们会把上播客当成一个必须做的事情。今年很多机构,像出版机构,原先做公众号的机构,都会觉得过去的内容经验可以复用在播客这件事上。

今天的编辑推荐里面,有两个律师做了一个播客,叫《律人行》。我昨天第一次听,水平很高。很多专业人士都会利用播客,去输出他们的一些平时在饭桌上、日常交流中可以讲的东西,这些东西就可以成为一个很好的内容。包括听众也在拓宽,我们发现有很多 10 岁以下的听众或 60 岁以上的听众,都是惊喜。

最后推荐一个叫《叁贾一院高中部》的节目,它是一个 40 多岁的爸爸和 15、16 岁的高中生儿子,两个人的对谈节目。我之前很难想象会有这么一个组合去做播客。你会发现,有很多人觉得播客是一个声音记录,一种声音日志,他也不觉得这是内容创作或者要做号,而只是一个简单记录一下自己生活的东西。

这个东西五年后、十年后,回顾一下,也很有意思,可以保存 5-10 年前我们是一个什么状态。这也是一个非常令人兴奋的前景。我自己也希望小宇宙能够成为很多人的一个声音胶囊,留到未来某一天自己可以打开,把播客当成做给未来的自己听的一个东西。

潘乱:播客可以做记录,可以做分享,可以做给未来的自己听,也可以变成信息第一手的策源地。比如最近的韩国政变,很多人都在催更《东亚观察局》。

Kyth:是的,每天的变化太多了,我今天刚刚看到一条微博,《东亚观察局》的主理人梵一如说生产队的驴也没有这么累。但还是很开心,就是很多人在想要听人解读韩国政局的时候,第一反应就是先听《东亚观察局》。

这是一个很好的现象,我们能在播客里面聊这些、听这些,讨论这些非常垂直领域的专业内容,无论作为一个专家,作为一个嘴替,作为一个参考,播客在越来越多的领域正在发挥这样的作用。

 

小宇宙 CEO Kyth|图片来源:半岛娱乐登录地址

 

国内播客的独特路径

潘乱:大家接触到的内容形式里面,超过一个小时的都有哪些?我能想到的只有电影和纪录片。就是你会在这个内容上花超过 1 个小时,我觉得播客给大家提供了一个非常好的,深入挖掘一件事的容器、场景。

今天大家都在讲企业家 IP,但你会发现,所有企业家 IP 他们做了之后,在你脑子里并没有留下印象,只是溪水不断的冲刷,大家认为做企业家 IP 最好的是雷军。但大家对雷军建立印象最深的,是在他长达三个小时的那一期专访播客里,不是碎片的短视频里,还是得有更系统更深入的输出才行。

Kyth:这个在美国播客世界里早就是常态了。大家知道今天播客在美国的影响力很大。我们探究原因就会发现,它看似与当下现代媒体,与这个碎片化时代的格格不入。但反而是因为它足够长,使一个人,包括一个政客,可以在节目里事无巨细地聊到很多家常、日常,贴近普通人的点,这些点就会让人感觉亲切,感觉这个人是我哥们。这个人是我能够共情的人,他也可以共情我的人。这对我们来说是一个洞察,或者说是一个深刻的变化。

(潘乱的)《乱翻书》节目,里面像李斌,还有支付宝的陈亮,这两期节目讲了很多之前很难在其他媒介形态里面聊的事情,你会更共情他们。这和媒介形态有关系。包括蔚来十周年这期节目,他(李斌)的声音在耳朵里面听有更加亲切的感觉,好像对你一个人说话一样,这是播客的特点。

包括像雷军上《高能量》播客,这个对播客来说也是很好的事。还有挺有意思的,今年叶国富也上过一期《高能量》播客,恰好是在名创优品入股永辉超市,大概过去半个月还是一个月的时候。我们会发现,第一当事人在播客讲这件事的来龙去脉和决策依据,是一件完全无法被替代的事情,甚至比纸媒或者文字采访还要真实。

听到叶国富本人去讲把为什么要相信胖东来,去投资永辉超市。这对二级市场投资人来说也是一个巨大的信息量补充,这个事情在今年,是非常明显的趋势。今天早上查了一下名创优品和永辉超市的股价,自从叶国富上播客之后,名创优品股价涨了 20% 左右,永辉超市股价涨了超过两倍。

有很多二级市场投资人和交易者现在越来越把播客当成第一手获取企业家动向的渠道。想在商业世界里产生影响力的人,就是会选择播客作为一个传播渠道,或建立自己的 IP 和影响力。因为比起 15 年前,现在听众、市场、观念和格局又是另外一个时代、另外一波人,值得去做针对新人群的传播。

潘乱:今天 AI 的第一线,就是在播客里面产生的。

Kyth:今年出了很多 AI 的节目,除了《乱翻书》以外,还有像《十字路口》,《42 章经》等等。AI 一线从业者在播客里面聊 AI 的变化,能促进一些交流,社群发展,交易。播客带来的亲切感和信息量,能形成一个领域的前沿社群,这还是挺让人兴奋的。

还有一些领域,播客正在成为一种「嘴替」属性的内容形态。像今天的超级大爆款《再见爱人》,有很多播客都会聊《再见爱人》相关的内容,和其他渠道的调子不一样。我印象比较深是,《再见爱人》播出一个月的时候,《快乐亚军》做了一集关于《再见爱人》的节目,这集讲的观点在当时全网的舆论里是比较早提供不一样观点的,当时很多人觉得讲出了心里话。

包括 9 月份还有韩国的综艺叫做《思想验证区域》,也是一个很有意思的节目,播客也是比较早聊这个综艺的。在美国播客里面,影评这个品类也非常成熟,不是很大,但就有一群人非常喜欢在播客里面听电影人聊天,包括昆汀是一个非常喜欢上播客的人,上过无数的播客,他的表达欲太强了。

现在我感觉在影视、综艺这个圈子里面,确实大家会觉得我看完一个电视、电影,再到播客里面听别人说一些想表达的东西,这是一个很顺的过程。前几天正好有一位广播圈的朋友来我们公司交流,对《展开讲讲》这个节目如数家珍,综艺、影视这个领域有很多这种节目。

潘乱:我们要聊到美国的播客生态。做个类比,我们看美国的各种社会名流、科技大佬,其实都在玩播客,大家有印象的马斯克、扎克伯格、盖茨,他们最近几年没有怎么接触过文字采访,全部都是上播客,像马斯克还上了好多期,大家看到的都是他的各种出圈的播客对谈,但感觉中国这一块趋势还不够显著,这是为什么?或者说中国播客跟美国相比会有什么不同?

Kyth:有几个原因:第一,题材上,我们还是稍微有点限制,他们在播客上可以聊的话题更多一些。第二,中国好多东西跑在更前面,中国民间视频,UGC 或者 PUGC 内容更加丰富,中国的直播业态也是极丰富。

这两年美国的视频播客起来得比较猛烈,我们想它到底满足了什么需求?我自己最近也在想,美国的视频播客一部分代替了看电视的需求,很多人愿意在电视上看播客,是因为播客里的主持人讲的是接地气的话,大家关心的事,传统媒体不太接地气了,不太关心老百姓的疾苦了。

播客在美国有很多早期优势,比如汽车保有量,比如听广播的习惯,所以美国播客博主比电视节目主持人更接地气,更能够讲出老百姓心声。另外就是美国这两年短视频的发展,使得视频播客里面的切片可以更多分发出来,挖掘出消费价值。而且视频播客的商业化能力更强,能够给播客主播带来更多收益,这几个点加在一起,「播客」这个词在美国的内涵和外延已经发生了很大变化。

现在播客在美国互联网上,更多上是指一种人与人之间的对话,会被拍下来,大家拿着话筒,有几个机位的一种秀。至于这种秀放在哪里,是不是首发在传统的播客渠道,其实悄悄地已经在发生一些变化了。

而把这个特点说回到中国,就会发现有几个基础条件是不一样的。中国并不缺在手机里面看一个人讲话的内容形式。如果对标老百姓的需求,中国的广大大众要看的视频,可能也未必是像美国的播客这样,人们在一起聊政治、聊文化的内容。

我们团队也会仔细想这件事,中国播客发展的路径跟方向,可能跟美国还是不一样。我们要做好分析和准备,了解这些东西是什么,我的意思不是说视频播客没有价值,这是一个很好的分发方式,能让大家知道你。

潘乱:从用户触达的角度来说,中国确实走在更前面,李佳琦他的商业化肯定做得很好,用户触达做得更多,最后都是通过短视频的切片,再做二次传播。

Kyth:用一个比喻,Joe Rogan 是做给兄弟(bro)的节目,李佳琦是做给姐妹们的节目。

 

Kyth 和潘乱在半岛娱乐登录地址 IF2025 创新大会上|图片来源:半岛娱乐登录地址

 

最重要的,还是听众

潘乱:最近关于 AI 播客讨论也非常多,不管是谷歌自动生成的 AI 播客,微信公众号也推出一个新功能就是用你的音色,把你公众号新发的文章变成播客,它们都迅速地扩大了播客的内容供给,你怎么看这个事情?在 AI 播客、真人播客这两种供给之中,小宇宙会更坚定地站在哪一边?

Kyth:一定站在真人播客这一边。最近也被问了好多次这个问题,播客五年做下来,我们的立足点不是播客供给多么多,播客走的不是多的逻辑,是稀缺的逻辑。哪怕继续往下的五年里面,播客仍然是靠这个逻辑。播客是在丰饶的时代,提供稀缺价值的东西。

大语言模型现在非常强大,在可见未来,这个方向上还会有更多创新,还会有更多有意思的东西。我们现在扔进去一个文档,可以生成一个 5-10 分钟的对话音频,但对我们来说,它还是工具性的东西,不是在内容市场里能获得更多聚焦的注意力的东西。

当我知道你可以生成一个 50 分钟的播客之后,我就会知道你可以生成 1 万个 50 分钟的内容,那我为什么还要听它呢?当我知道你可以无限供给的时候,我稀缺的消费内容时间为什么要给你这些生产成本非常低,甚至创作者本人都未必听过的内容?我的时间一定要花在创作者真实用心的地方,这是播客很难被取代的点。

生成式的内容总有一个源头,所以总有一个出发点,所以我觉得它提供的更多是工具价值。比如说我有一本书懒得看了,我请你帮我讲一讲,包括我懒得读一个文字版,我想听一个说话的声音给我讲讲,这个完全没有问题,但这是工具属性的东西,不是内容属性的东西。

它更多是尝鲜价值,我们在一些产品上感受到它好厉害,但是这个好厉害是尝鲜价值,之后用户不一定会像使用内容平台那样去使用,这是互不干预的两种产品。

潘乱:播客是在饱和时代提供稀缺价值的一种内容媒介或者创作形式,我觉得就像今天大家为什么坐到现场来听我们的对话一样。说到线下,小宇宙刚刚办过一场线下的漫游日,为什么四年来第一次办线下活动?

Kyth:其实已经有点晚了,第一次想办这个活动是 2022 年。其实就是刚才你说的这个原因,就像我虽然在流媒体里面听音乐,但还是要去看演唱会,要去现场一样,那是一种亲身参与的体验,看到与你朝夕相处的一个声音,出现在你面前的体验是无法替代的。

我们希望小宇宙给播客这个生态,给播客创作者创造更大的价值,我们想找一个场域,把创作者、听众、品牌方、把对播客感兴趣的人,甚至路人,全部都结合在一个场景里面,感受到播客的能量。

我们有很多设计,都是以这个方向设计的,我们还融进了很多技术元素。我们做了很多设施,让用户在小宇宙客户端里积累的数据,可以投射到大屏幕上,可以让小主播和头部主播享用同一块屏幕。这些东西都是尝试通过线下视觉性的场景,爆发式地呈现出播客之前只呈现在听觉维度的一些价值。效果也还不错。也是我们比较擅长的事情。

潘乱:文字、视频都产生了非常大的内容平台,不管是从头条、再到抖音,但声音这个内容到目前为止,还没有同体量的特别大的内容平台,你对小宇宙的期待是什么?

Kyth:我觉得下一步比较务实一点。看远是要看,但更多还是关注未来一年或者三到五年,具体数字我不说了,但明年的目标仍然是让更多人听播客,让更多人做播客,把它的商业价值,把它的可能性和潜力服务好,打造好。也包括让更多人投播客。

潘乱:你作为 CEO,面临的挑战是什么?需要解决的核心命题有哪些?

Kyth:一块是业务,一块是人。人包括创作者、团队、组织。另外是业务,就是增长、商业化、拓圈,形式上的迭代。小宇宙五年来,就是在不断的成长和学习,接触一些新生事物,接触一些新的领域。包括我们这几年做商业化,也是在学习交付价值、怎么服务客户、怎么在更大的圈层,服务更多不一样的听众,不一样的用户。

潘乱:能不能透露一下,下一个小宇宙的目标是什么?你希望达成的目标以及你的任务的优先级,是更多人来听,还是更多人来发,还是更多人来投放?

Kyth:最重要的还是消费者,听众是引领一切的东西,当我们有更多听众时,另外一些东西都是下游。当更多人听播客时,播客就会有更多影响力,更多商业价值,会吸引到更多创作者来做他们喜欢的东西,表达自己想表达的东西,这个飞轮的起点是更多人对播客感兴趣,过来听,觉得这个东西是好东西。

 

]]>
半岛娱乐登录地址 Thu, 19 Dec 2024 13:17:19 +0800
<![CDATA[字节发布豆包视觉理解、3D生成等新模型;OpenAI 员工迎最多1000万美元套现机会;黑悟空获 Steam 年度最佳游戏提名]]> //www.ari-az.com/news/344368

OpenAI 推出互动新方式,用户可与 ChatGPT 通电话、发短信

OpenAI 当地时间 12 月 18 日宣布,美国和加拿大用户可通过拨打 1-800-ChatGPT(1-800-242-8478)与 ChatGPT 进行交谈,每月有 15 分钟的语音通话额度,其他国家的用户也可通过发送 WhatsApp 消息到同一号码,与 ChatGPT 进行对话。OpenAI 表示,这个新选项旨在让人工智能在全球范围内普及。它还有望进一步扩大其旗舰产品的覆盖范围。目前该产品的周活跃用户数已达 3 亿。(来源:界面新闻)

消息称小红书迎来新战略负责人,同时筹建战投团队

​12 月 18 日消息,据晚点 LatePost 报道,今日资本原合伙人戴丽丹近期已加入小红书,负责战略,向小红书核心管理层汇报。

报道称,在戴丽丹加入前,小红书不同战略方向各有负责人,现在统一向戴丽丹汇报;小红书同时计划组建战略投资团队,由戴丽丹负责,主要投资硬科技赛道,尤其是 AI 应用;小红书原投资团队不变,继续做财务投资。戴丽丹毕业于北京大学,后加入百度任百度地图产品经理;2013 年-2015 年,她在哈佛商学院攻读 MBA,此后,戴丽丹加入由「风投女王」徐新创办的今日资本,于 2022 年升任今日资本合伙人。

报道还称,小红书近年已在频繁出手投资,主要方向是投消费品牌,覆盖食品、潮玩、美妆和母婴等领域。2023 年之后,小红书对 AI 和科技投资出手增多。小红书在 2023 年首次实现盈利。今年 7 月,小红书被曝完成一轮新融资,估值 170 亿美元(当前约 1238.65 亿元人民币)。本月有消息称,小红书有望在 2024 年将利润翻一番,达到 10 亿美元(约 72.86 亿元人民币)以上,然后可能进行 IPO。

小红书由毛文超和瞿芳于 2013 年在上海创立,官网信息显示,小红书获得了阿里巴巴、腾讯、纪源资本和红杉资本等大牌企业机构投资。2019 年 10 月小红书月活跃用户数就已经过亿,其中 70% 用户是 90 后。(来源:晚点 LatePost)

 

「通义」应用团队将从阿里云分拆,知情人士:阿里云仍保留通义 B 端业务

12 月 18 日,记者从知情人士处了解到,「通义」应用团队或将从阿里云分拆,并入阿里智能信息事业群。知情人士表示,通义 to C 的客户端以及团队等将并入阿里集团内部,而通义 to B 以及开源部分仍在阿里云的体系内。

据此前媒体报道,调整后,通义 PC 及 App 团队与智能搜索产品「夸克」平级,原有的通义实验室仍然留在阿里云体系内。这一举措可以看作是阿里梳理内部 AI to C 应用的一步。(来源:每经)

 

Netflix 被荷兰监管机构罚款 475 万欧元:未适当告知客户个人数据使用情况

12 月 18 日,荷兰数据保护局(DPA)在一份声明中表示,对 Netflix 处以 475 万欧元的罚款,原因是该公司在 2018 年至 2020 年间未适当告知客户其个人数据的使用情况。DPA 称,这项始于 2019 年的调查显示,该公司在其隐私声明中没有足够明确地告知客户其对这些数据的具体处理方式。

Netflix 已更新其隐私声明,并改进信息条款,但对罚款决定表示反对。(来源:路透)

 

极越员工赔偿方案要出炉?内部员工:吉利已确认,但百度还未审批

12 月 18 日,极越汽车解散风波继续发酵,主要矛盾集中在员工赔偿方案上。目前方案已修订至第九版,吉利确认后仍在等待百度最终审批。

极越汽车 CEO 夏一平的管理能力遭到质疑,员工代表微信群已解散,维权活动减少。不少员工通过直播等方式等待解决方案,同时供应商欠款问题也悬而未决,多家供应商前往百度总部寻求答复。(来源:界面新闻)

 

特斯拉或将推出自己的邮箱服务 X Mail

​近日,知名博主 DogeDesigner 在某社交媒体平台爆料了 X Mail 电子邮箱服务的消息。据悉,该博主称 X Mail 的账号格式为用户名 @x.com。

随后,特斯拉 CEO 伊隆·马斯克转发并确认了这一消息,并表示「Yeah. On the list of things to do.」(是的,在待办事项清单上)。然而,他并未透露 X Mail 的具体上线时间。

关于 X Mail 是否免费,目前仍是一大悬念。值得注意的是,使用单字母顶级域名 @X.com 注册邮箱有些独特。

此外,在去年 10 月,马斯克以 440 亿美元收购了 Twitter,并将其更名为「X」。同时,原 Twitter 的小蓝鸟 Logo 也被替换为了「X」。至于为何选择「X」,马斯克解释道,「不太清楚其中有什么微妙的联系或象征,但我喜欢字母 X。」(来源:中关村在线)

 

OpenAI 约 400 名员工迎股票套现机会,每人最多 1000 万美元

12 月 18 日消息,约 400 名 OpenAI 现任和前任员工将获得数百万美元的现金,这要归功于这家旧金山公司与日本软银集团安排的一笔特别股票出售。

据知情人士透露,收购要约允许部分 OpenAI 员工和前员工以每股 210 美元的价格将所持的股票出售给软银。消息人士称,软银计划从符合条件的 OpenAI 股东手中收购至多 16 亿美元的股票,后者须在两年多前获得限制性股票方能参与。符合条件的 OpenAI 股东须在 12 月 24 日之前作出决定。每个参与者将被允许出售价值 1000 万美元的既得股票。(来源:界面新闻)

苹果文档泄密:visionOS 3 和 2.4 开发工作进行中

​12 月 18 日消息,苹果公司周一发布了 visionOS 2.3 开发者测试版,意外泄露了其正在开发下一代 Apple Vision Pro 操作系统的重要信息。

visionOS 是苹果首款空间计算设备 Apple Vision Pro 的专属操作系统,这款产品被苹果 CEO 蒂姆・库克定义为「早期尝鲜者产品」。继 visionOS 1.0 正式发布后,visionOS 2 于 2024 年 9 月 16 日面向公众推出。

据了解,目前 Apple Vision Pro 操作系统最新的公开可用版本是 visionOS 2.3 开发者测试版。然而据 AppleInsider 报道,苹果在其官网提供的示例项目文档中意外地提到了尚未发布的操作系统版本,包括 visionOS 3 和 visionOS 2.4,暗示该公司正在积极开发新系统更新。

目前,关于这两个尚未发布的操作系统版本的内容或功能细节尚不清楚,但可以肯定的是其中将包含各种错误修复和用户体验改进。值得注意的是,尽管 Apple Vision Pro 搭载了苹果 M2 芯片,但目前尚不支持 Apple Intelligence 功能。

苹果在开发 visionOS 3.0 和其他未来版本的操作系统是毋庸置疑的,此次的意外泄露只是苹果首次对外展示未来版本号的迹象。(来源:IT 之家)

 

字节发布豆包视觉理解、3D 生成等新模型,豆包音乐模型可生成 3 分钟作品

12 月 18 日消息,从字节跳动官方获悉,在今日的火山引擎 Force 大会上,字节跳动正式发布豆包视觉理解模型,为企业提供多模态大模型能力。豆包视觉理解模型千 tokens 输入价格仅为 3 厘,一元钱就可处理 284 张 720P 的图片,官方宣称比行业价格便宜 85%。

豆包 3D 生成模型也在本次活动中正式亮相。将其与火山引擎数字孪生平台 veOmniverse 结合使用,可完成智能训练、数据合成和数字资产制作,官方称之为「一套支持 AIGC 创作的物理世界仿真模拟器」。

豆包大模型旗下多款产品也迎来了更新:豆包通用模型 pro:全面对齐 GPT-4o,使用价格仅为后者的 1/8;音乐模型:可生成 3 分钟的完整作品;文生图模型 2.1 版本:精准生成汉字、一句话 P 图,已接入即梦 AI 和豆包 App。

此外,豆包将于明年春季推出具备更长视频生成能力的豆包视频生成模型 1.5 版,豆包端到端实时语音模型也将很快上线,从而解锁多角色演绎、方言转换等新能力。(来源:IT 之家)

 

小猿学练机彩墨版上市 进军儿童启蒙市场

12 月 18 日,专为低龄儿童设计的小猿学练机彩墨版发布。这是小猿学练机发布一年半以来,首次扩充产品线。

在硬件方面,小猿学练机彩墨版采用 10.3 英寸彩色墨水屏。该屏幕是目前教育行业唯一通过 TÜV 莱茵「类纸显示认证」的屏幕。同时,小猿学练机彩墨版还设计了低龄儿童专属的手写智能笔,为低龄儿童带来顺畅、舒适的书写体验。

在内容方面,依托斑马教研体系,以及百亿儿童互动大数据与防挫折算法,小猿学练机搭建了专属彩色墨水屏的大语文、英语、思维情景互动启蒙环境,覆盖 19 个启蒙教育场景。同时,小猿学练机彩墨版引进牛津树、红火箭、迪士尼、汪汪队等 3000+经典 IP 绘本和丰富的熏听资源,这些学习资源终身免费提供,并将持续更新。

在大模型方面,小猿学练机已经形成了多参数和多形态的模型矩阵,适配不同的教育场景,能够做到自主诊断学情、理解教学目标、实现能力迁移。(来源:北京商报)

黑神话悟空获 Steam 年度最佳游戏提名

12 月 18 日,从 Steam 获悉,2024 年 Steam 大奖入围名单现已正式出炉,将于北京时间 12 月 20 日凌晨 2 时开放投票,2025 年 1 月 1 日凌晨 2 时结束投票并揭晓获奖名单。用户可为 11 个奖项中的每个奖项投一票,在截止之前也可更改投票选项。其中,《黑神话:悟空》获年度最佳游戏提名。(来源:IT 之家)

 

]]>
半岛娱乐登录地址 Thu, 19 Dec 2024 09:10:45 +0800
<![CDATA[打开日本市场背后,Dify 是怎么做 AI 全球化的?]]> //www.ari-az.com/news/344369 2024 年,做一款面向全球的产品几乎成为 AI 创业者的必修课,Heygen、Talkie、Monica 等都在北美获得了可观的营收。在中国 AI 创业者走向全球的地图上,人们普遍认为,美国的 AI 技术发展快、用户接受度高、付费习惯也好,是一定要尝试的优质市场。

但在一众做全球化的 AI 创业公司中,Dify 的路径让人意外。

自 2023 年 3 月创立以来,Dify 在中国、美国、日本等多个国家推出产品,但增长最快、用户最多的市场从日本「自然长出」。

对软件这个品类来说,日本是一个传统、「守旧」或者说「保守」的市场,这意味着新进入的软件提供商「难以攻入」。另一方面,日本市场对于 AI 的接受度尚处于初级阶段,外界有感知的 AI 应用也并不多。你很难想象,就是这样一个市场,成为 Dify 全球化之路上目前做得最成功的区域。

在过去一年 AI 全球化的浪潮中,Dify 成为一个绕不开的案例:产品体验越来越好、用户增长迅猛发展。作为一个开源项目,Dify 在 GitHub 上已经有 54000 个 Star,迅速跻身为全球 LLM Tools 增速 Top1 的开源项目,其开源版本在全球有 300 多万的安装量。

但不少人在聊起 Dify 时也会不约而同地表达类似的担忧:「Dify 的产品是帮助开发 AI 应用的中间层工具,在大模型时代,这是大厂一定会做的事」;「Dify 有用户但商业化难,最好的方式是被收购」。

对于这些质疑,过去一年半的实践让 Dify 团队坚定了自己的选择,尽管 AI Infra 是大厂都会做的事,但仍有未被满足的需求,比如开发者需要一个中立的、多模型的「工具箱」等。事实上,作为一个非常早期的初创公司,Dify 目前是盈利的状态,已服务超过 30 家财富 500 强企业。

2024 年 12 月 16 日,在半岛娱乐登录地址 IF2025 创新大会上,Dify AI 创始人、CEO 张路宇,以工具产品经理的视角分享了 Dify 的全球化故事。作为连续创业者,张路宇的上一段创业生涯是面向开发者的 SaaS 软件服务,这段经历也给了团队创业 Dify 时做决策的一些必要 knowhow,张路宇也更多把 Dify 过去一年取得的成功归结为「选择」与「运气」。

 

以下是张路宇的演讲全文,经半岛娱乐登录地址 整理:

Dify 是一个开源的、面向全球的、ToB 的 AI 应用开发平台。过去一年,Dify 成为成长最快的 AI Infra 产品。

去年也是在这个舞台、同一个位置,我参加了半岛娱乐登录地址 创新大会的一个圆桌,当时就被拍下来发到网上。今年 4 月份 Dify 产品在日常市场非常火爆时,日本网友把我们扒出来贴上了这张图说:Dify 是一家什么样公司?他们是不是一个有政府背景、有腾讯背景的企业?能不能让这个公司进入我们的市场?他们对我们做了一个深度的研究,并且把这个文章放在了 Note.com 日本最受欢迎的一个平台上,售价 500 日元。

所以我们全球化第一道「坎」是半岛娱乐登录地址 带来的,好在我们的市场团队帮我们平稳度过这次危机公关。

今年 Dify 在日本市场迅速增长时,网友扒出张路宇去年参加 半岛娱乐登录地址 IF 大会的照片|图片来源:Dify

15 世纪时,哥伦布为了做贸易带着团队向西航行,找到一个新大陆。当时认为这个地方是印度,哥伦布至死都认为找到了印度,所以今天会看到一个 Indians 这个词怎么来的,他们当时认为这是印度人。

讲这个故事是两个隐喻:

第一,你在出发、航行时,可能不能确定你最终去哪里;第二,你带着所有认知去一个新的地方时,你一定有过去的认知依赖,你会觉得这里是印度,会以当时的认知、思维面向那个市场去做。

今天的分享我想交付一些信息:面对一个增长这么快的市场,一个初创团队怎么最快得到一个成熟逻辑、去做出一个增长最快的成功产品。

具体会聊三个话题,也是我们创业时做的三个选择:

一、我们坚定的选择第一天就做全球化,

二、我们是一家 PLG ToB 公司;

三、我们做的一个最危险的决定:产品第一天就是在 GitHub 上开源的,99% 的开源。

 

01「工具产品全球化」已经被验证过

为什么要做全球化的市场?我觉得和每个团队的基因、过往经历都有关系。Dify 是一个工具的、软件的、Infra 的、开源的产品,我们认为,工具产品属性就应该面向全球化的市场。

这是 Dify 今天取得的一点成绩,左面这个图是我们在 GitHub 上的用户分布,有 50% 左右的用户来自中国。其实中国开发者基数非常大,像 LangChain 这样的产品里中国的开发者比例也占 40%,非常高的比重。

在其他市场,比如在北美、日本等,Dify 也都做了比较好的覆盖率。

另外,Dify 的产品增速已经超越了所有相关的开源产品,我们在 GitHub 上有 5 万多的 Stars,还有 500 多个全球一起共创产品的贡献者,整个产品在全球安装量超过了 300 万,这是非常大的数字。

为了做全球化产品,Dify 做的各种工作如上图|截图来源:Dify

为了做全球化这件事,我们在第一天做了很多的架构设计和一些准备工作。首先从公司层面上来说,我们是美国特拉华州的一个公司,以这样一个身份做全球服务。

全球化产品在语言问题上,我们不止有英语、日语……,Dify GitHub 页面上甚至有一个语言是克林贡语——就是星球大战里面说的那个语言,是为了提升西方用户的文化黏性。

做一个全球化的产品,除了语言问题,还要去做很多合规操作,我们聘请了非常贵的律所做一些国际认证 SOC2 等,去符合大家的期待,还有把所有数据放在合规的区域。

另外,做全球化产品本身,团队也应该是国际化的,我们在整个团队里面构建了一套信息环境,一方面我们自己用了很多 SaaS 的工具链的产品,比如我们用 Front 处理邮件,用 Linear 处理需求的流转,我们有一套自己的工具站。一个挑战是,因为 Dify 是中间件,左面是模型,右面是应用爆发,Dify 需要做非常好的信息的吞吐量,怎么跟进这么快的技术变化、怎么快速迭代产品,这也是我们一开始设计的方向。

另外招聘的环节,我们的团队分布全球,除了在国内的团队,还有北美、日本、加拿大、土耳其、澳大利亚的同事,我们进来的同事都需要做一系列的测试,包括英语和其他东西才能满足人才需求。这是我们的准备工作。

然后应该把你的鱼竿指向哪里?

我觉得这是可以通过历史数据回答的,你是做工具产品或者做硬件产品,过去在这个市场已经成功的模式是什么?什么市场是最大的,应该把钩子、把鱼竿伸向哪里?

有一个不幸的数字,中国软件不太好做,占全球营收比例不超过 5%,这里有三个产品的例子,Slack、Figma 和 WordPress 三个超过十年的、非常流行的产品。这是最终的用户数据的分布,可以看到一些国家比例是比较大的。

还有一个例子是 Notion,他们在发布 1.0 产品之前也经历了扭曲和找 PMF 的阶段。今天他们有 1 亿用户,但当时创造这个产品时团队已经扛不住了,团队从旧金山搬到日本降低成本来做这件事。他们用户数据分布也很有意思,今天 80% 的收入来自美国以外的地区,70% 以上用户在美国以外的地区,这个说明什么问题。说明美国人民也要出海(哈哈)。

另外一个数据可以参考,美国的 GDP 每年增速可能就是两个点、三个点,但美国股票指数,纳斯达克、标注普尔过去几十年的增长基本上是每年十几、二十个点的增长。为什么股票指数超过国家 GDP 的增速?

因为今天在美国标普 500 上的所有公司都是新经济、全球化公司,他们也是基于本土的技术或者其他优势做全球市场,这个是不分国界的,不管中国还是其他国家。

工具产品是没有国界的,打开电脑,你不会在意每天用的那些东西是哪个国家的,但有一些产品比如说涉及到一些人力资源或者 CRM 等等这些类似的赛道,文化属性非常重,如果选择了这个赛道,惯性会加强,会去影响你去做市场的一些摩擦度。

举个例子,我们做日本市场遇到很多问题,因为日本流程非常细致,他们会去挑战我们的产品。我们日本同事说,超过几点不过能给他发消息,我们发一封邮件哪些敬语都是有一套自己的逻辑,有很多这样的技术细节、摩擦细节,需要在做全球化的过程当中处理。

 

02「PLG ToB」是 Dify 盈利的关键

为什么选择这么一个模式,PLG ToB?(PLG,产品导向的增长)

PLG ToB 的意思是通过产品完成自身的 GTM(Go-to-Market,走向市场阶段),最终让大客户、B 端客户给你付钱。

先来分析 ToC、ToB 有什么区别?过去一年大家已经看到 ToC 的生成式 AI 应用非常卷,很多团队没有那么幸运,今天还在找自己的市场在哪、找自己的 PMF(产品市场匹配点)在哪,产品形态还没有找到。我整体觉得,ToC 产品是符合演化论的,有一个赛马机制,一些好的想法在快速市场验证中会出来,还有一些注定需要一次又一次的尝试。我们觉得在去年三四月份那个窗口,当时如果投身 ToC 直接做这个事,会失去一些市场的技术窗口。因为前面这个时间非常非常重要,(这时的增长)是钱买不回来的。

再看 ToB,是难赚钱、需要跟客户喝酒、回款非常慢、需要非常大的销售团队、需要有很多合作伙伴。这不是一个新兴的创业公司应该去做的事情,更多是云厂商等积累了很多资源的公司才能去做。

我们选择的模式叫 PLG ToB,通过开源社区、生态,完成最大化的市场覆盖率,达到最低的获客成本,通过 ToC 的成长速度、最终触达 ToB 的用户给你付钱。

如果去看 SaaS 产品的话,这类产品最大难度在于获客成本,获得一个用户需要花多少钱?

传统 SaaS 模式要么做 SEO(搜索引擎优化)、要么通过社区推广、要么通过广告投放等方式来获客,这是一个算帐的生意,投多少钱回来多少用户。

但是生成式 AI 整体的品类是世界上最卷的赛道,你需要最大化地得到你的市场覆盖率,你需要赢。当时选择传统 SaaS 模式,我们显然没有办法赢,因为这是一个算帐的模式,多少钱都不够投。

有另外一个例子,Atlassian,就是做 Jira 和 Confluence 的那家公司,我们可以看到它的获客成本比其他厂商都要低,19% 的获客成本,这些用户几乎是以非常低的成本进来、然后付订阅费的。

Dify 在过去一年半已经服务了全球 500 强企业中 40 家,也是一个非常大的数字。因为传统来说,一个 ToB 企业做到三五年才能接触到这些厂商,而且我们获客成本几乎为 0,从公司创立到现在,我们一共花了不到 40 万人民币市场费用做到这个数字,这是 PLG ToB 的力量。

传统的公司需要两年或者更久达到自己的盈亏平衡线,PLG ToB 公司基本上是在七八个月的时间。Dify 给一些开发者树立了一个榜样或者跑通了一个模式,这是一个来自于本土的企业,如果你要去做全球 ToB,这是跑得通的模式,你能通过这个方式获得增长。

 

03 开源对做 ToB 市场的好处:建立信任

第三问题是为什么选择开源?

Dify 是基于阿帕奇 2.0 协议去做的一些修正的开源协议、去开放的产品,这个产品的发行、给用户用是不要钱的,但是在特定情况下,比如大用户量、大租户情况下需要给我们一些授权费。

我们通过 PLG 去获得的最快增长速度,去赚 ToB 的钱,但是ToB 本来最大难题在于说怎么让用户信任你,他们会挑战你的工程,挑战你的 SaaS 服务或者软件工程安全,挑战你有没有供应商资质,很多这样的问题。

开源是本土团队最快 GTM(进入市场)到全球的方式,因为你把你的源代码公开了,你甚至把整个软件的构建过程,每次提交 issue、commits 都公开了,他们天然可以感知到:你是不是一个真诚的认真的团队、可以感受到你的软件是不是可靠的,这是我们跑出来的模式。

 

04 One More Thing:勇敢迈出去,不要低估自己的好运气

你在构建一个新的产品和新的公司中,你会在这个过程中去获得那些相信你的人给你的支持,我们在过去一年半有一些小经历,首先在客户上赢得了大客户。

我们曾经有一个欧洲客户来询价,我们报了一个数字,合作过程中他们说「你们的服务非常好,我要给你付两倍的报价,同时给你一个 million(百万)美金的市场推广费用」,这是我以前创业过程中从来没有遇到过的。

我们招聘员工的过程中发现,有很多来自 QS 50 大学,他们放弃了非常好的职位,找到我们,来到我们的团队。坦率说我自己是初中毕业,我真的认识了非常好的人。

再说说我们的投资人,今天大家知道,融资环境不如意。我们第一轮天使投资人,没有大篇幅跟我聊商业模式怎么样,而是说「我喜欢你们的故事、喜欢你们的团队」。这是一个非常柔性的、感性的评价。

我们的合作伙伴,因为今天 Dify 和几大云厂商,包括 Azure、AWS 都有很深的合作,AWS 在中国所有的产品销售和云捆绑带着 Dify,在日本和美国也是这样。我们以前是不敢相信可以和 AWS、微软做这么大的合作,他们都是派出全球的 VP 或者中国区负责人来跟我们做合作。这样的例子可以举出很多。

所以我想跟大家讲:不要低估自己的运气,要把自己的状态展开。我自己的职业生涯、上一次创业和现在创立 Dify,很多东西都不在我的计划之内。或者我换一种说法,如果你计划了某件事,把一个事算得非常清楚,要去做美国市场、中国市场、去做哪个国家的市场,算清楚之后其实你能达到的最好的状态,大概率也就落在你的计划里,但是如果说你把一定程度的自己开放出来交给市场,交给自己运气,交给时代给你的机会,你会发现有很多很多意想不到的惊喜出现,完全不在你自己的计划之内,这是我做所有事情的经历。

今天我相信来这里的观众很多是产品经理,我也给大家一些信心,不要去畏惧做选择,不要害怕迈出第一步,去尝试做这样的事,可能会获得意想不到的回报。初创不要紧、小公司也不要紧,你自己技术没有那么好、团队没有那么好,不要紧,把自己开放出来。

 

]]>
半岛娱乐登录地址 Wed, 18 Dec 2024 22:17:08 +0800
<![CDATA[余凯:科技让机器的归机器,人的归人]]> //www.ari-az.com/news/344367 今年是地平线创立的第 9 年,也是公司上市的第一年。

回顾地平线的发展历程,创始人&CEO 余凯的很多思考塑造了地平线今天的形状——他标记了 3 个关键节点。

第一个节点是公司成立的 2015 年,余凯预判热门的云计算和移动计算已经到了终局,机器人计算方向未来会长得很大。这个决策帮助他们避开了拥挤的竞争,也为他们日后接入智能驾驶奠定了底座。

第二个节点是 2019 年,地平线开始进行业务聚焦,砍掉了玩具机器人、智能家居等非汽车业务,All In 自动驾驶。余凯觉得,与其在众多小领域花费同样多的经历, 不如专注资源在一个大生意上,因为大舍才有大得 。那一年,蔚小理都挣扎在生死线上,智能电动车并不是一个好方向,而地平线的大部分收入还都来自于非汽车业务。

隔年,中国智能电动车市场迎来快速增长。

第三个节点是今年,地平线赴港上市,成为今年港交所最大的科技企业 IPO。

上市不是终点,而是下一个阶段的起点。对于自动驾驶,余凯有一个大胆的判断—— 未来 3-5 年内,自动驾驶将会迎来终局。为此,他们需要投入全部资源 All in 自动驾驶

所以,地平线还分拆除了具身智能公司地瓜机器人。在他们的判断中,人型机器人是一件比自动驾驶更长远的事业。眼下,地平线更想专注在自动驾驶即将来到的大决战中。

在这个进程中, 余凯希望地平线能够成长为机器人时代的微软、英特尔 ,用科技赋能更多的机器人产业,让更多人类去免除体力劳动带来的束缚,享受更多的自由。

《圣经》里,耶稣在对观福音里说,凯撒的物归凯撒,上帝的物归上帝。余凯说,他们希望让人类的事归人类,机器人的事归机器人。

以下是余凯在半岛娱乐登录地址 IF2025 创新大会上与半岛娱乐登录地址 创始人&总裁张鹏对谈实录,由半岛娱乐登录地址 整理。

 

01

地平线的 3 个关键节点

 

张鹏 首先恭喜地平线成功地在香港上市。我听说你在香港的上市引发了很多资本的争夺,看来在今天地平线已经成为了大家一个重要的标的。我挺好奇的,当时公司上市成功之后,你们有什么庆祝活动吗

余凯 :其实上市后第二天,我就在跑客户的路上了。从 10 月 24 号上市到今天,我们公司还有好多高管没在一起聚过。因为我出差比较多,大家也比较习惯网上的工作和协同,所以我们打算等到年底再稍微聚一下。

张鹏 有点忙得过分了

余凯 :上市这件事本身就那么一天,那天过后我们就回到正常的轨道上了,该干嘛干嘛。

张鹏 其实今天能够有一个成功的上市还是蛮不容易的,你们怎么去定义地平线这次上市的价值?

余凯 :过去的两、三年里,中国科技公司的上市市场是非常低迷的,基本上没有太多高质量的发行。如果有发行,通常可能 70%、80% 都是基石,就是自己找了「亲戚朋友」,比如说地方政府或者上下游供应链。

地平线这次是 20% 的基石,其余 80% 都是市场化的发行 ,并且几乎第一次把大量的国际长线投资机构带回香港。所以对于香港的资本市场来说,这次是非常大的提升。

整体来讲,它的发行规模、上市规模是中国科技公司过去三年境外上市最大的。同时质量也是最高的,因为大量的国际长线机构,比如说曾经特斯拉的第一大股东 Baillie Gifford、世界上最大的主权基金挪威主权财富基金,包括一些大的长线、一堆国际机构,都非常热情地参与到了地平线。 我们大概超额认购了 18 倍,还是非常不错的。

余凯介绍地平线公司的三个关键节点|半岛娱乐登录地址

张鹏 这个不是不错,已经是非常少见了。所以这背后到底是什么东西,形成了大家这么强烈的共识?

余凯 :我们经常会说,这个时代真的非常富有挑战,经济也不好,包括整个消费信心方面都不太好。但是我觉得创业者真正要回答的问题是「我怎么样」、「我们怎么样」。

历史上看每次经济周期低迷的时候,往往是伟大的公司诞生的时候。比如中国的互联网,中国现在最大的几个互联网公司,其实都是在 2000 年左右互联网泡沫时期成立的;包括 2008 年的美国金融危机,Facebook 也是在这一时期成立的。

所以我们永远要问自己,在这种绝望中是不是能找到希望,你是不是有勇气、有智慧去穿越周期。

从地平线来讲,我们比较幸运的是抓住了智能电动车。智能电动车的上半场是电动化,下半场是智能化。我们在智能化这个领域成为了中国整个产业界,甚至是全世界范围内最重要的一个供应商,这个大周期对我们是非常有利的。

但是看到这个大周期的前提是 , 前面 9 年要耐得住寂寞 。我们在 2015 年创立的时候要去做智能驾驶和机器人的芯片,那个时候没人看得懂,因为那时候讲的还是互联网模式创新,关于自动驾驶或机器人的芯片,大部分投资人不但看不懂,也不愿意投资,也不是一个热门方向。

所以我觉得每个人内心还是要找到那个相信的东西,哪怕别人都不看好你、不支持你的时候,你是不是能够坚持到那个时间节点终于来的时候。

张鹏 听懂了,就是一个公司过去的非共识能够在一个领域内,印证成为新共识之后,过去吃的苦都会得到超额的回报 。 但我还是非常关心,在地平线整个发展过程中,有什么关键的决策节点,在今天想起来是非常重要的?

余凯 :其实从地平线创立的第一天,我们就做了几个关键决策。尽管在地平线发展过程中我们做了很多愚蠢的决策,但因为得益于一开始那个原点,有几个关键决策做对了,所以我们整个大方向还是 ok 的。

第一个就是 做芯片,不做软件 。当时我已经做了 20 多年机器学习方面的算法,从来没有摸过芯片。但是我那时候深刻意识到,如果只做软件算法,可能不能构成一个商业模式,因为大家不愿意为软件付钱。

另外如果只做软件算法,它的护城河也不够宽。比如说大模型,今天中国大大小小的公司都能推出一些大模型,好坏如果仔细比较一下还是可以比较出来的,但大致水平没有明显的优劣。那么多人去做这个事情,你就会发现这件事情太拥挤了。

所以你要找一个人迹罕至、有长期价值,并且有很宽的护城河的赛道 。我当时直觉是,把我对机器学习、深度学习算法的理解注入到对硬件架构的设计,是可以成功的。

因为 第一中国的产业界不愿意为软件付钱,但是是愿意为芯片付钱的

第二是要把这件事情做出来很难,所以有足够宽的护城河 。比如说我们做车规级芯片,因为关系到人的生命安全,所以跟普通的消费电子类产品不一样,它的整个开发、测试、验证周期是比较长的。每一代产品从项目启动到挣第一份钱,需要 5 年。

我在创业第一年就问自己:「如果大公司做这件事情,我怎么去 pk?」那实际上做这件事他们也得花 5 年时间, 所以这件事对大公司、小公司都是平等的,因为时间是最不可置换的 。所以我觉得这个护城河够可以的。

这是从软件到芯片,是我的一个非共识。

还有一个非共识,是做机器人的计算 。2015 年是云计算、移动计算的天下,所以周边有好多朋友跟我说,应该去做云计算的芯片,或者做手机芯片。

但是我觉得站在 2015 那个时间点,如果说移动计算是一个足球赛的话,这场球赛基本快踢完了。这个时候我冲进球场,连当捡球的都不配。 所以创业一定要创当下很小、未来可能是很大的一个业务。

至于云计算这个方向,有英伟达。地平线创立于 2015 年 7 月 14 日,那一天英伟达的市值只有 107 亿美元。但我那时候其实已经知道,这场仗英伟达赢定了,因为 CUDA 在 GPU 之上所建立的整个软件生态,我觉得是没有办法冲破的。如果去做云计算,已经晚了,于是我决定做机器人的计算。

那个时候根本没有机器人的市场,但是我们从一开始就意识到机器人的计算和自动驾驶的计算可能是一回事,都涉及环节感知、人机交互、决策控制,所以我们后面很快接入了汽车的计算。

这是 2015 年,最初的几个决策奠定了我们跟很多公司在起点和路径上是不一样的。

地平线的第二个关键节点是 2019 年,我们决定 All in 汽车。

在这之前我们花了 5 年时间去思考机器人的计算,该从什么商业的视角去切入。我们试了好多垂直领域,整体来讲是两类:一是汽车。我们认为汽车一定是大生意,但它是长周期;我们也试了玩具机器人、智能家居等等,每一个垂直领域,不会有汽车那么大,但是商业模式比较短,也不需要车规、功能安全这些东西。

2019 年的时候我们意识到还是要大舍大得、大得大赢,与其每一个小的领域花的精力同样多,还不如干脆赌一个大的。于是 2019 年我们做了一个重大的战略取舍,把汽车以外的所有项目全砍掉。

余凯介绍反共识如何指导了公司的发展|半岛娱乐登录地址

张鹏 那时候那些业务一年大概营收多少

余凯 :那时候地平线主要的收入都是非汽车的。但我的直觉觉得砸一堆的小坑还不如砸一个深坑,还不如 10 倍兵力投入到一个最有价值的领域。

我觉得这个转念对我的战略思考和组织能力等各个方面,其实是一个重大的升级。因为人性是愿意做加法的,是不愿意舍的, 所以我对抗了自己的惯性,思考的是从未来看现在的必要性

其实 2019 年汽车并不是一个好方向,根本融不到钱。但不管怎么样,我们逆周期地去做了这个决策,没想到 2020 年汽车就起来了。所以我有时候反思,就算所有的判断、战略、决策都对,但也不要忘了一件事——运气,我觉得运气也很重要。

第三个重要时间节点就是今年,地平线决定在香港上市 。当时所有人劝我说不要去香港。

我当时基于几个判断,决定去香港上市。从一个概率角度来讲,当一个股市已经很低迷的时候,那你会想,它往下走的概率高还是往上走的概率高?

还有一点是, 整个中国市场某种意义上已经到了内卷的程度,其本质是供大于求,内需不足,所以未来大趋势是中国企业的出海 。所以一个开放的国际化的金融市场,一定是这种企业最好的上市的选择。比如说美的,今年美的接近一半收入都是在海外。

基于这些判断,我们反共识地决策,一定要去香港。

一开始在路演时整个感觉也不是那么好,因为毕竟整个情况比较低迷。我们 3 月 26 号交表,4 月份开了产品发布会,投资者对我们产品更加有了信心,然后香港股市神奇地在 4 月份开始回暖。到了 8 月底的时候我们当时正好拿到了证监会的路条,9 月份过了港交所的聆询,然后 9 月 24 号整个股市都回暖了。

最后,10 月份,我们上市。

 

02

让机器的归机器,人的归人

 

张鹏 你刚才也将讲你做了 20 年的算法研究。我比较感兴趣 这些年从一个科学家变成企业家,对你最大的改变是什么?你喜不喜欢这个改变?

余凯 :我觉得这个感情是比较复杂的。在整个创业过程中,其实有很多艰难的时刻。有的朋友问我:你哪段是至暗时刻?我觉得很难回答, 因为每天一睁眼都是至暗时刻 。所以我最近对我身边好多朋友最大的贡献,就是劝阻了他们的创业冲动。因为你真的创业了以后肯定是没有生活的,要完全接受一个非常人的生活状态。

所以如果回到 2015 年,当我知道这个过程有这么难的时候,我还会不会创业?可能我就不太敢创业了,因为你要经历的挑战太多了。

但是另外一方面,我自己收获还是很大的。因为以前做科学家的人生相对来讲还是比较单维度的,你对这个世界的丰富性、复杂性是缺乏了解的。于是你经历了怎么去建立一个组织、怎么打造一个组织的文化、怎么在纷繁复杂的变化中去制定你的长期的战略,并且从战略到落地的执行、实现商业的闭环、打造销售的团队,并且在这个行业里建立生态,面对资本市场等等。

在这个过程中 的 收获 , 就是你把自己变成了一个多维度的人 ,不仅对技术,你对社会、对人文、对历史、对哲学等好多事情,都要有更深的理解。这些理解会让自己智慧有更多的升级,这种愉悦感、这种满足感也是空前的。

张鹏 地平线在完成成功上市之后肯定也会开启一个新阶段,因为上市从来不是终点,上市是下一个阶段的起点。那么地平线下一个阶段最重要的目标、台阶、挑战是什么?比如说未来如何变成规模化的、创造更大价值的公司,这个关键点在哪里

余凯 :地平线在过去的几年里面证明了我们在芯片、软件这一块具有初步的世界级的竞争力,在过去几年我们面对的竞争对手很少是国内公司,基本上是全球的顶级硬科技企业。整个市场的竞争中,今天中国整个辅助驾驶、智能驾驶方面计算方案的供应商,去年我们是市场第二名,今年是市场第一名。

未来 5 年我们肯定也不是竞争驱动性的,还是要朝着自己的使命去勇敢做自己,思考怎么样通过我们的努力,让整个全人类更快地去享受到智能驾驶给每天的生活所带来的安全、轻松、自由。

我们希望科技能够普惠。不仅是豪车或者高端车搭载,我们希望 10 万人民币的车也能够搭载自动驾驶;我们希望 5 年时间能够让自动驾驶做到,让你可以全程脱手,可以全程看微信,可以全程开视频会议。不仅仅是中国,也包括全世界。

我们希望到 2030 年,全世界都能进入这样一个状态,同时地平线也成为世界级的一个科技企业,这是我们未来 5 年的目标。

当然我们的最终目标不仅于此。地平线创业第一天就说, 我们把公司名字叫 Horizon Robotics,就是想做机器人时代的微软,机器人时代的英特尔这样的企业 。我们希望 2030 年以后能够去赋能和成就更多的机器人产业,让这些机器人的产品搭载了地平线的计算方案后,变得更加智能,能够让更多人类去免除体力劳动带来的束缚,享受更多的自由。

《圣经》里有句话,让上帝的归上帝,凯撒的归凯撒。 我们目标就是 让机器人该做的事归机器人做,人做的事归人 。人做的事不应该在富士康的产线上,连上个厕所都要算时间,这是人做机器的事。

包括开车,在北京城市里面没有人享受开车的乐趣。如果你真的在一个开阔的原野上面你会愿意去开车,享受驾驶的乐趣,但是大部分时间我们让机器开就好了。

我们希望通过我们的努力去创造这样一个未来,让人做人的事。

「再来一次,不确定还敢创新」余凯回望创业以来的挑战|半岛娱乐登录地址

 

03

3 年后,自动驾驶会发生巨大拐点

 

张鹏 你提到智能驾驶今天还有很多不足,我们作为消费者,每个人对智能驾驶有自己的理解,但是智能驾驶这件事是你最熟悉的领域。我好奇作为这个领域里专业的人 你觉得今天智能驾驶有什么问题?还有什么做得不够好的?

余凯 :智能驾驶一定是刚需,如果暂时还没有成为刚需,确实是因为它的技术不够好。但是我觉得最近几年,像多模态大模型、端到端的训练、还有算力,也就是摩尔定律的发展, 大概三年时间自动驾驶会发生巨大的拐点

其实地平线内部基于新一代的征程 6 和新一代的智驾系统 SuperDrive,我们的自动驾驶系统已经可以在北京朝阳、望京或者上海静安区或者徐汇区,在下午 6 点下班的高峰期这种很疯狂的路况下,做到全程无监管、绝对老司机,甚至可以说开车开得比我还好。

关键变化就是以后大模型多模态、端到端技术,还有更大的算力。自动驾驶技术已经有很长时间的积累,如果从 Google Waymo 算起的话,已经有 20 年了。短期来讲的话,大家对技术的发展不一定非常满意,总会去高估,但是长期的话就会低估。像去年 ChatGPT 横空出世,会让人觉得,我们以前做的自然语言理解、机器翻译,突然一下就被击穿了。

我觉得就这么两年,自动驾驶也会发生像 ChatGPT 这样巨大的拐点。

张鹏 你刚刚提到了一个词叫「老司机」。你怎么定义老司机?因为老司机就是一个更好的智能驾驶,你要优化它,肯定要先定义它。它会体现在什么方面呢?

余凯 :我们对这个产品赋予了一种比较性格化的描述,叫「 优雅不怂,从容笃定 」。

现在比较老一点的自动驾驶系统,第一是不优雅,在好多时候有很强的顿挫感,让你觉得不舒服。或者有时候方向盘面对不同的情况,会不停地抖动,让人类司机也觉得慌。还有一种极端,是面对比较复杂的路况,它最好的策略就是停在那不动,像个怂包一样,你也觉得不舒服。因为在北京打拼大家都不容易,赶路时间很重要的。

优雅和不怂是个矛盾,我们就想用科技升维的方法解决这个矛盾。我自己的感觉,最近我们自己内部技术的进步让我自己觉得都吃惊。两年前我很难想象用 11 个摄像头,就能够实现跟有经验的人类司机差不多的表现,我觉得技术的进步已经在超出我的想象的边界了。

张鹏 所以这个进步的背后支撑它的核心,还是跟端到端的这样一套新的思路有关系的

余凯 :我觉得首先是关键的技术的发展,像端到端技术,交互式的博弈等等,但是我觉得还有一个很重要的就是你整个的系统架构,需要具备两个能力 :一、算法创新能力,二、你需要软件、硬件、系统的强大的工程质量。

这两个能力能够支撑你在这个领域成为这个领域的领先者,最后成为这个领域的王者。但是很多年轻的公司比较关心算法创新,工程能力、系统能力不一定那么重视。

像我以前在互联网行业,互联网行业如果一个软件出现一个 Bug,马上就可以改改,改好就可以上线。但车是硬件,如果车出问题了,可能要有一批车的召回,甚至导致灾难性的事故。所以我们对这件事要有充分的敬畏之心。换句话说,其实智能驾驶这件事也是适合我们这种老年人创业,有些方面我们做得稍微扎实一点。

张鹏 最早马斯克提自动驾驶 Auto Pilot 概念的时候,本质上还是个辅助驾驶 你觉得要做到 L4 级别的自动驾驶,这个时期会多久发生?

余凯: 我自己感觉,大规模的 L4 和 L5 差不多 5 年就能搞定 。最近人工智能技术的发展,使得自动驾驶不仅对局部场景有很好的表现,而且推广性强太多了。

像以前搞翻译,中译英、中译日、中译德,每一个都要单独做一个软件系统,现在一个大模型全搞定,说明整个模型泛化能力是很强的。在自动驾驶也是一样,以前像雕花一样地搞系统,高速、泊车、城市,每个都是不同的系统。现在一个大的 AI 全搞定,现在模型的泛化能力、举一反三的能力,比以前强太多了。

张鹏 在这个进程中,推动它的更关键的因素是什么?是算法还是算力,或者其他?

余凯 :我始终觉得更重要的还是算法。今天早上我还看到 OpenAI 的前首席科学家 Ilya Sutskever 说人类的数据快用完了,Scaling Law 遇到问题了。互联网数据像化石能源一样,就这么多,后面人工智能的发展本质还是要通过算法的演进。

我举一个极端的例子,爱因斯坦推导相对论。他没有做过任何试验,也没有任何观测数据,完全是通过思想试验,在一个理念世界里面推导出了广义相对论。所以真正的智能是独立于这个宇宙存在的,就像数学一样。在宇宙大爆炸发生之前,数学就是存在的。所以你不需要观测数据,你不需要这个人类这个世界的数据,然后才能够发展出智能。终极的人工智能只要靠计算就可以,不需要数据。

张鹏 今年我们突然看到很多城市在跑 Robotaxi 这样完全无人的出租车。这一方面让大家看到了自动驾驶技术的进步,另一方面也有一些讨论说,如果未来都是这种共享模式,对于智能电动车这个产品的定位、商业模式、市场需求是否会带来很大改变 你觉得共享的需求和个人的需求会因为技术变化带来连锁反应吗?

余凯 我持有反共识的看法,随着自动驾驶的时代来临,其实汽车共享化是一个小趋势,真正的个人化才是大趋势

张鹏 为什么

余凯 :你会跟别人共享你的手机吗?

张鹏 从来不共享

余凯 :其实人类的天性是随着技术的进步,拥有更多自由,而不是更少。你好不容易有一个自动驾驶的汽车,一定会存在你很多的内容。不光是数字内容,也包括你的很多物理内容。比如说你上班的时候,有时候开会你需要西装,放在车里;你下班需要打网球,运动设备在车里。

它相当于是移动会客室、移动的咖啡厅、移动的工作间、移动的娱乐室。你愿意把这些东西跟别人共享吗?你坐在车里面突然发现车里都是上一个客户吃的炸鸡翅的怪味,你会喜欢吗?不会的。 自动驾驶会释放很多可能,这些可能都在车里被存在,你不会想着跟任何人共享。

张鹏 所以这件事反过来跟技术无关,跟人性相关。一个创造价值的过程要讲降本增效,但是人生是不能讲降本增效的,人生其实是要更自由、更丰富的。所以这个时候如果有更丰富的供给,更自由的时间,人人都想要自己拥有,而不是共享

余凯 :我觉得人的生命整天追求效率,过得像是机器,这个逻辑是有问题的,科技的发展其实是应该让人生越来越丰富。

「技术的进步,该让人更加的自由」余凯阐释技术进步的意义|半岛娱乐登录地址

 

04

人形机器人还需要时间

 

张鹏 今年我也看到一个新变化,就是地平线在具身智能领域孵化了地瓜机器人。地平线本身就是要给机器人造大脑,为什么要分拆一个公司出来呢

余凯 :一 是两个业务节奏不一样 ,目前自动驾驶我认为属于未来 3 年、5 年就大决战,全世界范围内差不多就会把格局锁定。所以整个地平线团队还是要聚焦,把所有的带宽投入到自动驾驶大决战里面去。

对于机器人我们认为需要有更长时间的孕育,需要生态的培养。像地瓜机器人现在已经是国内机器人领域最大的计算方案的供应商,但是真正地让人形机器人这些飞入寻常百姓家,还需要时间。

拿智能电动车做比较的话,2014 年蔚小李创立的时候,其实特斯拉已经有 Model X 了,说明这个产业已经出来了。可是 今天人形机器人这个产业没有出来 ,相当于智能电动车时代的史前时代,还需要有更长时间的孕育。

现在地瓜机器人注重整个开发者生态,去支持很多的有梦想的机器人的开发者,包括我们在国内 20 多所高校里面开设课程,有点像英伟达 15、16 年搞 CUDA 那样。这件事需要超长期的耐心建设生态。

地瓜机器人跟地平线是两个不同的节奏周期、不同的战略阶段,所以我们打造相对来讲比较独立的团队,来干这个事情。

张鹏 所以本质上在不同的领域,不同的技术发展过程中,如果节奏不匹配,放在一个公司里是不对的,应该让他们各自匹配对应的客观环境和客观阶段去发展

余凯 :对。

张鹏 最后一个问题,机器人这件事什么时候会进入大决战的阶段?

余凯 :前几天我有几个朋友从硅谷回来,他们拜访了特斯拉、斯坦福等等。有几个人工智能领域耳熟能详的领军人物,跟他们讲了比较悲观的说法,认为人形机器人可能 30 年都不一定搞定。

但我自己觉得应该是 5-10 年。

这也很正常,今天还是在机器人早期,就像我们十年前预测自动驾驶什么时候实现一样,看法差距也非常大。

但我觉得机器人跟自动驾驶、大模型有一个最大差别,就是 大模型跟自动驾驶都非常容易收集数据,数据是海量存在的,机器人没有数据。 也就是说,现存基于大模型训练的方法论就不成立,需要一个全新的方法论去做。

但我自己还是比较乐观。

]]>
半岛娱乐登录地址 Wed, 18 Dec 2024 18:11:01 +0800
<![CDATA[周鸿祎:AI 是赋能者,而不是单纯的颠覆者]]> //www.ari-az.com/news/344344 头图来源:半岛娱乐登录地址

 

两年前,大模型刚兴起时,周鸿祎开始用四个「你相不相信」呼吁现场建立 AI 信仰,从此踏上「AI 布道者」之路。

去年,作为国内第一批发布大模型的互联网公司,360 的战略调整为「All in AI」。今年,360 在 AI 领域取得不少进展,1 月底上线 360 AI 搜索;7 月发布国内首款儿童 AI 手表 360 儿童手表 A9 AI 红衣版;8 月宣布与国内 15 家大模型厂商达成合作,共同推出新一代 AI 产品「AI 助手」……

如今,大模型技术的出现,深入影响了各行各业的发展轨迹,成为不可忽视的重要力量。但在周鸿祎看来,大模型不应被神化,而是应该被视为一种赋能工具。

在半岛娱乐登录地址 IF2025 创新大会上,360 集团创始人周鸿祎在「在大模型时代年轻人值得干点什么」的主题演讲中谈到,AI 的本质是「赋能」,而非单纯的「颠覆」。在 AI 时代,AI 的作用是为各个行业提供赋能、重构游戏规则,而不是单纯打破现有的格局,AI 应该像电动机一样嵌入到各种应用场景中,推动产业革命。

周鸿祎总结了他眼中关于未来的六个趋势

  1. AGI(通用人工智能)和超级人工智能发展放缓;
  2. 大模型趋向专业化;
  3. 模型越做越小;
  4. 训练数据质量提高;
  5. 成本降低;
  6. InfraStructure 建设基本完善。

同时,他也列出了六大应用方向,希望年轻人能够从大模型的六大应用方向中寻求到属于自己的机会。

  1. 人人智能;
  2. 从万物互联走向万物智能;
  3. 数转智改,助力传统产业打造新质生产力;
  4. 未来和新兴产业;
  5. 打造科研新范式;
  6. AI 安全。

如今,大模型正在把所有行业、把所有赛道都重写一遍,时代的游戏规则已改变,新的机会摆在了所有人面前。

以下为周鸿祎现场演讲实录,由半岛娱乐登录地址 整理。

 

周鸿祎:今天在讲人工智能之前,先跟大家说说我为什么拍短剧。我之前唯一看的一集短剧是《二十岁总裁爱上保洁阿姨》,看的时候有两个周鸿祎,一个理性的周鸿祎一边看一边吐,能这么拍?感性的周鸿祎说快点下一集。那么我为什么拍一部短剧呢?有些部门审核了之后说:我们发现你拍的不是短剧,完全是广告片,所以我们拍短剧的目的是什么,等下跟大家分享一下。

国内把这个事说得太神秘了,一说就是企业家做 IP,一说做 IP 在座很多人就觉得我又不是什么著名人物,我有什么 IP 可做的?

但其实说白了在短视频和短剧时代,短视频和短剧已经把我们头脑格式化之后,过去传统公关部和市场部或者用户增长部要干的一件事就是要搞流量。

我前一段时间去硅谷,跟很多创业公司谈,他们没有什么 IP 的概念,但是你问每个公司说如何冷启动你的公司,如何冷启动你的产品?答案都是一致的,就是做魔性的短视频,在国外短视频平台上获取免费流量,这是我们拍短剧的目的。现在这个短剧也正在拍续集。

最近有一个概念叫 Founder Mode。在短视频时代,传播游戏规则发生了改变,跟用户沟通方式发生了改变,更大的改变是在于大模型,它的出现改变了技术架构和商业模式。所以我现在是在带领 360 二次或者三次创业。

我今天分享一下我对大模型发展的思考,关于在大模型时代年轻人值得干点什么。

许多互联网行业的「老兵」可能会认为,AI 与互联网的发展规律相似,甚至会产生一种绝望感,觉得互联网已经经历了二十年的发展,许多机会和格局已经初步成型。前几天,马云在蚂蚁集团的讲话中提到的一个观点我非常赞同——AI 是比互联网更大的机会。因此,互联网时代的规则和思维方式不一定适用于 AI 时代。如果我们在 AI 时代仍然沿用互联网时代做 APP 或 Web 的思维来开发 AI,那就像刻舟求剑。

举个简单的例子,互联网能否提升生产力?互联网确实能够提高沟通效率,但这并不是互联网的本质。互联网的核心在于连接——连接人与信息、连接人与人。

周鸿祎在半岛娱乐登录地址 IF2025 创新大会|图片来源:半岛娱乐登录地址

互联网完全跟现实世界无关,而是创造了一个虚拟的时空,在互联网里又产生了很多独特的社交、社区模式。而人工智能的最大不同之处在于,它是一种直接提升生产力的工具,而且生产力更强。

硅谷的一些人曾经讽刺互联网,称自己原本希望得到的是一艘宇宙飞船或一辆会飞的汽车,却最终得到了一个 140 字的推特。互联网是很牛,但是互联网很多事干不了,而今天人工智能可以研究蛋白质的结构,可以让自动驾驶、无人驾驶成为可能性,包括推动机器人的发展。

所以这是我第一个分享的内容——人工智能应当被视为一种赋能工具。之前一个经济学家陈龙发表过一篇文章,我认同他的观点。过去,互联网常被视为一种「颠覆性」力量,我也写了一本书叫《颠覆者》。但在 AI 时代,我们必须承认,AI 是赋能者,而不是单纯的颠覆者。至于它到底能否颠覆,这个问题可以以后再讨论。

关于未来的六个趋势:

网络上有很多关于 AI 将颠覆各行各业的焦虑文章,但我认为最重要的是,AI 正在把所有行业、把所有赛道都重写一遍。所以这可能是各位和我们最大的机会,所以不要刻舟求剑。

先说几个预测/趋势:

第一个预测是AGI(通用人工智能)和超级人工智能发展放缓。我曾经非常看好 AGI 的前景,甚至觉得它会在 2025 或 2027 年出现。不过现在看起来这个发展步伐正在放缓。

周鸿祎在半岛娱乐登录地址 IF2025 创新大会|图片来源:半岛娱乐登录地址

 

这两天 Ilya 有一个新的演讲,但是 GPT5 还没发布,包括最近出现的一些新模型依然侧重于多模态能力的提升,尤其是在编程和推理能力方面。OpenAI 最初目标是幻想构造一个全宇宙超级无敌通用人工智能,能够在各个方面超越人类,现在我觉得这个事在逻辑上不太成立。

过去很多人认为,Transformer 模型模拟了人类的多层神经网络推理,只要提供足够的计算能力和数据,AGI 就会「自然而然」地出现。但是从现在来看,Ilya 承认互联网上能用的数据用得差不多了,好像 AGI 也没有到来。

有人说不是可以合成数据吗?合成数据是能解决一部分问题,像数理化的推理合成数据可以。但是有个问题是,人类知识往高处走,越泛化还是越专业?当你从硕士到博士,再到教授,再到院士时,科技树的走向通常是越来越专业化。

比如说如何写一个操作系统,如何造一个战斗机?如何造一个航母?如何造一个发动机?这种知识并不在互联网上,不是靠互联网阅读足够多的网页和八卦就能够掌握的,而且现在合成数据不能涵盖这个领域。

有人说 O1 推理能力很强,但是 O1 没有那么神秘,其实国内已经有好几家公司做出了类似的东西,核心就是通过思维链和强化学习,让模型进行多次推理,并在得出初步答案后,反向反馈,检查是否有错误。甚至我们试验过让百度先给答案,阿里的来批驳它,头条来收拾残局,最后 360 和和稀泥。你们可以试一下 PlayGround,就让国内大模型互相 PK 一下,每个智力都会提升很多。

所以 O1 的推理能力不细究了,我的观点不代表真理。不过 O1 的推理能力比较难泛化是一个问题。因为要做强化学习就要有价值函数,价值函数就是得先判断对和错,数学题倒是挺容易判断对和错的,但是如何写一个操作系统是一个好的操作系统,甚至说问题再小一点,如何写一个浏览器,它的价值函数怎么判断?

最后 AGI 我觉得一定会来到的,但是可能不是在今年明年。

第二个趋势:大模型进一步发展,无论训练还是推理,都在往专业化发展。

除了少数几家巨头公司,许多其他公司也在往更加专业的领域发展。王小川转向医疗领域,但还是有点宽泛。最近很多人讨论的 MOE(专家混合模型)架构,实际上也是通过多个专家模型来组合能力。

我最近重新思考了谷歌的战略,突然发现谷歌的战略似乎有些后来居上的意味。大家可以想想,DeepMind 这家公司开发的 AlphaFold 在蛋白质结构解析方面几乎无与伦比,AlphaGo 也曾击败了人类围棋的超九段高手。但我们并没有看到 AlphaGo 能写诗,AlphaFold 能解奥数题,这些系统有其局限性。包括 AlphaChips,它专注于芯片设计,据说已经超越了人类设计师。那我们为什么还要追求一个既能写诗又能解奥数题的大模型呢?

第三个趋势是模型越做越小。一年前如果站在台上我肯定不是这个观点,大模型刚出来时,大家都在比拼参数量:你有千亿,我有万亿,大家普遍认为只有参数越大,才能带来更多的能力。

但经过这一年的发展,很多小规模参数的大模型架构开始崭露头角。小模型的定义变得越来越模糊,实际上我们正进入一个模型轻量化的时代。最典型代表是面壁智能,他们名字起得土一点叫小钢炮。

包括今天模型要上手机,苹果在手机上也会有一个非常小的模型,微软也在探索 1B、2B 参数规模的模型。所以模型不一定越做越大,因为越做越大的话就变成马斯克的游戏了,他确实有钱,一说就是 10 万卡集群,要买个核电站,如果模型都是这个玩法,那跟大多数人就没有太大关系。

第四个趋势:训练数据质量提高。过去有一个误区,大家觉得模型越大能力越强,但还是面壁智能提出一个能力密度的概念,实际上是知识密度,就是大家发现过去以为模型越大,能力越强,才会涌现。但现在发现模型虽然小,只要知识含量高、知识纯度、知识质量高,也能展现出强大的能力。

比如把大模型想象成人,有两个大学同学,一个特别聪明,脑子容量特别大,天天在网上看八卦,你问他谁跟谁出什么事他都一清二楚。另外一个同学大学一年级只做高数题,就把高数 3000 个题做得滚瓜烂熟,谁的高数推理能力强?一定是后一个同学,但是你问他汤姆汉克斯的妈妈是谁,他可能回答不了这个问题。

现在,全球做大模型的人都意识到这个问题了,我们把互联网上的八卦拼命学进去之后,变成了一个快速问答的知识小能手,但是推理能力并没有特别强。所以 O1 走的就是另外一条路,它很多问题回答不了,但是不影响它的推理能力很强。

所以真正知识今天不在互联网,而是在很多专家脑子里,在很多公司内部业务流程里,那现在这些知识可能是通用大模型的厂商搞不到的。所以大模型的能力增强需要依赖其他途径。

小模型能力增强方法就是多推理几次,大家本来觉得 Scaling Law 碰到了障碍,大家以为老黄的显卡卖不动了,又发明一个方法——不依赖快速思考,而是通过慢思考来增强能力。慢思考并不是让模型立即回答问题,而是让它自己在内心中反复推理,消耗更多算力,这也能显著提升小模型的推理能力。

吴恩达老师有一次讲:如果我用 gpt 3.5+一个 Agent 框架,能力可以超过 gpt 4.0,开始我没有理解什么意思,后来发现当大模型通过快速思考直接回答问题时,其答案质量可能不如通过一个较小的模型,先进行反思、反复推理,并自我纠正后得到的答案。

最后一个好消息,大模型发展趋势之五——成本越来越低,现在行业里还有人整顿开源好,闭源就好吗?腾讯混元都开源了,千问开源一直做得不错,开源越做越好,能力上来了,开源成本基本为 0,尽管训练和推理的成本依然存在。

国外和 GPT4 等效的模型价格下降了数百倍,国内抓紧时间用他们的 AGI,比如说混元开源了,你自己部署一套,自己成本比直接接他们 API 都要贵很多。

他们投了那么多 Infra,投了那么多显卡,三年以后就折旧折完了,不用也是白费,他们给的 API 价格都是低于成本价,所以大家可以用起来。

第六个趋势,InfraStructure 投资已经差不多告一段落。为什么?看看英伟达股价就知道,英伟达卖了无数显卡。为什么有人在怀疑人工智能有没有泡沫呢?实际上大家花了几千亿美金买这么多显卡,实际上是给了一个信号——基础设施已经准备好,该做应用了,这一点很像互联网第一次泡沫破碎的时候,思科卖了无数路由器,各个国家拉了很多海底光纤,但是没有应用,第一轮互联网泡沫就破碎了,而基于这些基础设施的很多互联网应用做了起来。

目前开源能力和 API 能力肯定是准备好的,所以 2024 年是应用场景之年,2025 年是 Agent 之年。

我们现在谈大模型,很多事混在一起谈不清楚的,我还是希望分成两条路:一条是 AGI 之路,这条路承载了人类梦想,让有钱人继续卷数据、卷算力,朝着万亿十万亿参数发展,最近 X.AI 三个月就搞了十万卡集群,中国还是万卡集群。但是这条路跟大家没什么关系,反正大家都面临人生痛苦的问题就是没钱。

他们有些公司就没有搞清楚自己究竟是做 AGI,还是在做应用。这条路不要摇摆,要坚定地选择一条路走到黑,别做着做着说我是在大模型的通用能力,做着做着说我又做了一个场景应用来证明我的能力,这完全是两件事情。

我有一个观点,我们都说大模型要掀起一场工业革命,但怎么掀起工业革命呢?就得把大模型拉下神坛,大模型要往产业化、垂直化、场景化、应用化发展,所以做场景、做产品,我觉得一点都不丢人,正因为有无数的应用,互联网才能起来,否则互联网光靠海底光缆、靠思科的高端交换机,是没有任何意义的。

AGI,我今天就不谈了,这是少数巨头的游戏。我这次去美国也见了一个 VC,已经没有人在投做通用大模型的公司了,Anthropic 后面是亚马逊,OpenAI 背后是微软,再加上老黄、马斯克等,你能数得出来在美国做这样的公司不会超过 10 家,而且这个格局确实对「门票」的要求太高。我们国内有些创业者还是很聪明的,表面上看来在做通用大模型,实际上他的钱都拿来做投放了,这是非常 smart 的做法,因为投放好歹能弄来用户数据,你说预训练,训了大模型,还不如开源微调的好,这钱不是白花了嘛。

走应用之路,我的意思是让大模型从「原子弹」变成「茶叶蛋」,别再卷算力、卷数据、卷参数了,说白了,我觉得走应用之路的一个非常重要的理念,就是不要期望大模型什么都能干,我们前面被误导太久了,大家陷入了迷思,天天出来「秀肌肉」,就是大模型什么都能干,好像无所不能才叫大模型,你公司里雇过这样的员工吗?请了一个司机,又能当保镖,又能当司机,又能当保姆,还能做饭,还能给你揉脚,还能写程序,还能做公关,还能拍短视频,还能剪辑,要碰到这样一个人,他自己就创业了。

所以要做专业大模型。去年看了一个电影,有句话说的特别真理,说「解决问题的关键,就是找到关键的问题」,我觉得解决问题的关键就是放弃对大模型的执念,不要高估它的能力,当然我们也不低估它的潜力,让一个大模型就干一件事,换这样的思路去想一想,会发现模型更小、算力更少、成本更低,而且应用难度更低。

大模型是能力,不是产品

所以大模型是什么?我从一开始赌错了很多东西,唯一赌对的东西就是我一直不相信大模型是产品,我也一直不相信大模型是操作系统,你把什么东西比喻成操作系统这就坏了,全世界就需要 3-4 套,还有你什么事?

大模型不是操作系统,有人老喜欢拿云计算做比喻,我后面会讲到大模型也不是电力,大家一想到电力就想到了云计算,就应该在云端,但大模型更像一个电动机,所以大模型是能力,不是产品,能力是什么概念?

周鸿祎在半岛娱乐登录地址 IF2025 创新大会|图片来源:半岛娱乐登录地址

 

能力很好,但是要结合应用场景才能产品化,大模型是要藏在产品后面,所以我最喜欢的产品经理是谁你们知道吗?你们喜欢周星驰吗?看过他很著名一部教人怎么做产品的电影吗?叫国产《007》,我就经常反省,它里面最经典的例子是这看起来像一个刮胡刀,实际上是一个吹风机。

今天无论各位女士用的吹风机,还是男士的刮胡刀,还是电牙刷,还是扫地机,里面都藏着一个电动机,但你意识到电动机的存在吗?不存在。会有人买个电动机回来接上电说:来,给我转个 27000 转吗?也不会。

实际上你买了一个电动机你要装上轮子才能变成汽车,装上扇叶才能变成鼓风机,装上齿轮才能变成传送带,大模型这个东西挺庸俗的,它就是个电动机。

我今天讲的就是要把大模型拉下神坛,不供着它,不顶礼膜拜,好像干大模型就积极伟大,其实这东西要变的很庸俗。

当年 IBM 做出超级电脑之后,就跟今天的超算一样,说全世界五台就够了,最后超算真正没有掀起信息革命,掀起信息革命的是谁?是 PC。PC 最早从苹果 2 开始算,到 IBM PC 到微软的成功,把这玩意做得跟玩具似的,今天我们做的服务器端都是 PC,PC 进入了百行千业,进入了千家万户,这才能掀起工业革命。

AI 能不能颠覆?肯定最终是能颠覆的,因为啥都能颠覆,你把东西做的比别人便宜很多也能颠覆,你能在晚上不需要开仓储,在网上直播带货,一分钟能卖出 1 个亿的东西也叫颠覆。

但是从 AI 来讲,我的建议是不要一上来就想着颠覆这个、颠覆那个,先想想赋能,就是当你有了一个电动机之后,如何取代原来的蒸汽机,如何取代原来手工干的事情,能不能润物细无声的嵌入到应用场景中,不是不可以做新东西,但这里面最大的机会是有了 AI 之后,有了生产力提升、生产力赋能工具,很多产品可以重做一遍。

走应用之路,我觉得要对大模型的能力重新做一个划分,因为我觉得过去两年里面,我们都被自己误导了,你看各公司一说大模型,出来讲案例,都是讲它的两层基本能力,都是讲写诗作画写文章、阅读理解、翻译、编程,实际上我把这个定义成它的基本能力。

比如说大模型的 AIGC 这面,有可灵、海螺、vidu、即梦,这两天 Sora 出来了不过没有那么惊艳,这些模型是落在创作和营销能力。但是多模态能力值得大家关注,这两天 Gemini 2.0 它把多模态能力展现到极致,但是多模态能力和 AIGC 还是要划分开,因为两个用处不一样,所以要结合场景,而不是笼统地说能够处理图象、视频、声音是多模态,原来我认为能产生视频图像也是多模态,这个概念不一样,我觉得理解非常重要,因为它是让大语言模型从看见、看懂到理解的重要差别。

业务能力的对接也至关重要,特别是如何与企业的核心业务相结合。比如,情报分析、知识管理、业务自动化以及组织协作等,这些能力过去常常被忽视,但它们正是人工智能能够提升企业生产力的关键领域。特别是在自动驾驶这种新兴产业里面,具身智能这些创新能力,实际上提供了新的工作范式。

还有一个场景是 AI for Science,在座诸位也有人在这个领域可以思考一下,未来科学研究可能有一些专业模型来辅助,AlphaFold 就是是一个例子。

所以如果有人在这个基础上把模型能力分得层次更细,分得更多是没有问题,用户购买的并不是工具本身,而是一个切实能够解决问题的结果。所以大模型过去两年里面,大家自嗨太多了,不断说这个能力那个能力,今天要搭一个桥,而是要看这些能力到底给企业、用户创造什么价值。

六个方向里,有哪些机会?

我大概列了六大应用方向,看看大家是不是能够在这六大方向中寻找创业和创新的机会。

第一是人人智能。

我一直认为 AI 是人类有史以来发明最重要的生产力工具,除了对企业提升生产力之外,对个人来说,我觉得它可以解锁你很多不具备的能力,甚至让我们个人具有超能力,比如说不会做音乐的也能产生音乐,不会作画的也能把想法变成海报,所以大模型要提高每个人的生产力,打造个体的超能力,这里面有很多机会。

大模型在第一步,尽管大家都想着做工具的人挺吃亏的,赚工具的钱还不如做社区的,做社区有网络效应,工具的话用完就走,但是大模型首先工具属性还是非常重的。所以在这一块,大家可以想一想,当然不要只是去卖课,卖课是不成功的模式。

360 在这做的是纳米 AI 搜索和 AI 办公大全,是瞄准了帮助个人来提高个人获取信息、分析信息的能力,这一块有很多机会,就看能不能深入研究,人还有哪些能力可以被 AI 去提升。

第二个方向:从万物互联走向万物智能。万物互联的观念,IoT 的概念已经很成熟了。现在 AI 的发展从云端到终端,从云端到边缘,模型越来越小,现在像苹果手机的策略是手机上有个小模型跟云端模型星座,荣耀的照明说,手机算力、芯片发展到 2027 年手机上上个百亿的模型是没有问题的。除了汽车,明年以后没有大模型上车的车可能卖不掉了,联想也在给 PC 上模型。

我们想的更广一点,所有的智能硬件如果都跟大模型发生关系,但是不是把一个通用大模型连上来,而是在所有智能硬件上有一个专业模型增加一两个能力会怎么样?

比如说半夜里肚子饿了,打开冰箱找瓶啤酒,冰箱能够跟你说话,它看见你,它告诉你太胖了,不要在晚上再喝啤酒了,而且它会自动给你的监护人发个短信。

那有人老说要做新的硬件,AI Pin 大家都知道比较失败了,他们画蛇添足非要带一个投影仪,还要做手势,手机被证明是人类比较能接受的随身携带的物品。还有戒指、手表、眼镜,Meta 最近做了一个眼镜,也是蛮成功的,我也准备推出我们的纳米眼镜,这不是玩笑,因为苹果做 Vision Pro,老是想做 VR 和 AR,这个搞得眼镜太重,功能太多。但是大家发现如果眼镜跟 AI 搜索结合起来和拍照结合起来,变成轻量级的,据说 Meta 眼镜卖了好几百万副眼镜了。在大模型的推动下,元宇宙、虚拟现实有可能梦想成真,大家想想智能硬件是不是会有机会?

第三个机会是,在中国做事情要顺势而为,国家很重要的战略是传统产业数字化,有一个词叫数转智改,也是新质生产力,大模型特别适合提升打造新质生产力。

如何帮助企业数转智改?大模型可以发挥很重要的作用。现在通用大模型肯定不适合给企业去用,我问过很多企业家和政府领导,通用大模型因为并不了解内部业务,所以说的话比较泛泛而言,而且这种聊天你们如果做过企业级应用就知道,这种 Coplot 的模式是企业最不能接受的。如果你们做过企业级应用就知道天天请一个聊天机器人回去,头三天还能有兴趣聊,长期对工作效率提升没有意义的。

在企业内部我也讲不要幻想用一个大模型解决所有的问题,企业内部将来一定是多个业务智能体的组合,背后是多个业务大模型,这目前是最大的市场,而且这个市场需要你沉到行业里,沉到客户里,,因为很难有通用的解决方案,这里面提供了比 SaaS 更大的机会。

第四个方向是未来和新兴产业。

比如说生物医药、具身智能(人形机器人)、低空经济(无人机),无人机是颠覆式的创新,还有就是智能网联车的自动驾驶到无人驾驶。这个行业里面如果不用大模型,这些行业都做不起来,因为大家想想为什么最近特斯拉 FSD 可以实现端到端的自动驾驶,端到端有两个解释,我们学术上是说基于训练学习的方法取代了基于规则的方法,用一个黑盒子系统,从输入到输出。也有人把它解释为从一个停车位到另一个停车位,不知道哪个解释更好。

第五个机会是打造科研新范式。大模型工作范式很简单,就是给我好的例子,经过足够学习之后就能产生举一反三的涌现理解,以后就能模仿;而基于规则,我曾经跟做自动驾驶的人聊过,他们大概自动驾驶的规则,像萝卜快跑就是基于规则做的,据说规则有几十万条,所以你要想吓唬一个萝卜快跑,只要把自己化装成熊猫在马路上过,我打赌百度肯定没有写规则,如果遇到熊猫在路上是撞上去还是应该停车。但是我在学驾照过程中深刻领悟到人的泛化能力,无论是否放个纸箱子,还是放一个塑料墩子,我都能灵活地绕过去。

包括具身阶段没有大模型的加持也是不可能的,原来深圳有一家公司叫优必选,大模型出来之前,它快成玩具公司了,他们机器人主要在表现团体操,但是有了大模型之后,这个公司就迅速地迎风而起,所以新兴行业对大模型的借鉴是非常多的。

AI for Science,我只能说个方向,这个具体我也不懂,但是值得关注,就是它是科研的新范式。

大模型的本质在于对语言、图像、视频和声音的理解,但其核心原理是将训练数据转化为一种序列,称为 Token。虽然「Token」这个词的翻译可能存在歧义,但从本质上来看,如果你能将需要处理的数据转化为 Token 序列,那么就有可能通过预测下一个 Token 来获得有意义的结果。这也是为什么 AlphaFold 能够成功的原因。它将蛋白质的结构视为一种序列,而人类已经研究出这些序列的规律,可以作为样本进行学习和微调。接着,AlphaFold 使用 Diffusion 方法随机生成各种可能的结构,并对这些结构进行判断。

这种思路不仅可以应用于蛋白质结构预测,也可以扩展到其他领域。例如,天气预报、股市预测、交通分析,甚至工业领域中的生产控制,都可以通过将行业数据序列化来进行处理。这时,并不需要依赖大语言模型的语言处理能力,而是要找到一种方式,将行业数据转化为可以进行序列化的形式。一旦数据能被序列化,Transformer 模型就可以用来尝试预测和推理。

我曾经发过一个关于人类长寿的视频,提出人类有可能活到 150 岁。虽然这个观点听起来似乎很极端,但美国在医学领域的观点也支持这一想法。英伟达的创始人黄仁勋多次举例提到,人的细胞最终也会以一种序列的形式表达,而人类基因的表达同样可以视为一个序列,甚至新药分子的分子结构也能以序列的方式表现。研究人员认为,只要能够将某个领域的内容转化为序列,Transformer 和 Diffusion 等技术就能进行有效的预测和推理。

在中国,关注这个领域的人还相对较少。微软研究院的前院长马维英博士,现在在清华大学专注于医学和生物领域。我相信,未来会有更多的领域等待着通过 Transformer 和类似的技术进行改造和创新。

第六个场景,就是安全场景。

为什么要加这个场景?因为我是做安全的。这里面谈的主要是 AI 安全。在很多场景中都涉及到大模型的应用,AI 的安全性显得尤为重要。顺便提一下,最近 Ilay 提出了一些耸人听闻的观点,他认为未来的智能必然依赖于推理,而推理会带来不确定性,不确定性会导致幻觉,幻觉进一步演变为意识。因此,他强调了人工智能安全性的问题。但我个人认为,专业领域的大模型不太可能产生意识,就像你雇佣一个专业员工,他不太可能会摧毁你的公司业务一样。有超级人工智能才会对人工智能的安全构成终极威胁。通用人工智能方面只有几个问题:

一是数据隐私保护和数据投毒污染的问题;二、注入攻击的问题;三、幻觉;四、AIGC产生的虚假信息问题。

我们提出的思路是以模制模,用魔法对付魔法,用专业安全大模型对付安全问题,所以安全问题不是今天重点。

如今,发展专业大模型的核心已经不再是大模型本身,而是找场景。找场景对大家最大的挑战,是要对某个行业、某个业务有深入的理解和了解,如果业务不了解,天天在玩大模型,天天用大模型做一些屠龙之技,在炫技,这个很可怕,再怎么炫,OpenAI 明天发布一个新功能,把技术一下就覆盖了,OpenAI 和这些巨头今天他们最缺的是行业和领域知识,这在美国也不例外,比如说现在美国有很多创业公司是悄无声息的在做金融的解决方案、医疗的解决方案。

我简单提出四个发展方向,或者说四个「十倍」目标:

一个方向是对上,满足老板和高管的需求,比如说这次张鹏推荐的做面试的一家美国公司,他们两头通吃,他们做了两个领域,先做人人智能领域,做了一个作弊工具,你面试的时候能够帮你在旁边提示如何回答面试官问题。他们又做了一个数转智改的应用场景,帮助老板解决如何利用机器,HR、主管面试个人的问题,所以想想都很美,大家都用他的软件,机器人面试机器人,但他挣了两份钱。

第二个方向是对下,是面向员工,看员工有什么痛点和刚需?

第三个方向是往内看,企业内部如何提高自己的效率,内部有什么管理业务流程;

第四个方向是往外看自己的产品和服务体系能否找到企业的卡点,卡点的一个衡量指标是说能不能减少 10 倍的人力、降低 10 倍的成本、提高 10 倍的效率、提升 10 倍的体验。

我跟河北钢铁企业在谈的时候,谈到群体智慧,过去你想干、干不了的事,今天大模型能干了;过去你想解决、解决不了的困难,今天大模型能解决了,就找这种卡点和堵点,这就是大模型应该发力的地方。所以一定要细分场景,包括要把业务流程拆解的足够细,大模型初期的时候,我至少做了 100 个失败的案子,你们别听今天很多人上来说六小虎接了多少大模型的例子,其实很多项目都难以交付,我也吃过这种亏,刚开始大家对大模型都极其崇拜,有人来找我说,鸿祎,我们做个养猪大模型,也会有人说我们做个钢铁大模型,还有人说做个医疗大模型,你反问他一个问题,大哥,你要解决什么问题?你把他给问死了,因为都不知道要解决什么问题怎么做?最重要的是一定要细分场景。

举两个例子,河北省的钢铁是最发达的,大家都知道中国的钢铁含量不含河北,河北的钢铁产量不含唐山,唐山的钢铁产量不含迁安,我们就到迁安去了,他们最开始也说要提升钢铁的生产效率、提高钢铁的质量,我们都认同这个目标,但他们说要做钢铁大模型,我想没有钢铁大模型,只有细分的场景,所以他们就把钢铁的整个过程列出来了,把流程划成了 142 个场景,分的特别细,这 142 个场景,可能有些场景都能单独训一个大模型出来,或者单独做一个智能体,你要分到这么细的程度才可能解决传统企业数转智改的问题,否则只做一个问答、只做一个 Copilot、只做一个办公,这些通用方案都可以解决他们的问题,如果真的要直接提升生产力就得分析到这种程度,但这种程度,我觉得巨头一个都干不了,实在太细致了,OpenAI 也干不了,因为它没有这样的数据和知识。

再举个更简单的案例。这次我在美国见了一家跟王小川做同行的事情,但做法是不一样的,你们可以听听差别,对比一下,觉得是小川的好,还是这家公司的好,这家公司是中国小伙子创办的,他们跟斯坦福医疗中心签了一个约,美国看病跟中国看病不一样,我一会要去看病,直接到医院挂个号就行了,我想到斯坦福医学院挂号,人家不给我挂号,说需要你的家庭医生或者社区医生先看过,然后发传真,把你的病情情况介绍给我们,我们再预约某一个时间来看病,他们把这个场景分的很细,发现了三个卡点或者三个堵点:

斯坦福医学院有 100 多人的队伍每天收传真,美国现在还在用传统的传真,传真才有法律效率,医生写字是全世界最潦草的,所以看传真的人都很费力,所以要打电话来回多次确认才能把你登记到数据库里,还要给病人打电话预约看病的时间,病人看完病之后要到保险公司报销,这也是一个挑战。

保险公司会拒赔,他们要请很有经验的专家有理有据的写一个为什么我这个病,根据我的诊疗过程,写最后能够报销多少,这家公司做了三个 Agent,相当于是三个大模型,第一个是多模态大模型 OCR 识别传真,现在比人做的好,可以把 100 多人看传真的队伍给取消掉了。

第二个场景是数字人用语音和病人打电话,因为这个打电话不是通用客服,是来回预约时间。

第三件事,他们把医院里历史上给病人写过的十几个万份给保险公司的报销报告训练成一个知识模型,人家不是一个通用写作产品,不是说给我写一篇小说,就是专门写如何给保险公司报销的。

他们就做这三件事,就是一个很了不起的项目,这就是典型的帮助传统企业数转智改,为什么医院愿意付钱?医院能算出节省的人力、能算出提升的效率、能算出工作量,这和我们原来做工具有个最本质的不一样,比如说很多时候企业买了我们的软件,为啥中国的 SaaS 付费一直做不起来,一个很重要的原因是你的软件有没有也不是特别重要,所以提高效率也很难算。

原来我们做的软件是什么概念,还是人的工具,但今天AI在这些关键点上,AI 基于一个大模型,封装出来了 Agent,实际上是一个数字专家,是一个数字员工,完全可以直接取代人的工作能力,这个企业的付费意愿就比原来提升了很多。

如何做好专业大模型?

做专业大模型,最重要的有这几个点:

1. 知识管理。很多失败的例子,是因为客户的数字化做的不好,没有足够多的知识,比如说斯坦福如果收到的所有传真都销毁掉了,没有过去历史的数据做训练,这个事不一定能做到,如果过去写的保险公司的报告都没有了,可能也无从训练,所以知识非常重要。

2. 业务大模型打造。这就比较容易了,用通用大模型进行蒸馏变成基座大模型,而且从现在的趋势来看,微调用的越来越少,RAG 用的越来越多。

3. 构建智能体。Agent 就不展开讲了,因为 Agent 过去是一个技术辅助,但今天 Agent 成了我们今天给企业做做应用的核心诉求,最近我准备把我做的 APP 都改成 Agent,你卖一个 APP 给企业,听起来就像卖了一个软件,软件不值钱,但是我的 APP 全都变成了 Agent 之后,我卖的就是数字人,你雇一个人得 2 万块钱,我这一个月才 1000 块钱,多便宜,价值感马上就不一样了。

4. 融合工作流。为什么大家现在谈 Workflow?你们都知道 comfyui,它的功能强大,就是因为它知道很多节点只能完成单个任务和单个技能,很多时候我们要把技能组合起来才需要 Workflow,所以 Workflow 会变的很重要,因为没有 Workflow 你就做不出复杂的智能体,就做不出合作的智能体。

5. 知识管理。大家要有思想准备,这比训大模型还困难,真到一个企业之后,发现他的知识都是暗知识、浅知识,有些知识藏在大数据里,需要把大数据进行加工,有的知识存在人的脑子里,有的知识存在员工的硬盘里,有的知识存在工作流程中。比如我们经常说一看你就是新员工,一看这个人就是老员工,为什么?因为他有很多公司潜规则的知识,如何把这些知识能够训到你的大模型里去,如何能搜集出来?所以我提出一个概念叫知识捕获,采集都不一定采集得到。

6. 业务大模型打造,要做 RAG。

7. 构建智能体。智能体最早是调 API,我问个问题向大家请教,最近 Claude 推出 MCP,我的理解是用大模型做一个黑盒子,自己调 API,我觉得这个模式应该不 work,最好的模式还是应该由 Agent 来调 API,Agent 来调大模型,由 Agent 来做整体的协作,为什么?

因为 Agent 有个很重要的价值,要实现慢思考能力,这个能力是由 Agent 多次调一个或调多个大模型,当多个大模型协作的时候,Agent 它负责发起协作并在大模型之间进行有效的调度。

2025 年是 Agent 之年,包括把日常重复性的业务流程形成 Agent,自主性的响应。

8. 融合工作流。可以认为是 Agent 操作系统,就像今天人会用钉钉、企微,另外我听到上一个 Speaker 讲一人公司、两人公司,我这里吐槽一下,我认为不可能,别被这种东西忽悠,你们读一读赫拉利的书,智人之所以成功,因为智人是最懂得群体合作的,人一定需要团队合作。

所以我们企业级的,今天钉钉也好、飞书也好,并不是为 Agent 打造的,还是为人打造的,这在未来也是一个巨大的方向,相当于是 Agent OS,如何把 Agent 工作流能够做好,当然我不能透露我们在做。

我们有一点要向美国的创业者和投资人学习的,他们编的词特别打动企业客户。他们在重新定义 SaaS,SaaS 原来的定义是什么?Software as-a Service,现在他们重新谈了一个新概念,叫Service as-a Software,这就像绕口令一样,什么叫 Service as-a Software 呢?

过去有很多事是软件干不了的,或者软件只能起到辅助工具的作用,比如说看传真,虽然有了传真机,还得有人在读传真,往数据库里录入,写保险公司报销报告,或者律师给你写个文件,都是人写的,这个市场叫 Service 市场。

美国的 Software 市场大概是 1 万亿美金,但是 Service 人力市场是 10 万亿美金的市场。有了大模型之后,在一个细分的节点上,它可以取代人,或者可以该原来干不了的事,可以解决原来解决不了的困难了,意味着这个 Service 可以用软件来干了,意味着软件从原来 1 万亿美金的市场在往 10 万亿的市场上在侵蚀,这给我们做软件的人提供了一个 10 倍的机会,从企业级市场到智能软件反攻服务市场。

过去我们交付的是软件,今天直接交付的是能力,换句话说,直接交付的是人力,我觉得未来 APP 还会在,看最近智能手机的演示,Siri 可以直接操纵各种 APP,甚至是智能体和 APP 最大的差别,APP 做的再牛,还是给人用的、是人的辅助工具,但 Agent 可以自主或者应人类要求独立地完成一个任务,换句话说,过去是工具辅助人创造价值,未来 5-10 年会变成AI直接创造价值,这就是各位最大的机会。

最近网上流传一个视频是在斯坦福的内部录像,主持人讲了一个故事,我可以把这个故事分享出来作为我的演讲结尾。大模型不是中心化云化的电力,大模型是去中心化的电动机。

周鸿祎在半岛娱乐登录地址 IF2025 创新大会|图片来源:半岛娱乐登录地址

 

他讲了最早工业革命在电动机取代蒸汽机,用了 30 年,为什么用了 30 年?因为蒸汽机一般的企业很难用得起,所以一个工厂如果有一座蒸汽机,蒸汽机给工厂里所有需要动力的地方都提供动力,但是蒸汽机是通过很长的连杆来输出动力,所以连杆的强度有限,不能太长,工厂的布局是以蒸汽机、锅炉房为核心,来做工厂的布局和业务流程的设计。电动机刚发明之后,老板只是把蒸汽机换掉,换等了电动机,效率一点没有提升,也没有产生额外的价值,因为所有的东西都没有变化。

后来经过了 30 年的技术发展,人们的意识和技术能力突然发现可以把电动机做小,今天小到一个电动牙刷里也是一个电动机,实际上它和小米汽车用的电动机是一个基因发展出来的,但是一个 27000 转蓬勃有力,一个就是给你刷牙用。

人们把电动机做小之后、做便宜之后,突然发现工厂里的动力不需要中心驱动了,变成单元驱动了,所有需要动力的地方装一个自己的电动机就好了,就像我说的,甚至工厂的格局都变化了,工厂可以变成不同的车间、不同的 Location,不同的 Location 之间可以用生产线、流水线连起来,工厂的鼓风机,包括纺织机都有各自的动力。

所以你们想想,如果不是这样的革命,如果我们家里买一个电动机,这电动机一方面给我们当风扇用,又给我们当吹风机用,一会还给我刷牙,还给我刮胡子,可以想象一下多可怕,买了一个大电动机,啥活都干…… 这样一来,整个工厂的业务流程、管理体系,甚至商业模式都逐渐地发生了变化。

如果这里把电动机换成大模型,是不是很贴切?我们干嘛一定要相信用一个 API 也好,或者用一个中心的超级无敌通用的大模型来解决我们在企业内部不同地方遇到的不同的业务问题呢?

现在大模型的成本很低,有开源的,有免费的,我们把每个大模型只干一件事情,就当风扇用,就当传送带用,就当鼓风机用,这种新型的架构是不是代表了大模型将来在企业和在行业内部的应用场景?反正我是相信的。

 

]]>
半岛娱乐登录地址 Wed, 18 Dec 2024 15:35:21 +0800