相关文章
李飞飞:理解世界运作方式是AI的下一步,我们需要从大语言模型转向大世界模型
2025-01-14 07:45

语言中充满了视觉格言。比如,“眼见为实”,“一幅画胜过千言万语”,“眼不见,心不烦”等等。这是因为我们人类从视觉中获取了很多意义。但并不是一直都具备视觉能力。直到大约 5.4 亿年前,所有生物都生活在水面以下,且它们都无法看见。只有随着三叶虫的出现,动物们才能第一次感知到周围阳光的丰富。接下来发生的事情是非凡的。在接下来的 1 千万到 1.5 千万年中,视觉的能力开启了一个被称为寒武纪大爆发的时期,在这个时期,大多数现代动物的祖先出现了。


今天,我们正在经历人工智能(AI)的现代寒武纪大爆发。似乎每周都有一种新的、令人惊叹的工具问世。最初,生成式AI革命是由像 ChatGPT这样的巨大语言模型推动的,它们模仿人类的语言智能。但我相信,基于视觉的智能——我称之为空间智能——更为根本。语言很重要,但作为人类,我们理解和与世界互动的能力在很大程度上基于我们所看到的。


一个被称为计算机视觉的AI子领域长期以来一直致力于教会计算机拥有与人类相同或更好的空间智能。过去 15 年,该领域迅速发展。并且,在以AI以人为本的核心信念指导下,我将我的职业生涯奉献给了这一领域。


没有人教孩子如何看。孩子们通过经验和例子来理解世界。他们的眼睛就像生物相机,每秒拍摄五张“照片”。到三岁时,孩子们已经看过数亿张这样的照片。


我们需要从大型语言模型转向大型世界模型


我们知道,经过数十年的研究,视觉的一个基本元素是物体识别,因此我们开始教计算机这种能力。这并不容易。将一只猫的三维(3D)形状呈现为二维(2D)图像的方式是无穷无尽的,这取决于视角、姿势、背景等。为了让计算机在图片中识别出一只猫,它需要拥有大量信息,就像一个孩子一样。


这一切直到 2000 年代中期才成为可能。那时,被称为卷积神经网络的算法,经过数十年的发展,遇到了现代 GPU 的强大能力以及“大数据”的可用性——来自互联网、数码相机等的数十亿张图像。


我的实验室为这一融合贡献了“大数据”元素。在 2007 年,我们在一个名为 ImageNet 的项目中创建了一个包含 1500 万张标记图像的数据库,涵盖 22000 个物体类别。然后,我们和其他研究人员使用图像及其相应的文本标签训练神经网络模型,使得模型能够用简单的句子描述之前未见过的照片。利用 ImageNet 数据库创建的这些图像识别系统的意外快速进展,帮助引发了现代AI热潮。


随着技术的进步,基于变换器架构和扩散等技术的新一代模型带来了生成性AI工具的曙光。在语言领域,这使得像 ChatGPT这样的聊天机器人成为可能。在视觉方面,现代系统不仅能够识别,还可以根据文本提示生成图像和视频。结果令人印象深刻,但仍然仅限于2D。


为了让计算机具有人类的空间智能,它们需要能够建模世界、推理事物和地点,并在时间和3D空间中进行互动。简而言之,我们需要从大型语言模型转向大型世界模型。


我们已经在学术界和工业界的实验室中看到了这一点的初步迹象。借助最新的 AI 模型,这些模型使用来自机器人传感器和执行器的文本、图像、视频和空间数据进行训练,我们可以通过文本提示来控制机器人——例如,要求它们拔掉手机充电器或制作一个简单的三明治。或者,给定一张 2D 图像,该模型可以将其转化为用户可以探索的无限数量的合理 3D 空间。


应用是无穷无尽的。想象一下,能够在普通家庭中导航并照顾老人的机器人;为外科医生提供不知疲倦的额外帮助;或者在模拟、培训和教育中的应用。这是真正以人为中心的人工智能,空间智能是它的下一个前沿。人类进化了数亿年所取得的成果,现在在计算机中仅需几十年就能出现。而我们人类将是受益者。


内容综合自网络。本文版权归属作者和原载媒体所有。


    以上就是本篇文章【李飞飞:理解世界运作方式是AI的下一步,我们需要从大语言模型转向大世界模型】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/news/14225.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://sjzytwl.xhstdz.com/mobile/ , 查看更多   
最新文章
内江资中:喜迎新春 情暖老兵
  年关将至,温暖先达。新春佳节来临之际,资中县精心组织“喜迎新春 情暖老兵”走访慰问活动,资中县双龙镇退役军人服务站率
不花钱享受高音质 千万人都会选择的播放器手机音乐播放器「不花钱享受高音质 千万人都会选择的播放器」
前言:音乐,是一项不分国界的爱好、事情、物质甚至叫情感。而媒介,我想对于现在大多数的人来说,听音乐的方式太多了,要是自己
UC手机浏览器uc手机浏览器「UC手机浏览器」
是UC 优视科技开发的一款手机,支持WEB、WAP页面浏览,速度快而稳定,页面排版美观;具有网站导航、搜索、下载、个人数据管理等
如何在手机挣钱正规渠道 2022五大利用手机赚钱的渠道手机赚钱「如何在手机挣钱正规渠道 2022五大利用手机赚钱的渠道」
如何在手机挣钱正规渠道?很多人都通过做手机游戏任务和试玩游戏赚钱,单干的话一天也可以挣一两百块,如果掌握了某种推广渠道做
著名画家---辛守庆作品赏析手机网易网「著名画家---辛守庆作品赏析」
辛守庆,男,汉族,1945年出生于山东省高唐县姜店镇辛庄村,现居北京。国家一级美术师、中国美术家协会员、中国花鸟画研究会研究
传音与阿里云合作推出TECNO AI手机,开启新体验tecno手机「传音与阿里云合作推出TECNO AI手机,开启新体验」
智能化助手:一键激活AI按键,你可以随时进行AI对话与任务处理,而不必担心网络问题。文生文功能:可以在接到电话后自动生成通话
AI办公助手:提升工作效率的秘密武器你还在犹豫吗?
引言:新时代的办公助理 随着人工智能技术的不断发展,越来越多的企业开始引入AI办公助手,提升整体工作效率。这种基于AI技术的办公助手,犹如一位高效的秘书,能够帮助员工减少繁杂的日常事务,提高专注度,从而实现更高的工作产出。但面
10款必试AI视频带货软件让你轻松开启销售新纪元!
引言:AI视频带货的崛起 随着科技的飞速发展,人工智能正在全面渗透到各个产业,而视频带货作为一种新兴的营销手段,正在受到越来越多商家的青睐。借助AI视频带货软件,企业和个人可以更高效地展示产品,吸引目标客户,提升销售业绩。本文
探寻中国:不可错过的十大必游旅游景点推荐
探寻中国:不可错过的十大必游旅游景点推荐 中国,这片广袤的土地,自古以来便是文明的摇篮,历史的长河中孕育了丰富的文化与壮丽的自然景观。从古老的长城到秀美的江南水乡,从神秘的西藏到繁华的都市,每一个角落都散发着独特的魅力。在
【独家教程】学会使用Nginx配置前端路由!
前言 对于前端开发者来说,掌握 Nginx 配置前端路由是非常关键的技能。在 Web 开发中,合理使用 Nginx 不仅能提高网站性能,还能优化用户体验。本篇文章将为大家提供详细的独家教程,帮助您学会使用 Nginx 配置前端路由。 为什么选择Nginx
相关文章