GPT4就是AGI谷歌斯坦福科学家揭

编辑:编辑部谷歌研究院和斯坦福HAI的两位专家发文称,现在最前沿的AI模型,未来将会被认为是第一代AGI。最前沿的LLM已经用强大的能力证明,AGI即将到来!通用人工智能(AGI),其实已经实现了?最近,来自谷歌研究院和斯坦福HAI的大佬发文称,现在的大预言模型就是通向AGI的正确方向,而且现在最前沿的模型,已经拥有AGI的能力了!这两位作者都是AI业界大佬,BlaiseAgüerayArcas现在是GoogleResearch副总裁兼研究员,曾经也在微软任职。主要研究领域是人工智能基础研究。PeterNorvig是一位美国计算机科学家,是斯坦福AI研究所研究员,也是GoogleResearch的工程总监。不同的人眼里的通用人工智能(AGI)的含义,是完全不一样的。当前最先进的AI大型语言模型几乎已经实现了大部分对于AGI的畅想。虽然这些「前沿模型」有许多缺陷:它们会编造学术引用和法庭案例,从训练数据中扩展人类的偏见,而且简单的数学也算不对。尽管如此,今天的前沿模型甚至能胜任它们没有训练过的新任务,跨越了前几代人工智能和有监督深度学习系统从未达到的门槛。几十年后,它们将被公认为第一批达到AGI能力的范例,就像现在回头看年的ENIAC一样,它就是第一台真正的通用电子计算机。即使今天的计算机在速度、内存、可靠性和易用性方面都远远超过了ENIAC。但是ENIAC可以使用顺序指令、循环指令和条件指令进行编程,这赋予了它前辈(如差分分析仪)所不具备的通用性。同样,未来的前沿人工智能也会在今天的基础上不断进步。但通用性的关键属性呢?它已经在现实的大语言模型上实现了。

什么是通用人工智能?

早期的AI系统虽然在执行任务的能力上,可以接近或超过人类的水平,但通常只能专注于单一任务。比如,斯坦福大学TedShortliffe在20世纪70年代开发的MYCIN,只能诊断细菌感染并提出治疗建议;SYSTRAN只能进行机器翻译;而IBM的「深蓝」也只会下国际象棋。后来,经过监督学习训练的深度神经网络模型,如AlexNet和AlphaGo,成功完成了很多早期启发式、基于规则或基于知识的系统,长期无法解决的机器感知和判断任务。最近,我们看到了一些前沿模型,它们无需进行针对性的训练,就能完成各种各样的任务。可以说,这些模型在五个重要方面实现了通用人工智能的能力:-话题(Topic)前沿模型是通过数百千兆字节的文本训练而成,这些文本涵盖了互联网上几乎所有讨论过的话题。其中,一些模型还会在大量多样化的音频、视频和其他媒体上进行训练。-任务(Task)这些模型可以执行各种任务,包括回答问题、生成故事、总结、转录语音、翻译语言、解释、决策、提供客户支持、调用其他服务执行操作,以及组合文字和图像。-模态(Modalities)最受欢迎的模型主要处理图像和文本,但有些系统也能处理音频和视频,并且有些与机器人传感器和执行器相连。通过使用特定模态的分词器或处理原始数据流,前沿模型原则上可以处理任何已知的感官或运动模态。-语言(Language)在大多数系统的训练数据中英语所占的比例最高,但大模型却能使用数十种语言进行对话和翻译,即便在训练数据中没有示例的语言对之间也可以实现。如果训练数据中包含了代码,模型甚至可以支持自然语言和计算机语言之间的「翻译」(即通用编程和逆向工程)。-可指导性(Instructability)这些模型能够进行「上下文学习」,也就是根据提示而不是训练数据来进行学习。在「少样本学习」中,一个新任务会配有几个输入/输出示例,然后系统会基于此给出新的输入对应的输出。在「零样本学习」中,会描述一项新任务,但不会给出任何示例(例如,「以海明威的风格写一首关于猫的诗」)。「通用智能」必须通过多个维度来考虑,而不是从单一的「是/否」命题。此前,弱人工智能系统通常只执行单一或预定的任务,并为此接受明确的训练。即使是多任务学习,也只能产生弱智能,因为模型仍在工程师设想的任务范围内运行。事实上,开发弱人工智能所涉及的大部分艰巨工作,都是关于特定任务数据集的整理和标注。相比之下,前沿语言模型可以胜任几乎所有人类可以完成的任务,这些任务可以用自然语言提出和回答,并且具有可量化的性能。对于通用人工智能来说,上下文学习能力是一项意义重大的任务。上下文学习将任务范围从训练语料中观察到的事物,扩展到了所有可以被描述的事物。因此,通用人工智能模型可以执行设计者从未设想过的任务。根据「通用」和「智能」这两个词的日常含义,前沿模型实际上在这方面已经达到了相当高的水平。那么,为什么有人不愿意承认AGI的存在呢?其原因主要有以下四点:1.对于AGI的度量标准持怀疑态度2.坚信其他的人工智能理论或技术.执着于人类(或生物)的特殊性4.对人工智能经济影响的担忧

如何设定AGI的评价指标

对于通用人工智能(AGI)的门槛到底在哪里,其实存在很大分歧。业界很多专家们都曾试图完全避讳使用这个词。比如DeepMind的联合创始人MustafaSuleyman建议使用「人工能力智能(ArtificialCapableIntelligence)」来描述这种系统。他建议通过「现代图灵测试」来衡量这种AI系统——能否在10万美元的启动资金基础上,快速在网上赚取万美元的能力。尽管将「有能力」直接等同于「能赚钱」似乎还是一件值得商榷的事情,但是能够直接产生财富的AI系统肯定会在更加深远的层面上影响世界。当然,大众有充分的理由对某些指标表示怀疑。比如当一个人通过了复杂的法律、商业或医学考试时,大众就会假设这个人不仅能够准确回答考试中的问题,而且能够解决一系列相关的问题和复杂任务。自然更不会怀疑这个人会具备普通人类所具有的一般能力了。LLM能考试,却不能当医生但是,当训练前沿的大语言模型以通过这些考试时,训练过程通常会针对测试中的确切问题类型进行调整。尽管模型可以通过这些资格考试,但是目前的前沿模型当然不可能胜任律师或者医生的工作。正如古德哈特定律所说的,「当一项措施成为目标时,它就不再是一个好的措施。」整个AI行业都需要更好的测试来评估模型的能力,而且已经取得了不错的进展,例如斯坦福大学的模型评估系统——HELM。测试集

转载请注明:http://www.abuoumao.com/hyfw/6907.html

  • 上一篇文章:
  • 下一篇文章: 没有了
  • 网站简介| 发布优势| 服务条款| 隐私保护| 广告合作| 网站地图| 版权申明

    当前时间: 冀ICP备19029570号-7