AI时代,我想干点啥?

  • Star Li
  • 发布于 2025-03-21 11:56
  • 阅读 37

AI时代,我想干点啥?

AI时代扑面而来,不知从何说起。几年前,chatGPT用起来不方便,用得不是很频繁。直观感受,chatGPT确实牛,但是只是增强型的搜索和翻译工具。依稀记得,当时,网络上各种调侃各种大模型弱智的截图和讨论。当时,心里还存着一丝侥幸,还好还好,AI还不够智能。好景不长,随着推理模型的陆续推出,AI的智能体验突飞猛进,从侥幸变成了后怕。简单的思考,整理总结性的任务,AI毫无压力,甚至做的比普通人好的多。甚至,杞人忧天,AI智能体会不会造反?为了解惑,看了看李飞飞教授的自传《The Worlds,I See》(我看见的世界)。从她小时候的学习生活环境讲起,随父母移民美国,艰难求学,追求理想,努力攀登科学高峰的过程。这个是她自己看到的物理世界。这本书的另外一个线索是AI的发展。探究人脑的机制,创建超大数据集,见证深度神经网络的强大,尝试用AI解决现实问题,探讨AI智能的伦理问题以及确定研究以人为本的AI方向。有关AI智能,有两点值得重视:网络结构以及数据量。再优秀的网络结构,没有大量的高质量的数据,智能水平有限。只有高质量的数据,没有贴切的网络结构承载也是枉然。书中讲到李飞飞教授在看到神经网络结构(ImageNet)和大量高质量数据结合产生超预期的效果非常兴奋。我在那一刻也感受到智能的跃迁。顺道多说两句,之前内心一直排斥看别人的自传。我就是我。我的世界,自己闯。不痛,不领悟。可能是年龄相仿的原因,看李飞飞教授的自传过程,比较轻松,满满的回忆。整个AI技术发展,虽然没有深入,但多少听过。十几年前,也玩过一些图片处理的模型。从她的视角,看到这些技术推动的背后的故事是这么朴实,这么简单。一个信念的坚持,一个内心的呼唤,在合适的时机下,绽放。看李飞飞教授的自传,感受她的追求,感受她的幸福,感觉温暖,感觉动力十足。

模拟智能,够用了。

真正让我认真看AI,看大语言模型(LLM)是DeepSeek的横空出世。DeepSeek,让所有原本仰望LLM的人看到了机会,看到了新的可能性。海量数据,训练成本,以及模型结构,并不是高不可攀。DeepSeek开源模型,让更多的人能站在巨人的肩膀上,加入AI这个大时代。看了看DeepSeek V2/V3/R1的论文以及Inference的源代码,大体沿用Transformer的网络结构。为了降低训练成本,在注意力机制以及MoE结构方面做了优化。回到AI智能能力的问题,总体有些自己的感觉:Transformer的网络结构是识别语言语法的有效结构,同时大量海量数据是智能的源泉。这样的智能是一种“模拟”智能。有点鹦鹉学舌的味道。只不过,因为海量的数据的缘故,让模仿无限接近人类。虽然AI拥有巨大的知识,但是,他并不知道他拥有什么,他也不知道自己是什么。他没有想法。就像李飞飞教授自传中提到的,她是先有自己的北极星的指引,才驱使她朝着某个目标努力。这种北极星,是一种感觉,一种信念,一种非逻辑性的跳跃。然而,现在的“模拟”智能只是逻辑性的生成器。总觉得,人类对自己的智能都没研究明白,很难设计出完全类人的智能。也许,人类永远找不到这个答案。也许,这种“模拟”智能只能无限接近人类智能。基于上面的一些理解,AI智能造反,只是无稽之谈了。当然,这些都是我的胡说八道,尝试回答我自己的疑问而已。回头看,这种“模拟”智能,虽然不能和人类智能完全相提并论,但是,可以极大地类人,可以帮助人类完成很多之前需要人才能解决的事情。反观我们人类,绝大部分时间也是不断的模仿。想想我们自己搞开发,还不是遇事先到Github上搜一搜,copy/paste。这种“模拟”智能甚至是一种新的媒介。通过AI,原本需要自己完成的事情可以自动完成。麦克卢汉的著名观点,“媒介即信息”,媒介对人类认知和社会发展有巨大的推动作用。想象一下,我们的父辈一辈子都是利用机械进行生产,我们这一代大多数都是利用电脑进行生产。而从今往后的时代,人类有可能都是利用AI进行生产。

推理太慢。

逻辑上好像理顺了,看看现在LLM AI的能力吧。尝试用vLLM跑了一下DeepSeek的满血版本。模型参数差不多600G。即使在64张4090显卡的情况下,Decoding的性能也少的可怜,一秒钟只能输出几个Token(batch = 1)。很自然的想到一些现有模型的问题或者困惑:Decoding性能比较差,一个个的出Token,效率实在是低。试想,我们自己给出答案,并不是看前面有的信息,而是先“有”中心思想”,再组织语言。可能因为目前的智能是“模拟”智能,只能从组织语言出发表达中心思想。或者说,现在的Decoder的框架有问题。是不是可以先用Encoder结构提炼出“中心思想”,然后再用Decoder组织语言?模型参数固定不可调整。每次出token,不管之前重复了多少次,都是一样的性能。想想,人类在大量的重复后,变成肌肉记忆。再次做某件事情,消耗非常少。所以,模型参数是否应该针对重复性的预测动态调整模型以及参数?现有的模型大而全。有些信息,可能一辈子都用不上。模型是否应该由多个小模型组成?在需要某方面的信息或者能力时,再自动接入? 说了这么多,回到正题上,AI时代,我想干点啥?

如何利用AI生产,需要想象力。

总的来说,AI相对智能,但还是很早期。但是,借助目前的AI/LLM水平,迭代可能非常快。如何利用好AI,需要想象力。我有些朦胧的想法:就LLM而言,目前侧重于数据以及逻辑。它需要执行体扩展它的执行能力,从而实现端对端功能。端对端的功能需求也是最直接的需求。比如说,你要组装一个家具。你不能只是看的懂说明书。你需要根据说明书,动手搭建。搭建完家具才完成需求。执行范围非常宽泛。一个相对直接,简单的点:LLM在了解工具的使用方法后,要能操作工具。两个方面:1/ 了解工具 2/ 操作工具。以电脑为例,因为之前已经有大量的文章涉及如何使用电脑,可以说,LLM了解电脑简单操作的方法。Manus是让AI操作电脑中的部分常见软件。如果将工具换成手机呢?AI可能要帮你打电话。举个例子,你需要打电话给你一个朋友,提醒他某些事情。AI可以直接拨打电话。反过来想,以后软件都要考虑加上让AI学习并使用的能力。之前设计软件是方便人使用。以后设计软件可能是方便AI使用。再进一步想一想,为啥要让AI费劲使用手机打电话呢?手机运营商可以直接让AI学习如何打电话,并提供相应的接口。而不是,AI要接入到手机,点击电话程序,再拨打电话。从另外一个方面看,以后不需要人参与的功能都不应该有界面了,只要AI能用就行。进一步,大胆推测一下,以后类似订票的应用应该都趋向后台化。只有和现实世界有交互的应用才有界面。工具,除了软件类工具,还有硬件类工具,比如说,机器人,机械臂等等。话说,LLM并一定了解工具。之前的工具的说明信息是写给人看的,偏描述性。而LLM理解工具是通过“多次”操作数据理解工具的。这个中间有一定的差距。总的来说,让AI了解工具以及使用工具也许是个很大的需求。让AI有执行能力是个更大的话题。AI需要扩展自己的知识面。除了语言文字外,AI需要多模态知识:音频,图片,视频,代码等等。AI执行更偏向于端侧。现在AI执行在远端,感觉上就比较怪。因为需求的集中,导致AI本身臃肿,性能下降。再者,细节交互很多,延迟增大,体验较差。理论上,AI离执行体越近越好。电脑相关的执行操作,痛的还不深。想想看,如果机器人的每个操作都需要去远端处理,那机器人估计正常行走都困难。AI了解个人的偏好。偏好和Context不一样。Context是语境的上下文环境。偏好是主观喜好。AI的执行的好坏是由个人评价。在个人多次评价后,AI要学习到个人的偏好 ,进一步提升执行效率。

先活着,再活好。

说这么多,有的没的,似对非对的东西。AI要做的,值得做的,非常多。作为一个创业团队,先保证活着。为用户提供先阶段AI能力的可靠服务。用户在哪里?需求怎么找?回答这个问题,需要了解市场。想法很重要,行动起来很重要,数据很重要。迭代起来,可能是个破局方法。个人而言,偏好硬件。软硬件结合一直是个心头好。 先说这么多。抛砖引玉,欢迎对AI感兴趣的小伙伴留言讨论。期待完全开源的AI。像Linux,AI是新时代的操作系统。

点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
Star Li
Star Li
Trapdoor Tech创始人,前猎豹移动技术总监,香港中文大学访问学者。