这就意味着再强大的公司训练了一个机器学习模型,而过了三个小时、三天或者三个礼拜后,数据、Model都已经过时了。
那么加入字节,就无疑代表着徐振华、袁菁与原来的老东家彻底决裂,撕破颜面。然而,2010年的袁菁和徐振华恐怕想不到,12年后,自己与腾讯——这个一同奋斗了近7年的公司,正站在无可挽回的对立面上。
况且,腾讯海外强在自研,并非强在渠道。个中机理,如果没有亲历,则很难能够悟出。当年,中国互联网行业的两大巨头——腾讯和奇虎360,正打得你来我往。而单就Garena一家来说,东南亚地区还分为了泰国版本、越南版本、印尼版本。要说徐振华创业后,究竟哪得罪了腾讯,那便不得不提到他们火遍东南亚的Moba手游——《Mobile Legends: Bang Bang》,国内也俗称无尽对决。
只要最终证明,年轻人或者多数人在看电竞比赛,赞助商和平台就愿意付费。比起中国选手动辄千万的身价,东南亚选手身价明显较低。最后,《白皮书》认为现阶段城市数字化转型,应整合各方力量以平台+生态模式,打造多元主体共同参与城市建设的长效模式,做好城市数字化转型合伙人。
据了解,百度智能云在城市数字化转型、行业智能化发展等领域深耕多年,这些创新举措的背后,凝结着其对城市数字化转型的深度思考与实践经验,以及深厚的内功支撑。《白皮书》也指出,城市信息化建设应营造共建共治共享的良好生态,百度智慧城市认为,城市数字化转型建设多元主体参与之下,可以引入智慧总线统一纳管城市的各类设备、算力、算法、数据、应用,打破烟囱壁垒。百度智慧城市认为,城市的数字化转型从治理、服务的数字化变革向产业数字化延伸,数智技术和资源赋能下的城市运行管理指挥中心、城市数字经济赋能中心和城市数字化体验中心,则为城市治理、生产和生活的全面转型提供了三维驱动引擎。在新时期新阶段发展要求下,城市数字化转型已成为塑造城市核心竞争力的关键抓手与内在要求。
8月16日,百度智能云智慧城市与中国信通院产业与规划研究所编写的《百度城市数字化转型白皮书》(以下简称《白皮书》)正式发布,对中国城市数字化转型工作阶段性成果进行理论沉淀,并对现有城市案例深入分析,给出城市数字化转型发展新思路。当前,我国城市建设面临高质量发展要求,同时也呈现出分级分类数字化转型的要求
网版权文章,未经授权禁止转载网版权文章,未经授权禁止转载网原创文章,未经授权禁止转载网原创文章,未经授权禁止转载
对于正处于探索起步阶段的大模型来说,强调短期回报未免苛刻。模型的「大」,指的就是庞大的参数量。通常来说,模型的参数量越大,机器跑得越慢,计算成本也越高。视觉即感知,语言即智能,但两者在「因果推理」的攻克上一直没有太耀眼的突破,而因果推理这一项能力对 AI 系统的进化又十分重要。
巧合的是,与此同时,中国南方某乡镇企业也购买了同样的生产线。6月,北京智源人工智能研究院发布「悟道2.0」,参数量 1.75 万亿。
领域的一个共识是:在同一个架构下,模型一定是参数量越大、性能越好,但「孟子」的巧妙之处,就在于架构的创新。这时,大模型的弊端就开始暴露。
再回到研究本身,蓝振忠表示,目前大模型的成果虽然有很多,但开源极少,普通研究者的访问有限,这一点很令人惋惜。一位业内人士就告诉雷峰网(公众号:雷峰网)-AI 科技评论,在绝大多数的情况下,我们研究一项技术是为了解决某一个已知的实际问题,如情感分析、新闻概括,这时我们其实就可以设计一个专门的小任务去研究,出来的「小模型」的效果很容易就比 GPT-3 等大模型要好。一时间,参数量低于 1 亿的 AI 模型已经没有声量。由于大模型没有开源,普通用户也无法从需求的角度来评价大模型的实用性。据外媒披露,OpenAI 在训练包含 1750亿参数的 GPT-3 时花了接近 500 万美元(人民币约 3500 万)。换言之,如果 AI 领域的研究者能够沿着这条路线去开发模型,模型的参数量级会大幅缩小,回归到「小而美」的道路上,也能实现大模型「解决未知问题」的能力。
相反,我们甚至可以说出几百个理由来强调技术研发的合理性。即使是一些正在研究大模型的科学家,他们也明确地告诉雷峰网-AI 科技评论,虽然大模型能够同时推行很多任务,但「现在谈通用人工智能还太早」。
另一种声音则说,在 AI 技术落地的实际过程中,当前对大模型的全面吹捧不仅抢夺了小模型与其他 AI 方向的研究资源,而且由于投入成本高,在解决实际的产业问题中性价比低,也无法在数字化转型的大背景中造福更多的中小企业。「小模型的参数量少,局限于单一任务。
大模型或许是实现终极目标的一个重要途径,但理想尚远,AI 还是要先满足当下。在 DeepMind 的这项研究中,一个充分利用了数据的 700 亿参数模型 Chinchilla 在一系列下游任务的评估中超越了 1750 亿参数的 GPT-3 和 2800 亿参数的 Gopher。
4、写在最后再回到电风扇吹空皂盒的故事上。这对解决复杂场景的挑战至关重要。谷歌在训练包含 5400 亿参数的 PaLM 时用了 6144 块 TPU,据热心网友统计,普通人训练一个 PaLM 的成本在900至1700万美元之间。除了单纯依靠算力,近年来,也有一些研究者希望另辟蹊径,单从模型与算法本身的特性去实现大模型的「经济可用性」。
」西湖大学深度学习实验室的负责人蓝振忠向雷峰网-AI 科技评论解释。在实现经济可用上,甚至还有一种声音,是主张通过 AutoML 或 AutoAI 的方式来解决模型训练的难度,降低 AI 算法的研究门槛,让算法工程师或非 AI 从业者可以灵活根据自己的需求来打造单一功能的模型,形成无数个小模型,星星之火、可以燎原。
再拿今年谷歌推出的 5400 亿参数单向语言模型 PaLM 来说,它基于谷歌今年发布的新一代 AI 框架 Pathways,不仅在微调方面超越了 1750 亿参数的 GPT-3,而且推理能力大幅提升,在 7 个算术应用题/常识推理数据集上,有 4 个超越了当前的 SOTA(如下表),而且只用了 8 个样本(即采集的数据)。而大模型(的优势)就像是,人在学习打乒乓球时所学到的知识对打羽毛球是有辅助效应的。
9月,百度发布中英双语模型 PLATO-X,参数量百亿。这其中,后者的能力等级显然更高,研发难度也更大。
一个不容忽视的残酷事实是:大模型的计算慢,训练成本极高。到今年,大模型继续火热。作为一名创业者,周明的想法很「本分」,就是要省钱。可以说,这是一次技术落地解决实际产业问题的重要突破。
举个例子,从上一代的 GPT-3 到这一代的 instruct GPT,我们可以看到它有一个质的飞跃,同样是大模型,但是 instruct GPT 在接受命令时效果却好很多,这是他们在研究大模型时才能体验到的。遗憾的是,目前还没有一家在炼大模型的企业披露过大模型创造了多大的经济效益。
然而,在现实世界中,并不是每个人都能负担得起星辰大海的理想,更多的人只想以多快好省的方式解决眼前所面临的问题。前面迷雾重重,你不清楚将会面临怎样的挑战,这时,大模型本身具备的丰富「能力包」和在新任务上超常的出色表现,战斗力显然要优于小模型。
但在许多时候,技术研究者却常常忽略了小工在解决问题上的智慧:从实际问题出发,而不是囿于技术的优势。要炼成大模型,小企业要么与大厂合作、站在巨人的肩膀上(但这也并不是每一家小厂都能做到的事情),要么狂拉投资、备好金库(但在资本的寒冬中,这也不切实际)。
网友点评
已有0条点评 我要点评