百度:今年是文心大模型落地关键年
【猎云网(微信:ilieyun)北京】4月27日报道(文/黎曼)
一项新的AI技术迎来突破,包括谷歌、微软、英伟达、百度和阿里等在内的几乎所有AI头部企业都在死磕这项技术。
这便是目前世界AI研究领域最热门的话题之一:“大模型”。
AI 技术发展到今天,GPT-3等参数量巨大的模型被人们开发出来,他们在计算机视觉和自然语言处理等领域取得了前所未有的成就。
与之相伴而来的是,随着技术与产业的结合落地,新的技术难关需要被不断攻克。
众所周知,AI 技术的驱动力主要是依靠数据作为养料,当AI嵌入各行各业,不同场景的巨量数据已呈井喷式爆发,如何减少数据标注量、如何提高开发效率、降低应用成本等问题已成为一众AI企业正在思考的问题。而这也已经成为了各大AI企业抢占技术高地、并进行商业化的关键命题。
大模型是人工智能大基础设施的重要组成“文心大模型”是百度近几年在花大力气投入研发的技术基础设施。
自往年开始,百度深耕预训练模型研发,并在该年3月率先发布******正式开放的预训练模型ERNIE1.0。去年12月,百度联合鹏城实验室发布了鹏城-百度·文心大模型。
这是全球***知识增强千亿大模型,也目前全球***中文单体模型,参数规模达到2600亿。
“文心大模型在百度AI战略里的位置,是人工智能大基础设施的一部分。大基础设施就是硬件到芯片到AI框架、AI大模型,一层层构筑起来的,文心是底座性质的。”百度集团副总裁吴甜介绍。
如何理解这个AI大模型?
AI大模型,指的其实是预训练大模型,是机器学习的一种方式。
类比人的学习来看,人的学习可以分成通识教育和专业教育两段。预训练大模型相当于解决机器学习的通识教育。
此前,机器学习主要通过标注数据,告诉算法哪个数据是正负样本等进行学习。由于人工智能落地场景很多,每个场景都要采数据、标数据,因此在标注的数量和质量上存在很大的瓶颈。
为解决以上问题,自然语言处理领域迎来了一个新的突破:自监督学习。其指的是不用人为标注数据,机器可以用一个方法把知识和规律学出来。
比如,在模型训练中,如果我们把“***的首都是北京这句话”中的“北京”盖住,让模型去猜***的首都是哪里,模型可能会猜一个城市,再把盖的地方翻开,告诉模型是对了还是错了,模型也就得到了反馈。这就是自监督学习的其中一种方法。
通过设计类似的学习方式,让模型可以在海量的数据当中进行自监督学习。这个机制的好处就是,它可以把天然存在的大量数据利用起来,打破了一定要精标数据才能学习的瓶颈。
大模型的出现,实际大幅度降低了行业应用的门槛。
“大模型不仅可以自己直接商业化,更有可能作为大的基础设施带来的更大的价值空间。”吴甜称。
百度的文心大模型是如何运营的?
百度早已不仅是搜索巨头,更是一家人工智能公司,文心大模型已经在搜索、信息流、小度智能屏、百度地图等业务场景中不断地去使用、验证、迭代,最终通过开发出配套的工具和平台服务于不同产业,开发者或者企业就可以用方便、简单的做法,甚至可以不写代码就使用起来。
在落地运用方面,除了应用于百度内部的各类产品外,文心大模型还通过飞桨开源开放平台、百度智能云等赋能到工业、能源、金融、通信等行业。当前,百度飞桨系列有两款面向不同人群的平台,一是零门槛平台EasyDL,二是全功能产业平台BML,都已经内嵌了文心以及文心相应的配套算法。
在交付形态上,文心大模型大致上包含三种:比较好种是通过API调用方式使用。第二种方式是通过平台、套嵌工具等,使用者可以在EasyDL、BML等平台上直接使用的。第三种是包含在一些面向场景的产品中,比如智能文档分析TextMind,还有智能创作平台。
就AI大模型这个技术而言,不仅能落地解决当前的产业遇到的难题,在未来同样充满想象空间。
吴甜畅想道,今天的模型是以学习人类的经验为主的,学人形成的规律,加强人类建设的一系列体系。未来有可能AI可以学到一些人类还没有学到的一些经验或者知识,这是未来有可能发生的事情。
今年是文心大模型落地关键年在大模型领域角逐的,不仅有百度,国内外科技巨头如谷歌、微软、英伟达、阿里等,都相继在AI大模型领域展开探索,参数规模从百亿、到千亿,甚至是上万亿。
对于当下的大模型竞赛,吴甜表示,大模型本身还有很多创新空间,现在大家还是在各种不同角度的创新阶段,每一家企业和机构***会产生的价值和作用,因此各自有所侧重。
百度文心大模型的定位是产业级知识增强大模型。吴甜介绍,文心大模型***的特点是“知识增强”。
传统大模型只从海量的文本中学习,只能死记硬背文本的规律,并不能从本质上理解世界是怎样运行的,在具体应用时,一些涉及逻辑推理和认知的任务表现较差。为弥补这一缺点,百度引入了知识图谱,通过“知识增强”的方法,将数据与知识融合,提升了文心大模型的通用性。
此外,要理解文心大模型,就需要了解“产业级”的定义。吴甜解释,这个产业级主要指两个方面:
一方面,文心的整个技术是在实际的产业应用过程中打造。首先,它的数据来源是产业当中的数据,学习到大量的知识规律,也是在实际的产业实践当中学习到的;任务设计上,百度希望把大模型打造成通用的底座模型,类比人的通识教育,希望它学的尽可能广泛,打下更好的基础。
另一方面,文心大模型在应用时建设了一系列配套能力,让行业更好用。比如怎样设计数据的标注、建议有多少数据、相应的迁移学习的方法等等。通过这些配套的工具和平台,就会提升真实应用的可行性。
大模型能够引起各大企业的竞相追逐,战略眼光更着眼于远处。从世界以及国家层面来看,产业智能化升级早已是大势所趋。今年1月,国家出台了十四五数字经济发展规划,可以看到国家对于数字经济发展重视程度也越来越高。大模型对于推动数字经济发展有着莫大帮助。
要在产业中应用起来,当前大模型还面临着不小的挑战。吴甜认为,当前部分行业数字化水平还不高,AI真正跟各行各业、各种企业场景结合的时候,复杂度高。场景分散,而且很多场景还比较薄,很多时候获取场景数据非常困难。
另外,参数规模提升确实是有更好的效果,但却不是简单的越大越好,更重要的还是模型能力强。
文心大模型的下一步,是继续创新技术水平,再增强其实用性。吴甜强调,这并不是以迅速获得更大的模型为目标,而是做出一款模型之后,在落地应用中检验效果,并在实用的过程当中调整模型设计。
在文心大模型的规划上,百度今年还会有新技术和模型发布,包含模型能力和平台工具能力的提升。“今年会是文心大模型产业落地关键年。 ”
当前,文心大模型通过飞桨开源开放平台、百度智能云等平台落地,个人、企业开发者数量超6万,并带来显著的提升效果。如在保险领域的文本处理效率提升30倍,医疗领域中的每份病历的检查时间预测(数据为往年仅供参考)从30分钟缩短到了秒级别。
百度还把百文心大模型能力开放给公众使用,并举办了认知AI创意赛。“人工智能和大模型要面向公众开放,只有门槛低到了所有人都可方便地用起来,才能真正大规模爆发出各种创意。”吴甜表示。
本文地址:https://www.55jiaoyu.com/show-302278.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦
热门文档
- 1.朔州市二中(朔州市二中2022中考录取分数线预测(数据为往年仅供参考)预测)
- 2.粮食工程专业就业方向及前景!附2025大学排名及分数线预测(数据为往年仅供参考)
- 3.广州市公用事业技师学院(广州市公用事业技师学院金盘岭校区)
- 4.武汉江南技术学校(武汉市青山区江南技术学校)
- 5.中山医(中山医科大学***附属医院)
- 6.龙冈中学(龙冈中学录取分数线预测(数据为往年仅供参考)预测2022)
- 7.可模仿的世界名画100幅人物可模仿的世界名画100幅人物男_...(少女世界名画人物肖像)
- 8.砚眼文言文翻译(砚眼文言文翻译仆人的错误用一个成语概括)
- 9.双刀歌词双刀歌曲(双刀歌词歌词是什么意思)
- 10.2025新高考八省联考填报志愿模拟演练入口:附填报方式、时间预测(数据为往年仅供参考)
推荐文档
- 11.2023年青岛电子学校招生录取分数线预测(数据为往年仅供参考)
- 12.三顾茅庐的顾什么意思(三顾茅庐中的顾是什么意思这个成语的意思是什么)
- 13.什么叫做淡季(什么叫做淡季和旺季)
- 14.形容流口水的成语(形容流口水的成语望闻生津)
- 15.KurtCobain为什么自杀(kurtcobain为什么自杀)
- 16.值机柜台是什么意思(值机柜台是什么意思F06-H10什么意思)
- 17.地球赤道一圈多长(地球赤道一圈多长广州,北京,航程)
- 18.如何报考大学生村官(怎么考村官大学生村官怎么考)
- 19.猪的英语怎么读(猪的英语怎么读,单词怎么写)
- 20.宰相是几品(宋代宰相是几品)
- 21.梦到和婆婆吵架预示着什么(梦到和婆婆吵架预示着什么周公解梦)
- 22.商学是什么专业(目前热门专业十大最吃香专业)
- 23.新冠肺炎的全称是什么(新冠肺炎的全称是新型冠状病毒肺炎)
- 24.坤位是什么方向(大六壬入门基础知识教程)
- 25.江西中考成绩怎样查(江西中考成绩怎么查询2021)
- 26.开头的四字成语(集合16篇)(开头的四字词语有哪些)
- 27.容身之地什么意思(容身之地的容是什么意思)
- 28.段开头的成语接龙(段开头的成语接龙大全集最长)
- 29.寻觅的作文10篇(寻觅的作文10篇三年级)
- 30.皖l是安徽哪个城市的车牌代码(皖l是安徽哪个城市的车牌)
- 31.更多音字组词(更多音字组词和拼音怎么写)
- 32.皖南事变发生在什么时候(皖南事变发生在什么时候开始)
- 33.形容一个人有钱的四字成语(形容一个人有钱的四字成语有哪些)
- 34.第二个字是争的成语(第二个字是争的成语有哪些)
- 35.范睢念ju还是sui(睢盱读suixu还是huixu)
- 36.布达拉宫简笔画布达拉宫简笔画图片儿童(布达拉宫简笔画又好看又漂亮)
- 37.纸上谈兵指的是谁(纸上谈兵指的是谁指鹿为马指的是谁乐不思蜀指的是谁)
- 38.少先队入队仪式新生代表演讲稿10篇(新少先队员入队仪式发言稿)
- 39.虎皮鹦鹉寿命多少(虎皮鹦鹉的寿命一般是多少年)
- 40.禅悟是什么意思(禅悟人生修心修行人生感悟)
- 41.生活在意大利的华人告诉你,意大利移民到底好不好(如今意大利移民的问题很严重吗)
- 42.朝花夕拾优美段落摘抄10篇(朝花夕拾优美段落摘抄10篇50字)
- 43.过年春节的画怎么画过年春节的画怎么画简单好看(2021春节画怎么画简单又好看)
- 44.形容互相支援的成语(比喻互相支持互相帮助的成语)
- 45.达尔文_三字歌谱_乐谱_(达尔文这首歌的歌词)
- 46.whole(wholeheartedly)
- 47.河南高考分数线预测(数据为往年仅供参考)2025一本、二本、专科一览表
- 48.山西2025年高考录取分数线预测(数据为往年仅供参考)一览表(含本、专科批)
- 49.西南科技大学教务系统登录入口(西南科技大学教务系统登录入口网址)
- 50.安阳师范学院教务处登录入口(安阳师范学院教务处登录入口官网)
- 51.輲车是什么意思輲车的解释是什么(notch×herobrine车)
- 52.上海黄浦区有多少平方公里(上海黄浦区占地面积是多少平方千米)
- 53.brick是什么意思brick的翻译(bricks是什么意思英语翻译)
- 54.龟缸怎么处理龟便
- 55.四书是指什么五经是指什么
- 56.结婚彩礼钱法律上归谁
- 57.成龙代言佳能什么型号
- 58.红酒要醒多久才好喝
- 59.婚姻料理电视剧情
- 60.人生只若如初见的意思

