国内最小的大模型创业团队,靠另类创新出位 环球播资讯
拥有多年NLP经验的虎博科技,凭借自身独特的技术创新,打破“成本魔咒”,重新定义“短小精悍”。
【资料图】
国内大模型创业迎来了新面孔。
包含70亿参数和1800亿参数两个版本的大模型TigerBot正式亮相,一经推出,就以独特的实力,引起了外界瞩目。
从评测结果可见,TigerBot与OpenAI同规模模型的得分十分接近
作为一款国产自研的多模态大语言模型,TigerBot不仅能进行编程、画图、翻译,还支持多种办公场景下的任务,具有高效的学习能力、创造力和可控性。
更重要的是,借助更先进的微调算法,TigerBot在只使用少量参数的情况下,就能快速理解人类的问题,提升回答的准确性。
在同样50万条数据训练的情况下,TigerBot的收敛速度比斯坦福推出的Alpaca快5倍,在公开数据集上评测显示性能提升17%。
有点难以置信的是,研发了如此强劲大模型的团队,最初只有5个人,身为CEO兼首席科学家的团队Leader陈烨,担任了最核心的代码工作。
后来成员规模虽有扩充,但也只控制在了10人左右。
那么,这个在激烈的大模型竞争中,TigerBot背后的中国企业——虎博科技,究竟是怎样凭借犀利小团队杀出一条血路的呢?
01 重新定义“精悍”
众所周知,训练大模型所需的高昂算力、成本,一度使得ChatGPT这样的通用大模型,成为了少数科技巨头的专利。
然而,拥有多年NLP经验的虎博科技,却凭借自身独特的技术创新,打破了这一“成本魔咒”,并重新定义了何谓“短小精悍”。
具体来说,为了降低模型的训练成本和难度,虎博科技在以下几个方面进行了创新:
指令完成监督微调
所谓指令完成监督微调,主要就是让模型更加理解人类提出的各种问题。
如果模型像一个学生,那么问题就像一个作业。
如果老师只是给学生一个作业,不告诉他这个作业要考察什么知识点,要用什么方法来解答,那么学生可能会很困惑,于是有些问题的回答质量往往就不佳。
面对这样的问题,以往人们想到的办法,是通过微调和提示的方式,来让模型变得“更通人性”。
具体来说,微调是在大量的任务相关的数据上,重新训练模型的参数,这就像给了学生一本厚厚的辅导书,虽然可以让他学得更好,但也会花费很多时间和精力。
而提示则是在每个问题前加上一些特殊的单词或符号,就像给学生一个小抄,让小抄引导他写出正确答案,但这一方法也需要老师花心思制作小抄,而且小抄的内容也会限制学生的应变能力。
对此,TigerBot的应对之策,是使用一种标记语言(Mark-up Language),在每个问题前加上一些特殊的符号。
这相当于给每个作业打上了“标签”。
如此一来,学生就能明白,这个作业是数学题,要用加减乘除来解答;那个作业是英语题,要用翻译来解答;从而让模型快速地理解了各种问题。
但别看只是个“打标签”的小小改动,真正要践行这样的技术创新,却绝非易事。
因为标记语言并不是一种简单的任务标签,它需要有一定的语法规则和语义表达能力,才能让 LLMs(大模型) 准确地理解和执行指令。
其次,标记语言并不是一种独立的技术,要让 LLMs 能够有效地利用标记语言来完成各种任务,还需要借助预训练、微调、元学习等其他多种技术。
因此,整合各种技术并设计一种通用且易用的标记语言,是一项具十分前沿的创新性工作,涉及多个方面的挑战和难点。
唯有那些具备深厚理论基础和实践经验的团队,才能做出这类突破。
突破并行训练难关
除了模型的底层架构上的改进外,TigerBot另一大降低训练难度和成本的创新,就是突破了deep-speed等主流框架中的若干内存和通信问题,实现了千卡环境下训练数月无间断。
在此之前,要想千卡环境下进行数月无间断的训练,会面临很大的技术难点。
这里可以用一个形象的比喻说明:
想象一下,在一个拥挤的马路上,用很多辆小车来运送一座大山,要花费多大的时间和精力?要面对怎样的拥堵和阻碍?
在这里,“小车”就象征着每个 GPU 的内存空间,“大山”象征着模型的参数和梯度。
虽然我们有一千辆小车可以用,但是每辆小车的载重能力都很有限,远远不够装下整座大山。
另一方面,模型的参数和梯度需要在多个 GPU 之间频繁地交换和更新,需要消耗很多的通信资源。
这就像是要把一座大山从一个地方运到另一个地方,需要经过很多次的装卸和转运,不仅会耽误时间,还会消耗大量的资源。
对此,TigerBot主要使用了三个技术,来进行并行训练的优化。
首先,TigerBot 使用了一种叫做ZeRO的技术,它可以把模型的参数和梯度分散到多个 GPU 上,从而减少每个 GPU 的内存占用。
这就像是把大山分成很多小块,然后用不同的小车来运送一部分小块。这样,每辆小车就不会超载了,而且可以同时出发,提高训练的效率。
其次,TigerBot 使用了一种叫做DeepSpeed的技术,它可以根据模型的参数和梯度的大小和分布,自动地选择最合适的通信方式和路径。
这就像是一个智能导航系统,它可以根据货物的重量和目的地,自动地选择最快的交通工具和路线,从而大大节约了时间和资源。
再次,TigerBot 使用了一种叫做BF16的技术,它可以降低模型的精度要求,从而减少计算的复杂度和内存的需求。
这就像是将同等大小的山体碎块换成了塑料或纸板,从而大大从降低运输的负担。
借由着这些技术,虎博科技每月在训练上的开销,能够节省数十万。
这也是为什么,他们能以10人左右小团队,在几个月时间内实现“媲美”OpenAI壮举的原因之一。
02 正向突变
除了上述提到的技术外,虎博科技在大模型方面,还运用ensemble和probabilistic modeling的方法,让模型在创造性和可控性上做出了适当的权衡。
同时,针对中文连续性强、多义歧义情况多等问题,虎博科技通过不断吸取开源模型和代码中的优点,从tokenizer到训练算法上,都做了相应优化。
而这些提升性能、降低成本的技术创新,和自然界中的生物面临环境压力时,所激发出的“突变”和“进化”,有着异曲同工之妙。
面对训练大模型所需的巨量算力、数据时,实力并不强劲的中小企业,也感到了某种“演化压力”。
为了在这场AI竞赛中不被时代抛弃,部分中小企业,只能被倒逼着选择了一种更能降本增效的技术策略。
然而,这样的“压力”,却并不总是能激发正向的“突变”与“进化”,部分实力羸弱的企业,可能直接倒在了这场残酷的大模型竞争中,还有的企业干脆选择了投机取巧,以炒作和公关来吸引融资。
既然如此,那虎博科技是如何在这样的压力下,完成正向“突变”的呢?
谈到这个问题,我们就不得不提起虎博科技的创始人兼CEO——陈烨。
某种程度上,与OpenAI的Sam Altman一样,陈烨也是一个心怀科技理想的天才创业者。
在AI领域的造诣上,陈烨不仅三次获得人工智能顶级会议(KDD和SIGIR)最佳论文奖,在人工智能和机器学习领域发表了20余篇具有业界影响的论文,并拥有10余项专利。
并且还曾在美国的微软、eBay和Yahoo担任主任科学家和研发总监等职位,成功实施过多个深具业界影响力的人工智能系统。
而每一个对AI技术进行过深度研究的人,都明白这项技术的远大意义。
这样的人,如果想在AI领域干一番事业,就绝不会仅仅只是为了赚钱。
在2017年,陈烨成立了虎博科技,开始专注于NLP技术的应用落地,愿景是用AI赋能下一代搜索引擎,连接人与全球信息,让人们获取知识更简单。
然而,再远大的理想,也要有现实的支撑。
深谙AI技术发展路径的陈烨明白,人工智能的进步与迭代,需要漫长的研发周期,虽然短期来看,资本市场对这类技术有着很大热情,也产生了很多泡沫,但如果长时间未能看见实际的应用或产出,各路资本就都会纷纷人走茶凉。
面对这个问题,理性而成熟的陈烨,选择了一条更为稳健的道路,来坚守自己的理想。
在彼时的国内AI赛道上,智能金融成为了陈烨首先瞄准的目标。
这是因为,金融行业的运转,往往伴随着巨大的数据量,且与教育、医疗等行业相比,金融领域的很多数据都是公开、且易于获取的。
于是,结合自身的NLP技术,虎博科技研发的新一代智能金融信息搜索引擎——虎博搜索诞生了。
虎博搜索的数据覆盖 了A 股、港股及美股,包括行情、公告、研报、新闻等多维度信息。
利用语义挖掘、知识图谱、机器翻译等核心技术,虎博搜索不仅实现了口语化交流问答,并且还通过精确的数据抽取,以及跨越语言的功能,从海量信息中挖掘到深层次信息,并提供了本地编辑、报告全文、溯源定位等多种功能。
而这些功能背后的深度学习、知识图谱、文本生成等技术,都是未来大模型所必将涉及的关键点。
在此后的发展历程中,虎博科技又自主研发了各大金融领域的关键技术,包括智能推荐、翻译、舆情分析等,而由此积累的NLP经验,也为后来的TigerBot的诞生夯实了工程基础。
03 总结
纵观TigerBot诞生的过程,我们可以发现,这是一个既守住了饭碗,又赢得了理想的故事。
科研出身的陈烨,有技术,也有情怀,但却并没有在现实与理想之间顾此失彼,而是以用户需求为导向,结合自身的技术优势,开发出多种适用于不同场景的AI产品。
在此过程中,其依据对技术前沿趋势的敏锐洞察,逐步提高了自身的开发能力和工程化水平,从而在后来的大模型研发中,突破了主流框架中的技术难点和瓶颈。
如果说,当下的大模型竞争,是一场物竞天择的竞赛,那么唯有那些在广泛的产品和服务中,积累了足够多技术因子的企业,才能在压力和挑战面前,完成“进化”与“突变”。
标签:
抢先读
- 加强企业安全意识 提升全民安全素质-今日热议
- 1季度银行业消费投诉排名:建行狂飙、平安银行“不安”?-天天资讯
- 【独家焦点】“专精特新”看洛阳高新⑨|丰卓科技:研发小微型超声波电机,用科技赋能生活
- 汪苏泷巡回演唱会首场北京站加场
- 云南省举行高考评卷开放日活动
- 天天播报:昨晚的中国球迷是那么快乐,咱们男足很难给的那种
- 环球热资讯!东阿阿胶股东户数增加403户,户均持股63.3万元
- 港股上市公司掀起新一轮回购潮 简讯
- 安路科技:股东拟合计减持不超过4.5%公司股份
- 美的便携式榨汁机_美的榨汁机怎么样
- 周至公安开展第二季度“进建商”活动 邀请大家对交通管理提要求
- vivo S17 手机开售:优惠 30 元,到手 2469 元起 _天天速看
- 上期数原油期货夜盘收涨1.71%,报535.3元/桶
- 阿斯利康依库珠单抗在中国获批第三个适应症| 最新资讯_天天速读
- 华泰证券旗下华泰国际财务发行一笔中期票据,发行金额为2630万美元
- 全球看热讯:qq邮箱群发器_邮件群发器
- 天天热讯:四川攀枝花市总工会第四蹲点小组暖心送“知识+政策”
- 美股全线收跌 纳指周线录得八连涨 全球新要闻
- 行政处罚法规章可以设定什么处罚
- 我国启动2023新能源汽车下乡活动 都有哪些新亮点?_每日关注
- 世界百事通!唐斯,别让自大害了你自己!
- 热点聚焦:这里中雨!鄂尔多斯降雨具体时间
- 环球看点!买酒送门票、羽毛球鞋意外走红 还有谁在阿根廷队中国行中赚了钱?
- 看热讯:河南中烟来江华调研
- 最资讯丨记者:巴萨是密切关注土耳其18岁前腰阿尔达-居勒的俱乐部之一
- 五部门:截至4月末涉农贷款余额53.16万亿元 同比增长16.4%_每日速讯
- 环球快资讯丨传:欠薪1.3亿!总部被围堵!
- 下载黑鲨装机大师_黑鲨装机大师教程|环球快播
- 重要提醒:明后天出门请注意
- 黄经是什么_黄经是什么意思 天天最新
- 世界微动态丨刘小贝项天琪好看视频_刘小贝
- 全国省级党报集团旅游宣推联盟成立 28家省级党报共商文旅合作发展大计 世界最新
- 世界信息:友谊赛-德国vs波兰首发:哈弗茨、穆西亚拉先发,莱万出战
- 云器科技完成数亿元融资,打造多云及一体化数据平台 环球播报
- 主板IPO年内第二单“暂缓表决”!两大问题绊住巍华新材
- 全球快资讯丨达吾力江几岁(达吾力江女友照片)
- 61城房价回到1年前 天津、长春和哈尔滨新房二手房全下降|天天快看
- 世界速读:致敬!深夜里的孤“泳”者……
- 线下参加 WWDC 是一种怎样的体验,听听他们怎么说_每日精选
- 为解压找灵感抽“叶子烟”,这些寻刺激的方式犯法!
- 世界热推荐:2023中国商业航天发展大会暨第二届中关村商业航天大会举办
- 观热点:记者:阿贾克斯中场阿尔瓦雷斯收到多特报价,球员只想加盟多特
- 岂止降费!“基准”也降了
- 烟台高盐废水蒸发器,蒸发处理高盐废水设备 天天观察
- 环球热头条丨曜越推出 1250W / 1650W Toughpower iRGB PLUS 钛金电源
- 天天速递!好人缘的六个秘诀!
- 600331股票
- 92分钟险被绝杀,1-1!中国男足爆冷,新武磊破门,杨晨无缘首胜-每日视点
- 新动态:中南新能源合作帮南非解“电荒”
- 炬光科技06月16日被沪股通减持5.43万股|世界焦点
- 麻将胡牌图片大全集_麻将胡牌图片-全球新动态
- 【世界新要闻】六旬老人当旅游“特种兵”,遭急性会厌炎“封喉”
- 中原“大象”率领“动物大军”走出国门 “我的国家公园”丛书输出蒙语印地语版权
- YOUR STYLE, YOUR SWOOSH CLOT推出全新NIKE CORK DUNK,释放创意力量|当前速读
- 河南考生暑期游最爱去这些地方丨洛阳发布最新人事任免 世界快播报
- 西北工业大学出版社与施普林格·自然集团战略合作签约仪式在北京举行 世界微头条
- 《无尽地牢》公开新英雄角色:草本医师“菇姆”
- AI应用端持续走高 多股涨超10%
- 轻松搞定直播间运营,让你的直播秒变爆款!|每日快讯
- 天天讯息:禁赛罚单出炉后!莫兰特公开回应:向所有人道歉,再给我一次机会
- 世界观焦点:元成股份:6月15日公司高管祝昌人减持公司股份合计295万股
- 从“天宫”到“天宫Plus”,11年间有何升级?
- 15年间,太湖生态环境发生了什么变化?_全球播资讯
- 孤岛惊魂6禁止复辟怎么解锁|世界新动态
- 黑兔年适合生孩子吗(2023年黑兔年适合生孩子吗) 焦点速读
- 播报:完成整改1933个问题,执委会专家:成都大运会将取得巨大成功
- 合肥瑶海:趣味游园迎端午 当前播报
- 钢材下游周报:发改委将出台扩大消费政策,楼市继续降温
- 外汇百晓生:晚间黄金关注1967-1970空,损1976|环球快消息
- 反抽阻力位,注意再确认 天天头条
- 湖记:如果保罗被太阳裁掉 湖人将对签下他非常感兴趣
- 何宇鑫:6.16黄金时间序列信号出现,做空还需谨慎!
- 2023美国公开赛赞德福勒破纪录领先首轮 中国小将丁文一推杆不利交72杆
- 鳙鱼怎么读_鳙鱼读音和介绍 天天热闻
- 陕西全省城市生活垃圾分类覆盖率达到85%以上
- 再添重器!我国首艘,成功交付!
- 前沿资讯!第二届!云岩区15名特约监察员正式履职
- 赵匡胤醉吟2句诗无人能续,400年后一位伟人续上,流传千古
- 6月16日基金净值:鹏华酒A最新净值0.51,涨0.79% 焦点讯息
- 宁波航交所:本周泰越航线运价指数环比下跌10.6%|天天快报
- 环球讯息:荷塘区科工信局开展通信电缆整治工作 多方合力解决高空线缆
- 国有土地征收土地有补偿吗_时讯
- 上海医疗系统举办“医艺结合 四季雅集”云端音乐会 新消息
- "杨梅熟了 客房满了"小小杨梅催生出宁波"甜蜜"产业
- 心的声音 Ann Thitima演唱的歌曲(心的声音 Ann Thitima演唱的歌曲)
- 问道木系技能介绍(问道木系技能) 天天速看料
- 农村旧房子改造手续_农村盖房子需要什么手续
- 山晚早新闻丨注意!蜜雪冰城、张亮麻辣烫等存在食品安全问题被通报;山西发布这8条路线;女子手机被盗营业厅挂失时遇小偷来刷机 世界实时
- 关注 | 他若当选,“瘫痪高铁”?国台办回应
- 政府对国有资本投资不足,将付出高昂的经济代价
- 财面儿丨金科地产集团:“21金科地产SCP004”未按期偿付本息 涉及金额8.8亿元
- 向佐持续暴击药水后脑勺,裁判响铃后还接着打?吃相未免太难看!-今日热门
- 杭州亚运村内部功能区首次公开亮相|今日聚焦
- 空花瓶简笔画图片大全_花瓶图片简笔画
- 全国首个!湘乡供销公共服务平台上线
- 博睿数据:股东拟减持不超过0.68%的股份|全球看点
- 新增 2 个扬声器,iFixit 拆解苹果 15 英寸 MacBook Air 笔记本 世界报资讯
- 百普赛斯06月16日被深股通减持2.53万股
- 环球新消息丨2023年深圳职业技术大学本科招生计划(专业+人数)
- 关注:弘道新材董事长王同心博士前瞻光伏封装材料发展趋势