AI大时代下的创新,追一科技发布RoFormerV2模型

业界
2022
05/06
10:32
松果财经
分享
评论

最近,追一科技发布了RoFormerV2模型,凭借追一独创的旋转位置编码技术(RoPE),全面超越了BERT、RoBERTa、Albert、Electra等当前的主流预训练模型。

在权威的中文NLP(自然语言处理)测试榜单CLUE上,RoFormerV2以仅3亿的参数量,超过了若干10亿+参数量的模型进入榜单前5名(截止2022年3月21日),同时它也是榜上前5名中参数量最少的模型,基本实现了同一尺度下的模型最优解。

RoFormerV2采用了追一独创的旋转位置编码(RoPE)技术,完全不同于主流的BERT、RoBERTa、Albert、Electra所使用的方法,这让RoFormerV2与这些模型在效果上拉开差距。

旋转位置编码(RoPE)技术是追一在2021年提出,利用向量之间的旋转角度来表示特征之间的相对关系,这一思路不同于此前所有的方法,知名的技术极客组织EleutherAI认为RoPE是“革命性”的,具有开创式意义。Google在今年提出的FLASH模型论文中则明确指出RoPE对模型的效果有明显的提升作用,并将其作为模型的默认方法。

同时,RoPE还被用在了许多最新的模型当中,例如EleutherAI新发布的60亿和200亿参数的GPT模型中就用了RoPE位置编码。

而Google最近大火的5400亿参数的PaLM模型中也采用了追一的RoPE技术,PaLM是一个支持多语种、多任务形式的超大型模型,它不仅可以理解人类语言,还可以理解机器代码。PaLM在上百个自然语言理解与自然语言生成任务上测试,并在大多数任务上取得了最优效果。这些最新方法都采用了RoPE的设计,进一步验证了它的优越性,使之有望成为预训练模型的标准方法。

随着“大模型”时代的来临,许多用户希望用优秀的模型来解决实际问题,但这些“庞然大物”所需要的硬件配置、高额投入,让人望而却步。同时, 利用“大模型”进行NLP技术实验研究,所需要的算力与时间成本越来越高。不管是NLP技术研究还是应用实践,追一科技都一直致力于开放、开源生态的参与、建设,助力用户和开发者创新研究。

RoFormerV2作为同体量效果最好的预训练模型,可以在有限的机器资源下进行训练与微调并获得超越体型更大的模型的效果,因此我们将其开源供大家进行研究使用,为推动中文NLP发展继续贡献一份力量。

【来源:松果财经

THE END
广告、内容合作请点击这里 寻求合作
AI
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

3 月 31 日消息,从华为获悉,华为全场景 AI 框架昇思 MindSpore 开源已有两年。
业界
1 月 25 日消息,近日,网易试水 AI 音乐创作,推出全球首个一站式音乐创作平台天音。
业界
该研究是由三星高级技术研究院(SAIT)与三星电子代工业务和半导体研发中心一起展开,由SAIT员工研究员Seungchul Jung博士、SAIT研究员、哈佛大学教授Donhee Ham博士、以及SAIT技术副总裁Sang Joon Kim博...
业界
1 月 12 日消息,根据韩国媒体 businesskorea 报道,韩国科学技术研究院(KAIST)研发出了一种专门针对 AI 人工智能相关运算进行优化的 SSD。
业界
根据Politico的报道,Clearview AI有望为其面部识别技术获得一项美国专利。
业界

相关推荐

1
3