Meta推出AI语言模型LLaMA 一个有着650亿参数的大语言模型

业界
2023
02/25
12:11
IT之家
分享
评论

2 月 25 日消息,Meta 在当地时间周五宣布,它将推出一种针对研究社区的基于人工智能 (AI) 的新型大型语言模型,与微软、谷歌等一众受到 ChatGPT 刺激的公司一同加入人工智能竞赛。

Meta 的 LLaMA 是“大型语言模型 Meta AI” (Large Language Model Meta AI)的缩写,它可以在非商业许可下提供给政府、社区和学术界的研究人员和实体工作者。

该公司将提供底层代码供用户使用,因此用户可以自行调整模型,并将其用于与研究相关的用例。Meta 表示,该模型对算力的要求“低得多”。

据介绍,该公司正在开发多种参数(7B、13B、33B 和 65B)的 LLaMA。其中,LLaMA 65B 和 LLaMA 33B 在 1.4 万亿个 tokens 上训练,而最小的模型 LLaMA 7B 也经过了 1 万亿个 tokens 的训练。

与其他大型语言模型一样,LLaMA 的工作原理是将一系列单词作为“输入”并预测下一个单词以递归生成文本。为了这套模型,Meta 从使用人数最多的 20 种语言中选择文本进行训练,重点是拉丁语和西里尔字母。

当然,与其他模型一样,LLaMA 也面临着偏见、有毒评论和幻觉的挑战,Meta 还需要做更多的研究来解决这类语言模型中的不足。

Meta 表示,LLaMA 作为一个基础模型被设计成多功能的,可以应用于许多不同的用例,而不是为特定任务设计的微调模型。通过开源 LLaMA 的代码,其他研究人员可以更轻松地找到限制或消除这些问题的新方法。Meta 还在本文中提供了一组评估模型偏差和毒性的基准评估标准,以显示模型的局限性并支持研究人员在这一关键领域的进一步研究。

值得一提的是,Meta 在去年 5 月也曾推出过大型语言模型 OPT-175B。该项目同样也是针对研究人员的,这构成了其聊天机器人 blenterbot 新迭代的基础。

后来,该公司还推出了一款名为“卡拉狄加”(Galactica) 的模型,据称它可以撰写科学文章和解决数学问题,但其演示版本后来被下架,因为它反复生成“听起来很权威”的内容。

【来源:IT之家】

THE END
广告、内容合作请点击这里 寻求合作
Meta
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

近日,CNMO注意到,据意大利媒体在当地时间22日的报道信息,因涉嫌逃税约8.7亿欧元(约合人民币64亿元),意大利米兰检察院对美国社交媒体网站脸书(Facebook)的母公司Meta进行了立案调查。
业界
Meta新一轮裁员呼之欲出。据外媒周三报道,Meta正酝酿新一轮裁员,削减一些项目,涉及公司的各部门和全球各地区,恐波及数千名员工。
业界
2月21日,据路透社报道,三位知情人士称,腾讯控股正与Meta公司就在中国分销其Meta Quest系列虚拟现实头显进行谈判。
业界
关于Meta收购Within的拉锯战已经结束。Meta公司已经完成了对这家虚拟现实锻炼应用程序制造商的收购,将《超自然》和其他项目纳入这家元老级巨头的阵营。
业界
作为一家全球知名的科技公司,Mate在整个2022年十分“难受”。在这一年里,该公司的股价大跌,称得上是Meta诞生以来最糟糕的一年。
业界

相关推荐

1
3