通义千问14B模型开源 阿里云大模型开源生态初具雏形

最新信息

通义千问14B模型开源 阿里云大模型开源生态初具雏形
2023-09-26 21:47:00
9月25日,阿里云开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,正式免费商用。Qwen-14B在多个权威评测中超越同等规模模型,部分指标甚至接近Llama2-70B。阿里云此前开源了70亿参数模型Qwen-7B等,一个多月下载量破100万,成为开源社区的口碑之作。
  据悉,Qwen-14B是一款支持多种语言的高性能开源模型,相比同类模型使用了更多的高质量数据,整体训练数据超过3万亿Token,使得模型具备更强大的推理、认知、规划和记忆能力。Qwen-14B最大支持8k的上下文窗口长度。
  对于通义千问为什么要开源这个问题,阿里云内部人士称:“大规模预训练模型参数量大、训练成本高,开源大模型可以帮助用户简化模型训练和部署的过程,使得用户不必从头训练模型,只需下载预训练好的模型并进行微调,就可快速构建高质量的模型或进行相应的应用开发。阿里云希望通过开源,让海量的中小企业和开发者更快用上通义千问大模型。”
  目前,70亿参数是开源大模型中最常见的规模,此外比较常见的开源模型尺寸还有13B(130亿)、20B(200亿)、70B(700亿)等,此前开源的Qwen-7B、本次开源的Qwen-14B,都在多个测评基准中取得了超过业界同尺寸开源模型的效果,在部分测评中甚至“跃级”赶超了部分更大尺寸模型。目前,通义千问7B、14B模型能以较小成本、较高性能满足大部分开发者的需求。
  8月份,阿里云开源通义千问70亿参数基座模型Qwen-7B,先后冲上HuggingFace、Github的trending榜单。短短一个多月,累计下载量突破100万。开源社区出现了50多个基于Qwen的模型,社区多个知名的工具和框架都集成了Qwen。
  通义千问是落地最深、应用最广的中国大模型,国内已有多个月活过亿的应用接入通义千问,大量中小企业、科研机构和个人开发者都在基于通义千问开发专属大模型或应用产品,如阿里系的淘宝、钉钉、未来精灵,以及外部的科研机构、创业企业。
  阿里云CTO周靖人表示,阿里云将持续拥抱开源开放,推动中国大模型生态建设。阿里云笃信开源开放的力量,率先开源自研大模型,希望让大模型技术更快触达中小企业和个人开发者。
  阿里云还牵头建设了中国领先的AI模型开源社区魔搭ModelScope,团结全行业的力量,共同推动大模型技术普惠和应用落地。过去两个月内,魔搭社区的模型下载量从4500万飙升到8500万,增幅接近100%。
  用户如今可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问和调用Qwen-14B和Qwen-14B-Chat。阿里云将为用户提供包括模型训练、推理、部署、精调等在内的全方位服务。
(文章来源:证券日报)
免责申明: 本站部分内容转载自国内知名媒体,如有侵权请联系客服删除。

通义千问14B模型开源 阿里云大模型开源生态初具雏形

sitemap.xml sitemap2.xml sitemap3.xml sitemap4.xml