通过社区合作,面向全场景构建最佳昇腾匹配、支持多处理器架构的开放AI框架,为算法工程师、数据科学家和广大开发者提供开发友好、运行高效、部署灵活的体验,帮助人工智能软硬件应用生态繁荣发展。
1.昇思简介
MindSpore是由华为于2019年8月推出的新一代全场景AI计算框架,2020年3月28日,华为宣布MindSpore正式开源。MindSpore着重提升易用性并降低AI开发者的开发门槛,MindSpore原生适应每个场景包括端、边缘和云,并能够在按需协同的基础上,通过实现AI算法即代码,使开发态变得更加友好,显著减少模型开发时间,降低模型开发门槛。通过MindSpore自身的技术创新及MindSpore与华为昇腾AI处理器的协同优化,实现了运行态的高效,大大提高了计算性能;MindSpore也支持GPU、CPU等其它处理器。
2.五大模型
(1)紫东.太初
业界首个三模态千亿参数大模型,支持文本、视觉、语音不同模态间的高效协同,可支撑影视创作、工业质检、智能驾驶等产业应用。
紫东.太初是中科院自动化所与MindSpore社区联合打造的全球首个图、文、音三模态大模型。紫东.太初将文本 + 视觉 + 语音 各个模型高效协同,实现超强性能,在图文跨模态理解与生成性能上都能领先目前业界的SOTA模型,高效完成跨模态检测、视觉问答、语义描述等下游任务。此外,视频理解与描述的性能更是实现了全球第一,在今年的两个国际大赛中,ACM Multimedia(国际多媒体大会)和ICCV(国际计算机视觉大会)紫东太初都获得了第一名的成绩。
紫东.太初的发布将改变当前单一模型对应单一任务的人工智能研发范式,实现三模态图文音的统一语义表达,大幅提升文本、语音、图像和视频等领域的基础任务性能,并在多模态内容的理解、搜索、推荐和问答,语音识别和合成,人机交互和无人驾驶等商业应用中具有潜力巨大的市场价值。
(2)武汉.Luojia
由武汉大学与华为昇腾AI团队联合研发,是遥感领域首个国产化自主可控的遥感专用机器学习框架,针对遥感数据像幅尺寸大、数据通道多、尺度变化大等特性,具备内存可扩展、尺度通道灵活创建、数据通道自主优选、框架与数据协同处理的特点。可兼容已有深度学习框架,并提供用户友好的、可拖拽的交互式网络结构搭建界面的方法。能屏蔽不同硬件设备间差异,同时管理多样化的遥感影像样本库LuoJiaSET,实现遥多源感影像样本的高效存储管理
LuoJiaNET遥感专用深度学习框架,是遥感领域首个自主可控的专用机器学习框架。针对遥感数据像幅尺寸大、数据通道多、尺度变化大等特性,具备内存可扩展、尺度通道灵活创建、数据通道自主优选、框架与数据协同处理的特点。其与国产人工智能硬件NPU深度融合,可支持CPU、GPU、NPU等计算设备,形成融合探测机理与地学知识的统一计算图表达、编译优化、图算融合、自动混合并行的新一代遥感智能解译框架。LuoJiaNET构建了针对遥感影像“场景-目标-像素”多层级任务的遥感应用模型,包括场景检索、目标检测、地物分类、变化检测、多视角三维重建等五大类模型。
LuoJiaSET是遥感领域满足OGC标准的大规模遥感影像样本库,其制定了支持全球范围的遥感影像样本分类标准、标注规范,建立涵盖不同遥感任务的统一分类体系,形成样本要素的采集要求、内容和流程规范,可支持多级别、多类型遥感影像样本库的采集、制作、管理、共享、应用。针对当前现有样本数据集面临的问题:1)分类体系不统一。2)样本数据集传感器种类单一,通常样本库都是全色或者RGB彩色,缺少高光谱、红外、SAR遥感影像的样本;且通常是二维数据,缺乏三维数据。3)现有数据空间跨度有限、时间覆盖不均,导致模型泛化能力弱。4)样本集受标注人员水平限制,质量参差不齐。LuoJiaSET建立统一类别体系,提供大量数据集,其覆盖范围广、时间跨度大、涵盖传感器种类多,同时提供标准化的标注工具,大幅提升影像标注效率
(3)鹏程.盘古
业界首个千亿级参数中文自然语言处理大模型,可支持知识问答、知识检索、知识推理、阅读理解等丰富的下游应用。「鹏城.盘古」由以鹏城实验室为首的技术团队联合攻关,首次基于“鹏城云脑Ⅱ”和国产MindSpore框架的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练,训练出业界首个2000亿参数以中文为核心的预训练生成语言模型。鹏程·盘古α预训练模型支持丰富的场景应用,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出,具备很强的小样本学习能力。
“鹏程·盘古α“由以鹏城实验室为首的技术团队联合攻关,首次基于“鹏城云脑Ⅱ”和国产MindSpore框架的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练,训练出业界首个2000亿参数以中文为核心的预训练生成语言模型。鹏程·盘古α预训练模型支持丰富的场景应用,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出,具备很强的小样本学习能力。
鹏程·盘古α具有以下特点:
(1)业界首个2000亿参数中文自回归语言模型
(2)代码、模型逐步全开源
(3)首创顺序自回归预训练语言模型ALM
(4)MindSpore超大规模自动并行技术
(5)模型基于国产全栈式软硬件协同生态(MindSpore+CANN+昇腾910+ModelArts)
(4)鹏程.神农
面向生物医学领域的人工智能平台,包含蛋白质结构预测等多个模块,为制药企业和医学研究机构提供平台能力,加速新型药物的筛选与创制。
以蛋白质研究为起点,基于“鹏城云脑II”超大规模算力集群以及MindSpore AI框架,打造“鹏程.神农”生物信息研究平台,旨在用AI的力量助力生物医药的探索。“鹏程.神农”是一个面向生物医学领域的人工智能平台,包含蛋白质结构预测、小分子生成、靶点与小分子相互作用预测以及新抗菌多肽设计与效果评价等模块。制药企业和医学研究机构可以使用“鹏程.神农”提供的AI能力,加速新型药物的筛选和创制
(5)空天·灵眸
空天·灵眸(RingMo)是中科院空天信息创新研究院构建的首个面向大规模跨模态数据的遥感智能解译生成式大模型,共享学习遥感多模态多任务的通用特征,加速AI应用于遥感领域。
空天·灵眸是中科院空天信息创新研究院与MindSpore社区联手打造的国际首个面向多模态遥感数据的生成式自监督预训练模型,已成功应用于多模态遥感地物要素提取、遥感场景分类、细粒度目标精细化识别、像素级变化检测、三维重建等重要任务中,在12个国际标准数据集中取得世界领先水平。其不仅具备“数据多源异构、遥感特性驱动、应用任务泛化”的特点,还填补了多模态生成式预训练模型在遥感专业领域的空白,可面向遥感学术研究、行业应用等产学研领域推广使用。
昇思MindSpore:https://www.mindspore.cn/largeModel