从“好玩”到“好用” 大模型如何落地生花?

发布时间:2024-11-09 11:21:58 来源: sp20241109

原标题:从“好玩”到“好用”,大模型如何落地生花?

在国内外科技企业的密集推动下,大模型呈现加速爆发趋势。赛迪顾问数据显示,截至2023年7月,中国累计有130个大模型问世,拉开了“百模大战”的帷幕。相比国际企业更注重通用大模型,国内大模型产业化应用呈现出通用类、专业类并行的发展态势,有望重塑产业格局,为千行百业创造经济价值。

然而,要推动大模型从尝鲜期走向落地期,从“好玩”走向“好用”,还需要底层软硬件技术栈的驱动和赋能。英特尔正在AI的道路上奋力奔跑,并瞄准大模型这一AI最新趋势储备弹药。

无处不在的AI需要更加坚实的数字底座

AI正在赋能千行百业越来越多的流程和环节,小到一张票据的自动识别和信息录入,大到造福全民健康事业,AI正在引发生产生活方式的蝶变。

在企业的财务办公室,光学字符识别正在将员工从纸堆般的票据中解放出来。该技术能够对海量的单据、文档等图片进行处理,实现信息的自动录入,在减少人工录入工作量的同时,使数据更加容易保存,还减少了票据存档管理费用和纸张占用空间。

在物流园区,视觉AI技术让分拣、装卸等流程更加顺畅,并更好地保障了生产安全。AI技术的识别和分析能力,不仅降低了快件错分率及错派、人工核对成本等潜在损失,还能有效监测园区内是否存在危险作业、违规作业或安全问题,让流程更加高效安全。

与此同时,AI还应用于提升疾病检测和筛查效率、保护金融大数据安全、预测新能源输出功率等领域,为产业的转型升级和提质增效注入动能。

AI无处不在的同时,也为算力基础设施带来越来越沉重的负担。比如光学字符识别会带来较大的AI算力开销,增加了基础设施平台的性能与总体拥有成本压力;边缘视觉AI应用涉及大量的推理运算,会产生高昂的硬件成本;结合深度学习算法的AI医学影像解决方案会让AI平台执行推理等活动的计算量和复杂度急剧增加等。

英特尔基于软硬件一体化解决方案,助力企业更有效地应对AI带来的性能挑战。在硬件方面,英特尔提供了第四代至强可扩展处理器,每个插槽多达60个核心,支持8通道 DDR5内存,在内存带宽方面实现了50%的性能提升,整体实现了60%的代际性能提升。该处理器还内置了英特尔高级矩阵扩展AMX,能够为AI工作负载的训练和推理提供更强性能。在光学字符识别应用中,英特尔AMX支持从FP32到INT8/BF16的量化,从而在可接受的精度损失下,提升系统吞吐量和推理速度。

在软件方面,英特尔提供了一系列开源的工具套件,让开发和运维更加简捷。针对物流园区可能采用多种算力芯片和深度学习框架来实现视觉AI的场景,英特尔OpenVINO工具套件提供的模型优化器,可将基于其他深度学习框架的模型转换为统一且性能经过优化的OpenVINO IR模型,降低了模型优化与运维的复杂程度。此工具套件还提供了免费且预训练好的深度学习模型及演示应用供用户选用,进一步降低了用户的模型开发难度并缩短了应用开发时间。同时,在英特尔oneAPI和OpenVINO工具套件的支持下,模型还可实现XPU的无缝切换,且几乎不会对应用层造成任何影响。

以上仅仅是已经落地的AI应用在英特尔平台上得到的优化,此外,英特尔还在将技术服务和解决方案上向大模型延伸,以求为互联网企业利用大模型创造商业价值、行业用户通过大模型提升竞争能力创造更多可能。

工具链条加速大模型落地部署

大模型与行业融合不断深入的过程中,计算参数也水涨船高。赛迪顾问数据显示,在国内已发布的100余个大模型中,10亿参数规模以上的大模型占比超过80%以上,投入商用的大模型参数量基本在千亿级。

如此量级的参数,对大模型的落地部署带来了挑战。

一方面,大模型对算力基础设施的内存、带宽、系统资源带来沉重的负担,让一般的科技公司难以承受,也难以实现运行准确性与能效的平衡。采用量化等压缩方式为大语言模型“瘦身”,以降低内存空间占用并提升推理效率,成为降低大模型部署难度的常用方式。2022年提出的SmoothQuant量化方案能够实现1.56倍的加速,内存需求减少2倍。在英特尔平台上提升大语言模型的训练后量化表现的增强型SmoothQuant技术,在OPT-1.3b和BLOOM-1b7模型上的准确率比默认的SmoothQuant分别高5.4%和1.6%。量化后的模型也缩小到FP32模型的四分之一,显著减少了内存占用空间,从而提升了大模型在英特尔平台的推理性能。

另一方面,大模型的庞大参数量,使维护和调优变得更加复杂。传统调优方式不仅要求相关人员熟练掌握微调技巧,还需要付出高昂的训练成本。在这种趋势下,参数高效微调等成本更低、应用简捷的调优方式正在逐步取代传统调优方法应用在大模型中。英特尔提供了一整套软硬件支持方案,使“只改一行代码”就实现大模型调优成为可能。在硬件层面上,英特尔AMX通过快速处理矩阵乘加运算,显著提升了运算速度;至强CPU Max系列提供的最高达1TB/s的内存带宽支持,满足大模型微调所需的大内存带宽,以获得更好的运行性能。在软件层面,英特尔MPI库能够更有效地整合和分配内核资源,进一步发挥CPU的整体效率,以创建和维护更加复杂的应用。

安全或许不是大模型性能指标的直观体现,却是大模型行稳致远的底线。如何保证数据,尤其是隐私数据在推理和训练过程中的保密性,如何保证数据在调用过程中端到端的安全,都是大模型兴起与应用带来的安全挑战。从第三代英特尔至强可扩展处理器开始内置的SGX(软件防护扩展)技术,其可信执行环境的容量最多可达单颗CPU 512GB,双路共计1TB容量,可满足目前千亿大模型的执行空间需求。此外,该技术支持的机密计算可实现应用层、虚拟机、容器和功能层的数据隔离,无论在云端、边缘还是本地环境,都能更全面地保护计算与数据的私密性和安全性。

从“好看”到“好用”,从“潮玩”到“普适”,大模型的商用落地是结合场景定义、训练、调优、运维等多个步骤的螺旋式上升过程。作为AI底座的建设者,英特尔正结合软硬件能力,赋能开发者和生态伙伴,进一步释放AI的创新潜能。(张心怡)

(责编:曹淼、杨迪)