今天干货满满,给大家详细分析下当代AI系统的全栈架构,从硬件到应用创建的一整套架构体系,还不快收藏!具体参照下图:
硬件
GPU:因其强大的并行计算能力,现在已经是大模型训练、微调和推理的首选。NVIDIA现在是全球最火的GPU提供商。
TPU:Google开发的一种专门用于机器学习模型训练和推理的处理器。它具有卓越的张量计算能力,能够高速进行大规模矩阵运算,支持高性能的神经网络训练和推理计算。
NPU:一种专为AI和机器学习任务设计的硬件加速器。它针对深度学习算法所需的复杂计算进行了优化,使得自然语言处理、图像分析等AI任务能更加高效地运行。
RDMA:允许服务器直接访问另一台服务器内存的技术,主要用于解决网络传输中的延迟问题。此外,RDMA技术还能实现跨越多服务器边界、在GPU集群内部不同GPU之间的直接数据交互,这对于提升高性能计算(HPC)系统性能至关重要。
Ethernet:广泛使用的网络技术,提供可靠的网络连接和数据传输。
超级计算机节点:高性能计算集群,用于训练大规模深度学习模型。这些节点通常配备大量 GPU 或 TPU,提供强大的计算能力和存储资源。
编译
CUDA:NVIDIA提供的并行计算平台和编程模型,主要用于 GPU 的通用计算。CUDA 使得开发者可以利用 GPU 强大的计算能力进行深度学习训练和推理。
TVM:是一个开源机器学习(ML)编译器框架,旨在为各种硬件后端优化深度学习模型。支持 CPU、GPU 和各种硬件加速器的优化和编译,TVM 通过自动化优化过程,提高模型在不同硬件上的运行效率。
LLVM:一个编译器框架,支持多种编程语言。旨在深度学习中常用于创建高效的模型推理代码。
XLA:TensorFlow 的专用编译器,用于优化和加速线性代数计算,提升模型训练和推理性能。
GCC:传统的编译系统,广泛应用于各种软件开发领域。在AI开发中用于编译底层代码,提高运行效率。
框架
PyTorch:本质上是一个开源的基于Python的机器学习库,提供了丰富的API和工具,支持从小规模实验到大规模生产的AI模型开发,最核心的两个功能是支持多维张量的操作和深度学习。
TensorFlow:谷歌开发的一个开源机器学习框架,广泛应用于各种深度学习任务。TensorFlow 提供了强大的工具集和库,支持分布式计算和大规模数据处理。
Caffe:一个开源的深度学习框架,适合进行大规模图像分类任务,还支持CNN、RCNN、LSTM和全连接神经网络设计。
MindSpore:华为开源的深度学习框架,支持从端到端的完整AI解决方案,旨在简化深度学习模型的开发、训练和部署过程。
MNN:阿里开源的轻量级深度学习框架,专为移动端设备设计,支持跨平台部署。
ONNX:微软和Facebook发布了一个开放的深度学习开发工具生态系统,目的是能够在不同的工具和框架之间自由地移动和使用模型,旨在促进不同深度学习框架之间的互操作性。
使能
DeepSpeed:微软开发的一个高性能深度学习训练库,旨在加速和优化大规模分布式训练,可以将你的模型快速放在多台服务器上进行并行化的训练或推理。
Hugging Face:现在最大的AI开源社区,里面提供了很多的预训练模型,是一个模型库,很多人会把自己训练好的模型上传上去,大家可以免费下载使用。
LangChain:一个用于构建基于LLM驱动的应用程序开源框架,方便我们快速构建基于LLM的应用程序。里面内置很多API,简化了对大模型的操作。所以如果要基于大模型去开发应用程序,LangChain必不可少。
Milvus:一个开源的矢量数据库,用于高效地存储、搜索和管理大规模的矢量数据。Milvus 提供了高效的相似性搜索、实时数据插入和高吞吐量查询功能,适用于各种复杂的AI应用场景。
编程
开发语言:不多说,学好Python。Python提供了广泛的库和框架支持,如TensorFlow、PyTorch、Pandas等。现在开发Python常用的IDE有PyCharm、Vscode等。
应用
LLM:相信这个现在已经没有人不知道了吧,大型语言模型是由大量文本数据训练而成的深度学习模型,擅长自然语言理解和生成任务,现在更是扩展到各个业务领域,训练其垂直领域大模型。
RLHF:人类反馈强化学习,这是强化学习的一种方法,通过人类反馈来优化模型的性能。通过结合人类的经验和反馈,可以使模型更快速、更有效地学习。
NLP:自然语言处理是人工智能的一个子领域,致力于让计算机理解、解释和生成人类语言。常见的应用包括情感分析、机器翻译、问答系统等。
其他AI应用:以大模型为底座基础,创建各业务场景下的AI应用,其中常用的技术,有与RAG相结合,有与Agent相结合等。其中AIGC是最为简单和广泛应用的一种场景,结合着各种多模态大模型,在短短一年半内,全球掀起了AI浪潮。
上面简单介绍了AI系统的全栈架构,展示了当代AI开发和部署中涉及的各项技术和组件,从高层的应用到底层的硬件优化,全面概括了AI技术领域的全景,希望对大家有所帮助。
如何学习AI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【】
#### 一、全套AGI大模型学习路线AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。