近来生成式大语言模型掀起了革命性的AI浪潮。生成式大语言模型是什么原理?我们怎么在业务中利用它?
一. 大语言模型的工作原理
生成式大语言模型是生成式人工智能底层的机器学习模型,是一种用于自然语言处理的深度学习模型。
人工智能、机器学习与大语言模型的关系如下图:
1.1 为什么我们称之为大语言模型?
大语言模型的“大”体现在多个方面:
- 首先,模型尺寸巨大,尤其是它的参数数量。例如GPT3有1750亿的参数;
- 其次,大语言模型是在巨大的算力基础上,基于海量语料进行训练的。例如Meta的Llama 2 的训练数据达到了两万亿个词(token);
- 再次,大语言模型是为解决通用问题,而非特定问题构建的。
1.2 大语言模型是怎么训练的?
大语言模型是事先训练好的模型。
训练时,大语言模型基于各种语料 - 人类知识库(例如Wikipedia)、公共数据集、网络爬虫数据,让模型进行“填空”练习,并经过人工编辑和“校对” 训练出来的,需要成千上万的GPU建立集群进行训练。根据Meta的信息,其Llama 2 的训练数据达到了两万亿个token,上下文长度为4096,对话上也是使用100万人类标记的数据微调。
运行时,训练产生的大语言模型可以在小的多的硬件上运行。
1.3 大语言模型的机器学习算法
冰冻三尺,非一日之寒;滴水穿石,非一日之功。生成式大语言模型能够落地经历了相当漫长的技术积累与进步。