青岛网站建设制作推广,asp源码下载,2016网站优化,单页展示网站今天我们来学习Deeplearning.ai的在线课程 微调大型语言模型(一)的第一课#xff1a;为什么要微调(Why finetune)。
我们知道像GPT-3.5这样的大型语言模型(LLM)它所学到的知识截止到2021年9月#xff0c;那么如果我们向ChatGPT询问2022年以后发生的事情#xff0c;它可能会…
今天我们来学习Deeplearning.ai的在线课程 微调大型语言模型(一)的第一课为什么要微调(Why finetune)。
我们知道像GPT-3.5这样的大型语言模型(LLM)它所学到的知识截止到2021年9月那么如果我们向ChatGPT询问2022年以后发生的事情它可能会产生“幻觉”从而给出错误的答案再比如我们有一些关于企业的某些产品的业务数据但是由于ChatGPT没有学习过这些数据因此它也无法正确回答出关于这些产品的问题。为了扩大LLM的知识面让LLM能够更好的学习并掌握新知识从而更好的为用户服务因此我们需要对LLM进行微调(Finetuning)。 由于常见的开源LLM都有较大的体积在微调LLM时它对机器的配置有较高的要求通常要求机器有较大的内存和GPU显存比如64 GB内存32G GPU 显存等。因此一般的家用PC很难满足要求所以我们一般会通过第三方的托管平台的API来实现对开源LLM进行访问和微调由于本课程使用的是 lamini.ai 平台的API来实现对开源大模型Llama-2-7b模型的访问和微调因此我们需要去lamini.ai 注册一个账号(可以通过gmail账号直接登录)然后获取免费赠送的Credits(用完后可购买)和 API Key API Key 设置
我们首先需要在代码中设置 production.key该key就是我们在注册账号时获取到的Activate API Tokens:
# pip install lamini
from llama import LLMEnginellm LLMEngine(idexample_llm,config{production.key: xxxxxxxxx})
比较微调与非微调模型
为了让大家更好的理解微调模型和非微调模型的差异我们需要对两者产生的结果进行比较也就是我们需要对两种模型提出相同的问题然后比较它们各自产生的结果。
测试非微调模型
首先我们会对非微调模型Llama-2-7b-hf进行测试我们会问它几个问题然后观察它的回答这里我们对Llama-2-7b-hf 提出这样一个问题“告诉我如何训练我的狗学会坐下”由于Llama-2模型目前并不支持中文所以我们需要使用英语来进行提问
from llama import BasicModelRunner#加载非微调模型
non_finetuned BasicModelRunner(meta-llama/Llama-2-7b-hf)#问题:告诉我如何训练我的狗学会坐下
non_finetuned_output non_finetuned(Tell me how to train my dog to sit)print(non_finetuned_output) 从上面的结果中我们看到Llama-2-7b-hf并没有正确回答问题它似乎是根据用户的问题然后用用户的口气又编造了很多重复的问题这样的回复看上去完全是文不对题完全不符合要求。下面我们把llm的回复翻译成中文这样便于大家更好的理解: #问题你觉得火星怎么样?
print(non_finetuned(What do you think of Mars?)) #问题Twitter的老板是谁
print(non_finetuned(Who is the boss of Twitter?)) 下面我们来模拟一个代理和客户之间的问题流程首先代理问候客户-客户提问-代理回答-客户提问-(需要llm回答)
print(non_finetuned(Agent: Im here to help you with your Amazon deliver order.
Customer: I didnt get my item
Agent: Im sorry to hear that. Which item was it?
Customer: the blanket
Agent:)) 这里我们可以直观的感觉到Llama-2-7b-hf模型在回答用户问题时往往会不停的重复用户的问题或者重复自己的回复因此这样的模型完全不能正常的使用(感觉像患上了精神病)。
与微调模型进行比较
下面我们使用微调模型 Llama-2-7b-chat-hf 看看它如何来回答先前那些问题
#加载微调模型Llama-2-7b-chat-hf
finetuned_model BasicModelRunner(meta-llama/Llama-2-7b-chat-hf)#问题:告诉我如何训练我的狗学会坐下
finetuned_output finetuned_model(Tell me how to train my dog to sit)print(finetuned_output) 从上面的结果看微调模型Llama-2-7b-chat-hf似乎给出了非常正确合理的答案我们将这个回答翻译成中文这样方便大家更好的理解 结果虽然符合我们的要求但是美中不足的时在返回的结果中在文本的开头位置出现了和问题无关的内容比如在答案的开头出现了“on command.” 这样的语句为此我们可以在向LLM提出问题的时候在问题的头尾两端的位置插入指令提示符合“[INST]”和“[/INST]”这样就可以避免LLM返回的结果中出现和问题无关的内容
print(finetuned_model([INST]Tell me how to train my dog to sit[/INST])) 从上面的结果中我们看到llm已经过滤掉了和问题无关的内容比如:“on command.”, 但是我们也发现Llama-2-7b-chat-hf回答的结果似乎并不完整因为第7点的内容并没有出现这可能是因为llm的tokens数量限制所导致的这有待后续进一步验证。 下面我们给非微调模型Llama-2-7b-hf加上指令提示符看看会怎么样
print(non_finetuned([INST]Tell me how to train my dog to sit[/INST])) 我们看到非微调模型Llama-2-7b-hf并不能识别指令提示符它将指令提示符当成了问题组成部分仍然在不停的重复着用户的问题。
接下来我们继续让微调模型Llama-2-7b-chat-hf回答之前剩下的问题
#问题你觉得火星怎么样?
print(finetuned_model(What do you think of Mars?)) 这里我们发现llm的回答又出现了内容不完整的情况这可能是因为token数量超出限制所以内容被截断了。
#问题Twitter的老板是谁
print(finetuned_model(Who is the boss of Twitter?)) 从上面的结果来看似乎LLM并不知道 伊隆·马斯克 已经收购了Twitter,而成为了Twitter的新老板看来它的知识储备量仍然有限下面我们加上指令提示符看看结果会怎么样
#问题Twitter的老板是谁
print(finetuned_model([INST]Who is the boss of Twitter?[/INST])) 从上面的结果我们看到虽然LLM仍然不知道伊隆·马斯克是Twitter的新老板但是LLM的回答比之前没有加指令提示符的结果更加合理逻辑更加清晰内容更加丰富。
接下来我们继续后续的问题
print(finetuned_model(Agent: Im here to help you with your Amazon deliver order.
Customer: I didnt get my item
Agent: Im sorry to hear that. Which item was it?
Customer: the blanket
Agent:)) 从上面的结果中我们看到LLM仍然模拟了多轮的agent-customer之间的对话从内容上看感觉非常的真实并且在最后LLM做了总结还评价了agent的表现(感觉是即当球员又当裁判)。
与ChatGPT的比较
接下来我们让ChatGPT来回答之前的第一个关于训练狗的问题我们来看看ChatGPT的回答与微调模型Llama-2-7b-chat-hf的回答有什么不同
chatgpt BasicModelRunner(chat-gpt)#问题:告诉我如何训练我的狗学会坐下
print(chatgpt(Tell me how to train my dog to sit))
x
下面我们将ChatGPT的回答也翻译成中文这样便于大家更好的理解 我们将与之前使用指令提示符的微调模型的结果做一下比对下面是微调模型Llama-2-7b-chat-hf的结果 我们发现微调模型Llama-2-7b-chat-hf的结果与ChatGPT3.5模型的结果从质量上来说已经非常的接近了这似乎说明Llama-2-7b-chat-hf在某些应用场景下存在可以替代ChatGPT3.5的可能性。
总结
今天我们学习了如何使用lamini.ai的API接口来分析开源大模型Llama-2的原始版本和微调版本之间的差异我们分别加载了原始模型和微调模型对于相同的问题原始模型表现非常的糟糕微调模型的表现相对较好当我们使用指令提示符后微调模型表现的更加优秀同时我们也发现了微调模型的输出结果不完整的情况, 这可能是由于token数量限制被截断造成的这有待后续进一步验证最后我们还比较了ChatGPT和Llama-2微调模型的结果我们发现Llama-2微调模型的结果的质量非常接近ChatGPT因此可以认为Llama-2是目前开源LLM中较为优秀的模型。
参考资料
https://lamini-ai.github.io/ DLAI - Learning Platform Beta