当前位置: 首页 > news >正文

网络建设的网站wordpress jiathis

网络建设的网站,wordpress jiathis,政务公开和网站建设自查报告,蒙自做网站的公司自ChatGPT为代表的大语言模型#xff08;Large Language Model, LLM#xff09;出现以后#xff0c;由于其惊人的类通用人工智能#xff08;AGI#xff09;的能力#xff0c;掀起了新一轮自然语言处理领域的研究和应用的浪潮。 尤其是以ChatGLM、LLaMA等平民玩家都能跑起…自ChatGPT为代表的大语言模型Large Language Model, LLM出现以后由于其惊人的类通用人工智能AGI的能力掀起了新一轮自然语言处理领域的研究和应用的浪潮。 尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后业界涌现了非常多基于LLM的二次微调或应用的案例。 本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料目前收录的资源已达100个 目录 技术交流1. 模型1.1 文本LLM模型1.2 多模态LLM模型 2. 应用2.1 垂直领域微调医疗法律金融教育科技自媒体电商网络安全 2.2 LangChain应用2.3 其他应用 3. 数据集预训练数据集SFT数据集偏好数据集 4. LLM训练微调框架5. LLM推理部署框架6. LLM评测7. LLM教程LLM基础知识提示工程教程LLM应用教程LLM实战教程 8. 相关仓库 常见底座模型细节概览 技术交流 建了技术交流群想要进交流群、获取如下原版资料的同学可以直接加微信号dkl88194。加的时候备注一下研究方向 学校/公司CSDN即可。然后就可以拉你进群了。 方式①、添加微信号dkl88194备注来自CSDN 技术交流 方式②、微信搜索公众号Python学习与数据挖掘后台回复加群 资料1 资料2 1. 模型 1.1 文本LLM模型 ChatGLM 地址https://github.com/THUDM/ChatGLM-6B 简介中文领域效果最好的开源底座模型之一针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练辅以监督微调、反馈自助、人类反馈强化学习等技术的加持 ChatGLM2-6B 地址https://github.com/THUDM/ChatGLM2-6B 简介基于开源中英双语对话模型 ChatGLM-6B 的第二代版本在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上引入了GLM 的混合目标函数经过了 1.4T 中英标识符的预训练与人类偏好对齐训练基座模型的上下文长度扩展到了 32K并在对话阶段使用 8K 的上下文长度训练基于 Multi-Query Attention 技术实现更高效的推理速度和更低的显存占用允许商业使用。 ChatGLM3-6B 地址https://github.com/THUDM/ChatGLM3 简介ChatGLM3-6B 是 ChatGLM3 系列中的开源模型在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上ChatGLM3-6B 引入了如下特性更强大的基础模型 ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略更完整的功能支持 ChatGLM3-6B 采用了全新设计的 Prompt 格式除正常的多轮对话外。同时原生支持工具调用Function Call、代码执行Code Interpreter和 Agent 任务等复杂场景更全面的开源序列 除了对话模型 ChatGLM3-6B 外还开源了基础模型 ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放在填写问卷进行登记后亦允许免费商业使用。 Chinese-LLaMA-Alpaca 地址https://github.com/ymcui/Chinese-LLaMA-Alpaca 简介中文LLaMAAlpaca大语言模型本地CPU/GPU部署在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练 Chinese-LLaMA-Alpaca-2 地址https://github.com/ymcui/Chinese-LLaMA-Alpaca-2 简介该项目将发布中文LLaMA-2 Alpaca-2大语言模型基于可商用的LLaMA-2进行二次开发。 Chinese-LlaMA2 地址https://github.com/michael-wzhu/Chinese-LlaMA2 简介该项目基于可商用的LLaMA-2进行二次开发决定在次开展Llama 2的中文汉化工作包括Chinese-LlaMA2: 对Llama 2进行中文预训练第一步先在42G中文预料上进行训练后续将会加大训练规模Chinese-LlaMA2-chat: 对Chinese-LlaMA2进行指令微调和多轮对话微调以适应各种应用场景和多轮对话交互。同时我们也考虑更为快速的中文适配方案Chinese-LlaMA2-sft-v0: 采用现有的开源中文指令微调或者是对话数据对LlaMA-2进行直接微调 (将于近期开源)。 Llama2-Chinese 地址https://github.com/FlagAlpha/Llama2-Chinese 简介该项目专注于Llama2模型在中文方面的优化和上层建设基于大规模中文数据从预训练开始对Llama2模型进行中文能力的持续迭代升级。 Qwen 地址https://github.com/QwenLM/Qwen 简介通义千问 是阿里云研发的通义千问大模型系列模型包括参数规模为18亿1.8B、70亿7B、140亿14B和720亿72B。各个规模的模型包括基础模型Qwen即Qwen-1.8B、Qwen-7B、Qwen-14B、Qwen-72B以及对话模型Qwen-Chat即Qwen-1.8B-Chat、Qwen-7B-Chat、Qwen-14B-Chat和Qwen-72B-Chat。数据集包括文本和代码等多种数据类型覆盖通用领域和专业领域能支持8K的上下文长度针对插件调用相关的对齐数据做了特定优化当前模型能有效调用插件以及升级为Agent。 OpenChineseLLaMA 地址https://github.com/OpenLMLab/OpenChineseLLaMA 简介基于 LLaMA-7B 经过中文数据集增量预训练产生的中文大语言模型基座对比原版 LLaMA该模型在中文理解能力和生成能力方面均获得较大提升在众多下游任务中均取得了突出的成绩。 BELLE 地址https://github.com/LianjiaTech/BELLE 简介开源了基于BLOOMZ和LLaMA优化后的一系列模型同时包括训练数据、相关模型、训练代码、应用场景等也会持续评估不同训练数据、训练算法等对模型表现的影响。 Panda 地址https://github.com/dandelionsllm/pandallm 简介开源了基于LLaMA-7B, -13B, -33B, -65B 进行中文领域上的持续预训练的语言模型, 使用了接近 15M 条数据进行二次预训练。 Robin (罗宾): 地址https://github.com/OptimalScale/LMFlow 简介Robin (罗宾)是香港科技大学LMFlow团队开发的中英双语大语言模型。仅使用180K条数据微调得到的Robin第二代模型在Huggingface榜单上达到了第一名的成绩。LMFlow支持用户快速训练个性化模型仅需单张3090和5个小时即可微调70亿参数定制化模型。 Fengshenbang-LM 地址https://github.com/IDEA-CCNL/Fengshenbang-LM 简介Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系该项目开源了姜子牙通用大模型V1是基于LLaMa的130亿参数的大规模预训练模型具备翻译编程文本分类信息抽取摘要文案生成常识问答和数学计算等能力。除姜子牙系列模型之外该项目还开源了太乙、二郎神系列等模型。 BiLLa 地址https://github.com/Neutralzz/BiLLa 简介该项目开源了推理能力增强的中英双语LLaMA模型。模型的主要特性有较大提升LLaMA的中文理解能力并尽可能减少对原始LLaMA英文能力的损伤训练过程增加较多的任务型数据利用ChatGPT生成解析强化模型理解任务求解逻辑全量参数更新追求更好的生成效果。 Moss 地址https://github.com/OpenLMLab/MOSS 简介支持中英双语和多种插件的开源对话语言模型MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。 Luotuo-Chinese-LLM 地址https://github.com/LC1332/Luotuo-Chinese-LLM 简介囊括了一系列中文大语言模型开源项目包含了一系列基于已有开源模型ChatGLM, MOSS, LLaMA进行二次微调的语言模型指令微调数据集等。 Linly 地址https://github.com/CVI-SZU/Linly 简介提供中文对话模型 Linly-ChatFlow 、中文基础模型 Linly-Chinese-LLaMA 及其训练数据。 中文基础模型以 LLaMA 为底座利用中文和中英平行增量预训练。项目汇总了目前公开的多语言指令数据对中文模型进行了大规模指令跟随训练实现了 Linly-ChatFlow 对话模型。 Firefly 地址https://github.com/yangjianxin1/Firefly 简介Firefly(流萤) 是一个开源的中文大语言模型项目开源包括数据、微调代码、多个基于Bloom、baichuan等微调好的模型等支持全量参数指令微调、QLoRA低成本高效指令微调、LoRA指令微调支持绝大部分主流的开源大模型如百川baichuan、Ziya、Bloom、LLaMA等。持lora与base model进行权重合并推理更便捷。 ChatYuan 地址https://github.com/clue-ai/ChatYuan 简介元语智能发布的一系列支持中英双语的功能型对话语言大模型在微调数据、人类反馈强化学习、思维链等方面进行了优化。 ChatRWKV 地址https://github.com/BlinkDL/ChatRWKV 简介开源了一系列基于RWKV架构的Chat模型包括英文和中文发布了包括RavenNovel-ChnEngNovel-Ch与Novel-ChnEng-ChnPro等模型可以直接闲聊及进行诗歌小说等创作包括7B和14B等规模的模型。 CPM-Bee 地址https://github.com/OpenBMB/CPM-Bee 简介一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer自回归架构auto-regressive在超万亿trillion高质量语料上进行预训练拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。 TigerBot 地址https://github.com/TigerResearch/TigerBot 简介一个多语言多任务的大规模语言模型(LLM)开源了包括模型TigerBot-7B, TigerBot-7B-baseTigerBot-180B基本训练和推理代码100G预训练数据涵盖金融、法律、百科的领域数据以及API等。 书生·浦语 地址https://github.com/InternLM/InternLM-techreport 简介商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”InternLM。据悉“书生·浦语”具有1040亿参数基于“包含1.6万亿token的多语种高质量数据集”训练而成。 Aquila 地址https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila 简介由智源研究院发布Aquila语言大模型在技术上继承了GPT-3、LLaMA等的架构设计优点替换了一批更高效的底层算子实现、重新设计实现了中英双语的tokenizer升级了BMTrain并行训练方法是在中英文高质量语料基础上从开始训练的通过数据质量的控制、多种训练的优化方法实现在更小的数据集、更短的训练时间获得比其它开源模型更优的性能。也是首个支持中英双语知识、支持商用许可协议、符合国内数据合规需要的大规模开源语言模型。 Baichuan-7B 地址https://github.com/baichuan-inc/baichuan-7B 简介Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。该项目发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。 Baichuan-13B 地址https://github.com/baichuan-inc/Baichuan-13B 简介由百川智能开发的一个开源可商用的大规模预训练语言模型。基于Transformer结构在大约1.2万亿tokens上训练的70亿参数模型支持中英双语上下文窗口长度为4096。在标准的中文和英文权威benchmarkC-EVAL/MMLU上均取得同尺寸最好的效果。 Baichuan2 地址https://github.com/baichuan-inc/Baichuan2 简介由百川智能推出的新一代开源大语言模型采用 2.6 万亿 Tokens 的高质量语料训练在多个权威的中文、英文和多语言的通用、领域 benchmark上取得同尺寸最佳的效果发布包含有7B、13B的Base和经过PPO训练的Chat版本并提供了Chat版本的4bits量化。 Anima 地址https://github.com/lyogavin/Anima 简介由艾写科技开发的一个开源的基于QLoRA的33B中文大语言模型该模型基于QLoRA的Guanaco 33B模型使用Chinese-Vicuna项目开放的训练数据集guanaco_belle_merge_v1.0进行finetune训练了10000个step基于Elo rating tournament评估效果较好。 KnowLM 地址https://github.com/zjunlp/KnowLM 简介KnowLM项目旨在发布开源大模型框架及相应模型权重以助力减轻知识谬误问题包括大模型的知识难更新及存在潜在的错误和偏见等。该项目一期发布了基于Llama的抽取大模型智析使用中英文语料对LLaMA13B进行进一步全量预训练并基于知识图谱转换指令技术对知识抽取任务进行优化。 BayLing 地址https://github.com/ictnlp/BayLing 简介一个具有增强的跨语言对齐的通用大模型由中国科学院计算技术研究所自然语言处理团队开发。百聆BayLing以LLaMA为基座模型探索了以交互式翻译任务为核心进行指令微调的方法旨在同时完成语言间对齐以及与人类意图对齐将LLaMA的生成能力和指令跟随能力从英语迁移到其他语言中文。在多语言翻译、交互翻译、通用任务、标准化考试的测评中百聆在中文/英语中均展现出更好的表现。百聆提供了在线的内测版demo以供大家体验。 YuLan-Chat 地址https://github.com/RUC-GSAI/YuLan-Chat 简介YuLan-Chat是中国人民大学GSAI研究人员开发的基于聊天的大语言模型。它是在LLaMA的基础上微调开发的具有高质量的英文和中文指令。 YuLan-Chat可以与用户聊天很好地遵循英文或中文指令并且可以在量化后部署在GPUA800-80G或RTX3090上。 PolyLM 地址https://github.com/DAMO-NLP-MT/PolyLM 简介一个在6400亿个词的数据上从头训练的多语言语言模型包括两种模型大小(1.7B和13B)。PolyLM覆盖中、英、俄、西、法、葡、德、意、荷、波、阿、土、希伯来、日、韩、泰、越、印尼等语种特别是对亚洲语种更友好。 huozi 地址https://github.com/HIT-SCIR/huozi 简介由哈工大自然语言处理研究所多位老师和学生参与开发的一个开源可商用的大规模预训练语言模型。 该模型基于 Bloom 结构的70 亿参数模型支持中英双语上下文窗口长度为 2048同时还开源了基于RLHF训练的模型以及全人工标注的16.9K中文偏好数据集。 YaYi 地址https://github.com/wenge-research/YaYi 简介雅意大模型在百万级人工构造的高质量领域数据上进行指令微调得到训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域上百种自然语言指令任务。雅意大模型从预训练初始化权重到领域模型的迭代过程中我们逐步增强了它的中文基础能力和领域分析能力并增加了多轮对话和部分插件能力。同时经过数百名用户内测过程中持续不断的人工反馈优化进一步提升了模型性能和安全性。已开源基于 LLaMA 2 的中文优化模型版本探索适用于中文多领域任务的最新实践。。 XVERSE-13B 地址https://github.com/xverse-ai/XVERSE-13B 简介由深圳元象科技自主研发的支持多语言的大语言模型使用主流 Decoder-only 的标准Transformer网络结构支持 8K 的上下文长度Context Length为同尺寸模型中最长构建了 1.4 万亿 token 的高质量、多样化的数据对模型进行充分训练包含中、英、俄、西等 40 多种语言通过精细化设置不同类型数据的采样比例使得中英两种语言表现优异也能兼顾其他语言效果基于BPE算法使用上百GB 语料训练了一个词表大小为100,278的分词器能够同时支持多语言而无需额外扩展词表。 Skywork 地址https://github.com/SkyworkAI/Skywork 简介该项目开源了天工系列模型该系列模型在3.2TB高质量多语言和代码数据上进行预训练开源了包括模型参数训练数据评估数据评估方法。具体包括Skywork-13B-Base模型、Skywork-13B-Chat模型、Skywork-13B-Math模型和Skywork-13B-MM模型以及每个模型的量化版模型以支持用户在消费级显卡进行部署和推理。 Yi 地址https://github.com/01-ai/Yi 简介该项目开源了Yi-6B和Yi-34B等模型该系列模型最长可支持200K的超长上下文窗口版本可以处理约40万汉字超长文本输入理解超过1000页的PDF文档。 Yuan-2.0 地址https://github.com/IEIT-Yuan/Yuan-2.0 简介该项目开源了由浪潮信息发布的新一代基础语言大模型具体开源了全部的3个模型源2.0-102B源2.0-51B和源2.0-2B。并且提供了预训练微调推理服务的相关脚本。源2.0是在源1.0的基础上利用更多样的高质量预训练数据和指令微调数据集令模型在语义、数学、推理、代码、知识等不同方面具备更强的理解能力。 1.2 多模态LLM模型 VisualGLM-6B 地址https://github.com/THUDM/VisualGLM-6B 简介一个开源的支持图像、中文和英文的多模态对话语言模型语言模型基于 ChatGLM-6B具有 62 亿参数图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁整体模型共78亿参数。依靠来自于 CogView 数据集的30M高质量中文图文对与300M经过筛选的英文图文对进行预训练。 CogVLM 地址https://github.com/THUDM/CogVLM 简介一个强大的开源视觉语言模型VLM。CogVLM-17B 拥有 100 亿视觉参数和 70 亿语言参数。 CogVLM-17B 在 10 个经典跨模态基准测试上取得了 SOTA 性能。CogVLM 能够准确地描述图像几乎不会出现幻觉。 VisCPM 地址https://github.com/OpenBMB/VisCPM 简介一个开源的多模态大模型系列支持中英双语的多模态对话能力VisCPM-Chat模型和文到图生成能力VisCPM-Paint模型。VisCPM基于百亿参数量语言大模型CPM-Bee10B训练融合视觉编码器Q-Former和视觉解码器Diffusion-UNet以支持视觉信号的输入和输出。得益于CPM-Bee基座优秀的双语能力VisCPM可以仅通过英文多模态数据预训练泛化实现优秀的中文多模态能力。 Visual-Chinese-LLaMA-Alpaca 地址https://github.com/airaria/Visual-Chinese-LLaMA-Alpaca 简介基于中文LLaMAAlpaca大模型项目开发的多模态中文大模型。VisualCLA在中文LLaMA/Alpaca模型上增加了图像编码等模块使LLaMA模型可以接收视觉信息。在此基础上使用了中文图文对数据进行了多模态预训练对齐图像与文本表示赋予其基本的多模态理解能力并使用多模态指令数据集精调增强其对多模态指令的理解、执行和对话能力目前开源了VisualCLA-7B-v0.1。 LLaSM 地址https://github.com/LinkSoul-AI/LLaSM 简介第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。目前开源了LLaSM-Chinese-Llama-2-7B、LLaSM-Baichuan-7B等模型与数据集。 Qwen-VL 地址https://github.com/QwenLM/Qwen-VL 简介是阿里云研发的大规模视觉语言模型可以以图像、文本、检测框作为输入并以文本和检测框作为输出。特点包括强大的性能在四大类多模态任务的标准英文测评中上均取得同等通用模型大小下最好效果多语言对话模型天然支持英文、中文等多语言对话端到端支持图片里中英双语的长文本识别多图交错对话支持多图输入和比较指定图片问答多图文学创作等首个支持中文开放域定位的通用模型通过中文开放域语言表达进行检测框标注细粒度识别和理解相比于目前其它开源LVLM使用的224分辨率Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。 2. 应用 2.1 垂直领域微调 医疗 DoctorGLM 地址https://github.com/xionghonglin/DoctorGLM 简介基于 ChatGLM-6B的中文问诊模型通过中文医疗对话数据集进行微调实现了包括lora、p-tuningv2等微调及部署 BenTsao 地址https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese 简介开源了经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集并在此基础上对LLaMA进行了指令微调提高了LLaMA在医疗领域的问答效果。 BianQue 地址https://github.com/scutcyr/BianQue 简介一个经过指令与多轮问询对话联合微调的医疗对话大模型基于ClueAI/ChatYuan-large-v2作为底座使用中文医疗问答指令与多轮问询对话混合数据集进行微调。 HuatuoGPT 地址https://github.com/FreedomIntelligence/HuatuoGPT 简介开源了经过中文医学指令精调/指令微调(Instruct-tuning)的一个GPT-like模型 Med-ChatGLM 地址https://github.com/SCIR-HI/Med-ChatGLM 简介基于中文医学知识的ChatGLM模型微调微调数据与BenTsao相同。 QiZhenGPT 地址https://github.com/CMKRG/QiZhenGPT 简介该项目利用启真医学知识库构建的中文医学指令数据集并基于此在LLaMA-7B模型上进行指令精调大幅提高了模型在中文医疗场景下效果首先针对药品知识问答发布了评测数据集后续计划优化疾病、手术、检验等方面的问答效果并针对医患问答、病历自动生成等应用展开拓展。 ChatMed 地址https://github.com/michael-wzhu/ChatMed 简介该项目推出ChatMed系列中文医疗大规模语言模型模型主干为LlaMA-7b并采用LoRA微调具体包括ChatMed-Consult : 基于中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w在线问诊ChatGPT回复作为训练集ChatMed-TCM : 基于中医药指令数据集ChatMed_TCM_Dataset以开源的中医药知识图谱为基础采用以实体为中心的自指令方法(entity-centric self-instruct)调用ChatGPT得到2.6w的围绕中医药的指令数据训练得到。 XrayGLM首个会看胸部X光片的中文多模态医学大模型 地址https://github.com/WangRongsheng/XrayGLM 简介该项目为促进中文领域医学多模态大模型的研究发展发布了XrayGLM数据集及模型其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。 MeChat中文心理健康支持对话大模型 地址https://github.com/qiuhuachuan/smile 简介该项目开源的中文心理健康支持通用模型由 ChatGLM-6B LoRA 16-bit 指令微调得到。数据集通过调用gpt-3.5-turbo API扩展真实的心理互助 QA为多轮的心理健康支持多轮对话提高了通用语言大模型在心理健康支持领域的表现更加符合在长程多轮对话的应用场景。 MedicalGPT 地址https://github.com/shibing624/MedicalGPT 简介训练医疗大模型实现包括二次预训练、有监督微调、奖励建模、强化学习训练。发布中文医疗LoRA模型shibing624/ziya-llama-13b-medical-lora基于Ziya-LLaMA-13B-v1模型SFT微调了一版医疗模型医疗问答效果有提升发布微调后的LoRA权重。 Sunsimiao 地址https://github.com/thomas-yanxin/Sunsimiao 简介Sunsimiao是一个开源的中文医疗大模型该模型基于baichuan-7B和ChatGLM-6B底座模型在十万级高质量的中文医疗数据中微调而得。 ShenNong-TCM-LLM 地址https://github.com/michael-wzhu/ShenNong-TCM-LLM 简介该项目开源了ShenNong中医药大规模语言模型该模型以LlaMA为底座采用LoRA (rank16)微调得到。微调代码与ChatMed代码库相同。此外该项目还开源了中医药指令微调数据集。 SoulChat 地址https://github.com/scutcyr/SoulChat 简介该项目开源了经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心SoulChat该模型以ChatGLM-6B作为初始化模型进行了全量参数的指令微调。 CareGPT 地址https://github.com/WangRongsheng/CareGPT 简介该项目开源了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型包含LLM的训练、测评、部署等以促进医疗LLM快速发展。 DISC-MedLLM 地址https://github.com/FudanDISC/DISC-MedLLM 简介该项目是由复旦大学发布的针对医疗健康对话式场景而设计的医疗领域大模型与数据集该模型由DISC-Med-SFT数据集基于Baichuan-13B-Base指令微调得到。 Taiyi-LLM 地址https://github.com/DUTIR-BioNLP/Taiyi-LLM 简介该项目由大连理工大学信息检索研究室开发的中英双语医学大模型太一收集整理了丰富的中英双语生物医学自然语言处理BioNLP训练语料总共包含38个中文数据集通过丰富的中英双语任务指令数据超过100W条样本进行大模型Qwen-7B-base指令微调使模型具备了出色的中英双语生物医学智能问答、医患对话、报告生成、信息抽取、机器翻译、标题生成、文本分类等多种BioNLP能力。 WiNGPT 地址https://github.com/winninghealth/WiNGPT2 简介WiNGPT是一个基于GPT的医疗垂直领域大模型基于Qwen-7b1作为基础预训练模型在此技术上进行了继续预训练指令微调等该项目具体开源了WiNGPT2-7B-Base与WiNGPT2-7B-Chat模型。 ChiMed-GPT 地址https://github.com/synlp/ChiMed-GPT 简介ChiMed-GPT是一个开源中文医学大语言模型通过在中文医学数据上持续训练 Ziya-v2 构建而成其中涵盖了预训练、有监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 等训练过程。 法律 獬豸(LawGPT_zh): 中文法律对话语言模型 地址https://github.com/LiuHC0428/LAW-GPT 简介: 本项目开源的中文法律通用模型由ChatGLM-6B LoRA 16-bit指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答提高了通用语言大模型在法律领域的表现提高了模型回答的可靠性和专业程度。 LaWGPT基于中文法律知识的大语言模型 地址https://github.com/pengxiao-song/LaWGPT 简介该系列模型在通用中文基座模型如 Chinese-LLaMA、ChatGLM 等的基础上扩充法律领域专有词表、大规模中文法律语料预训练增强了大模型在法律领域的基础语义理解能力。在此基础上构造法律领域对话问答数据集、中国司法考试数据集进行指令精调提升了模型对法律内容的理解和执行能力。 LexiLaw中文法律大模型 地址https://github.com/CSHaitao/LexiLaw 简介LexiLaw 是一个基于 ChatGLM-6B微调的中文法律大模型通过在法律领域的数据集上进行微调。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务包括具体法律问题的咨询还是对法律条款、案例解析、法规解读等方面的查询。 Lawyer LLaMA中文法律LLaMA 地址https://github.com/AndrewZhe/lawyer-llama 简介开源了一系列法律领域的指令微调数据和基于LLaMA训练的中文法律大模型的参数。Lawyer LLaMA 首先在大规模法律语料上进行了continual pretraining。在此基础上借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题以下简称法考的分析和对法律咨询的回答利用收集到的数据对模型进行指令微调让模型习得将法律知识应用到具体场景中的能力。 韩非(HanFei) 地址: https://github.com/siat-nlp/HanFei 简介: HanFei-1.0(韩非)是国内首个全参数训练的法律大模型参数量7b主要功能包括法律问答、多轮对话、撰写文章、检索等。 ChatLaw-法律大模型 地址https://github.com/PKU-YuanGroup/ChatLaw 简介由北大开源的一系列法律领域的大模型包括ChatLaw-13B基于姜子牙Ziya-LLaMA-13B-v1训练而来ChatLaw-33B基于Anima-33B训练而来逻辑推理能力大幅提升ChatLaw-Text2Vec使用93w条判决案例做成的数据集基于BERT训练了一个相似度匹配模型可将用户提问信息和对应的法条相匹配。 lychee_law-律知 地址https://github.com/davidpig/lychee_law 简介该项目由德国萨尔大学团队和中国南京大学团队合作开发开源一系列中文司法领域大模型如Law-GLM-10B: 基于 GLM-10B 模型, 在 30GB 中文法律数据上进行指令微调得到的。 智海-录问(wisdomInterrogatory) 地址https://github.com/zhihaiLLM/wisdomInterrogatory 简介该项目由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型基于baichuan-7b进行了法律领域数据的二次预训练与指令微调并设计了知识增强的推理流程。 夫子•明察司法大模型 地址https://github.com/irlab-sdu/fuzi.mingcha 简介该项目由是由山东大学、浪潮云、中国政法大学联合研发以 ChatGLM 为大模型底座基于海量中文无监督司法语料包括各类判决文书、法律法规等与有监督司法微调数据包括法律问答、类案检索训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能。 DISC-LawLLM 地址https://github.com/FudanDISC/DISC-LawLLM 简介该项目由由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源的法律领域大模型包括数据集基于 Baichuan-13B-Base 进行微调的模型且增加了检索增强模块。 金融 Cornucopia聚宝盆基于中文金融知识的LLaMA微调模型 地址https://github.com/jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese 简介开源了经过中文金融知识指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过中文金融公开数据爬取的金融数据构建指令数据集并在此基础上对LLaMA进行了指令微调提高了 LLaMA 在金融领域的问答效果。基于相同的数据后期还会利用GPT3.5 API构建高质量的数据集另在中文知识图谱-金融上进一步扩充高质量的指令数据集。 BBT-FinCUGE-Applications 地址https://github.com/ssymmetry/BBT-FinCUGE-Applications 简介开源了中文金融领域开源语料库BBT-FinCorpus中文金融领域知识增强型预训练语言模型BBT-FinT5及中文金融领域自然语言处理评测基准CFLEB。 XuanYuan轩辕首个千亿级中文金融对话模型 地址https://github.com/Duxiaoman-DI/XuanYuan 简介轩辕是国内首个开源的千亿级中文对话大模型同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调它不仅可以应对通用领域的问题也可以解答与金融相关的各类问题为用户提供准确、全面的金融信息和建议。 FinGPT 地址https://github.com/AI4Finance-Foundation/FinGPT 简介该项目开源了多个金融大模型包括ChatGLM-6B/ChatGLM2-6BLoRA和LLaMA-7BLoRA的金融大模型收集了包括金融新闻、社交媒体、财报等中英文训练数据。 DISC-FinLLM 地址https://github.com/FudanDISC/DISC-FinLLM 简介该项目由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源项目中开源的资源包括DISC-FinLLM-SFT训练数据样本DISC-FinLLM模型参数基于Baichuan-13B-Chat训练DISC-Fin-Eval-Benchmark等。 Tongyi-Finance 地址https://modelscope.cn/models/TongyiFinance/Tongyi-Finance-14B 简介该模型是针对对金融行业推出的大语言模型基于通义千问基础模型进行行业语料增量学习强化金融领域知识和场景应用能力覆盖金融知识问答、文本分类、信息抽取、文本创作、阅读理解、逻辑推理、多模态、Coding等能力象限。具有以下特点行业语料增量学习使用200B高质量金融行业语料进行增量学习并进行金融行业词表扩展覆盖丰富的数据类型支持更大上下文16k输入和完整的语义表达。行业能力强化自研SFT质量多样性分析工具筛选高质量SFT数据解决大语言模型的alignment问题。行业后链路优化借助multi-agent框架实现知识库增强和工具API调用。 教育 桃李Taoli 地址https://github.com/blcuicall/taoli 简介一个在国际中文教育领域数据上进行了额外训练的模型。项目基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等构建了国际中文教育资源库构造了共计 88000 条的高质量国际中文教育问答数据集并利用收集到的数据对模型进行指令微调让模型习得将知识应用到具体场景中的能力。 EduChat 地址https://github.com/icalk-nlp/EduChat 简介该项目华东师范大学计算机科学与技术学院的EduNLP团队研发主要研究以预训练大模型为基底的教育对话大模型相关技术融合多样化的教育垂直领域数据辅以指令微调、价值观对齐等方法提供教育场景下自动出题、作业批改、情感支持、课程辅导、高考咨询等丰富功能服务于广大老师、学生和家长群体助力实现因材施教、公平公正、富有温度的智能教育。 chatglm-maths 地址https://github.com/yongzhuo/chatglm-maths 简介基于chatglm-6b微调/LORA/PPO/推理的数学题解题大模型, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu部署开源了训练数据集等。 MathGLM 地址https://github.com/THUDM/MathGLM 简介该项目由THUDM研发开源了多个能进行20亿参数可以进行准确多位算术运算的语言模型同时开源了可用于算术运算微调的数据集。 QiaoBan 地址https://github.com/HIT-SCIR-SC/QiaoBan 简介该项目旨在构建一个面向儿童情感陪伴的大模型这个仓库包含用于指令微调的对话数据/data巧板的训练代码训练配置文件使用巧板进行对话的示例代码TODOcheckpoint将发布至huggingface。 科技 天文大语言模型StarGLM 地址https://github.com/Yu-Yang-Li/StarGLM 简介基于ChatGLM训练了天文大语言模型以期缓解大语言模型在部分天文通用知识和前沿变星领域的幻觉现象为接下来可处理天文多模态任务、部署于望远镜阵列的观测Agent——司天大脑数据智能处理打下基础。 TransGPT·致远 地址https://github.com/DUOMO/TransGPT 简介开源交通大模型主要致力于在真实交通行业中发挥实际价值。它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。 Mozi 地址https://github.com/gmftbyGMFTBY/science-llm 简介该项目开源了基于LLaMA和Baichuan的科技论文大模型可以用于科技文献的问答和情感支持。 自媒体 MediaGPT 地址https://github.com/IMOSR/MediaGPT 简介一个针对自媒体领域进行特殊训练的模型首先在大规模自媒体语料上进行连续预训练然后ChatGPT收集了一批关于抖音运营、短视频创作、巨量千川投放、直播运营和直播话术技巧等领域知识问题的分析和回答并利用这些数据对模型进行指令微调开源一系列自媒体领域的指令微调数据和基于LLaMA训练的中文自媒体大模型的参数。 电商 EcomGPT 地址https://github.com/Alibaba-NLP/EcomGPT 简介一个由阿里发布的面向电商领域的语言模型该模型基于BLOOMZ在电商指令微调数据集上微调得到人工评估在12个电商评测数据集上超过ChatGPT。 网络安全 SecGPT 地址https://github.com/Clouditera/secgpt 简介开项目开源了网络安全大模型该模型基于Baichuan-13B采用Lora做预训练和SFT训练此外该项目还开源了相关预训练和指令微调数据集等资源。 2.2 LangChain应用 langchain-ChatGLM 地址https://github.com/imClumsyPanda/langchain-ChatGLM 简介基于本地知识库的问答应用目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。建立了全流程可使用开源模型实现的本地知识库问答应用。现已支持使用 ChatGLM-6B 等大语言模型直接接入或通过 fastchat api 形式接入 Vicuna, Alpaca, LLaMA, Koala, RWKV 等模型。 LangChain-ChatGLM-Webui 地址https://github.com/thomas-yanxin/LangChain-ChatGLM-Webui 简介利用LangChain和ChatGLM-6B系列模型制作的Webui, 提供基于本地知识的大模型应用。目前支持上传 txt、docx、md、pdf等文本格式文件, 提供包括ChatGLM-6B系列、Belle系列等模型文件以及GanymedeNil/text2vec-large-chinese、nghuyong/ernie-3.0-base-zh、nghuyong/ernie-3.0-nano-zh等Embedding模型。 Langchain-ChatGLM-and-TigerBot 地址https://github.com/wordweb/langchain-ChatGLM-and-TigerBot 简介该项目在langchain-ChatGLM的基础上补充了加载TigerBot模型的基于本地知识库的问答应用。 Chinese-LangChain 地址https://github.com/yanqiangmiffy/Chinese-LangChain 简介基于ChatGLM-6blangchain实现本地化知识库检索与智能答案生成包括互联网检索结果接入 Lagent 地址https://github.com/InternLM/lagent 简介Lagent 是一个轻量级、开源的基于大语言模型的智能体agent框架支持用户快速地将一个大语言模型转变为多种类型的智能体。具体实现了多种类型的智能体如经典的 ReActAutoGPT 和 ReWoo 等智能体。框架简单易拓展. 只需要不到20行代码你就能够创造出一个你自己的智能体agent。同时支持了 Python 解释器、API 调用和搜索三类常用典型工具。灵活支持多个大语言模型. 提供了多种大语言模型支持包括 InternLM、Llama-2 等开源模型和 GPT-4/3.5 等基于 API 的闭源模型。 DemoGPT 地址https://github.com/melih-unsal/DemoGPT 简介⚡ DemoGPT 使您只需使用提示即可创建快速演示。 ⚡ ChatDev 地址https://github.com/OpenBMB/ChatDev 简介ChatDev是一家虚拟软件公司通过担任不同角色的各种智能代理进行运营包括首席执行官、首席技术官、程序员、测试员等。 这些代理形成了一个多代理组织结构并因“通过编程彻底改变数字世界”的使命而团结在一起。 ChatDev中的代理通过参加专门的功能研讨会进行协作包括设计、编码、测试和记录等任务。 2.3 其他应用 wenda 地址https://github.com/wenda-LLM/wenda 简介一个LLM调用平台。为小模型外挂知识库查找和设计自动执行动作实现不亚于于大模型的生成能力。 JittorLLMs 地址https://github.com/Jittor/JittorLLMs 简介计图大模型推理库笔记本没有显卡也能跑大模型具有成本低支持广可移植速度快等优势。 LMFlow: 地址https://github.com/OptimalScale/LMFlow 简介LMFlow是香港科技大学LMFlow团队开发的大模型微调工具箱。LMFlow工具箱具有可扩展性强、高效、方便的特性。LMFlow仅使用180K条数据微调即可得到在Huggingface榜单第一名的Robin模型。LMFlow支持用户快速训练个性化模型仅需单张3090和5个小时即可微调70亿参数定制化模型。 fastllm 地址https://github.com/ztxz16/fastllm 简介纯c的全平台llm加速库chatglm-6B级模型单卡可达10000token / s支持moss, chatglm, baichuan模型手机端流畅运行。 WebCPM 地址https://github.com/thunlp/WebCPM 简介一个支持可交互网页搜索的中文大模型。 GPT Academic 地址https://github.com/binary-husky/gpt_academic 简介为GPT/GLM提供图形交互界面特别优化论文阅读润色体验支持并行问询多种LLM模型支持清华chatglm等本地模型。兼容复旦MOSS, llama, rwkv, 盘古等。 ChatALL 地址https://github.com/sunner/ChatALL 简介ChatALL中文名齐叨可以把一条指令同时发给多个 AI可以帮助用户发现最好的回答。 CreativeChatGLM 地址https://github.com/ypwhs/CreativeChatGLM 简介可以使用修订和续写的功能来生成创意内容可以使用“续写”按钮帮 ChatGLM 想一个开头并让它继续生成更多的内容你可以使用“修订”按钮修改最后一句 ChatGLM 的回复。 docker-llama2-chat 地址https://github.com/soulteary/docker-llama2-chat 简介开源了一个只需要三步就可以上手LLaMA2的快速部署方案。 ChatGLM2-Voice-Cloning 地址https://github.com/KevinWang676/ChatGLM2-Voice-Cloning 简介实现了一个可以和喜欢的角色沉浸式对话的应用主要采用ChatGLM2声音克隆视频对话的技术。 Flappy 地址https://github.com/pleisto/flappy 简介一个产品级面向所有程序员的LLM SDK 3. 数据集 预训练数据集 MNBVC 地址https://github.com/esbatmop/MNBVC 数据集说明超大规模中文语料集不但包括主流文化也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集且在持续更新中。 WuDaoCorporaText 地址https://data.baai.ac.cn/details/WuDaoCorporaText 数据集说明WuDaoCorpora是北京智源人工智能研究院智源研究院构建的大规模、高质量数据集用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联为大模型训练提供坚实的数据支撑。 CLUECorpus2020 地址https://github.com/CLUEbenchmark/CLUECorpus2020 数据集说明通过对Common Crawl的中文部分进行语料清洗最终得到100GB的高质量中文预训练语料可直接用于预训练、语言模型或语言生成任务以及专用于简体中文NLP任务的小词表。 WanJuan-1.0 地址https://opendatalab.org.cn/WanJuan1.0 数据集说明书生·万卷1.0为书生·万卷多模态语料库的首个开源版本包含文本数据集、图文数据集、视频数据集三部分数据总量超过2TB。 目前书生·万卷1.0已被应用于书生·多模态、书生·浦语的训练。通过对高质量语料的“消化”书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出的优异性能。 SFT数据集 RefGPT基于RefGPT生成大量真实和定制的对话数据集 地址https://github.com/DA-southampton/RedGPT 数据集说明包括RefGPT-Fact和RefGPT-Code两部分其中RefGPT-Fact给出了5万中文的关于事实性知识的多轮对话RefGPT-Code给出了3.9万中文编程相关的多轮对话数据。 COIG 地址https://huggingface.co/datasets/BAAI/COIG 数据集说明维护了一套无害、有用且多样化的中文指令语料库包括一个人工验证翻译的通用指令语料库、一个人工标注的考试指令语料库、一个人类价值对齐指令语料库、一个多轮反事实修正聊天语料库和一个 leetcode 指令语料库。 generated_chat_0.4M 地址https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M 数据集说明包含约40万条由BELLE项目生成的个性化角色对话数据包含角色介绍。但此数据集是由ChatGPT产生的未经过严格校验题目或解题过程可能包含错误。 alpaca_chinese_dataset 地址https://github.com/hikariming/alpaca_chinese_dataset 数据集说明根据斯坦福开源的alpaca数据集进行中文翻译并再制造一些对话数据 Alpaca-CoT 地址https://github.com/PhoebusSi/Alpaca-CoT 数据集说明统一了丰富的IFT数据如CoT数据目前仍不断扩充、多种训练效率方法如lorap-tuning以及多种LLMs三个层面上的接口打造方便研究人员上手的LLM-IFT研究平台。 pCLUE 地址https://github.com/CLUEbenchmark/pCLUE 数据集说明基于提示的大规模预训练数据集用于多任务学习和零样本学习。包括120万训练数据73个Prompt9个任务。 firefly-train-1.1M 地址https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M 数据集说明23个常见的中文数据集对于每个任务由人工书写若干种指令模板保证数据的高质量与丰富度数据量为115万 BELLE-data-1.5M 地址https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M 数据集说明通过self-instruct生成使用了中文种子任务以及openai的text-davinci-003接口,涉及175个种子任务 Chinese Scientific Literature Dataset 地址https://github.com/ydli-ai/csl 数据集说明中文科学文献数据集CSL包含 396,209 篇中文核心期刊论文元信息 标题、摘要、关键词、学科、门类以及简单的prompt Chinese medical dialogue data 地址https://github.com/Toyhom/Chinese-medical-dialogue-data 数据集说明中文医疗对话数据集包括Andriatria_男科 94596个问答对 IM_内科 220606个问答对 OAGD_妇产科 183751个问答对 Oncology_肿瘤科 75553个问答对 Pediatric_儿科 101602个问答对 Surgical_外科 115991个问答对 总计 792099个问答对。 Huatuo-26M 地址https://github.com/FreedomIntelligence/Huatuo-26M 数据集说明Huatuo-26M 是一个中文医疗问答数据集此数据集包含了超过2600万个高质量的医疗问答对涵盖了各种疾病、症状、治疗方式、药品信息等多个方面。Huatuo-26M 是研究人员、开发者和企业为了提高医疗领域的人工智能应用如聊天机器人、智能诊断系统等需要的重要资源。 Alpaca-GPT-4: 地址https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM 数据集说明Alpaca-GPT-4 是一个使用 self-instruct 技术基于 175 条中文种子任务和 GPT-4 接口生成的 50K 的指令微调数据集。 InstructionWild 地址https://github.com/XueFuzhao/InstructionWild 数据集说明InstructionWild 是一个从网络上收集自然指令并过滤之后使用自然指令结合 ChatGPT 接口生成指令微调数据集的项目。主要的指令来源Twitter、CookUp.AI、Github 和 Discard。 ShareChat 地址https://paratranz.cn/projects/6725 数据集说明一个倡议大家一起翻译高质量 ShareGPT 数据的项目。 项目介绍清洗/构造/翻译中文的ChatGPT数据推进国内AI的发展人人可炼优质中文 Chat 模型。本数据集为ChatGPT约九万个对话数据由ShareGPT API获得英文68000中文11000条其他各国语言。项目所有数据最终将以 CC0 协议并入 Multilingual Share GPT 语料库。 Guanaco 地址https://huggingface.co/datasets/JosephusCheung/GuanacoDataset 数据集说明一个使用 Self-Instruct 的主要包含中日英德的多语言指令微调数据集。 chatgpt-corpus 地址https://github.com/PlexPt/chatgpt-corpus 数据集说明开源了由 ChatGPT3.5 生成的300万自问自答数据包括多个领域可用于用于训练大模型。 SmileConv 地址https://github.com/qiuhuachuan/smile 数据集说明数据集通过ChatGPT改写真实的心理互助 QA为多轮的心理健康支持多轮对话single-turn to multi-turn inclusive language expansion via ChatGPT该数据集含有56k个多轮对话其对话主题、词汇和篇章语义更加丰富多样更加符合在长程多轮对话的应用场景。 偏好数据集 CValues 地址https://github.com/X-PLUG/CValues 数据集说明该项目开源了数据规模为145k的价值对齐数据集该数据集对于每个prompt包括了拒绝正向建议 (safe and reponsibility) 拒绝为主(safe) 风险回复(unsafe)三种类型可用于增强SFT模型的安全性或用于训练reward模型。 GPT-4-LLM 地址https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM 数据集说明该项目开源了由GPT4生成的多种数据集包括通过GPT4生成的中英PPO数据可以用于奖励模型的训练。 zhihu_rlhf_3k 地址https://huggingface.co/datasets/liyucheng/zhihu_rlhf_3k 数据集说明该项目开源了3k条基于知乎问答的人类偏好数据集每个实际的知乎问题下给出了赞同数据较高chosen和较低rejected的回答可以用于奖励模型的训练。 hh_rlhf_cn 地址https://huggingface.co/datasets/dikw/hh_rlhf_cn 数据集说明基于Anthropic论文Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的helpful 和harmless数据使用翻译工具进行了翻译。 chatbot_arena_conversations 地址https://huggingface.co/datasets/lmsys/chatbot_arena_conversations 数据集说明该偏好数据集包含20个LLM的输出其中包括GPT-4和Claude-v1等更强的LLM它还包含这些最先进模型的许多失败案例。包含来自超过13K个用户的无限制对话。 UltraFeedback 地址https://github.com/OpenBMB/UltraFeedback 数据集说明该数据集是一个大规模、细粒度、多样化的偏好数据集用于训练强大的奖励模型和批评者模型。该工作从各种资源包括UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA和FLAN数据集统计数据请参见此处中收集了约64k条提示。然后使用这些提示来查询多个LLM模型列表请参见此处并为每个提示生成4个不同的回复从而得到总共256k个样本。 4. LLM训练微调框架 DeepSpeed Chat 地址https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat 简介该项目提供了一键式RLHF训练框架只需一个脚本即可实现多个训练步骤包括SFT奖励模型微调和基于人类反馈的强化学习RLHF此外还实现了DeepSpeed HE统一的高效混合引擎达到训练和推理引擎之间的过渡是无缝的。 LLaMA Efficient Tuning 地址https://github.com/hiyouga/LLaMA-Efficient-Tuning 简介该项目提供了易于使用的基于PEFT的LLaMA微调框架实现了包括全参数LoRAQLoRA等的预训练指令微调和RLHF并支持LLaMA, BLOOM, Falcon, Baichuan, InternLM等底座模型。 ChatGLM Efficient Tuning 地址https://github.com/hiyouga/ChatGLM-Efficient-Tuning 简介该项目提供了基于PEFT的高效ChatGLM微调支持LoRAP-Tuning V2全参数微调等模式并适配了多个微调数据集。 bert4torch 地址https://github.com/Tongjilibo/bert4torch 简介该项目提供了一个大模型的训练和部署框架包含了目前主要的开源大模型llama系列chatglmbloom系列等等同时还给出了预训练和微调的示例。 5. LLM推理部署框架 vLLM 地址https://github.com/vllm-project/vllm 简介适用于大批量Prompt输入并对推理速度要求高的场景。吞吐量比HuggingFace Transformers高14x-24倍比HuggingFace Text Generation InferenceTGI高2.2x-2.5倍实现了Continuous batching和PagedAttention等技巧。但该框架对适配器LoRA、QLoRA等的支持不友好且缺少权重量化。 DeepSpeed-MII 地址https://github.com/microsoft/DeepSpeed-MII 简介支持多个机器之间的负载均衡支持不同的模型库如Hugging Face、FairSeq等支持模型量化推理。 text-generation-inference 地址https://github.com/huggingface/text-generation-inference 简介用于文本生成推断的Rust、Python和gRPC部署框架可以监控服务器负载实现了flash attention和Paged attention所有的依赖项都安装在Docker中支持HuggingFace模型但该框架对适配器LoRA、QLoRA等的支持不友好。 CTranslate2 地址https://github.com/OpenNMT/CTranslate2 简介基于C和python的推理框架支持在CPU和GPU上并行和异步执行且支持prompt缓存及量化。但缺少对适配器LoRA、QLoRA等的支持。 OpenLLM 地址https://github.com/bentoml/OpenLLM 简介支持将要部署的LLM连接多个适配器可以实现只使用一个底座模型来执行多个特定的任务支持量化推理和LangChain集成。但对批处理和分布式推理的支持相对不友好。 MLC LLM 地址https://github.com/mlc-ai/mlc-llm 简介支持不同平台上的不同设备部署推理包括移动设备iOS或Android设备等的高效推理压缩等。但对大规模批量调用相对不友好。 LightLLM 地址https://github.com/ModelTC/lightllm 简介一个基于 Python 的 LLM大型语言模型推理和服务框架该框架采用轻量级设计、易于扩展和高速性能LightLLM引入了一种更细粒度的kv cache管理算法 TokenAttention并设计了一个与TokenAttention高效配合的Efficient Router调度实现。在TokenAttention 和 Efficient Router的相互作用下LightLLM在大部分场景下都能获得比vLLM 和 Text Generation Inference 得到更高的吞吐部分场景下可以得到4倍左右的性能提升。 AirLLM 地址https://github.com/lyogavin/Anima/tree/main/air_llm 简介该项目开源了一个优化inference内存的推理框架可实现4GB单卡GPU可以运行70B大语言模型推理。不需要任何损失模型性能的量化和蒸馏剪枝等模型压缩该项目采用了分层推理的技术以在较低的内存下实现大模型推理。 6. LLM评测 FlagEval 天秤大模型评测体系及开放平台 地址https://github.com/FlagOpen/FlagEval 简介旨在建立科学、公正、开放的评测基准、方法、工具集协助研究人员全方位评估基础模型及训练算法的性能同时探索利用AI方法实现对主观评测的辅助大幅提升评测的效率和客观性。FlagEval 天秤创新构建了“能力-任务-指标”三维评测框架细粒度刻画基础模型的认知能力边界可视化呈现评测结果。 C-Eval: 构造中文大模型的知识评估基准 地址https://github.com/SJTU-LIT/ceval 简介构造了一个覆盖人文社科理工其他专业四个大方向52 个学科微积分线代 …从中学到大学研究生以及职业考试一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文LLM的评测结果。 OpenCompass: 地址https://github.com/InternLM/opencompass 简介由上海AI实验室发布的面向大模型评测的一站式平台。主要特点包括开源可复现全面的能力维度五大维度设计提供 50 个数据集约 30 万题的的模型评测方案丰富的模型支持已支持 20 HuggingFace 及 API 模型分布式高效评测一行命令实现任务分割和分布式评测数小时即可完成千亿模型全量评测多样化评测范式支持零样本、小样本及思维链评测结合标准型或对话型提示词模板灵活化拓展。 SuperCLUElyb: SuperCLUE琅琊榜 地址https://github.com/CLUEbenchmark/SuperCLUElyb 简介中文通用大模型匿名对战评价基准这是一个中文通用大模型对战评价基准它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。 GAOKAO-Bench: 地址https://github.com/OpenLMLab/GAOKAO-Bench 简介GAOKAO-bench是一个以中国高考题目为数据集测评大模型语言理解能力、逻辑推理能力的测评框架收集了2010-2022年全国高考卷的题目其中包括1781道客观题和1030道主观题构建起GAOKAO-bench的数据部分。 AGIEval: 地址https://github.com/microsoft/AGIEval 简介由微软发布的一项新型基准测试这项基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试包括普通大学入学考试中国高考和美国 SAT 考试、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。 Xiezhi: 地址https://github.com/mikegu721/xiezhibenchmark 简介由复旦大学发布的一个综合的、多学科的、能够自动更新的领域知识评估Benchmark包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个学科门类24万道学科题目516个具体学科249587道题目。 Open LLM Leaderboard 地址https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard 简介由HuggingFace组织的一个LLM评测榜单目前已评估了较多主流的开源LLM模型。评估主要包括AI2 Reasoning Challenge, HellaSwag, MMLU, TruthfulQA四个数据集上的表现主要以英文为主。 CMMLU 地址https://github.com/haonan-li/CMMLU 简介CMMLU是一个综合性的中文评估基准专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括需要计算和推理的自然科学需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外CMMLU中的许多任务具有中国特定的答案可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。 MMCU 地址https://github.com/Felixgithub2017/MMCU 简介该项目提供对中文大模型语义理解能力的测试评测方式、评测数据集、评测记录都公开确保可以复现。该项目旨在帮助各位研究者们评测自己的模型性能并验证训练策略是否有效。 chinese-llm-benchmark 地址https://github.com/jeinlee1991/chinese-llm-benchmark 简介中文大模型能力评测榜单覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b 等开源大模型多维度能力评测。不仅提供能力评分排行榜也提供所有模型的原始输出结果 Safety-Prompts 地址https://github.com/thu-coai/Safety-Prompts 简介由清华大学提出的一个关于LLM安全评测benchmark包括安全评测平台等用于评测和提升大模型的安全性囊括了多种典型的安全场景和指令攻击的prompt。 PromptCBLUE: 中文医疗场景的LLM评测基准 地址https://github.com/michael-wzhu/PromptCBLUE 简介为推动LLM在医疗领域的发展和落地由华东师范大学联合阿里巴巴天池平台复旦大学附属华山医院东北大学哈尔滨工业大学深圳鹏城实验室与同济大学推出PromptCBLUE评测基准, 将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务,形成首个中文医疗场景的LLM评测基准。 7. LLM教程 LLM基础知识 HuggingLLM 地址https://github.com/datawhalechina/hugging-llm 简介介绍 ChatGPT 原理、使用和应用降低使用门槛让更多感兴趣的非NLP或算法专业人士能够无障碍使用LLM创造价值。 LLMsPracticalGuide 地址https://github.com/Mooler0410/LLMsPracticalGuide 简介该项目提供了关于LLM的一系列指南与资源精选列表包括LLM发展历程、原理、示例、论文等。 提示工程教程 面向开发者的 LLM 入门课程 地址https://github.com/datawhalechina/prompt-engineering-for-developers 简介一个中文版的大模型入门教程围绕吴恩达老师的大模型系列课程展开主要包括吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版吴恩达《Building Systems with the ChatGPT API》课程中文版吴恩达《LangChain for LLM Application Development》课程中文版等。 提示工程指南: 地址https://www.promptingguide.ai/zh 简介该项目基于对大语言模型的浓厚兴趣编写了这份全新的提示工程指南介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。 awesome-chatgpt-prompts-zh 地址https://github.com/PlexPt/awesome-chatgpt-prompts-zh 简介该项目是ChatGPT中文调教指南。包括各种场景使用指南让chatgpt知道怎么听你的话对指令构造可以提供一些参考。 LLM应用教程 LangChain ️ 中文网跟着LangChain一起学LLM/GPT开发 地址https://www.langchain.asia 简介Langchain的中文文档由是两个在LLM创业者维护希望帮助到从刚进入AI应用开发的朋友们。 OpenAI Cookbook 地址https://github.com/openai/openai-cookbook 简介该项目是OpenAI提供的使用OpenAI API的示例和指导其中包括如何构建一个问答机器人等教程能够为从业人员开发类似应用时带来指导。 构筑大语言模型应用应用开发与架构设计 地址https://github.com/phodal/aigc 简介该项目开源了一本关于 LLM 在真实世界应用的开源电子书介绍了大语言模型的基础知识和应用以及如何构建自己的模型。其中包括Prompt的编写、开发和管理探索最好的大语言模型能带来什么以及LLM应用开发的模式和架构设计。 LLM实战教程 LLMs九层妖塔 地址https://github.com/km1994/LLMsNineStoryDemonTower 简介ChatGLM、Chinese-LLaMA-Alpaca、MiniGPT-4、FastChat、LLaMA、gpt4all等实战与经验。 llm-action 地址https://github.com/liguodongiot/llm-action 简介该项目提供了一系列LLM实战的教程和代码包括LLM的训练、推理、微调以及LLM生态相关的一些技术文章等。 llm大模型训练专栏 地址https://www.zhihu.com/column/c_1252604770952642560 简介该项目提供了一系列LLM前言理论和实战实验包括论文解读与洞察分析。 8. 相关仓库 FindTheChatGPTer 地址https://github.com/chenking2020/FindTheChatGPTer 简介ChatGPT爆火开启了通往AGI的关键一步本项目旨在汇总那些ChatGPT的开源平替们包括文本大模型、多模态大模型等为大家提供一些便利。 LLM_reviewer 地址https://github.com/SpartanBin/LLM_reviewer 简介总结归纳近期井喷式发展的大语言模型以开源、规模较小、可私有化部署、训练成本较低的‘小羊驼类’模型为主。 Awesome-AITools 地址https://github.com/ikaijua/Awesome-AITools 简介收藏整理了AI相关的实用工具、评测和相关文章。 open source ChatGPT and beyond 地址https://github.com/SunLemuria/open_source_chatgpt_list 简介This repo aims at recording open source ChatGPT, and providing an overview of how to get involved, including: base models, technologies, data, domain models, training pipelines, speed up techniques, multi-language, multi-modal, and more to go. Awesome Totally Open Chatgpt 地址https://github.com/nichtdax/awesome-totally-open-chatgpt 简介This repo record a list of totally open alternatives to ChatGPT. Awesome-LLM 地址https://github.com/Hannibal046/Awesome-LLM 简介This repo is a curated list of papers about large language models, especially relating to ChatGPT. It also contains frameworks for LLM training, tools to deploy LLM, courses and tutorials about LLM and all publicly available LLM checkpoints and APIs. DecryptPrompt 地址https://github.com/DSXiangLi/DecryptPrompt 简介总结了PromptLLM论文开源数据模型AIGC应用。 Awesome Pretrained Chinese NLP Models 地址https://github.com/lonePatient/awesome-pretrained-chinese-nlp-models 简介收集了目前网上公开的一些高质量中文预训练模型。 ChatPiXiu 地址https://github.com/catqaq/ChatPiXiu ! 简介该项目旨在打造全面且实用的ChatGPT模型库和文档库。当前V1版本梳理了包括相关资料调研通用最小实现领域/任务适配等。 LLM-Zoo 地址https://github.com/DAMO-NLP-SG/LLM-Zoo 简介该项目收集了包括开源和闭源的LLM模型具体包括了发布时间模型大小支持的语种领域训练数据及相应论文/仓库等。 LLMs-In-China 地址https://github.com/wgwang/LLMs-In-China 简介该项目旨在记录中国大模型发展情况同时持续深度分析开源开放的大模型以及数据集的情况。 BMList 地址https://github.com/OpenBMB/BMList 简介该项目收集了参数量超过10亿的大模型并梳理了各个大模型的适用模态、发布的机构、适合的语种参数量和开源地址、API等信息。 awesome-free-chatgpt 地址https://github.com/LiLittleCat/awesome-free-chatgpt 简介该项目收集了免费的 ChatGPT 镜像网站列表ChatGPT的替代方案以及构建自己的ChatGPT的教程工具等。 Awesome-Domain-LLM 地址https://github.com/luban-agi/Awesome-Domain-LLM 简介该项目收集和梳理垂直领域的开源模型、数据集及评测基准。
http://www.huolong8.cn/news/171845/

相关文章:

  • 商城网站建设fwshop下载百度安装
  • 商标查询怎么查seo资讯
  • 佛山网站建设骏域企业网站建设绪论
  • 毕设做桌面软件 网站wordpress下载主题后怎么用
  • 上海网站制作建设怎么样系统开发项目管理
  • 外贸网站的推广技巧有哪些太原百度快速排名
  • 湖北手机版建站系统信息wordpress二维码制作
  • 网站制作的常见布局wordpress 小工具 文本
  • wordpress制作的网站之江建设工程质量安全监督网站
  • 网站建设分析方法php网站模板开源
  • 网站做后台教程百度网盘资源搜索引擎
  • 站长 网站对比设计官网有什么好处
  • 电子商务网站定制wordpress小工具找不到
  • 梅兰商贸网站开发设计简介网站头部固定
  • cad二次开发网站中国建设工程造价管理协会官网
  • 自己怎么做 优惠券网站哪些平台可以发布软文
  • 品牌设计公司网站源码wordpress 占有率
  • 呼叫中心网站建设网站建设 投资合作
  • 品牌策划与设计机构嘉兴seo外包
  • wordpress插件访客襄阳网站seo技巧
  • 国内优秀网页设计网站小程序免费制作平台有吗
  • 网站开发文献翻译企业网站宣传视频外链
  • 小县城做婚礼网站小说网站防盗做的好处
  • 做模式网站前端菜鸟教程
  • 徐州英文网站优化工作总结模板
  • 雅安建设局网站网站设计大小
  • 电子商城网站的设计与实现郑州seo顾问阿亮
  • 专用车网站建设哪家专业学校门户网站模板
  • 网站建设费按多少年摊销新闻稿发布
  • 太原网站建设丿薇google安卓版下载