公司网站怎么管理,制作网站公司 可以要求后续修改吗,计算机学什么专业比较好,php7安装 WordPress写在前面
之前对HyperLedger的阅读没有完全结束#xff0c;和很多朋友一样#xff0c;同时也因为工作的需要#xff0c;最近开始转向LLM方向。 国内在大模型方面生态做的最好的#xff0c;目前还是百度的PaddlePaddle#xff0c;所以自己也就先从PP开始看起了。 众所周知…写在前面
之前对HyperLedger的阅读没有完全结束和很多朋友一样同时也因为工作的需要最近开始转向LLM方向。 国内在大模型方面生态做的最好的目前还是百度的PaddlePaddle所以自己也就先从PP开始看起了。 众所周知目前在LLM领域比较成熟的场景还是文字方面包括文字的阅读和生成即对输入内容的处理和根据提示输出文字两种大家看到的也都很多了。但是我的工作内容需要对图片特别是各种报告中的图进行解读和处理目前还没有很好的案例于是自己就想基于PP做一些尝试所以开始看PaddleMIX这个项目了。如果朋友们在这个领域有好的想法也请在评论里不吝赐教。
简介
PaddleMix的前身是ppdiffusers最开始只是专注在扩散模型。众所周知GAI早期重视Prompt到2023年中开始重视多模态和Agent后ppdiffusers从PaddleNLP独立出来专注于多模态。 https://github.com/PaddlePaddle/PaddleMIX
官方的介绍是PaddleMIX是基于飞桨的跨模态大模型开发套件聚合图像、文本、视频等多种模态覆盖视觉语言预训练文生图文生视频等丰富的跨模态任务。
2023.7.31 发布 PaddleMIX v0.1这个版本是从PPDiffusers升级后发布的第一个版本。 2023.10.7 发布 PaddleMIX v1.0算是第一个正式版。
特性
这里也直接摘取官方的介绍了
丰富的多模态功能: 覆盖图文预训练文生图跨模态视觉任务实现图像编辑、图像描述、数据标注等多样功能简洁的开发体验: 模型统一开发接口高效实现自定义模型开发和功能实现高效的训推流程: 全量模型打通训练推理一站式开发流程BLIP-2Stable Diffusion等重点模型训推性能业界领先超大规模训练支持: 可训练千亿规模图文预训练模型百亿规模文生图底座模型
模型库
包括两大类多模态预训练库和扩散类模型简单讲就是一个是用于训练的一个是用于应用的。
多模态预训练库包括
图文预训练 EVA-CLIPCoCaCLIPBLIP-2miniGPT-4VIsualGLM 开放世界视觉模型 Grounding DINOSAM 更多模态预训练模型 ImageBind
扩散类模型包括
文生图 Stable DiffusionControlNetLDMUnidiffuser 文生视频 LVDM 音频生成 AudioLDM
代码结构 applications 应用示例基于paddlevlp、ppdiffusers和paddlenlp。提示一下虽然PaddleMix项目已经建立了独立的repo但是后续的操作大多需要提前安装PaddlePaddle和PaddleNLP参考链接https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/get_started/installation.rst 这里包括了开放世界检测分割Openset-Det-Sam自动标注AutoLabel检测框引导的图像编辑Det-Guided-Inpainting文图生成Text-to-Image Generation文本引导的图像放大Text-Guided Image Upscaling文本引导的图像编辑Text-Guided Image Inpainting文本引导的图像变换Image-to-Image Text-Guided Generation文本条件的视频生成Text-to-Video Generation音频生成图像Audio-to-Image Generation音频描述Audio-to-Caption Generation音频对话Audio-to-Chat Generation音乐生成Music Generation这么几个应用。 前边三个都是比较传统在有大模型之前已经有的可以基于传统机器学习能力构建的应用。后边的才是文字和音视频组合称得上是真正的多模态的应用。 deploy 导出和部署训练后的模型 docs/demo 就俩图片没有文档 paddlemix 项目的核心目录主要包括如下几个目录 1).appflow appflow是PaddleMIX应用环节的主目录。这个模块的关键词是flow是用于解决具体场景打包的应用流程算是一个轻量级的sdk吧。比如text2image_generation定义了StableDiffusionTask只需要将任务所需的参数封装到AppTask中作为入参给到这个Task后边就启动这个任务就行了至于构建模型_construct_model预处理_preprocess以及运行模型_run_model都不需要开发者关心了。和早年工作流中的执行引擎是很类似的。 2).datasets 数据集提供了数据集处理的工具不是实际的数据集。 3).examples 代码样例包含了visualglmgroundingdion等样例。每个样例基本都可以直接在git clone安装依赖后通过run_predict.py执行。 4).models 模型处理工具类针对用到的不同模型有各自的训练处理工具。 5).processors 数据预处理工具类包括tokenizer.py这样的核心工具。应该是主要用于flow里边preprocess环节。 6).trainer 模型训练工具类用来做调优和预/训练等。 ppdiffusers 扩散模型的核心目录也是整个PaddleMix的前身。目前在PaddleMix中是相对完整和独立的一套多模态工具集虽然整合到了paddlemix中但是还是可以单独使用的也许是为了保持向后兼容吧。它和整个PaddleMix的发布节奏也相对独立目前是在2023.9.27日发布了0.19.3版本。 ppdiffusers目录的结构和上层paddlemix的结构类似也包含了类似appflow的scheduler训练工具models,部署工具deploy等 scripts 脚本.主要包含了一个扩散模型转换的脚本用于其他扩散模型转换到paddle的模型还有一个是cocoeval用于基于coco验证集评估模型。 tests 测试用例主要包括了appflow和models两个测试集。
另外在测试中遇到的几个基础问题简单给大家提个醒。 1.如果测试环境使用虚机要开启VT嵌套否则会因为不支持AVX指令集而导致会提示illegal instruction。或者使用windows的WSL。 2.PPMix项目存在国内大多项目存在的问题文档并不够完善。PaddleMix项目目前是独立的在安装中提到PaddlePaddle和PaddleNLP不多。如果测试中出现缺少各种包的情况时一定要去PaddlePaddle项目和PaddleNLP项目里找把相关的前置依赖都安装好一般就没什么问题了。 3.接2安装文档中很多pyhon依赖都指向了清华的镜像个人建议使用百度官方的https://mirror.baidu.com/pypi/simple镜像目前没有发现版本等问题速度也很快。不知道为什么百度官方的文档不使用自己的镜像很是诡异难道是复制的ChatGLM的文档。 4.如果有可能可以使用百度的aistudio的juypter环境来做测试会比自己搭建要省事不少。