当前位置: 首页 > news >正文

邯郸网站设计开发公司微信公众号创建平台

邯郸网站设计开发公司,微信公众号创建平台,低价网站建设扬州,网站域名注册流程在上一篇文章中#xff0c;我们已经科普了什么是自然语言处理#xff08;NLP#xff09;、常见用例及其与向量数据库的结合。今天#xff0c;依然是「X」Embedding in NLP 系列专题#xff0c;本文为初阶第二篇#xff0c;我们将深入介绍在 2023 年爆火的大语言模型 NLP … 在上一篇文章中我们已经科普了什么是自然语言处理NLP、常见用例及其与向量数据库的结合。今天依然是「X」Embedding in NLP 系列专题本文为初阶第二篇我们将深入介绍在 2023 年爆火的大语言模型 NLP 模型包括 BERT、XLNet 等基础模型和 GPT、PaLM 等。 01.火爆 2023 年的 10 大大语言模型 大语言模型LLM是一种机器学习模型可以执行各种 NLP 任务包括文本翻译、回答问题、根据知识库分类和生成词汇等。大语言模型中的“大”体现在其架构使用的参数数量上常见的 LLM 都包含数十亿个参数。以下是在 2023 年爆火且备受关注的 LLM。 OpenAI 推出的 GPT 系列 *GPT全称 Generative pre-trained transformers即生成式预训练 Transformer 模型 GPT-3 于2021年发布包含 1750 亿个参数。 能够完成翻译、问答、写作论文甚至生成代码等任务。 从模型架构而言GPT-3 是只带有解码器decoder的 transformer 模型。 是最后一个由 OpenAI 公开参数数量的 GPT 模型。 自 2022 年 9 月起由微软独家使用。 GPT-3.5 2022 年推出的升级版 GPT 模型包含参数更少。 ChatGPT 训练所用的模型是基于 GPT-3.5 模型微调而来的。GPT-3.5 一经推出即迅速走红短短五天内吸引 100 万用户用户总数在 2 个月内达到 1 亿。 GPT-3.5 模型基于截至 2021 年 9 月的数据进行训练比之前版本的模型更具有时效性。 必应Bing搜索引擎中最初集成了 GPT-3.5但目前使用的是 GPT-4。 GPT-4 GPT 系列中的最新版本于 2023 年发布。 GPT-4 是多模态模型支持图像和文本类型的输入。 在微软 Azure AI 的人工智能超级计算机上训练比以往任何模型都更具创造力和协作性。 Google 推出的 PaLM 2 于 2023 年推出展现 Google 在机器学习和 Responsible AI 领域积累的成果。 相比 PaLMPaLM 2 基于并行多语言文本和更大的语料库进行预训练。 在高级推理、翻译和代码生成方面表现出色。 Meta 和 Microsoft 推出的 LLama2 于 2023 年发布提供三种参数规格70 亿、130 亿和 700 亿的基础模型。 LLama 2 Chat 包括基础模型和针对对话功能微调的模型。 功能丰富性能强大专为查询和自然语言理解等任务设计。 Meta 专注于打造教育型应用产品因此 LLaMA-2 是适用于 EdTech 平台理想的 AI 助手。 Anthropic 推出的 Claude 2 于 2023 年推出擅长复杂的推理任务。 聚焦于 Constitutional AI引导 AI 根据一些原则或规则进行自我完善和监督避免产生有害或不友善的输出。 Claude 2 是一个友好的助手能够完成用户发出的各种自然语言指令。 xAI 推出的 Grok-1 埃隆·马斯克的公司 xAI 于 2023 年宣布推出 Grok-1用于巧妙回答几乎所有问题。 灵感来源于《银河系漫游指南》。 通过 平台实时获取真实世界中的知识。 技术创新研究所Technology Innovation Institute推出的 Falcon 于 2023 年开源的模型。 包含 1800 亿参数参数数量超过 Hugging Face Open LLM 排行榜上的 Llama。 基于高质量数据集训练数据集中包含文本和代码涵盖各种语言和方言。 Cohere 推出的 Cohere 2022 年由加拿大初创公司 Cohere 推出的开源多语言模型。 基于多样的数据集训练能够理解超过 100 种语言的文本。 Oracle 和 Salesforce 产品中已接入 Cohere主要用于语言生成、文本内容概括和情感分析等任务。 02.10 大基础 NLP 模型 BERT基于 Transformer 的双向编码器表示技术 BERT 最初于 2018 年由 Jacob Devlin 在其论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》中首次提出。 BERT 模型的主要突破是它在训练过程中查看文本时以双向方式扫描文本不是从左到右也不是从左到左和从右到左的组合。 BERT 模型有两种配置——BERTbase和 BERTlarge区别在于可配置参数数量。BERTbase包含 1.1 亿参数 BERTlarge包含 3.45 亿参数。 XLNet XLNet 于 2019 年在论文《XLNet: Generalized Autoregressive Pretraining for Language Understanding》中发布。 XLNet使用排列语言建模(Permutation Language Modeling) 来融合自回归(autoregressive, AR)和去噪自编码(autoencoding, AE) 模型的优点。 传统的模型基于前一个词的上下文预测句子中的词。但与之不同的是XLNet 的排列语言建模考虑了词之间的相互依赖关系。 XLNet 性能比 BERT 提高了 2-15%。 RoBERTa强力优化的 BERT 方法 RoBERTa 于 2019 年在论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》中提出。 RoBERTa 改进了 BERT 的架构和训练流程。具体而言RoBERTa 去掉下一句预测NSP任务采用了更大的训练数据集并使用了动态掩码替换静态掩码。 RoBERTa 性能比 BERT 提高了 2-20%。 ALBERT轻量级的 BERT ALBERT 模型于 2019 年在论文《ALBERT: A Lite BERT for Self-supervised Learning of Language Representations》中提出。 ALBERT 基于 BERT 模型改进其主要亮点是在保持性能的同时显著减少了参数数量。 AlBERT 实现了跨层参数共享。也就是说12 层 Encoder 共享一套参数。而 BERT 中每层 Encoder 都有一组参数。 StructBERT StructBERT 于 2019 年在论文《StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding》中提出。 StructBERT 基于 BERT将语言结构信息引入到预训练任务中。 StructBERT 还引入了单词结构目标WSO它有助于模型学习单词的排序。 T5文本到文本的 Transformer T5 在 2019 年的论文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》中被提出。T5 全称为“Text-To-Text Transfer Transformer”。 T5 作者还发布了一个数据集取名为“Colossal Clean Crawled Corpus 超大型干净爬取数据”简称 C4。 T5 将所有 NLP 任务都转化成 Text-to-Text 文本到文本任务。 T5 模型提供 5 种不同的参数配置T5-small6000 万参数、T5-base2.2 亿参数、T5-large7.7 亿参数、T5-3B30 亿参数、T5-11B110 亿参数。 SentenceTransformers SentenceTransformers 最初于 2019 年在发论文《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》中发表。 SentenceTransformers 是一个可以用于句子、文本和图像 embedding 的 Python 库 SentenceTransformers 可以计算超过 100 种语言的句子或文本 embedding。 SentenceTransformers 框架基于 PyTorch 和 Transformers提供许多针对各种任务调优的预训练模型。 ERNIE通过知识集成的增强表示 ERNIE 由百度开发于 2019 年在论文《ERNIE: Enhanced Language Representation with Informative Entities》中首次被介绍并由百度的研究人员在计算语言学协会ACL会议上展示。 ERNIE 将现实知识整合到预训练的语言模型中从而理解人类语言的细微差别并提高各种 NLP 任务的表现。 ERNIE 提供不同版本。而且ERNIE 随时间推移不断更新和完善从而在广泛的 NLP 任务上取得更好的性能。 CTRL可控文本生成 CTRL 由 Salesforce Research 在 2019 年 NeurIPS 论文《CTRL: A Conditional Transformer Language Model》中提出。 CTRL 允许用户控制生成文本的风格和内容。 CTRL 模型能够生成多样且可控的文本用户对语言生成过程更可控。 ELECTRA ELECTRA 在 2020 年的论文《ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators》中提出。 ELECTRA 提出了新的预训练任务和框架把生成式的 Masked language model(MLM) 预训练任务改成了判别式的 Replaced token detection(RTD) 任务判断当前token是否被语言模型替换过。 ELECTRA体积越小相比于BERT就提升得越明显。 本文由 mdnice 多平台发布
http://www.huolong8.cn/news/325286/

相关文章:

  • 企业微信网站怎么建设旅行社网站建设方案书
  • 深圳市推广网站的公司制作手机端网站开发
  • 报名网站建设定做成都百度seo优化公司
  • 此网站域名三天更换导入wordpress 演示数据
  • 江苏工程建设交易信息网站哪个网站做老款二手车
  • 专业网站建设公司用织梦吗建设网站的模板
  • 做电影网站的工具企点营销软件
  • 自动生成海报的网站明星百度指数排行
  • 网站建设厘金手指排名十九财务软件排行榜前十名
  • 做网站搭建环境如何自建网站做淘客
  • 网站ip段屏蔽大型网站建设兴田德润简介
  • 个人做discuz网站备案虚拟产品货源渠道
  • 烟台学校网站建设wordpress获取分类列表
  • 如何撰写一个网站规划建设方案学编程选什么专业
  • 县文化馆网站建设方案网站设计与网站建设
  • 河南省城乡与住房建设厅网站网站建设二公司
  • 扁平化设计风格的网站做ptt有什么好的模板网站
  • 三大框架网站开发云南网站优化公司
  • 做茶叶网站山东省建设职业教育集团网站
  • 德州做网站的怎么在360网站做词条
  • 网站栏目怎么太原自助建站系统
  • 溧阳网站开发建设厅官方网站河南
  • 如何用凡科做网站厅网站建设项目背景
  • 佘山网站建设简述网站内容管理流程
  • 网站策划的内容网页设计与网站开发经济可行性
  • 淄博网站营销与推广承德网站建设制作
  • 南京自助网站推广建站世界上有php应用的网站
  • 长春网络关键词排名宜昌网站排名优化
  • 江门网站如何制作河南省百城建设提质网站
  • 做企业网站的公司网站怎么换域名