当前位置: 首页 > news >正文

做自动采集电影网站有什么处罚建设网站涉及的技术

做自动采集电影网站有什么处罚,建设网站涉及的技术,如何做网站关键词词霸,网站购买平台作者#xff1a;Chris Hegarty 在 Lucene 9.7.0 中#xff0c;我们添加了利用 SIMD 指令执行向量相似性计算的数据并行化的支持。 现在#xff0c;我们通过使用融合乘加 (Fused Mulitply-Add - FMA) 进一步推动这一点。 什么是 FMA 乘法和加法是一种常见的运算#xff0c;…作者Chris Hegarty 在 Lucene 9.7.0 中我们添加了利用 SIMD 指令执行向量相似性计算的数据并行化的支持。 现在我们通过使用融合乘加 (Fused Mulitply-Add - FMA) 进一步推动这一点。 什么是 FMA 乘法和加法是一种常见的运算它计算两个数字的乘积并将该乘积与第三个数字相加。 这些类型的操作在向量相似度计算期间反复执行。 融合乘加 (FMA) 是一种单一运算可同时执行乘法和加法运算 - 乘法和加法被称为“融合”在一起。 FMA 通常比单独的乘法和加法更快因为大多数 CPU 将其建模为单个指令。 FMA 还可以产生更准确的结果。 浮点数的单独乘法和加法运算有两轮 一个用于乘法一个用于加法因为它们是单独的指令需要产生单独的结果。 也就是说有效地表述为 而 FMA 具有单舍入仅适用于乘法和加法的组合结果。 也就是说有效地表述为 在 FMA 指令中a * b 生成无限精度的中间结果在最终结果舍入之前将其与 c 相加。 与单独的乘法和加法运算相比这消除了单轮运算从而提高了准确性。 底层是如何实现的 那么到底发生了什么变化呢 在 Lucene 中我们用单个 FMA 运算替换了单独的乘法和加法运算。 标量变体现在使用 Math::fma而巴拿马向量化变体使用 FloatVector::fma。 如果我们查看反汇编我们可以看到此更改所产生的效果。 之前我们看到过点积的巴拿马向量化实现的这种代码模式。 vmovdqu32 zmm0,ZMMWORD PTR [rcxr10*40x10] vmulps zmm0,zmm0,ZMMWORD PTR [rdxr10*40x10] vaddps zmm4,zmm4,zmm0 vmovdqu32 指令将 512 位打包双字值从内存位置加载到 zmm0 寄存器中。 然后vmulps 指令将 zmm0 中的值与内存位置中相应的打包值相乘并将结果存储在 zmm0 中。 最后vaddps 指令将 zmm0 中的 16 个打包单精度浮点值与 zmm4 中的相应值相加并将结果存储到 zmm4 中。 通过更改使用 FloatVector::fma我们看到以下模式 vmovdqu32 zmm0,ZMMWORD PTR [rdxr11*40xd0] vfmadd231ps zmm4,zmm0,ZMMWORD PTR [rcxr11*40xd0] 同样第一条指令与前面的示例类似它将 512 位打包双字值从内存位置加载到 zmm0 寄存器中。 vfmadd231ps这是 FMA 指令将 zmm0 中的值与内存位置中相应的打包值相乘将中间结果添加到 zmm4 中的值执行舍入并将生成的 16 个打包单精度浮点值存储在 zmm4. vfmadd231ps 指令做了很多事情 这是向 CPU 发出的关于代码正在运行的计算性质的明确信号。 鉴于此CPU 可以就如何完成此操作做出更明智的决策这通常会提高性能以及前面所述的准确性。 这样的修改会快吗 一般来说使用 FMA 通常会提高性能。 但一如既往你需要进行基准测试 值得庆幸的是Lucene 在确定是否使用 FMA 时会处理相当复杂的问题因此你不必这样做。 例如CPU 是否支持 FMA、Java 虚拟机中是否启用了 FMA以及仅在已证明比单独的乘法和加法运算更快的架构上启用 FMA。 正如你可能知道的那样这种启发式方法并不完美但对于提供良好的开箱即用体验大有帮助。 虽然 FMA 提高了准确性但我们发现在未启用 FMA 时对预先存在的相似性计算没有负面影响。 随着 FMA 的使用向量相似性函数套件得到了一些更多的喜爱。 所有点积、平方和余弦距离、标量和巴拿马向量化变体均已更新。 基于反汇编检查和实证实验进行了优化带来了有助于填充管道并保持 CPU 繁忙的改进 主要是通过更加一致和有针对性的循环展开以及消除循环内的数据依赖性。 在此更改上给出具体的性能改进数字并不简单因为效果涵盖了多个相似函数和变体但我们看到了积极的吞吐量改进从浮点点积中的个位数百分比到余弦中更高的两位数百分比改进。 基于字节的相似性函数也显示出类似的吞吐量改进。 总结起来 在 Lucene 9.7.0 中我们添加了通过 SIMD 指令更快地实现向量搜索所使用的低级原语操作的功能。 在即将推出的 Lucene 9.9.0 中我们在此基础上利用更快的 FMA 指令并在所有相似性函数中更一致地应用优化技术。 以前版本的 Elasticsearch 已经受益于 SIMD即将推出的 Elasticsearch 8.12.0 将具有 FMA 改进。 最后我想感谢 Lucene PMC 成员 Robert Muir 在这一领域的持续改进以及愉快而富有成效的合作。 原文Vector Similarity Computations FMA-style — Elastic Search Labs
http://www.huolong8.cn/news/201540/

相关文章:

  • 红酒网站页面设计总结平面设计素材网站有哪些
  • 江苏省建设工程地方标准网站机械加工王
  • 北京大厂网站建设长沙企业网站建设报价
  • 曲靖做网站网站建设网页制作教程
  • c#做的网站怎么上传图片畔游网站建设
  • 做家政在哪个网站找wordpress 免备案cdn
  • 沈阳模板建站方案沈阳项目
  • 网站建设网络公司深圳抖音推广
  • 毕业设计网站建设流程wordpress 支付宝 微信支付
  • 公众号自己做电影网站信息发布网站建设
  • 网站备案分为几种网站换空间 seo
  • 朝阳区网站建设君和外贸网站服务器推荐
  • 沈阳建站模板系统站酷网素材图库免费下载
  • 揭阳模板网站建站域名备案关闭网站吗
  • 福州短视频seo排行贵港网站seo
  • wordpress网站如何清理jswordpress error
  • 怎么用ftp备份网站wordpress 文章评论统计代码
  • html网站素材网会员管理系统单机免费
  • php多语言网站怎么做文广网站建设
  • 精品课程网站设计报告广州市城乡建设部网站首页
  • 做网站需要一些什么工具北京seowyhseo
  • 会议响应式网站开发国家公示企业信息查询官网
  • 网站制作模版小程序游戏制作平台
  • 厦门app开发网站开发公司电话网站建设哪个好一些
  • 凤阳做网站手机网站制作的公司
  • 祭祖网站怎么做苍强广州网站建设公司
  • 网站建设思路及设计方案wordpress 主题 h5
  • 营销型企业网站建设价格在线电子印章生成器
  • 网站空间怎么弄珠海公众号开发公司
  • 郑州上街网站建设公司企业网站如何做架构图