当前位置: 首页 > news >正文

网站建设是顺德建设网站

网站建设是,顺德建设网站,3d建模软件免费下载,wordpress走阿里云OSS内网文 | 天于刀刀世界上总有这么一群人#xff0c;他们是高智商科技狂#xff0c;是新时代技术热点的弄潮儿#xff0c;更是充满神秘感潜藏在里世界默默注视着时代发展的极客。而 Hacker News 这一网站致力于提供最新国际威胁情报、黑客动向以及维基解密资讯#xff0c;让我们…文 | 天于刀刀世界上总有这么一群人他们是高智商科技狂是新时代技术热点的弄潮儿更是充满神秘感潜藏在里世界默默注视着时代发展的极客。而 Hacker News 这一网站致力于提供最新国际威胁情报、黑客动向以及维基解密资讯让我们得以一窥这个灰色区域。最近有关 GPT-3 的消息再次引发 Hacker News 的热议。而这一次GPT-3 并不是通过撰写一篇鸡汤文 证明自己在 AIGC 赛道的能力而闻名[1]而是成为了模型数据泄露的“犯罪嫌疑人”。用户 BoppreH 发帖称尽管他是一个非常注重保护个人隐私的用户但是当他向 GPT-3 输入他的网名时输出结果中意外地包含了他的真实姓名[2]该用户还提到之所以能够认定这确实是他的真实姓名是因为他的真名非常罕见同时也从来没有主动在网络上以任何方式将他的网名和真名联系在一起。有的黑客朋友提出帖主疏忽了一种可能性其实能够通过 Google 搜索他用户名的方式能追踪到他同昵称的 Github 中的某一个项目 repo 中 licence 的签名这恰巧也就是他的真名。好复杂但是这样的信息检索和关联能力已经远远地超出普通搜索引擎和机器人爬虫的能力范围莫非 LM 语言大模型就是下一代智能搜索的雏形如果 GPT-3 真的拥有着如此的信息关联能力这简直和童话故事中的魔镜一样堪称魔法智能了。毫无疑问的 GPT-3 训练数据的构建方式非常值得引起大家思考同时也让不少人再一次对大模型“黑箱推理导致的信息泄露”产生了激烈的讨论。黑客社区的讨论主要聚焦在于隐私保护问题上通过引用大量法律主要是诽谤法相关法规以及各个 Lincence 开源协议最终明确了两个概念“被遗忘权” right to be forgotten 和“铭记权” right to remember 。If I had found my personal information on Google search results, or Facebook, I could ask the information to be removed, but GPT-3 seems to have no such support. [2]这两个概念均来自或扩展于欧洲联盟《通用数据保护条例》 General Data Protection Regulation简称 GDPR 前身是欧盟在1995年制定的《计算机数据保护法》。其中重点规定了对违法企业的罚金最高可达2000万欧元约合1.5亿元人民币或者其全球营业额的4%以高者为准。网站经营者必须事先向客户说明会自动记录客户的搜索和购物记录并获得用户的同意否则按“未告知记录用户行为”作违法处理。企业不能再使用模糊、难以理解的语言或冗长的隐私政策来从用户处获取数据使用许可。明文规定了用户的“被遗忘权”即用户个人可以要求责任方删除关于自己的数据记录。举个例子今年著名的“女子取快递被造谣出轨”案件中受害人完全能够基于“被遗忘权”要求各大搜索引擎和网站下架相关搜查结果和词条否则企业将面临高额罚款。因此“被遗忘权”主要是针对公司组织的规定。而“铭记权”则与之相对应来源于古早时期互联网开放透明的基石思想中心理念是让互联网见证一切不容历史被篡改。维基百科就是一个最典型的代表每一个人都有权利去记录去修改一些不精准的词条并且最终的结果一定是非常客观公正的。例如在之前的例子中行使“铭记权”的个体需要公允地记录“女子取快递被造谣出轨”案件的前因后果不能断章取义。因此“铭记权”是每一个网络公民都应该自觉遵守的道德规范这是一个针对个人的限制。随着国内信息技术的不断发展我国法律也逐渐填补减少了这一块灰色地带的判定。我们可以欣慰地看到法院最终在“女子取快递被造谣出轨”案中判处被告方诽谤罪且有期徒刑1年缓刑2年因此我们也有足够的理由相信随着社会的进步相关合规性文件会越来越规范。如果说在信息世界中黑客们是锋利的矛那我们算法工程师就是一个坚固的盾。当今业界几乎公认的一个共识在于数据才是最宝贵的资产而算法工程师的工作就是在这个宝贵资产中挖掘更多的变现渠道。而现在万一让合规部门的法务小姐姐知道你的模型可能涉嫌泄露公司数据或者侵犯用户隐私最终让公司承担预期之外的风险给你一个核善的眼神自我体会一下。其实通过他人模型挖掘数据不是一个新鲜的课题。尤其是在数据冷启动的业务中花费高昂成本去专门建立一个标注任务简直是天方夜谈剩下的除了使用无监督模型只有使用开源模型进行一波数据增强了。最经典的操作莫过于机器翻译任务中摸着谷歌和百度翻译引擎进行小语种翻译、回译等方式扩充数据集的操作了。此外甚至专门还有文章研究如何通过攻击大模型来挖掘训练数据惊了感觉第一个想到这个发文方向的人绝对脑子很活它的名字起的非常直白就叫做 Extracting Training Data from Large Language Models [3]研究人员来自谷歌、斯坦福、伯克利、东北、 OpenAI、哈佛和苹果甚至还有配套开源代码哦 [4]。在这篇文章中作者主要做出了以下几个贡献提出了一种简单有效的从大模型中获取序列数据的方式探究了模型会造成隐私泄露的原因——过拟合 overfitting 量化地定义了大模型的“记忆力” k-Edietic Memorization 探讨了如何避免泄露的几种方式。首先让我们跟随作者脚步两步走套取 GPT-2 大模型中的数据第一步使用 prompt 技巧构建合理的前缀并输入大模型获得结果第二步针对获得结果进行排序同时使用搜索引擎确认哪些信息是完全检索自互联网哪些是模型自我生成的。在文中作者为了确认这套工作流的可行性特意联系了 OpenAI 访问了他们的原始训练集最终他们确认了这套流程的有效性。看完这套动作小编只想说prompt 工程师永远滴神大佬扎堆的项目最终竟然也是在第二步中靠人工手动搜索打标捂脸。好在后续工作中大佬的不少讨论还是非常高大上洋气的。例如作者认为模型泄露训练数据的本质是因为在关系推理的过程中对训练集发生了过拟合的现象。虽然随着模型参数规模和训练规模的不断增大train loss 的平均值只是比 valid loss 的平均值稍微小一些不存在传统意义上的过拟合现象但是他在一些训练样本上依旧有着非常反常的非常低的 loss。这可能也是一种过拟合的形式。同时为了量化解释大模型对于每个样本的记忆能力结合 prompt 前缀作者还定义了大模型的记忆力。例如假设我们给大模型输入“我的算法女神是______”然后输出结果为“夕小瑶”那么我们就称“夕小瑶”这个信息是已经被模型抓取到的知识。再假设“夕小瑶”在训练集中最多出现了 k 次那么我们就称“夕小瑶”这个字段是被模型 k 次异常清晰地记忆的。在后续的实验中作者发现k 越低的字符串在面临攻击时会泄露更多的数据无论是从句子长度还是数量上。这也意味着潜在的更私密的信息越有可能被泄露。这是否无意中解释了之前 GPT-3 泄露老哥真名的原因同时满足了语料的稀缺性和稀疏性。最后作者也针对了可能的一些减少模型数据泄露的方式进行了探究和畅想例如使用差分隐私法 Differential Privacy 训练模型限制敏感数据在训练集中的出现在下游任务的 finetuning 中让模型“忘记”一些隐私或是专门开发审计模型对模型输出进行审查。但是可以确定的是无论哪一种方案都或多或少地会影响到模型在线的业务性能这一切都是 tradeoff。可以预见的将来或许会有越来越多有关 AI 侵犯用户隐私的问题出现随着相关法规发条的逐步完善说不定有朝一日算法工程师中也会有一个类似于数据安全“白手套”的合规测试岗位专门为公司测试避免深度学习模型导致的重要信息的外泄问题。算法专家和数据专家们你做好业务信息泄露的准备了吗。卖萌屋作者天于刀刀注重 WLB 的工业界反卷斗士未进化的 NLP 咸鱼一条。专注于研究在各个场景中算法模型的落地情况希望自己编写的算法有朝一日可以改变世界。目前的兴趣点在于假新闻检测、深度学习模型可解释性等。作品推荐1.腾讯薪酬改革来了晋升≠加薪员工到底为何工作2.从 Google AI 离职了这里让我爱不起来3.百万悬赏寻找“模型越大效果越差”的奇葩任务4.想通这点治好 AI 打工人的精神内耗后台回复关键词【入群】加入卖萌屋NLP、CV、搜广推与求职讨论群[1] Feeling unproductive? Maybe you should stop overthinking, https://news.ycombinator.com/item?id23893817[2] Ask HN: GPT-3 reveals my full name - can I do anything?https://news.ycombinator.com/item?id31883373[3] Extracting Training Data from Large Language Models, https://arxiv.org/abs/2012.07805[4] Training data extraction from GPT-2, https://github.com/ftramer/LM_Memorization
http://www.huolong8.cn/news/221686/

相关文章:

  • 怎么做网站官方电话广告制作合同范本免费
  • 在手机上自建网站怎么弄品牌网站设计地址
  • 我有域名跟空间能教我做网站吗淘宝官网首页入口
  • 大连建设工程信息网水电seo推广软件怎样
  • 广州做网站找酷爱网络忻州建设网站的公司
  • 滨州做网站的电话找货源上什么平台最好
  • 黄金网站app视频下载小说怎么对页面颜色进行设计
  • 石药网站校园网站系统的建设
  • 网站建设文献综述重庆建设厂招聘信息网站
  • 营销型企业网站建设的功能成都百度推广代理公司
  • 网站服务器地址在哪里看镇江网站建设案例
  • 辽源网站建设wordpress1003无标题
  • 网站手机客户端如何开发中国工程网查询
  • 网站建设佰首选金手指二wordpress crawling
  • 设计网站的公司企业查询平台
  • 做网站作品是静态龙岗网站的建设
  • 南平网站seo如何在百度上添加店铺的位置
  • 临沂网站模板郑州做网站锐
  • 网站兼容手机代码最大的源码分享平台
  • 重庆杂酱制作seo外包服务方案
  • 只做网站可以在百度里收到吗扫wordpress漏洞工具
  • 合肥市建设网官方网站广告代理公司
  • 微信怎么做自己的网站网络管理系统的组成
  • 网站建设平台天梯建站网站建投网站沈阳工程信息
  • 做盗版频网站网站不做301可以吗
  • 濮阳市建站公司深圳全网推广小程序制作
  • 手机网站源码下载沈阳男科医院哪家口碑好
  • 景区网站建设的意义惠州市建设公司网站
  • 网站建设合同建设方注意事项网站建设次年续费合同
  • 网站编程开发优化设计答案六年级