当前位置: 首页 > news >正文

门户网站报价方案健身会所网站模板

门户网站报价方案,健身会所网站模板,购买网站,优化搜索引擎营销这取决于您使用的矢量器。在CountVectorizer统计文档中单词的出现次数。它为每个文档输出一个(n_words, 1)向量#xff0c;其中包含每个单词在文档中出现的次数。n_words是文档中的单词总数(也就是词汇表的大小)。它也适合词汇表#xff0c;这样您就可以反省模型(看看哪个词是…这取决于您使用的矢量器。在CountVectorizer统计文档中单词的出现次数。它为每个文档输出一个(n_words, 1)向量其中包含每个单词在文档中出现的次数。n_words是文档中的单词总数(也就是词汇表的大小)。它也适合词汇表这样您就可以反省模型(看看哪个词是重要的等等)。您可以使用vectorizer.get_feature_names()查看它。在当你把它放在前500个文档中时词汇表将只由500个文档中的单词组成。假设有30k个这样的矩阵fit_transform输出一个500x30k稀疏矩阵。现在您再次使用接下来的500个文档fit_transform但是它们只包含29k个单词所以您得到了一个500x29k矩阵…现在如何调整矩阵以确保所有文档都具有一致的表示形式我现在想不出一个简单的办法来做这件事。在对于TfidfVectorizer您还有另一个问题那就是文档频率的倒数为了能够计算文档频率您需要一次查看所有文档。但是TfidfVectorizer只是一个CountVectorizer后面跟着一个TfIdfTransformer因此如果您设法获得CountVectorizer的输出那么您可以对数据应用TfIdfTransformer。在使用HashingVectorizer情况有所不同这里没有词汇表。在In [51]: hvect HashingVectorizer()In [52]: hvect.fit_transform(X[:1000])1000x1048576 sparse matrix of type with 156733 stored elements in Compressed Sparse Row format在这里前1000个文档中没有1M个不同的单词但是我们得到的矩阵有1M列。HashingVectorizer不在内存中存储单词。这样可以提高内存效率并确保返回的矩阵始终具有相同的列数。所以您不会遇到与CountVectorizer相同的问题。在这可能是您所描述的批处理的最佳解决方案。有两个缺点即你不能得到idf权重你不知道单词和你的特征之间的映射。在希望这有帮助。在编辑如果您有太多的数据HashingVectorizer是最好的选择。如果您仍然想使用CountVectorizer一个可能的解决方法是自己调整词汇表并将其传递给向量器这样您只需要调用tranform。在下面是一个您可以修改的示例^{pr2}$现在不起作用的方法是# Fitting directly:vect CountVectorizer()vect.fit_transform(X[:1000])1000x27953 sparse matrix of type with 156751 stored elements in Compressed Sparse Row format注意我们得到的矩阵的大小。“手动”匹配词汇def tokenizer(doc):# Using default pattern from CountVectorizertoken_pattern re.compile((?u)\\b\\w\\w\\b)return [t for t in token_pattern.findall(doc)]stop_words set() # Whatever you want to have as stop words.vocabulary set([word for doc in X for word in tokenizer(doc) if word not in stop_words])vectorizer CountVectorizer(vocabularyvocabulary)X_counts vectorizer.transform(X[:1000])# Now X_counts is:# 1000x155448 sparse matrix of type # with 149624 stored elements in Compressed Sparse Row format#X_tfidf tfidf.transform(X_counts)在您的示例中您需要在应用tfidf转换之前首先构建整个矩阵X_计数(对于所有文档)。在
http://www.huolong8.cn/news/153960/

相关文章:

  • 济南网站建设熊掌号华夏望子成龙网站开发背景
  • 网站制作案例效果常州工厂网站建设
  • 电商网站开发合同设计一个创新产品
  • 怎么一键打开两个wordpress广州seo服务外包
  • 唐山做网站公司wordpress博客文章栏目
  • 织梦模板大气网站建设类网站模板设置网站模板
  • 网站建设公司年终总结网站1g空间多少钱
  • 茶陵网站建设wordpress能不能导入html
  • 点击网站排名ml域名免费注册
  • 电商网站建设策划方案顺德高端网站设计
  • word做网站连接品牌网站建设堅持大蝌蚪
  • 虫部落是谁做的网站有口碑的装修设计公司
  • 东光网站建设淘宝店铺装修网络注册平台怎么注册
  • 搜索网站世界互联网峰会马云
  • 美业设计网站实业+东莞网站建设
  • 深圳免费建站c站
  • 网站建设实训总结及体会深圳网站建设 龙华信科咨询
  • 旧宫网站建设域名服务器上存放着internet主机的
  • 网站后台 语言数据中心托管
  • 北京企业做网站广西建设网站网址多少
  • 在线名片设计百度手机seo
  • 响应式网站新闻部分怎么做网页手游
  • 佛山个性化网站搭建wordpress 标题 回车
  • 建设网站要什么时候开始做网站一定要用到dw
  • 镇江市网站开发公司小米商城网站设计论文
  • 国外的室内设计网站dw php网站建设视频教程
  • 只用html5做网站网站建设难么
  • 上海市建设三类人员报名网站临沂网站维护公司
  • 电脑怎么做网站兴义市住房城乡建设局网站
  • 怎么弄一个自己的网站织梦 网站模板