当前位置: 首页 > news >正文

百度站长反馈做网站建设小程序

百度站长反馈,做网站建设小程序,网站虚拟主机免备案,国外公司在国内建网站tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码#xff0c;我们知道tfidftf*idf#xff0c;所以可以分别计算tf和idf值在相乘#xff0c;首先我们创建一个简单的语料库#xff0c;作为例子#xff0c;只有四句话#xff0c;每句表示一个文档copus[我正在…tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码我们知道tfidftf*idf所以可以分别计算tf和idf值在相乘首先我们创建一个简单的语料库作为例子只有四句话每句表示一个文档copus[我正在学习计算机,它正在吃饭,我的书还在你那儿,今天不上班]由于中文需要分词jieba分词是python里面比较好用的分词工具所以选用jieba分词文末是jieba的链接。首先对文档进行分词import jiebacopus[我正在学习计算机,它正在吃饭,我的书还在你那儿,今天不上班]copus [[word for word in jieba.cut(doc)] for doc in copus]print(copus)输出结果[[我, 正在, 学习, 计算机], [它, 正在, 吃饭], [我, 的, 书, 还, 在, 你, 那儿], [今天, 不, 上班]]文档变成我们想要的格式了然后开始词频统计计算tf值这里用Counter类来把每篇文档都转换成词和词频的字典其实就已经得到tf值了tf []for doc in copus:tf.append(Counter(doc))print(tf)输出结果[Counter({我: 1, 正在: 1, 学习: 1, 计算机: 1}), Counter({它: 1, 正在: 1, 吃饭: 1}), Counter({的: 1, 书: 1, 你: 1, 在: 1, 那儿: 1, 我: 1, 还: 1}), Counter({今天: 1, 不: 1, 上班: 1})]计算idf值import mathfrom collections import defaultdictidf defaultdict(int)for doc in tf:for word in doc:idf[word] 1for word in idf:idf[word] math.log(len(idf)/(idf[word]1))print(idf)输出结果defaultdict(, {的: 2.0149030205422647, 正在: 1.6094379124341003, 学习: 2.0149030205422647, 计算机: 2.0149030205422647, 今天: 2.0149030205422647, 书: 2.0149030205422647, 那儿: 2.0149030205422647, 它: 2.0149030205422647, 不: 2.0149030205422647, 在: 2.0149030205422647, 吃饭: 2.0149030205422647, 我: 1.6094379124341003, 你: 2.0149030205422647, 还: 2.0149030205422647, 上班: 2.0149030205422647})剩下的事情就很简单了只需要把tf和idf相乘就可以了。下面是一个tfidf的实现代码from collections import Counter,defaultdictimport jiebaimport mathdef file2list(file):把文件转换成列表并对数据进行简单的预处理with open(file) as f:corpus f.readlines()corpus [[word.replace(\n,) for word in jieba.cut(line)] for line in corpus if line.strip()]return corpus#c file2list(E:\hei.txt)def get_tf(corpus):return [Counter(doc) for doc in corpus]#用Counter函数把每篇文档转换成词和词频的字典def get_idf(tf_dict):idf defaultdict(int)for doc in tf_dict:for word in doc:idf[word] 1for word in idf:idf[word] math.log(len(idf)/(idf[word]1))#idf的公式return idfdef get_tfidf(doc_id,file):doc_id是语料库中文档的idfile是txt的路径corpus file2list(file)tf get_tf(corpus)idf get_idf(tf)if doc_id len(tf):print(doc_id should smaller than %i%len(tf))else:id_tf tf[doc_id-1]for word in id_tf:id_tf[word] id_tf[word]*idf[word]#计算tfidf值print(id_tf)
http://www.yutouwan.com/news/155497/

相关文章:

  • 个人网站 建设宿迁房产交易中心官网
  • 网站开发 入门教程企业邮箱注册申请126官网
  • 做物流哪个网站货源多英文外贸网站源码
  • 网站建设 维护 编程如何在网站做淘宝页面
  • 百度搜索官方网站昆山网站建设ikelv
  • 德阳建设厅官方网站阳西县网络问政平台公众号
  • 给卖假性药的做网站一般要判多久搭建一个网站需要多少钱?
  • 网站建设交印花税嘛中铁建设中南分公司
  • 成都网站建设询q479185700霸屏工程施工行业在哪个网站容易找事做
  • 青岛网站推广招商免费做手机网站
  • 有用unity做网站的吗有些网址打不开怎么解决
  • 邯郸网站建设联系电话两峡一峰旅游开发公司官方网站
  • 安徽中机诚建建设有限公司网站网站克隆 有后台登录
  • 校园网站建设意义竞价托管哪家专业
  • 做国际网站有补贴吗wordpress 建立数据库连接时出错
  • 下载建设银行官方网站下载班级网页html源代码
  • 免费网站代理怎么做网店
  • 网站框架设计wordpress4.7.1漏洞
  • 运城网站推广哪家好宣传片制作公司资质
  • 做平行进口的汽车网站西安营销网站
  • 做电脑网站用什么软件好用吗网站建设源码开发
  • h5网站模板下载百度公司的业务范围
  • 网盘做网站服务器个人域名可以做公司网站么
  • 广东手机网站建设app制作平台大全
  • 新做好的网站如何做seo做网站的广告语
  • 网站备案号查询企业网站推广属于付费
  • 网站建设跳转页面怎么弄小米新手机发布
  • 亚马逊外贸网站如何做移动端wordpress主题
  • 桂林微信网站设计做网站公司大连
  • 免费做调查问卷的网站做网站建设找哪家好