当前位置：首页 > news >正文

海南建设工程信息网站蚌埠房产网

news 2026/1/13 18:48:42

海南建设工程信息网站,蚌埠房产网,深圳网站设计哪家快,西安贝贝特网络科技有限公司引言实现文本匹配模型时经常需要预训练好的中文词/字向量#xff0c;今天通过gensim和中文维基百科数据训练一个中文字向量。安装相关包首先要安装所需的几个包#xff1a; zhconv 1.4.3 gensim 4.3.2由于中文维基百科是繁体字#xff0c;需要用zhconv转换为简体今天通过gensim和中文维基百科数据训练一个中文字向量。安装相关包首先要安装所需的几个包 zhconv 1.4.3 gensim 4.3.2由于中文维基百科是繁体字需要用zhconv转换为简体gensim就是我们用来训练word2vec所用的库了。处理数据数据选择最新的中文维基百科语料大概有2.6G左右。注意该链接保存的是最新的数据所以过几天去下载可能不同。原始是xml格式的数据里面包含各种标签我们需要对其进行处理。幸运地是gensim为我们实现了维基百科语料的处理类WikiCorpus直接调用即可 import jieba import zhconv from gensim.corpora import WikiCorpus from zhconv import convertdef preprocess(text: str, min1,max1,lower: bool True ) - list[str]:if lower:text text.lower()# 转换为简体中文text convert(text, zh-cn)# 按字拆分return list(text)if __name__ __main__:zh_wiki zhwiki-latest-pages-articles.xml.bz2print(fProcessing {zh_wiki})wiki_corpus WikiCorpus(zh_wiki, tokenizer_funcpreprocess)texts wiki_corpus.get_texts()# 保存处理好的数据WIKI_SEG_TXT wiki_seg_char.txtgenerator wiki_corpus.get_texts()with open(WIKI_SEG_TXT, w, encodingutf-8) as output:for texts_num, tokens in enumerate(generator):output.write( .join(tokens) \n)if (texts_num 1) % 100000 0:print(f已处理{texts_num}篇文章) 本文介绍的是按字拆分的字向量若要训练词向量还需要进行分词导入相关包修改15行代码 return list(jieba.cut(text))处理好之后保存到wiki_seg_char.txt文件中 -rw-rw-r-- 1 greyfoss greyfoss 4.4G Nov 22 18:30 wiki_seg_char.txt可以看到处理完之后有4.4G我们可以看下处理后的内容 $ head wiki_seg_char.txt欧几里得公元前三世纪的古希腊数学家现在被认为是几何之父此画为拉斐尔的作品《雅典学院》数学是研究数量、结构以及空间等概念及其变化的一门学科属于形式科学的一种。数学利用抽象化和逻辑推理从计数、计算、量度、对物体形状及运动的观察发展而成。数学家们拓展这些概念以公式化新的猜想以及从选定的公理及定义出发严谨地推导出一些定理。基础数学的知识与运用是生活中不可或缺的一环。对数学基本概念的完善早在古埃及、美索不达米亚及古印度历史上的古代数学文本便可观见而在古希腊那里有更为严谨的处理。从那时开始数学的发展便持续不断地小幅进展至 1 6 世纪的文艺复兴时期因为新的科学发现和数学革新两者的交互致使数学的加速发展直至今日。数学并成为许多国家及地区的教育中的一部分。数学在许多领域都有应用包括科学、工程、医学、经济学和金融学等。数学对这些领域的应用通常被称为应用数学有时亦会激起新的数学发现并导致全新学科的发展例如物理学的实质性发展中建立的某些理论激发数学家对于某些问题的不同角度的思考。数学家也研究纯粹数学就是数学本身的实质性内容而不以任何实际应用为目标。许多研究虽然以纯粹数学开始但其过程中也发现许多可用之处。注意并没有进行去停止词、标点符号等处理。我们直接拿上面的结果开始训练字向量模型。训练 from gensim.models import word2vec import multiprocessing import logging# 回调函数可以打印损失 from gensim.models.callbacks import CallbackAny2Vec# 定义早停异常 class StopEarlyException(Exception):passclass Callback(CallbackAny2Vec):Callback to print loss after each epochdef __init__(self, patient3):self.epoch 0self.losses []self.patient patientself.counter 0self.best_loss float(inf)self.pre_sum 0def on_epoch_end(self, model):# 这个Loss是累计值last_loss model.get_latest_training_loss()if self.epoch 0:loss last_lossself.losses.append(loss)logging.info(fLoss after epoch {self.epoch}: {loss:4f})else:loss last_loss - self.pre_sumself.losses.append(loss)logging.info(fLoss after epoch {self.epoch}: {loss:4f})if loss self.best_loss:self.best_loss lossself.counter 0else:self.counter 1if self.counter self.patient:raise StopEarlyException()self.pre_sum last_lossself.epoch 1logging.basicConfig(format%(levelname)s - %(asctime)s: %(message)s,datefmt%H:%M:%S,levellogging.INFO, )max_cpu_counts multiprocessing.cpu_count() embedding_dim 300logging.info(fUse {max_cpu_counts} workers to train Word2Vec (dim{embedding_dim}))WIKI_SEG_TXT wiki_seg_char.txt # 读取训练数据 sentences word2vec.LineSentence(WIKI_SEG_TXT)logging.info(begin train) # 定义模型 model word2vec.Word2Vec(vector_sizeembedding_dim, workersmax_cpu_counts, min_count5 ) # 构建词表 model.build_vocab(sentences, progress_per1000000) logging.info(build vocab finish) # 训练模型 try:model.train(sentences,total_examplesmodel.corpus_count,epochs5,report_delay1,compute_lossTrue,callbacks[Callback()],) except StopEarlyException:logging.info(break from stop early) # 保存模型 output_model fword2vec.zh.{embedding_dim}.char.model model.wv.save_word2vec_format(output_model)logging.info(train finished) 注意gensim的word2vec有一个坑如果你想打印它的损失直接打印你会发现损失会一直上升原因是它计算的是所有epoch损失的累计值为了打印每个epoch的损失需要进行特殊处理。几乎都是采用了默认参数由于训练语料较多模型采用CBOW算法但没有深入的调参发现训练5个epoch的效果还不错。训练更多比如30个epoch损失可以更低但实际结合模型效果并不好应该是过拟合了。并且这里定义了一个早停策略epoch数大的话可能会触发。最后打印的日志为 INFO - 16:41:08: Word2Vec lifecycle event {msg: training on 6219869715 raw words (4893530805 effective words) took 5204.8s, 940204 effective words/s, datetime: 2023-12-02T16:41:08.082832, gensim: 4.3.2, python: 3.10.13 (main, Sep 11 2023, 13:44:35) [GCC 11.2.0], platform: Linux-5.4.0-150-generic-x86_64-with-glibc2.27, event: train} INFO - 16:41:08: storing 19651x300 projection weights into word2vec.zh.300.char.model INFO - 16:41:11: train finished 这种写法我们只需要拿它保存的word2vec.zh.300.char.model文件就够了在字向量的情况下也不大 -rw-rw-r-- 1 greyfoss greyfoss 65M Dec 2 16:41 word2vec.zh.300.char.model -rw-rw-r-- 1 greyfoss greyfoss 27M Dec 2 17:53 word2vec.zh.300.char.model.tar.gz加载测试 from gensim.models import KeyedVectorsoutput_model fword2vec.zh.300.char.modelprint(fLoading {output_model}...) model KeyedVectors.load_word2vec_format(output_model)result model.most_similar(狗) for word in result:print(word) $ python evaluate.py Loading word2vec.zh.300.char.model... (猫, 0.7125084400177002) (犬, 0.604468047618866) (猪, 0.5916579365730286) (兔, 0.5814022421836853) (狼, 0.5506706833839417) (遛, 0.4923962652683258) (鸡, 0.48695406317710876) (猴, 0.48581114411354065) (屎, 0.4827899634838104) (驴, 0.48213639855384827) 模型下载训练好的权重已经共享在百度云欢迎下载体验链接https://pan.baidu.com/s/1i6MoYOGIW2Hg_X5j7zBeZg?pwdrye5提取码rye5

查看全文

http://www.yutouwan.com/news/225848/