python 下的 word2vec 学习(python in word)
off999 2024-11-03 14:18 14 浏览 0 评论
1.ubuntu下安装gensim
refer to: ubuntu 14.04 安装gensim
为了保证安装成功,首先升级一下easy_install工具。
sudo easy_install -U setuptools 1
之后使用easy_install进行安装,使用apt-get安装会遇到编码出错,不知为什么,使用easy_install安装成功就行了。
sudo easy_install --upgrade gensim 1 2
结果在import gensim 中还出现了点小错误,缺少了平pattern模块,所以直接pip 安装。
sudo pip install pattern 1
2.训练生成模型
安装完成之后,就来训练模型。
refer:中英文维基百科语料上的word2vec实验
模型的训练如下:
# ################# 例1 ######################### # import modules & set up logging import gensim, logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) sentences = [['first', 'sentence'], ['second', 'sentence']] # train word2vec on the two sentences model = gensim.models.Word2Vec(sentences, min_count=1) 1 2 3 4 5 6 7 8
在本次的实验中,我们的数据是保存在txt文件中的。每一行对应一个句子(已经分词,以空格隔开),我们可以直接用LineSentence把txt文件转为所需要的格式。
# ################# 例2 ######################### from gensim import Word2Vec from gensim.Word2Vec import LineSentence # inp为输入语料 inp = 'wiki.zh.text.jian.seg.txt' # outp1 为输出模型 outp1 = 'wiki.zh.text.model' # outp2为原始c版本word2vec的vector格式的模型 outp2 = 'wiki.zh.text.vector' model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count()) model.save(outp1) model.save_word2vec_format(outp2, binary=False) 1 2 3 4 5 6 7 8 9 10 11 12 13
关于Word2Vec(…) 模型的参数说明(refer to: gensim实现python对word2vec的训练和计算和word2vec使用说明):
LineSentence(inp):应该是把word2vec训练模型的磁盘存储文件(model在内存中总是不踏实)转换成所需要的格式;对应的格式是参考上面的例1。 size:是每个词的向量维度; window:是词向量训练时的上下文扫描窗口大小,窗口为5就是考虑前5个词和后5个词; min-count:设置最低频率,默认是5,如果一个词语在文档中出现的次数小于5,那么就会丢弃; workers:是训练的进程数(需要更精准的解释,请指正),默认是当前运行机器的处理器核数。这些参数先记住就可以了。
说明一下输入语料,输入的是文本文件的格式,其中没一行表示一个文章,而且是经过分词处理的。词与词之间用空格隔开就行了。分词的工具有很多,我一般用的是结巴分词(不知道大家以后没有好的分词工具推荐)。一般来说,训练集越大,结果的泛化性越好,对于专业领域的话,最好能使用专业领域的语料来进行训练。
3.导入模型
# -*- coding: utf-8 -*- # <nbformat>3.0</nbformat> import gensim # 导入模型 model = gensim.models.Word2Vec.load("wiki.zh.text.model") 1 2 3 4 5 6
4. 模型使用
可以参照官网上的指导迅速了解model的各种功能方法。
4.0 获取词向量
print model[u'汽车'] type(model[u'汽车']) 1 2 # 结果 [ 3.74845356e-01 1.86477005e+00 1.28353190e+00 8.04618478e-01 ... ] numpy.ndarray 1 2 3
4.1 计算一个词的最近似的词,倒排序
result = model.most_similar(u'足球') for each in result: print each[0] , each[1] 1 2 3 国际足球 0.556692957878 足球运动 0.530436098576 篮球 0.518306851387 国家足球队 0.516140639782 足球队 0.513238489628 足球联赛 0.500901579857 football 0.500162124634 体育 0.499264538288 足球比赛 0.488131582737 冰球 0.48725092411 1 2 3 4 5 6 7 8 9 10
4.2 计算两词之间的余弦相似度
word2vec一个很大的亮点:支持词语的加减运算。(实际中可能只有少数例子比较符合)
>>> model.most_similar(positive=['woman', 'king'], negative=['man']) [('queen', 0.50882536), ...] 1 2 sim1 = model.similarity(u'勇敢', u'战斗') sim2 = model.similarity(u'勇敢', u'胆小') sim3 = model.similarity(u'高兴', u'开心') sim4 = model.similarity(u'伤心', u'开心') print sim1 print sim2 print sim3 print sim4 1 2 3 4 5 6 7 8 0.254622852224 0.38974887559 0.423695453969 0.376244588456 1 2 3 4
4.3 计算两个集合之间的余弦似度
当出现某个词语不在这个训练集合中的时候,会报错!!!。
list1 = [u'今天', u'我', u'很', u'开心'] list2 = [u'空气',u'清新', u'善良', u'开心'] list3 = [u'国家电网', u'再次', u'宣告', u'破产', u'重新'] list_sim1 = model.n_similarity(list1, list2) print list_sim1 list_sim2 = model.n_similarity(list1, list3) print list_sim2 1 2 3 4 5 6 7 0.541874230659 0.13056320154 1 2
4.4 选出集合中不同类的词语
list = [u'纽约', u'北京', u'上海', u'西安'] print model.doesnt_match(list) list = [u'纽约', u'北京', u'上海', u'西瓜'] print model.doesnt_match(list) 1 2 3 4 纽约 西瓜
相关推荐
- 咱村里有个老爷子,居然自学起了Python编程
-
咱村里有个老爷子,没什么文化,居然自学起了Python编程,还搞出个“智能喂鸡系统”,这事儿可把整个村子都惊到了。要说这老爷子,平时就爱琢磨些新鲜玩意儿。一开始,大家还以为他是瞎折腾,毕竟都一把年纪了...
- 真上头!清华打造的最全Python教程,通俗易懂,学不会我退出IT圈
-
前言随着人工智能的发展,Python近两年也是大火,越来越多的人加入到Python学习大军,对于毫无基础的人该如何入门Python呢?小编这里整理了一套python编程零基础自学教程,清华大佬196小...
- 如何学好Python技术(怎么才能学会python)
-
现在python发展势头很猛,都想快速学好它,其实学任何一个语言没有太多好的秘诀,一般情况下,还是少不了你努力刻苦的样子。学好一门技术并不容易,很多人推荐学习python,在于比其他语言的约束,或者...
- 如何高效且系统地自学Python?(自己学python怎么学)
-
关于这个问题,我也算有些话语权吧!5年多经验的我,今天和大家分享一套系统性学习Python的方法,几周内系统性地学会Python并不是啥难事!首先,学习Python确立明确的学习目标至关重要。要系统性...
- 使用 Python 监控文件系统(基于python的监控系统)
-
前言在我们使用服务器的时候,有时候需要监控文件或文件夹的变化。例如,定期扫描文件夹下是否有某一类型的文件生成。今天,我们介绍如何使用Python来监控文件系统。在Python中,主要有两个监控...
- Python文件读写最佳实践:关键操作的异常处理
-
在Python中进行文件操作时,合理的异常处理是保证程序健壮性的关键。以下是针对文件操作异常处理的全面指南。一、为什么需要异常处理?文件操作可能失败的常见原因:文件不存在(FileNotFoundEr...
- Python编程笔记(python编程入门与案例详解)
-
1.Python简介Python是一种解释型、高级和通用的编程语言。它通过显著的缩进使用来强调代码的可读性。#HelloWorldprogramprint("Hello,World...
- Python目录与文件操作教程(python word目录)
-
大家好,我是ICodeWR。今天要记录的是如何使用Python进行常见的目录和文件操作。Python提供了强大的内置模块来处理文件和目录操作。1.基本模块介绍Python中主要使用以下模块进行文件...
- 自动创建 Python 的 requirements.txt 文件
-
技术背景在Python开发中,requirements.txt文件用于记录项目所依赖的第三方库及其版本,方便在不同环境中部署项目。然而,当从GitHub下载Python源代码时,有时会缺...
- Python文件操作指南(python 操作文件)
-
一、核心函数open()精解基本语法open(file,mode='r',encoding=None,errors=None,newline=None)关键参数解析1.f...
- Python 实现从文本文件提取数据并分析保存
-
一、引言在日常的数据处理工作中,我们经常会遇到从文本文件中提取特定信息并进行分析的需求。本文将详细介绍如何使用Python编写代码,从一个包含用户网络使用信息的文本文件中提取用户姓名、入站流量和出...
- 22-3-Python高级特性-上下文管理器
-
4-上下文管理器4-1-概念上下文管理器是一种实现了`__enter__()`和`__exit__()`方法的对象;用于管理资源的生命周期,如文件的打开和关闭、数据库连接的建立和断开等。使用...
- python:最简单爬虫之使用Scrapy框架爬取小说
-
python爬虫框架中,最简单的就是Scrapy框架。执行几个命令就能生成爬虫所需的项目文件,我们只需要在对应文件中调整代码,就能实现整套的爬虫功能。以下在开发工具PyCharm中用简单的Demo项目...
- Python爬取小说技术指南(python爬取文章)
-
在Python中爬取小说需要遵循法律法规和网站的服务条款,请确保你有权获取目标内容。以下是使用Python爬取小说的通用技术流程安装依赖库pipinstallrequestsbeauti...
- python原始套接字socket下载http网页文件到txt
-
python原始套接字socket下载http网页文件到txtimportsocketdefdownload_webpage(url,output_file):try:...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (54)
- python安装路径 (54)
- python类型转换 (75)
- python进度条 (54)
- python的for循环 (56)
- python串口编程 (60)
- python写入txt (51)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python qt (52)
- python人脸识别 (54)
- python斐波那契数列 (51)
- python多态 (60)
- python命令行参数 (53)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- centos7安装python (53)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)