python 下的 word2vec 学习（python in word）

off999 2024-11-03 14:18 45 浏览 0 评论

1.ubuntu下安装gensim

refer to: ubuntu 14.04 安装gensim

为了保证安装成功，首先升级一下easy_install工具。

sudo easy_install -U setuptools
1

之后使用easy_install进行安装，使用apt-get安装会遇到编码出错，不知为什么，使用easy_install安装成功就行了。

sudo easy_install --upgrade gensim
1
2

结果在import gensim 中还出现了点小错误，缺少了平pattern模块，所以直接pip 安装。

sudo pip install pattern
1

2.训练生成模型

安装完成之后，就来训练模型。

refer:中英文维基百科语料上的word2vec实验

模型的训练如下：

# ################# 例1 #########################
# import modules & set up logging
import gensim, logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = [['first', 'sentence'], ['second', 'sentence']]
# train word2vec on the two sentences
model = gensim.models.Word2Vec(sentences, min_count=1)
1
2
3
4
5
6
7
8

在本次的实验中，我们的数据是保存在txt文件中的。每一行对应一个句子（已经分词，以空格隔开），我们可以直接用LineSentence把txt文件转为所需要的格式。

# ################# 例2 #########################
from gensim import Word2Vec
from gensim.Word2Vec import LineSentence
# inp为输入语料
inp = 'wiki.zh.text.jian.seg.txt'
# outp1 为输出模型
outp1 = 'wiki.zh.text.model'
# outp2为原始c版本word2vec的vector格式的模型
outp2 = 'wiki.zh.text.vector'
model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())
model.save(outp1)
model.save_word2vec_format(outp2, binary=False)
1
2
3
4
5
6
7
8
9
10
11
12
13

关于Word2Vec(…) 模型的参数说明（refer to: gensim实现python对word2vec的训练和计算和word2vec使用说明）：

LineSentence(inp)：应该是把word2vec训练模型的磁盘存储文件（model在内存中总是不踏实）转换成所需要的格式；对应的格式是参考上面的例1。 size：是每个词的向量维度； window：是词向量训练时的上下文扫描窗口大小，窗口为5就是考虑前5个词和后5个词； min-count：设置最低频率，默认是5，如果一个词语在文档中出现的次数小于5，那么就会丢弃； workers：是训练的进程数（需要更精准的解释，请指正），默认是当前运行机器的处理器核数。这些参数先记住就可以了。

说明一下输入语料，输入的是文本文件的格式，其中没一行表示一个文章，而且是经过分词处理的。词与词之间用空格隔开就行了。分词的工具有很多，我一般用的是结巴分词（不知道大家以后没有好的分词工具推荐）。一般来说，训练集越大，结果的泛化性越好，对于专业领域的话，最好能使用专业领域的语料来进行训练。

3.导入模型

# -*- coding: utf-8 -*-
# <nbformat>3.0</nbformat>
import gensim
# 导入模型
model = gensim.models.Word2Vec.load("wiki.zh.text.model")
1
2
3
4
5
6

4. 模型使用

可以参照官网上的指导迅速了解model的各种功能方法。

4.0 获取词向量

 print model[u'汽车']
 type(model[u'汽车'])
1
2
# 结果
[ 3.74845356e-01 1.86477005e+00 1.28353190e+00 8.04618478e-01 ... ]
numpy.ndarray
1
2
3

4.1 计算一个词的最近似的词，倒排序

result = model.most_similar(u'足球')
for each in result:
 print each[0] , each[1]
1
2
3
国际足球 0.556692957878
足球运动 0.530436098576
篮球 0.518306851387
国家足球队 0.516140639782
足球队 0.513238489628
足球联赛 0.500901579857
football 0.500162124634
体育 0.499264538288
足球比赛 0.488131582737
冰球 0.48725092411
1
2
3
4
5
6
7
8
9
10

4.2 计算两词之间的余弦相似度

word2vec一个很大的亮点：支持词语的加减运算。（实际中可能只有少数例子比较符合）

>>> model.most_similar(positive=['woman', 'king'], negative=['man'])
[('queen', 0.50882536), ...]
1
2
sim1 = model.similarity(u'勇敢', u'战斗')
sim2 = model.similarity(u'勇敢', u'胆小')
sim3 = model.similarity(u'高兴', u'开心')
sim4 = model.similarity(u'伤心', u'开心')
print sim1 
print sim2
print sim3
print sim4
1
2
3
4
5
6
7
8
0.254622852224
0.38974887559
0.423695453969
0.376244588456
1
2
3
4

4.3 计算两个集合之间的余弦似度

当出现某个词语不在这个训练集合中的时候，会报错！！！。

list1 = [u'今天', u'我', u'很', u'开心']
list2 = [u'空气',u'清新', u'善良', u'开心']
list3 = [u'国家电网', u'再次', u'宣告', u'破产', u'重新']
list_sim1 = model.n_similarity(list1, list2)
print list_sim1
list_sim2 = model.n_similarity(list1, list3)
print list_sim2
1
2
3
4
5
6
7
0.541874230659
0.13056320154
1
2

4.4 选出集合中不同类的词语

list = [u'纽约', u'北京', u'上海', u'西安']
print model.doesnt_match(list)
list = [u'纽约', u'北京', u'上海', u'西瓜']
print model.doesnt_match(list)
1
2
3
4
纽约
西瓜

python操作word

上一篇：用python操作excel、word、pdf会更方便!这篇教会你!拿走不谢
下一篇：python读取图片，并获取每个像素点的二进制值

python 下的 word2vec 学习（python in word）

1.ubuntu下安装gensim

2.训练生成模型

3.导入模型

4. 模型使用

4.0 获取词向量

4.1 计算一个词的最近似的词，倒排序

4.2 计算两词之间的余弦相似度

4.3 计算两个集合之间的余弦似度

4.4 选出集合中不同类的词语

相关推荐

取消回复欢迎你发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

网盘在哪里打开（华为网盘在哪里打开）

苹果手机怎么下载软件并安装

python入门到脱坑输入与输出—str()函数

linux软件（linux软件图标）

16949认证费用是多少（16949审核员太难考了）

python 下的 word2vec 学习（python in word）

1.ubuntu下安装gensim

2.训练生成模型

3.导入模型

4. 模型使用

4.0 获取词向量

4.1 计算一个词的最近似的词，倒排序

4.2 计算两词之间的余弦相似度

4.3 计算两个集合之间的余弦似度

4.4 选出集合中不同类的词语

相关推荐

取消回复欢迎 你 发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

网盘在哪里打开（华为网盘在哪里打开）

苹果手机怎么下载软件并安装

python入门到脱坑 输入与输出—str()函数

linux软件（linux软件图标）

16949认证费用是多少（16949审核员太难考了）

取消回复欢迎你发表评论:

python入门到脱坑输入与输出—str()函数