百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

python 下的 word2vec 学习(python in word)

off999 2024-11-03 14:18 40 浏览 0 评论

1.ubuntu下安装gensim

refer to: ubuntu 14.04 安装gensim

为了保证安装成功,首先升级一下easy_install工具。

sudo easy_install -U setuptools
1

之后使用easy_install进行安装,使用apt-get安装会遇到编码出错,不知为什么,使用easy_install安装成功就行了。

sudo easy_install --upgrade gensim
1
2

结果在import gensim 中还出现了点小错误,缺少了平pattern模块,所以直接pip 安装。

sudo pip install pattern
1

2.训练生成模型

安装完成之后,就来训练模型。

refer:中英文维基百科语料上的word2vec实验

模型的训练如下:

# ################# 例1 #########################
# import modules & set up logging
import gensim, logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = [['first', 'sentence'], ['second', 'sentence']]
# train word2vec on the two sentences
model = gensim.models.Word2Vec(sentences, min_count=1)
1
2
3
4
5
6
7
8

在本次的实验中,我们的数据是保存在txt文件中的。每一行对应一个句子(已经分词,以空格隔开),我们可以直接用LineSentence把txt文件转为所需要的格式。

# ################# 例2 #########################
from gensim import Word2Vec
from gensim.Word2Vec import LineSentence
# inp为输入语料
inp = 'wiki.zh.text.jian.seg.txt'
# outp1 为输出模型
outp1 = 'wiki.zh.text.model'
# outp2为原始c版本word2vec的vector格式的模型
outp2 = 'wiki.zh.text.vector'
model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())
model.save(outp1)
model.save_word2vec_format(outp2, binary=False)
1
2
3
4
5
6
7
8
9
10
11
12
13

关于Word2Vec(…) 模型的参数说明(refer to: gensim实现python对word2vec的训练和计算和word2vec使用说明):

LineSentence(inp):应该是把word2vec训练模型的磁盘存储文件(model在内存中总是不踏实)转换成所需要的格式;对应的格式是参考上面的例1。 size:是每个词的向量维度; window:是词向量训练时的上下文扫描窗口大小,窗口为5就是考虑前5个词和后5个词; min-count:设置最低频率,默认是5,如果一个词语在文档中出现的次数小于5,那么就会丢弃; workers:是训练的进程数(需要更精准的解释,请指正),默认是当前运行机器的处理器核数。这些参数先记住就可以了。

说明一下输入语料,输入的是文本文件的格式,其中没一行表示一个文章,而且是经过分词处理的。词与词之间用空格隔开就行了。分词的工具有很多,我一般用的是结巴分词(不知道大家以后没有好的分词工具推荐)。一般来说,训练集越大,结果的泛化性越好,对于专业领域的话,最好能使用专业领域的语料来进行训练。

3.导入模型

# -*- coding: utf-8 -*-
# <nbformat>3.0</nbformat>
import gensim
# 导入模型
model = gensim.models.Word2Vec.load("wiki.zh.text.model")
1
2
3
4
5
6

4. 模型使用

可以参照官网上的指导迅速了解model的各种功能方法。

4.0 获取词向量

 print model[u'汽车']
 type(model[u'汽车'])
1
2
# 结果
[ 3.74845356e-01 1.86477005e+00 1.28353190e+00 8.04618478e-01 ... ]
numpy.ndarray
1
2
3

4.1 计算一个词的最近似的词,倒排序

result = model.most_similar(u'足球')
for each in result:
 print each[0] , each[1]
1
2
3
国际足球 0.556692957878
足球运动 0.530436098576
篮球 0.518306851387
国家足球队 0.516140639782
足球队 0.513238489628
足球联赛 0.500901579857
football 0.500162124634
体育 0.499264538288
足球比赛 0.488131582737
冰球 0.48725092411
1
2
3
4
5
6
7
8
9
10

4.2 计算两词之间的余弦相似度

word2vec一个很大的亮点:支持词语的加减运算。(实际中可能只有少数例子比较符合)

>>> model.most_similar(positive=['woman', 'king'], negative=['man'])
[('queen', 0.50882536), ...]
1
2
sim1 = model.similarity(u'勇敢', u'战斗')
sim2 = model.similarity(u'勇敢', u'胆小')
sim3 = model.similarity(u'高兴', u'开心')
sim4 = model.similarity(u'伤心', u'开心')
print sim1 
print sim2
print sim3
print sim4
1
2
3
4
5
6
7
8
0.254622852224
0.38974887559
0.423695453969
0.376244588456
1
2
3
4

4.3 计算两个集合之间的余弦似度

当出现某个词语不在这个训练集合中的时候,会报错!!!。

list1 = [u'今天', u'我', u'很', u'开心']
list2 = [u'空气',u'清新', u'善良', u'开心']
list3 = [u'国家电网', u'再次', u'宣告', u'破产', u'重新']
list_sim1 = model.n_similarity(list1, list2)
print list_sim1
list_sim2 = model.n_similarity(list1, list3)
print list_sim2
1
2
3
4
5
6
7
0.541874230659
0.13056320154
1
2

4.4 选出集合中不同类的词语

list = [u'纽约', u'北京', u'上海', u'西安']
print model.doesnt_match(list)
list = [u'纽约', u'北京', u'上海', u'西瓜']
print model.doesnt_match(list)
1
2
3
4
纽约
西瓜

相关推荐

做图片的软件(做图片的软件app)
做图片的软件(做图片的软件app)

有手机版的p图大神可以制作好玩的图片此软件专门进行图片恶搞的,手机用美图秀秀,电脑上用ps推荐7个冷门APP吧,以上APP都是朋友推荐或自己无意间发现的,如有雷同,纯属意外。1.马卡龙玩图:马卡龙玩图是一款非常有趣的修图APP,强大的抠图功...

2026-01-18 17:15 off999

德国vs日本视频直播(德国vs日本视频直播回放)
德国vs日本视频直播(德国vs日本视频直播回放)

世界杯直播德国与日本的比赛是在北京时间的11月23日21点这个时间段举行,这场比赛在卡塔尔世时间则是为16:00点。历史上德国和日本曾经有过2次交手,在2004年12月(日本0-3德国)和2006年5月(德国2-2日本)两队分别进行过2场友...

2026-01-18 17:03 off999

卡牌类手游排行榜第一名(卡牌类手游排行榜第一名是谁)

阴阳师忘川风华录神将三国姬斗无双天地劫:幽成再临月圆之夜阿比斯之旅黑潮之上山海镜花斗罗大陆:武魂觉醒以下是一拳超人手游中常见的卡牌排名:S级卡牌:1.一拳超人(变身)2.童帝(变身)3.杰诺斯A...

英雄联盟手游内测申请(英雄联盟手游内测申请地址)

要申请英雄联盟手游内测资格,您需要先安装好游戏并创建账号。然后根据游戏官方发布的内测申请指南,在指定时间内填写相应的申请表格。一般来说,申请表格会要求您填写以下信息:1.基本个人信息:包括姓名、年龄...

金色影视影视剧(金色影视 tv)

电影《金色池塘》拍摄地是英国南部新汉普郡。《金色池塘》是由马克·雷戴尔执导,凯瑟琳·赫本、亨利·方达等主演的剧情片。该片根据欧内斯特·汤普森的同名戏剧改编而成,讲述了年老的诺曼与女儿之间出现了感情危机...

下载全民k歌免费安装(找回《全民k歌》)

打开全民k歌网页版,打开想要下载的歌曲按F12,点击Network的选项,再按ctrl+R找到里面最大的文件,右键openlinkinnewtab新的页面中右键另存为,就可以下载了1.确保您的手机支...

oa软件排行榜前十名(oa软件下载)

OA办公软件有很多,例如泛微、致远、蓝凌、华天动力、索昂、通达、飞企、微宏、万户、金和、今目标、协众、云之家、泛普、明道、天翎、手册类、安创安全OA、小熊OA等相对大型企业来说,中小型企业的管理规范...

免费下载优酷视频(优酷下载 安装)

首先,你要开通优酷VIP,不然很多电影都下载不了,其次就是打开手机上的优酷,找到自己想看的电影,点击进去,然后再播放页面,点击下面的下载按钮。选择下载版本的质量进行下载,有超清,高清,标清,然后返回到...

qq恢复官网(QQ恢复官网网站)

打开浏览器,然后搜索QQ恢复官方网站,搜索到之后,点击进入;登录帐号,然后选择恢复QQ群,选择要恢复的群,点击确定即可。;注:只能用于找回最近28天内删除的群成员,以及解散、转让的群。如果误删的QQ群...

手机版英雄联盟(手机版英雄联盟有云顶之弈吗)

第一行是id号,也就是账号。第二行是密码。下面两个上到下分别是注册和忘记密码,方框里的是记住账号英雄联盟手游的版本可以通过游戏客户端上方的版本号及官方社交媒体平台上的公告来查看。版本号通常由一串数字和...

gta5手机版免费下正版(gta5手机版免费下正版安卓gwa5)

官方貌似不支持下载游戏因为为正版貌似都是镜像版的希望帮到你正版游戏需要购买正版游戏盘的祝你游戏愉快!什么游戏都可以用修改器修改.不过前提是游戏公司没有限定,如果游戏公司在游戏中已经限定了那一...

pdf阅读器永久免费版(pdf阅读器免费吗)
pdf阅读器永久免费版(pdf阅读器免费吗)

如果仅仅是阅读PDF文档的话。福星PDF阅读器就是永久免费版。美国的Adobereader也是PDF阅读器的永久免费版。PDF是一种专业的文档格式。它具有多种优势。很多专业的文献都通过PDF格式来保存。福星公司是中国优秀的PDF文档阅读...

2026-01-18 14:43 off999

在线文字翻译转换器(文字翻译神器)
  • 在线文字翻译转换器(文字翻译神器)
  • 在线文字翻译转换器(文字翻译神器)
  • 在线文字翻译转换器(文字翻译神器)
  • 在线文字翻译转换器(文字翻译神器)
yy开播工具手机版(yy开播工具手机版官网)

想要将手机连接到YY开播,首先确保手机和电脑处于同一无线网络下,并且电脑已经安装了YY开播软件。在手机上下载并安装YY开播助手APP后,打开该应用并登录自己的YY账号。然后,在YY开播助手APP中选择...

迅游加速器国际版(迅游加速器国际版要钱么)

迅游不能下载海外游戏的原因是因为一些海外游戏需要进行版权验证,而迅游没有获得这些游戏的版权许可。此外,由于不同国家的游戏法规和政策不同,迅游有时需要根据不同的规定进行调整,这也可能会限制用户下载一些海...

取消回复欢迎 发表评论: