利用Python实现录音播放并翻译,真正的实时进行翻译
off999 2024-11-13 11:43 25 浏览 0 评论
文章目录
- 有了它,实现实时翻译还远吗?
- 一、还有3秒到达战场
- 二、效果展示
- 四、调用API接口的准备工作
- 五、开发过程详细介绍
- (一)准备工作(二)开发1、界面部分2、音频录制部分的开发(2)record()方法的开发(3)stop_and_recognise()方法的开发3、实时语音识别部分的开发
- 五、总结
私信小编001即可获取大量Python学习资料
有了它,实现实时翻译还远吗?
一、还有3秒到达战场
最近,某水果手机厂在万众期待中开了一场没有发布万众期待的手机产品的发布会,发布了除手机外的其他一些产品,也包括最新的水果14系统。几天后,更新了系统的吃瓜群众经过把玩突然发现新系统里一个超有意思的功能——翻译
奇怪的翻译知识增加了!
相比常见的翻译工具,同声翻译工具更具有实用价值,想想不精通其他语言就能和歪果朋友无障碍交流的场景,真是一件美事,不如自己动手实现个工具备用!一个同声翻译工具,逻辑大概可以是先识别,而后翻译,翻译能否成功,识别的准确率是个关键因素。为了降低难度,我决定分两次完成工具开发。首先来实现试试语音识别的部分。
轻车熟路,本次的demo继续调用有道智云API,实现实时语音识别。
二、效果展示
先看看界面和结果哈:
可以选择多种语音,这里只写了四种常见的:
我分别测试的中文、韩文、英文。看着还不错哦~
这里翻译结果,是根据音频一个字、一个字这样实时识别的,由于识别速度比较快,所以看起来木有时间差。
四、调用API接口的准备工作
首先,是需要在有道智云的个人页面上创建实例、创建应用、绑定应用和实例,获取调用接口用到的应用的id和密钥。具体个人注册的过程和应用创建过程详见文章分享一次批量文件翻译的开发过程
五、开发过程详细介绍
(一)准备工作
下面介绍具体的代码开发过程。
首先是根据实时语音识别文档来分析接口的输入输出。接口设计的目的是对连续音频流的实时识别,转换成文本信息并返对应文字流,因此通信采用websocket,调用过程分为认证、实时通信两阶段。
在认证阶段,需发送以下参数:
参数类型必填说明示例appKeyString是已申请的应用IDIDsaltString是UUIDUUIDcurtimeString是时间戳(秒)TimeStampsignString是加密数字签名。sha256signTypeString是数字签名类型v4langTypeString是语言选择,参考支持语言列表zh-CHSformatString是音频格式,支持wavwavchannelString是声道,支持1(单声道)1versionString是api版本v1rateString是采样率16000
签名sign生成方法如下:
signType=v4;
sign=sha256(应用ID+salt+curtime+应用密钥)。
认证之后,就进入了实时通信阶段,发送音频流,获取识别结果,最后发送结束标志结束通信,这里需要注意的是,发送的音频最好是16bit位深的单声道、16k采样率的清晰的wav音频文件,这里我开发时最开始因为音频录制设备有问题,导致音频效果极差,接口一直返回错误码304(手动捂脸)。
(二)开发
这个demo使用python3开发,包括maindow.py,audioandprocess.py,recobynetease.py三个文件。界面部分,使用python自带的tkinter库,来进行语言选择、录音开始、录音停止并识别的操作。audioandprocess.py实现了录音、音频处理的逻辑,最后通过recobynetease.py中的方法来调用实时语音识别API。
1、界面部分
主要元素:
root=tk.Tk()
root.title("netease youdao translation test")
frm = tk.Frame(root)
frm.grid(padx='80', pady='80')
label=tk.Label(frm,text='选择语言类型:')
label.grid(row=0,column=0)
combox=ttk.Combobox(frm,textvariable=tk.StringVar(),width=38)
combox["value"]=lang_type_dict
combox.current(0)
combox.bind("<<ComboboxSelected>>",get_lang_type)
combox.grid(row=0,column=1)
btn_start_rec = tk.Button(frm, text='开始录音', command=start_rec)
btn_start_rec.grid(row=2, column=0)
lb_Status = tk.Label(frm, text='Ready', anchor='w', fg='green')
lb_Status.grid(row=2,column=1)
btn_sure=tk.Button(frm,text="结束并识别",command=get_result)
btn_sure.grid(row=3,column=0)
root.mainloop()选择语言类型之后,开始录音,录音结束后,通过get_result()方法调用接口进行识别。
def get_result():
lb_Status['text']='Ready'
sr_result=au_model.stop_and_recognise()2、音频录制部分的开发
音频录制部分引入pyaudio库(需通过pip安装)来调用音频设备并录制接口要求的wav文件,并调用wave库存储音频文件。
Audio_model类的构造:
def __init__(self, audio_path, language_type,is_recording):
self.audio_path = audio_path, # 录音存储路径
self.audio_file_name='' # 录音文件名
self.language_type = language_type, # 录音语言类型
self.language_dict=["zh-CHS","en","ja","ko"] # 支持的语言,用于从UI出的类型转为接口所需类型
self.language=''
self.is_recording=is_recording # 录音状态
self.audio_chunk_size=1600 # 以下为一些接口所要求的录音参数,采样率、编码、通道等
self.audio_channels=1
self.audio_format=pyaudio.paInt16
self.audio_rate=16000(2)record()方法的开发
record()方法中实现了录音的逻辑,调用pyaudio库,读取音频流,写入文件。
def record(self,file_name):
p=pyaudio.PyAudio()
stream=p.open(
format=self.audio_format,
channels=self.audio_channels,
rate=self.audio_rate,
input=True,
frames_per_buffer=self.audio_chunk_size
)
wf = wave.open(file_name, 'wb')
wf.setnchannels(self.audio_channels)
wf.setsampwidth(p.get_sample_size(self.audio_format))
wf.setframerate(self.audio_rate)
# 读取数据写入文件
while self.is_recording:
data = stream.read(self.audio_chunk_size)
wf.writeframes(data)
wf.close()
stream.stop_stream()
stream.close()
p.terminate()(3)stop_and_recognise()方法的开发
stop_and_recognise()方法将Audio_model的录音状态标记为false,并启动调用有道智云API的方法。
def stop_and_recognise(self):
self.is_recording=False
recognise(self.audio_file_name,self.language_dict[self.language_type])3、实时语音识别部分的开发
有道智云实时语音识别接口使用socket通信,为简化展示逻辑,因此在此处发开了展示识别结果的界面,使用tkinter显示:
#输出结果的窗口
root = tk.Tk()
root.title("result")
frm = tk.Frame(root)
frm.grid(padx='80', pady='80')
text_result = tk.Text(frm, width='40', height='20')
text_result.grid(row=0, column=1)recognise()方法根据接口文档,将所需参数拼接到uri,传给start()方法请求接口:
def recognise(filepath,language_type):
print('l:'+language_type)
global file_path
file_path=filepath
nonce = str(uuid.uuid1())
curtime = str(int(time.time()))
signStr = app_key + nonce + curtime + app_secret
print(signStr)
sign = encrypt(signStr)
uri = "wss://openapi.youdao.com/stream_asropenapi?appKey=" + app_key + "&salt=" + nonce + "&curtime=" + curtime + \
"&sign=" + sign + "&version=v1&channel=1&format=wav&signType=v4&rate=16000&langType=" + language_type
print(uri)
start(uri, 1600)start()方法是实时识别部分的核心方法,通过websocket调用识别接口。
def start(uri):
websocket.enableTrace(True)
ws = websocket.WebSocketApp(uri,
on_message=on_message,
on_error=on_error,
on_close=on_close)
ws.on_open = on_opend
ws.run_forever()在请求接口时,首先读取先前录制的音频文件,并发送:
def on_open(ws):
count = 0
file_object = open(file_path, 'rb') #打开录制的音频
while True:
chunk_data = file_object.read(1600)
ws.send(chunk_data, websocket.ABNF.OPCODE_BINARY) #发送
time.sleep(0.05)
count = count + 1
if not chunk_data:
break
print(count)
ws.send('{\"end\": \"true\"}', websocket.ABNF.OPCODE_BINARY)而后在通信过程中处理接口返回的消息,收集接口返回的识别结果:
def on_message(ws, message):
result=json.loads(message)
resultmessage= result['result'] #解析调用接口的返回结果
if resultmessage:
resultmessage1 = result['result'][0]
resultmessage2 = resultmessage1["st"]['sentence']
print(resultmessage2)
#text_result.insert(tk.END, resultmessage2+'\n')
result_arr.append(resultmessage2)最后在通信结束后展示识别结果:
def on_close(ws):
print_resule(result_arr)
print("### closed ###")
def print_resule(arr):
text_result.delete('1.0',tk.END)
for n in arr:
text_result.insert("insert", n + '\n')五、总结
有道智云提供的接口一如既往的好用,这次开发主要的精力全都浪费在了由于我自己录制的音频质量差而识别失败的问题上,音频质量ok后,识别结果准确无误,下一步就是拿去翻译了,有了有道智云API,实现实时翻译也可以如此简单
相关推荐
- 魔兽争霸3冰封王座官网下载(魔兽争霸3冰封王座1.20e中文版下载_魔兽争霸3下载)
-
没法下载,因为没有说明在什么平台下载可以在网易的官方网站上进行下载,下载地址如下:https://dz.blizzard.cn/下载的时候请选择中间的“平台完整版”,这个版本包含了《魔兽争霸3》游戏本...
- 四人麻将(四人麻将图片)
-
1.标准打法:常规的打缺打法,不附加任何的特殊规则。2.标准下雨:在标准打法的基础上,加入下雨的功能,也就是杠牌。下雨分为明杠和暗杠。明杠:①玩家手中有三张一样的牌,其它玩家打出了第四张一样的牌,...
- 美图秀秀app下载安装免费(美美秀图手机版下载)
-
美图秀秀下载了找不到,应该是因为你的内存的原因,安装失败了。美图秀秀是一款使用很普遍的美图软件,可以满足大多数用户的需求,比如自己p图,或者是拼图都很好。可是,你发现你下载了美图秀秀,却在手机桌面没有...
- 街机游戏厅app(街机游戏厅app大全)
-
以下是几个不错的iOS街机游戏厅:MAME4iOS:这是一款非常流行的iOS街机游戏厅,可以让你在iPhone或iPad上运行多个街机游戏。iCade:这是一款专门为iCade控制器设计的街机游戏...
- 海外加速器下载(加速器中国免费)
-
迅游不能下载海外游戏的原因是因为一些海外游戏需要进行版权验证,而迅游没有获得这些游戏的版权许可。此外,由于不同国家的游戏法规和政策不同,迅游有时需要根据不同的规定进行调整,这也可能会限制用户下载一些海...
- 日语输入法app下载(simeji日语输入法官网下载)
-
谷歌输入法。安卓可以用的最好用的了吧,在设置里下载好所需要语言,打字时按那个切换即可。另外还有一个触宝,个人觉得不如谷歌。可以打出日文的输入法,很不错的日语输入法。安装后请在系统中添加输入法,即可使...
-
- 字体设计网站(字体设计 网站)
-
那就到这个网站,每次只能输入一个字,从小篆到甲骨文:http://www.internationalscientific.org就玩个静态页,很简单啊,教你一个作弊方法(反正你来这里讨教也不是自己完成作业),就是找一个你认为合适你作业要求...
-
2026-01-17 01:51 off999
-
- windows7旗舰版下载地址(win7官方旗舰版下载教程)
-
最简单的方法就是,下载完镜像文件后,直接把镜像文件解压,解压到非C盘,然后在解压文件里面找到setup.exe,点击运行即可。安装系统完成后,在C盘找到一个Windows.old(好几个GB,是旧系统打包在这里,垃圾文件了)删除即可。扩展资...
-
2026-01-17 01:43 off999
- 全民斗地主免费(全民斗地主免费下载·点开即玩版.直达首页.top)
-
趣头条是开发的比较早的一款阅读看新闻资讯以及看视频听音乐能赚钱的软件了,而且在下载软件排行榜上也是名次靠前的存在,这充分说明了这个软件的内容是得到了广大网民的认可和喜爱,趣头条里有很多好玩的游戏包括这...
- 五十本巅峰带颜色的书(五十本巅峰带颜色的书高僧修行手册)
-
《我的时尚穿搭规则》,是中信出版社2011年出版的图书,作者是尼娜·加西亚。 《我的时尚穿搭规则:让你在每个场合都焕发光彩》内容简介:这个时代,任何人都无法拒绝时尚,它和我们的生活息息相关。 “最...
- 7723游戏盒子官方正版(7723游戏盒子官方正版2023)
-
1、7723是通过在互联网上下载和安装得到的。2、因为7723是一款软件,需要从官方网站或第三方下载站点下载。下载过程需要考虑到网络速度、软件版本、安全性等因素,如果没有良好的网络环境或下载方式不正确...
- 广场资源看电视app(搜索电视广场)
-
电视机投屏没有投屏设备的原因是因为手机和电视没有在同一网络下,将电视和手机连接到同一网络即可实现投屏,具体的操作步骤如下:1,打开糖豆广场舞,选择要学习的舞蹈视频并打开2.点击【TV】键,与电视设备连...
- 纯净系统之家官网(纯净系统基地官网)
-
系统之家发布的Win10纯净版是没有预装激活工具的,您需要自行激活。以下是操作步骤:1.打开“设置”页面,选择“更新和安全”选项。2.在左侧菜单栏中,选择“激活”。3.点击“更改产品密钥”按钮,...
- 免费无限破解版游戏大全下载
-
靠谱助手、烧饼、葫芦侠修改器、八门神器、全能破解就是不用花钱就能买游戏里的商品安全岂见打开飞行模式内购更安全不会扣费手机先ROOT,之后下对应的破解软件,这样成功率比较高。虎牙YOWA云游戏...
-
- 视频相册制作软件免费版(视频相册制作下载)
-
电脑端的软件推荐第一个会声会影,会声会影这个软件简单易上手,制作出来电子相册很美,软件本身简单容易操作,没有水印。第二个推荐快剪辑,快剪辑也是一个制作电子相册非常好的软件,这个软件简单易上手,没有什么操作难度。第三个电脑端的软件编辑星,编辑...
-
2026-01-16 23:51 off999
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
Python 批量卸载关联包 pip-autoremove
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
