代码:Github
问题描述
文件
- faceDetector.py 主要的逻辑,识别人脸并说话
- speech_api/jatts.py 谷歌的text2speech api
- trainingData.yml 人脸照片学习之后的模型数据
主要代码
1 | import cv2 |
问题1 卡顿现象
1 | while: |
在while的频率大概10次每秒,在while之中调用api导致突然画面会卡住,有没有让图像处理和声音处理分开的方法。
比如图像的频率10次每秒,声音每秒确认一次是否问好。
问题2 识别精度不够
现在的逻辑是第一次做出username的判断,立刻通过api说话。
但是username的预测现在不稳定,大概十次里面能预测对名字6次,理想状态是三秒左右按多数决给username赋值=>问好。
比如判断成用户1=60次,用户2=40次,所以应该识别成用户1