抖音录像怎样出字(抖音录像直播怎么做到的)-蓝莓安卓网

背景

语音识别的主流语言中文、英文等开源语料库都很丰富，比如说：THCHS-30、Aishell、LibriSpeech等。但是很多的国家地区的开源语料库却很少，比如：巴基斯坦、巴西、重庆话等。首先对产生这种问题的原因进行简单的分析：语料库需要很大的人力成本需要专人去录制和标注，一般大点的语料库都是上千小时非常费时费力。那作为一个底层的研究人员咱没钱又想整个稍微靠谱点的地方方言语料库咋整呢？

方法&思路

我就简单的构思了一下，这不短视频时代的到来了吗？Tiktok、抖音、B站等一系列短视频平台都有各种地方人群发布地方方言视频并且配字幕的。我就琢磨啊，一个视频里面字幕也有音频也有我是不是可以从里面把这个东西弄出来？下面是我不成熟的思路：

1. 我的目标：获取字幕和对应音频

2. 判断音频开始和结束，一般一个视频的音频和字幕为了让观众看的顺畅，在时间上都是有对应关系。我只需要判断相同字幕开始视频帧和结束视频帧就ok了。

3. 字幕识别这个就是一个OCR(Optical Character Recognition，光学字符识别)。简单来说就是在视频帧上面找字然后转录成文字。

4. 最后把得到的字幕保存在抄本(Transcript.txt)文件里面，其他的以.wav形式保存