当前位置:首页
> 发言者
会议中主动发言者检测的音视频融合策略
arXiv.org最近的一篇论文提出了一种依赖于音频信息与视频信息相结合的方法。研究人员合并视觉和音频特征以获得稳健的最终检测。分析了两种可能的音频分析方法:一种具有神经网络的监督方法和一种具有扬声器分割和聚类方法的无监督方法。基于3DCNN的纯视觉说话者分类器应用于视觉模态。研究人员比较了两种融合:朴素融合和基于注意


