近日,邹月娴教授在信号处理方向权威期刊IEEE Signal Processing Letters (SPL) 上发表了题为“Complex Neural Spatial Filter: Enhancing Multi-channel Target Speech Separation in Complex Domain”的学术论文。
目标语音分离任务又称为“鸡尾酒会”问题,是信号处理领域数十年以来仍在攻坚的经典难题,至今仍未得到圆满解决。在复杂声学场景中,除了感兴趣的目标说话人语音之外,还混杂着其他说话人的声音、噪声和这些声音经墙壁及室内物体反射的混响等。目标语音分离任务旨在从混合语音信号中分离出目标说话人的语音信号,是语音识别、人机交互的重要前端。
目前主流的目标语音分离方法是基于有监督学习的目标语音复数时频掩蔽估计方法,其中,以实数数据对分别作为复数时频掩蔽的实数和虚数部分的监督信息。该研究旨在设计一个深度复数神经网络,可以在充分利用多通道语音信号时空频信息的同时,在复数域更高效地直接估计复数时频掩蔽。本研究所提出的目标语音分离框架包括两个模块:复数神经滤波网络和最小方差失真波束形成,其中,复数神经滤波网络用于估计复数时频掩蔽,而最小方差失真波束形成和复数神经滤波器串联以减少神经网络带来的非线性失真。
在特征提取层面,为了匹配复数时频掩蔽目标,复数神经滤波器的输入特征均被重构成复数表征,包括频域特征、空域特征和方向性特征。在主干网络设计方面,本研究设计了一种基于U-Net的复数神经网络,以取得更好的层次化特征提取。
为了验证所提方法的有效性,本研究在从Youtube采集的大规模中文数据上进行实验验证。相较基线神经滤波网络,本研究所提方法取得了12.1%的信号干扰比提升,并降低了33.1%的词错误率。
IEEE Signal Processing Letters是IEEE信号处理协会开办的月刊,属于中科院JCR分区二区期刊,旨在信号、图像、语音、语言和音频处理方面提供原创的前沿想法及重要贡献,影响因子为3.105。北京大学深圳研究生院2017级博士生顾容之为该论文第一作者,邹月娴教授为通讯作者。