MENU

研究紹介

高速ブラインド音源分離

音源の方向や位置などの事前情報なしに混合音を分離する信号処理技術をブラインド音源分離と呼びます。従来から、独立成分分析 (independent component analysis; ICA), 独立ベクトル分析 (independent vector analysis; IVA)という手法が研究されてきましたが、多数の反復計算を必要とする問題がありました。これに対し小野教授は2010~2011年に、補助関数型ICA [Ono2010LVAICA], 補助関数型IVA [Ono2011WASPAA]という、従来の20倍以上高速で安定な画期的なアルゴリズムを開発しました。また、ブラインド音源分離を世界で初めて iPhoneアプリとして実装し、iPhone4上で実時間の1/5程度の時間で混合音を分離できることを示しました [Ono2012IWAENC][Ono2012EUSIPCO]
近年はこれを、独立低ランク行列分析 (independent low-rank matrix analysis; ILRMA) [Kitamura2015ICASSP][Kitamura2016TASLP]、独立深層学習行列分析 (independent deeply-learned matrix analysis; IDLMA)という新たな手法へ発展させ、展開しています。また,実応用を目指し、オンライン化 [Taniguchi2014HSCMA],低遅延化 [Sunohara2017ICASSP]のためのアルゴリズムにも取り組んでいます。


関連リンク
SPIE.DSS 2015 Unsupervised Learning ICA Pioneer Award 受賞 (2015年4月23日)
プレスリリース「複数話者の音声を同時認識する新しい音響信号処理技術を開発」 (2016年9月29日)
指導学生の受賞 (北村大地):日本学術振興会 育志賞 (2017年1月31日)
聖徳太子の耳はこうなっていた?複数話者の声を聞き分ける「分離集音技術」 (2017年3月8日)
ICASSP 2018 チュートリアル講演 (2018年4月16日)

非同期マイクロホンアレー

アレー信号処理においては、複数のマイクロフォンで取得する信号間の微小な時間差(例えば、0.1ms程度)が、音源定位や音源分離の重要な手がかりになっています。そのため、各チャンネルが同期していることが必要不可欠でした。一方、我々の身の周りには、様々な録音機能をもつ機器(PC, スマートフォン、ICレコーダー、ビデオカメラなど)があります。こうした同期していない機器でアレー信号処理を行うための新しい信号処理技術を研究しています。例えば、会議の参加者が各自のスマートフォンで会議を録音し、会議後にクラウドにアップすれば、自動的に信号が同期され、音源分離、音声認識されて議事録がメールで送られてくる、といった応用を目指しています。
(デモはこちら

     

関連文献

  • Trung-Kien Le and Nobutaka Ono, "Closed-Form and Near Closed-Form Solutions for TDOA-based Joint Source and Sensor Localization," IEEE Trans. Signal Processing, vol. 65, no.5, pp. 1207-1221, Mar. 2017.
  • Trung-Kien Le and Nobutaka Ono, "Closed-form and Near closed-form Solutions for TOA-based Joint Source and Sensor Localization," IEEE Trans. Signal Processing, vol. 64, no. 18, pp. 4751-4766, Sept. 2016.
  • Keiko Ochi, Nobutaka Ono, Shigeki Miyabe and Shoji Makino, "Multi-talker Speech Recognition Based on Blind Source Separation with Ad hoc Microphone Array Using Smartphones and Cloud Storage," Proc. Interspeech, pp. 3369-3373, Sept. 2016.
  • Trung-Kien Le and Nobutaka Ono, "Closed-form solution for TDOA-based joint source and sensor localization in two-dimensional space," Proc. EUSIPCO, pp. 1373-1377, Sept. 2016.
  • Trung-Kien Le, Nobutaka Ono, Thibault Nowakowski, Laurent Daudet and Julien De Rosny, "Experimental Validation of TOA-based Methods for Microphones Array," Proc. ICASSP, pp. 3216-3220, Mar. 2016.
  • Trung-Kien Le and Nobutaka Ono, "Reference-Distance Estimation Approach for TDOA-based Source and Sensor Localization," Proc. ICASSP, pp. 2549-2553, Apr. 2015.
  • Shigeki Miyabe, Nobutaka Ono and Shoji Makino, "Blind Compensation of Interchannel Sampling Frequency Mismatch for Ad hoc Microphone Array Based on Maximum Likelihood Estimation," Elsevier Signal Processing vol. 107, pp. 185-196, Feb. 2015. (available online)
  • Trung-Kien Le and Nobutaka Ono, "Numerical Formulae for TOA-based Microphone and Source Localization" Proc. IWAENC, pp. 179-183, Sept. 2014.
  • Hironobu Chiba, Nobutaka Ono, Shigeki Miyabe, Yu Takahashi, Takeshi Yamada and Shoji Makino, "Amplitude-based speech enhancement with nonnegative matrix factorization for asynchronous distributed recording, " Proc. IWAENC, pp. 204-208, Sept. 2014.
  • Shigeki Miyabe, Nobutaka Ono and Shoji Makino, "Optimizing Frame Analysis with Non-Integer Shift for Sampling Mismatch Compensation of Long Recording" Proc. WASPAA, Oct. 2013.
  • Shigeki Miyabe, Nobutaka Ono and Shoji Makino, "Blind compensation of inter-channel sampling frequency mismatch with maximum likelihood estimation in STFT domain," Proc. ICASSP, pp.674-678, May 2013.
  • Takuma Ono, Shigeki Miyabe, Nobutaka Ono and Shigeki Sagayama, "Blind Source Separation with Distributed Microphone Pairs Using Permutation Correction by Intra-pair TDOA Clustering," Proc. IWAENC, Aug., 2010.
  • Nobutaka Ono, Hitoshi Kohno, Nobutaka Ito and Shigeki Sagayama, "Blind Alignment of Asynchronously Recorded Signals for Distributed Microphone Array," Proc. WASPAA, pp.161-164, Oct. 2009.

音光変換デバイス「ブリンキー」を用いた分散音響センシング

私たちは「光で音を見る」新しい音情報処理の研究をスタートしました。具体的には、マイクロホンとLEDにより音のパワーを光の明るさに変換する小型デバイス”blinky”を開発しました。このデバイスを分散配置してビデオカメラで撮影することで、通常のマイクロホンのような有線接続や無線通信を必要とせずに、広範囲の音強度信号を簡単に取得することができます。こうして取得した音強度信号を用いた、音源定位、ビームフォーミング、音シーン解析などへの応用を進めています。体育館の 34 x 29 m^2程度のスペースに 101個のブリンキーを配置し、R60=1.5s程度の高い残響下でも音源定位ができることを確認しました。

位相復元

音響信号処理の研究において対象信号のフーリエ変換によって得られる複素スペクトルが一般的に利用されます。なかでも振幅スペクトルに着目した研究が従来行われてきましたが、もう一つのスペクトルである位相スペクトルに着目した研究が近年注目されています。本研究室では、音響信号の位相スペクトルを復元・推定する研究を行っています。 具体的には、「ある振幅スペクトルのみが与えられたときに、それに矛盾のない位相スペクトルを如何に復元するか」、「音響信号の振幅スペクトルと位相スペクトルの数学的な関連はあるのか」に取り組んでいます。

ページトップへ