2021年1月31日 星期日

bss_eval–an conventional tool for blind source separation

這個工具是Emmanuel Vincent於2006年發表,至今已快過了15年,但我仍在2020年的論文看到有人使用它,因此回想起10年前在法國IRCAM研究的題目,特此紀錄在這久未更新的筆記本上。

根據論文所述,今天我們拿到一個混合音檔(mixture),它是由多個樂器、或同樂器但不同音源發聲所疊加混合而成。假設我們針對某一個目標音源去做分離,分出來的結果通常不完美,而可以用以下的式子表示:

代表該分離的結果包含了target、interference、noise、及artifact等四個成分。如果分離很完美,則後三者成分的值會是 0。接著,論文又定義這四個成份的算法為:

論文用了許多數學式子定義上述各式的變數,我後來試著用向量的方式來表示,試著幫助我自己更瞭解原本的精神。這裡我假設音源有兩個,並將noise那一項拿掉,一方面方便表示,另一方面是一般論文會將noise項歸納成其他音源而不列入計算中。圖如下所示。
其對應SIR, SAR, 及SDR評分的公式如下,單位是dB,顏色可比對上方向量圖:

這裡我直接歸納幾個重點:

  1. SIR跟紅線有關,SAR跟桃線有關,SDR跟藍線有關。
  2. 分離結果的音量大小不影響評分。假設你分離出來的向量是st,就算不是s1,你三項評分都是無限大dB。
  3. 分離的結果只要座落在音源的線性組合空間 (也就是圖中的平面Ps),那SAR會無限大dB。舉個極端例子,就是你直接拿混音當作分離完的結果。
  4. 同上列例子,SIR會很慘。
  5. 要看overall performance還是看SDR較準。

接下來回顧過去的研究日子。

2011年去法國IRCAM時接了一個訊源分離的題目,前人用了這套工具來評估,但評估的"手法"有點特別,當時他將SIR跟SAR放在二維向量的兩個軸,然後企圖營造出「在上方或右方效果較好」的感覺。

我花了時間研究這篇論文的公式,最後畫出了底下這張圖,用向量的方式向當時的指導教授Axel說明我的想法。這應該是我這輩子第一次質疑大家常用的評斷工具,然後應該也是第一次用英文說服處女座的德國人了 (累攤),這大概也導致我之後看到任何評分工具都會帶著質疑的角度去深入理解它。

但老實說,對事物保持懷疑,「盡信書不如無書」的觀念,是受蘇文鈺教授的影響就是了,它幫助我在求知的路上走得更踏實。(不過作法/行為上還是要小心不要得罪人…)