python已經支持WAV格式的書寫,而實時的聲音輸入輸出需要安裝pyAudio。最后我們還將使用pyMedia進行Mp3的解碼和播放。
音頻信號是模擬信號,我們需要將其保存為數字信號,才能對語音進行算法操作,WAV是Microsoft開發的一種聲音文件格式,通常被用來保存未壓縮的聲音數據。
語音信號有四個重要的參數:聲道數、采樣頻率、量化位數(位深)和比特率。
聲道數:可以是單聲道、雙聲道...
采樣頻率(Samplerate):每秒內對聲音信號采樣樣本的總數目,44100Hz采樣頻率意味著每秒鐘信號被分解成44100份。換句話說,每隔144100秒就會存儲一次,如果采樣率高,那么媒體播放音頻時會感覺信號是連續的。
量化位數(Bitdepth):也稱為“位深”,每個采樣點中信息的比特(bit)數。1byte等于8bit。通常有8bit、16bit、24bit、32bit...
比特率(Bitrate):每秒處理多少個Bit。比如一個單聲道,用44.1KHz/16Bit的配置來說,它的比特率就為44100*16*1=705600,單位是bit/s(或者bps),因為通常計算出來的數字都比較大,大家就用kbit/s了,也就是705.6kbit/s。在對音頻進行壓縮時,比特率就成為了我們的一個要選的選項了,越高的比特率,其音質也就越好。一些常用的比特率有:
32kbit/s:一般只適用于語音
96kbit/s:一般用于語音或低質量流媒體
128或160kbit/s:中等比特率質量
192kbit/s:中等質量比特率
256kbit/s:常用的高質量比特率
320kbit/s:MP3標準支持的最高水平
如果你需要自己錄制和編輯聲音文件,推薦使用Audacity,它是一款開源的、跨平臺、多聲道的錄音編輯軟件。在我的工作中經常使用Audacity進行聲音信號的錄制,然后再輸出成WAV文件供Python程序處理。
如果想要快速看語音波形和語譜圖,推薦使用AdobeAudition,他是Adobe公司開發專門處理音頻的專業軟件,微博關注vposy,下載地址見置頂。他破解了很多adobe公司的軟件,包括PS、PR...
以上內容為大家介紹了python音頻信號,希望對大家有所幫助,如果想要了解更多Python相關知識,請關注IT培訓機構:千鋒教育。