Android音頻編輯之音頻合成功能

2019-10-21 21:26:52

字體：大中小

來源：轉載

供稿：網友

前言

本篇主要講解音頻PCM數據的合成，這里合成包括音頻之間的拼接，混合。

- 音頻拼接：一段音頻連接著另一段音頻，兩段音頻不會同時播放，有先后順序。
- 音頻混合：一段音頻和另一段音頻存在相同的區間，兩者會有同時播放的區間。

下面是音頻拼接，音頻混合的效果圖：

Android,音頻編輯,音頻合成

音頻拼接

如果大家理解了android音頻編輯之音頻轉換PCM與WAV和android音頻編輯之音頻裁剪的原理。那么音頻拼接的原理其實就很好理解了。總的說來就是新建一個音頻文件，將一段音頻的PCM數據復制到新音頻上，再將另一段音頻的PCM數據復制到新音頻上。但這里還是有一些需要注意的。

情景一

假設A音頻40秒，B音頻20秒，B音頻數據拼接到A音頻后面，得到60秒的C音頻文件。

這種情況最簡單了，新建音頻文件C，將A音頻的PCM數據復制到C音頻文件上，再將B音頻的PCM數據復制到C音頻文件上，然后為C音頻寫上wav文件頭信息，得到可播放的WAV文件。

情景二

假設A音頻40秒，B音頻20秒，B音頻數據插入到A音頻10秒的地方，得到60秒的C音頻文件。

這種情況稍微復雜點，新建音頻文件C，將A音頻前10秒的PCM數據復制到C音頻文件上，再將B音頻的PCM數據復制到C音頻文件上，再將A音頻后30秒的PCM數據復制到C音頻文件上，最后為C音頻寫上wav文件頭信息，得到可播放的WAV文件。

情景三

假設A音頻40秒，B音頻20秒，B音頻5至15秒的數據插入到A音頻10秒的地方，得到50秒的C音頻文件。

這種情況更復雜，也是最常見的插入場景，裁剪B音頻并插入到A音頻的某個位置，這里涉及到B音頻數據的裁剪，當然原理其實也是簡單的，計算出B音頻5秒和10秒對應的文件數據位置，然后復制這個區間的數據到C上，針對A文件的數據，也是同樣道理。

情景四

A音頻和B音頻中多段數據相互拼接

這種情況，原理同上面一樣，只要知道指定時間對應的數據是什么，就可以實現自由拼接了。

音頻拼接的實現參考我的Github項目 AudioEdit，這里我就不貼具體代碼了。

音頻混合

音頻混合是指一段音頻和另一段音頻合在一起，能夠同時播放，比如最常見的人聲錄音和背景音樂的合成，可以得到一首人聲歌曲。
音頻混合的原理是

音頻混合原理: 量化的語音信號的疊加等價于空氣中聲波的疊加。

也就是說將輸入的每段音頻的某個時間點的采樣點數值進行相加，即可將聲音信號加入到輸出的音頻中。

音頻采樣點數值的大小是（-32768，32767），對應short的最小值和最大值，音頻采樣點數據就是由一個個數值組成的的。如果單純疊加，可能會造成相加后的值會大于32767，超出short的表示范圍，也就是溢出，所以在音頻混合上回采用一些算法進行處理。下面列舉下簡單的混合方式。

直接疊加法

A（A1,A2,A3,A4）和B（B1,B2,B3,B4）疊加后求平均值，得到C（（A1+B1）,（A2+B2）,（A3+B3）,（A4+B4））
這種情況，輸出的音頻中A和B音頻數據都可以以相同聲音大小播放，但是可能出現溢出的情況。假設A音頻指定時間點的某段采樣數據是（23,67,511,139,307），B音頻對應該時間點的采樣數據是（1101,300,47,600,22），那么兩者直接疊加的話，得到的采樣數據是（1124,367,558,739,329），這個短采樣數據就是兩者聲音混合的數據了。

疊加后求平均值

A（A1,A2,A3,A4）和B（B1,B2,B3,B4）疊加后求平均值，得到C（（A1+B1）/2,（A2+B2）/2,（A3+B3）/2,（A4+B4）/2）
這樣可以避免出現溢出的情況，但是會出現兩者聲音會比之前單獨的聲音小了一半，比如人聲和背景音樂混合，導致輸出的音頻中，人聲小了一半，背景音樂也小了一半，這種情況可能就不是想要的效果，特別是多段音頻混合的情況。

權值疊加法

A（A1,A2,A3,A4）和B（B1,B2,B3,B4）權值疊加，A權值為x，B權值為y，得到C（（A1 * x+B1 * y）,（A2 * x+B2 * y）,（A3 * x+B3 * y）,（A4 * x+B4 * y））
這樣可以更方便條件A和B的音量的大小，比如A的權值為1.2，B的權值為0.8，那么A的聲音相對提高了，B的聲音相對減弱了。嚴格來說，直接疊加法和疊加求平均值法都屬于該類型。

此外還有各種更復雜的混合算法，如動態權值法，A和B的權值會根據當前時刻采樣點數值的大小進行動態變化，得到一個動態增益和衰減的混合方式。

下面是直接疊加法的實現，需要注意short值要按大端存儲的方式計算，存儲時按大端方式存儲。

 /** * 疊加合成器 * @author Darcy */ private static class AddAudioMixer extends MultiAudioMixer{ @Override public byte[] mixRawAudioBytes(byte[][] bMulRoadAudioes) {  if (bMulRoadAudioes == null || bMulRoadAudioes.length == 0)  return null;  byte[] realMixAudio = bMulRoadAudioes[0];  if(bMulRoadAudioes.length == 1)  return realMixAudio;  for(int rw = 0 ; rw < bMulRoadAudioes.length ; ++rw){  if(bMulRoadAudioes[rw].length != realMixAudio.length){   Log.e("app", "column of the road of audio + " + rw +" is diffrent.");   return null;  }  }  //row 代表參與合成的音頻數量  //column 代表一段音頻的采樣點數，這里所有參與合成的音頻的采樣點數都是相同的  int row = bMulRoadAudioes.length;  int coloum = realMixAudio.length / 2;  short[][] sMulRoadAudioes = new short[row][coloum];  //PCM音頻16位的存儲是大端存儲方式，即低位在前，高位在后，例如(X1Y1, X2Y2, X3Y3)數據，它代表的采樣點數值就是(（Y1 * 256 + X1）, （Y2 * 256 + X2）, （Y3 * 256 + X3）)  for (int r = 0; r < row; ++r) {  for (int c = 0; c < coloum; ++c) {   sMulRoadAudioes[r][c] = (short) ((bMulRoadAudioes[r][c * 2] & 0xff) | (bMulRoadAudioes[r][c * 2 + 1] & 0xff) << 8);  }  }  short[] sMixAudio = new short[coloum];  int mixVal;  int sr = 0;  for (int sc = 0; sc < coloum; ++sc) {  mixVal = 0;  sr = 0;  //這里采取累加法  for (; sr < row; ++sr) {   mixVal += sMulRoadAudioes[sr][sc];  }  //最終值不能大于short最大值，因此可能出現溢出  sMixAudio[sc] = (short) (mixVal);  }  //short值轉為大端存儲的雙字節序列  for (sr = 0; sr < coloum; ++sr) {  realMixAudio[sr * 2] = (byte) (sMixAudio[sr] & 0x00FF);  realMixAudio[sr * 2 + 1] = (byte) ((sMixAudio[sr] & 0xFF00) >> 8);  }  return realMixAudio; } }

注意事項

音頻的拼接和混音，有一些是需要注意和處理的。

1. 需要確保A音頻和B音頻的采樣位數一致。例如A音頻是16位采樣位數，B音頻是8位采樣位數，那么這時是不能直接拼接的，需要轉換成相同的采樣位數，才能做后續操作。

2. 需要確保A音頻和B音頻的采樣率一致。這個在錄音和歌曲拼接時要特別注意，假如錄音的音頻頻率是16000，歌曲的音頻是44100，那么兩者也是不能直接拼接的，需要轉換成相同的采樣率，轉換采樣率可以使用resample庫。

3. 需要確保A音頻和B音頻的聲道數一致。當然這個并不是指單聲道和雙聲道的音頻不能合成了，事實上錄音音頻通常是單聲道的，而歌曲通常是雙聲道的。單聲道和雙聲道音頻合成，一般是按雙聲道為基準，需要將單聲道音頻轉換成雙聲道音頻，轉換原理也簡單，將單聲道的采樣點數據多復制一份，比如將單聲道的ABCD數據轉換成雙聲道的AABBCCDD數據。

那么我們可能會有疑問，如果A音頻和B音頻的采樣率位數，采樣率，聲道數不一樣的話，合成后是有效的音頻文件嗎？這個其實是有效的，同樣可以播放，但是會造成合成后的音頻不同部分的音頻播放速度不一樣，例如單聲道的A和雙聲道的B拼接，會造成A部分的播放速度比B的播放速度快一倍，而B的播放速度是正常的。

總結

到這里我想大家已經對音頻的裁剪，拼接，混合的原理有了基本的了解了，不過大家可能會發現輸出的音頻都是WAV或者PCM格式的，而我最終需要的是MP3或者AAC等格式的音頻，那么該如何轉換呢？其實這個就是涉及到音頻的編碼了，mp3編碼可以使用第三方庫mp3lame，AAC編碼可以使用Android自帶的MediaCodec實現。

我的Github項目 AudioEdit

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持VEVB武林網。

注：相關教程知識閱讀請移步到Android開發頻道。

上一篇：Android音頻編輯之音頻轉換PCM與WAV

下一篇：RecyclerView實現探探卡片滑動效果