본문 바로가기
이모저모/AVFoundation

11주차. 오디오 압축 및 처리

by ARpple 2024. 7. 23.

MP3 압축 기술

  1. Frequency Masking Effect를 설명할 수 있다.
    • 주파수가 다른 주파수에 묻혀서 들리지 않는 현상
  2. Perceptual Audio Coder를 설명할 수 있다.
    • 음향 심리학에 기반한 오디오 압축 코더, Frequency masking 효과 이용함
  3. MP3 File Format의 AAU Header를 설명할 수 있다.
    • 압축된 음악 신호와 복호에 필요한 헤더 정보 → AAU 단위로 오디오를 재생, 편집할 수 있음

Sound Pressure Level (SPL) ⇒ dB

소리의 크고 작음을 공학적인 지표로 객관화하기 위해 사용

주파수에 따라 달라지는 Phone curve

✅ 주파수에 따라 달라지는 사람이 느끼는 소리의 크기를 그래프(곡선)로 그린 수치

Threshold 곡선: 배경 소리가 전혀 없을 때 하나의 주파수의 소리를 사람에게 들려주어서 지정한 것

Frequency masking effect

주파수가 다른 주파수에 묻혀서 들리지 않는 현상

⇒ 위의 이미지에서 A의 소리때문에 B의 소리는 임계치보다 낮은 소리가 되어 들리지 않음

Perceptual audio coder

음향 심리학에 기반한 오디오 압축 코더, Frequency masking 효과 이용함

✅ 오디오 압축의 기본 단위: Frame

👉 Band Pass Filter

 

대역 필터 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 대역 필터(帶域-) 또는 밴드 패스 필터(영어: Band-pass filter)는 특정 주파수 사이의 신호만 통과시키는 필터이다. 위 그림은 밴드 패스 필터의 대역폭(B)의 정의를

ko.wikipedia.org

MP3 Encoding 과정

1-1. Coding Filterbank ⇒ Band Pass Filter 이용

1-2. Perceptual Model ⇒ Frequency masking 이용

2. 위 두가지 변형 신호 Quantization and Rate Control

3. Nodise 변경 및 Bitstream을 변환 ⇒ 코드화된 비트 스트림 전송

4. 1152개의 PCM Sample을 Pholyphase Filter bank로 전송

+ Pholyphase filter bank?? ⇒ 대역폭(주파수)를 32개로 나누는 것

5. MDCT(Modified DCT) 변환

  1. “MDCT는 타입-IV 이산 코사인 변환(DCT-IV)에 기반한 푸리에 관련 변환이다. 한 블록의 마지막 반쪽이 다음 블록의 첫 번째 반쪽과 동시에 일어나는 더 큰 데이터 집합의 연속 블록을 수행하도록 설계”
  2. 32개의 band가 Pholyphase filter bank에 있으니, MDCT는 16개의 sub band가 존재
  3. 32 * 16 = 576개의 Fine Sub-bands 전송

 

MP3 File Format

앞 뒤에 음성 파일에 대한 메타데이터와 실제 음성 데이터를 감싸는 AAU 포맷의 데이터로 구성됨

MP3 파일 포맷의 오디오 메타데이터

✅ What is ID3??
     → 음반에 대한 메타데이터 정보 표준
     MP3 파일 맨 앞에는 ID3 version 2, MP3 파일 맨 뒤에는 ID3 version 1이 존재함

 

AAU(Audio Access Unit)

압축된 음악 신호와 복호에 필요한 헤더 정보 → AAU 단위로 오디오를 재생, 편집할 수 있음

💡 AAU의 구조

  1. Header ⇒ AAU 정보
  2. CRC ⇒ 오류 검출기
  3. Side Information ⇒ 메인 데이터에 도움이 되는 것
  4. Main Data ⇒ 메인 데이터 (음성)
  5. Ancillary Data ⇒ 부가 데이터

AAU의 헤더

  1. Sync Word → 11bit
  2. MP3 Version → 2bit
  3. Layer → 2bit
  4. CRC → 1bit
  5. Bitrate → 4bit
  6. Sampling Frequency → 2bit
  7. private → 1 bit
  8. Channel Mode → 2bit (Stereo Mode or Mono Mode 조정)
  9. Extension Mode → 1bit
  10. Copyright → 값이 1이면 저작권이 있음
  11. Original → 값이 1이면 MP3 파일이 원본임
  12. Emphasis → 오디오를 전송할 때 고주파 잡음에 강하게 하려고 고주파 성분 신호를 증가했음

➕ Joint Stereo

Mid Channel과 Side Channel로 Left Channel, Right Channel을 표시함

✅ Joint Stereo의 개념

미들 슬라이드(Middle Slide) 방식으로, 좌우 각각의 채널의 음향 합성한 후에 좌우의 음을 비교해서 동일한 부분과 다른 부분을 추출한 뒤 동일한 부분을 1개의 데이터로 묶어버리고, 다른 부분은 그대로 남겨 놓는다.

⇒ 저주파 소리는 소리의 시간차로 방향을 인식

⇒ 고주파 성분의 소리는 하나로 합침, 시간차 정보를 사용하지 않음 - 소리 크기의 차로 방향을 인식

⇒ IAD 정보(고주파 성분 정보)를 부호화해서 방향을 기록

⇒ Left, Right Channel을 복원하지 못함 (정보의 손실)

MP3 MDCT 변환

 

이산 코사인 변환 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 2차원 DCT와 DFT의 비교 이산 코사인 변환, DCT(discrete cosine transform)는 이산 푸리에 변환(DFT)과 유사한 변환이다. 이산여현변환(離散餘弦變換)이라고 하기도 한다.

ko.wikipedia.org

  1. MP3 Scale Factor Band 부호화를 설명할 수 있다.
    • MP3 인코딩 과정에서 오디오 신호를 주파수 영역에서 여러 대역으로 나누어 각 대역에 대한 압축 수준을 조절하는 방법
  2. MDCT 변환에 대해 설명할 수 있다.
    • 타입4 DCT 변환, 블록 경계로 인한 깨짐을 방지함 - 음성이 부드럽게 처리할 수 있음

  • 데이터 중복을 통해 Block Effect를 제거
    • Block Effect? ⇒ 블록 단위의 양자화 과정의오차로 인해, 발생되는 화질 열화 현상

오디오 처리 응용

  1. Impulse Response를 수학적으로 설명할 수 있다.
  2. Frequency Response를 수학적으로 설명할 수 있다.
  3. Audio 처리 응용에 대해서 설명할 수 있다

소리 에너지는 거리에 반비례

➕ 소리는 물체에 의해 반사, 분산, 흡수됨

공간 음향의 특성

  • 공간의 기하학적인 모양, 재질, 음원의 위치, 청취자의 위치에 따라 청취자가 듣는 소리가 달라짐
  • Reverberation Time으로 측정

❓Reverbation Time

⇒ 강의실의 Reverberation Time은 짧아야 하고, 콘서트 홀의 Reverberation Time은 길어야 한다.

 

LTI (Linear Time Invariant) System ⇒ 선형 시불변

❓ 함수가 선형성과 시-불변성을 갖는 것

⇒ 이 특징으로 시스템을 예측 가능하게 해준다.

선형 시스템의 특징

  1. 균일성
    1. 더해서 넣어서 출력한 거랑, 각각을 출력한 것를 더한 것이랑 서로 같다.
    2. f(x+y) = f(x) + f(y)
  2. 시불변 시스템
    1. 시간의 변화가 있어도, 같은 입력에는 같은 출력이 나온다.
    2. y[t - T] = f(t - T)
❗ 물리현상(음성)은 비 선형시스템이지만, 이를 LTI로 근사시켜 분석, 설계 수정할 수 있다.

댓글