MP3 압축 기술
- Frequency Masking Effect를 설명할 수 있다.
- 주파수가 다른 주파수에 묻혀서 들리지 않는 현상
- Perceptual Audio Coder를 설명할 수 있다.
- 음향 심리학에 기반한 오디오 압축 코더, Frequency masking 효과 이용함
- MP3 File Format의 AAU Header를 설명할 수 있다.
- 압축된 음악 신호와 복호에 필요한 헤더 정보 → AAU 단위로 오디오를 재생, 편집할 수 있음
Sound Pressure Level (SPL) ⇒ dB
소리의 크고 작음을 공학적인 지표로 객관화하기 위해 사용
주파수에 따라 달라지는 Phone curve
✅ 주파수에 따라 달라지는 사람이 느끼는 소리의 크기를 그래프(곡선)로 그린 수치
Threshold 곡선: 배경 소리가 전혀 없을 때 하나의 주파수의 소리를 사람에게 들려주어서 지정한 것
Frequency masking effect
주파수가 다른 주파수에 묻혀서 들리지 않는 현상
⇒ 위의 이미지에서 A의 소리때문에 B의 소리는 임계치보다 낮은 소리가 되어 들리지 않음
Perceptual audio coder
음향 심리학에 기반한 오디오 압축 코더, Frequency masking 효과 이용함
✅ 오디오 압축의 기본 단위: Frame
👉 Band Pass Filter
대역 필터 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. 대역 필터(帶域-) 또는 밴드 패스 필터(영어: Band-pass filter)는 특정 주파수 사이의 신호만 통과시키는 필터이다. 위 그림은 밴드 패스 필터의 대역폭(B)의 정의를
ko.wikipedia.org
MP3 Encoding 과정
1-1. Coding Filterbank ⇒ Band Pass Filter 이용
1-2. Perceptual Model ⇒ Frequency masking 이용
2. 위 두가지 변형 신호 Quantization and Rate Control
3. Nodise 변경 및 Bitstream을 변환 ⇒ 코드화된 비트 스트림 전송
4. 1152개의 PCM Sample을 Pholyphase Filter bank로 전송
+ Pholyphase filter bank?? ⇒ 대역폭(주파수)를 32개로 나누는 것
5. MDCT(Modified DCT) 변환
- “MDCT는 타입-IV 이산 코사인 변환(DCT-IV)에 기반한 푸리에 관련 변환이다. 한 블록의 마지막 반쪽이 다음 블록의 첫 번째 반쪽과 동시에 일어나는 더 큰 데이터 집합의 연속 블록을 수행하도록 설계”
- 32개의 band가 Pholyphase filter bank에 있으니, MDCT는 16개의 sub band가 존재
- 32 * 16 = 576개의 Fine Sub-bands 전송
MP3 File Format
앞 뒤에 음성 파일에 대한 메타데이터와 실제 음성 데이터를 감싸는 AAU 포맷의 데이터로 구성됨
MP3 파일 포맷의 오디오 메타데이터
✅ What is ID3??
→ 음반에 대한 메타데이터 정보 표준
MP3 파일 맨 앞에는 ID3 version 2, MP3 파일 맨 뒤에는 ID3 version 1이 존재함
AAU(Audio Access Unit)
압축된 음악 신호와 복호에 필요한 헤더 정보 → AAU 단위로 오디오를 재생, 편집할 수 있음
💡 AAU의 구조
- Header ⇒ AAU 정보
- CRC ⇒ 오류 검출기
- Side Information ⇒ 메인 데이터에 도움이 되는 것
- Main Data ⇒ 메인 데이터 (음성)
- Ancillary Data ⇒ 부가 데이터
AAU의 헤더
- Sync Word → 11bit
- MP3 Version → 2bit
- Layer → 2bit
- CRC → 1bit
- Bitrate → 4bit
- Sampling Frequency → 2bit
- private → 1 bit
- Channel Mode → 2bit (Stereo Mode or Mono Mode 조정)
- Extension Mode → 1bit
- Copyright → 값이 1이면 저작권이 있음
- Original → 값이 1이면 MP3 파일이 원본임
- Emphasis → 오디오를 전송할 때 고주파 잡음에 강하게 하려고 고주파 성분 신호를 증가했음
➕ Joint Stereo
Mid Channel과 Side Channel로 Left Channel, Right Channel을 표시함
✅ Joint Stereo의 개념
미들 슬라이드(Middle Slide) 방식으로, 좌우 각각의 채널의 음향 합성한 후에 좌우의 음을 비교해서 동일한 부분과 다른 부분을 추출한 뒤 동일한 부분을 1개의 데이터로 묶어버리고, 다른 부분은 그대로 남겨 놓는다.
⇒ 저주파 소리는 소리의 시간차로 방향을 인식
⇒ 고주파 성분의 소리는 하나로 합침, 시간차 정보를 사용하지 않음 - 소리 크기의 차로 방향을 인식
⇒ IAD 정보(고주파 성분 정보)를 부호화해서 방향을 기록
⇒ Left, Right Channel을 복원하지 못함 (정보의 손실)
MP3 MDCT 변환
이산 코사인 변환 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. 2차원 DCT와 DFT의 비교 이산 코사인 변환, DCT(discrete cosine transform)는 이산 푸리에 변환(DFT)과 유사한 변환이다. 이산여현변환(離散餘弦變換)이라고 하기도 한다.
ko.wikipedia.org
- MP3 Scale Factor Band 부호화를 설명할 수 있다.
- MP3 인코딩 과정에서 오디오 신호를 주파수 영역에서 여러 대역으로 나누어 각 대역에 대한 압축 수준을 조절하는 방법
- MDCT 변환에 대해 설명할 수 있다.
- 타입4 DCT 변환, 블록 경계로 인한 깨짐을 방지함 - 음성이 부드럽게 처리할 수 있음
- 데이터 중복을 통해 Block Effect를 제거
- Block Effect? ⇒ 블록 단위의 양자화 과정의오차로 인해, 발생되는 화질 열화 현상
오디오 처리 응용
- Impulse Response를 수학적으로 설명할 수 있다.
- Frequency Response를 수학적으로 설명할 수 있다.
- Audio 처리 응용에 대해서 설명할 수 있다
소리 에너지는 거리에 반비례
➕ 소리는 물체에 의해 반사, 분산, 흡수됨
✅ 공간 음향의 특성
- 공간의 기하학적인 모양, 재질, 음원의 위치, 청취자의 위치에 따라 청취자가 듣는 소리가 달라짐
- Reverberation Time으로 측정
❓Reverbation Time
⇒ 강의실의 Reverberation Time은 짧아야 하고, 콘서트 홀의 Reverberation Time은 길어야 한다.
LTI (Linear Time Invariant) System ⇒ 선형 시불변
❓ 함수가 선형성과 시-불변성을 갖는 것
⇒ 이 특징으로 시스템을 예측 가능하게 해준다.
선형 시스템의 특징
- 균일성
- 더해서 넣어서 출력한 거랑, 각각을 출력한 것를 더한 것이랑 서로 같다.
f(x+y) = f(x) + f(y)
- 시불변 시스템
- 시간의 변화가 있어도, 같은 입력에는 같은 출력이 나온다.
y[t - T] = f(t - T)
❗ 물리현상(음성)은 비 선형시스템이지만, 이를 LTI로 근사시켜 분석, 설계 수정할 수 있다.
'이모저모 > AVFoundation' 카테고리의 다른 글
iOS 앨범 이미지 Fetch - PHCachingImageManager로 성능 향상 (0) | 2025.03.24 |
---|---|
12주차. 멀티미디어 시스템 & 스트리밍 (0) | 2024.07.28 |
9주차. 동영상 압축기술(1) (0) | 2024.07.07 |
7주차. 영상처리(Image processing) (0) | 2024.07.07 |
동영상 UIImage 배열로 변환하기 (0) | 2024.06.29 |
댓글