|
Format MPEG4 Audio jest to najprościej zbiór norm określających
kodowanie naturalnego oraz syntetycznego dźwięku. Części dotyczące kodowania
syntetycznego to SA (Structured Audio) oraz TTSI (Text-to-Speech Interface),
zwierają narzędzia umożliwiające symboliczną definicje muzyki oraz mowy, jak np. MIDI
oraz system "Text-to-Speech". Co więcej, zawarte są tam również narzędzia
do lokalizacji dźwięku 3D, pozwalające na tworzenie naturalnej oraz sztucznej
przestrzeni dźwiękowej. MPEG4 Audio określa także kodowanie dźwięku naturalnego, dla
pasma przesyłania począwszy od 2 kbps. Stosowane są 3 rodzaje kodeków: PARA
(Parametric Codec) dla najniższych przepustowości, CELP (Code Excited Linear Predictive)
dla średnich, oraz TF (Time-Frequency), zawierający MPEG-2 AAC, który pozwala na
uzyskanie najwyższej jakości dźwięku. MPEG4 oferuje także nowe możliwości, jak
kontrola szybkości przesyłania i położenia widma sygnału, wyciszanie błędów oraz
skalowalność, w której skład wchodzi:
1. skalowalność prędkości przesyłania (bit rate
scalability), pozwala na przekształcenie określonego strumienia bitów w strumień o
niższej szybkości przesyłania, umożliwiając bezbłędną transmisję w zmiennych
warunkach.
2. skalowalność pasma przenoszenia, (bandwidth scalability), gdzie określone części
strumienia bitów przesyłają odpowiednie fragmenty widma sygnału. W gorszych warunkach
możliwe jest zawężenie przesyłanego widma, bez szkody dla zrozumiałości materiału.
3. skalowalność złożoności enkodera (encoder complexity scalability), pozwala
enkoderom o różnym stopniu złożoności na generowanie poprawnego oraz zgodnego z
normą sygnału
4. skalowalność złożoności dekodera (decoder complexity scalability), pozwala na
poprawne dekodowanie sygnału przez dekodery o różnym stopniu złożoności
Najogólniej, jakość dźwięku zależy od stopnia złożoności enkodera i dekodera.
5. system korekcji błędów (error robustness) umożliwia dekoderowi korekcję lub
ukrycie słyszalnych zniekształceń spowodowanych błędami w trakcie transmisji.
W MPEG4 jednym ze skalowanych formatów jest standard BASC
(Bit Sliced Arithmetic Coding), sposób kodowania zbliżony jest do AAC, enkoder różni
się jedynie ulepszonym modułem odpowiedzialnym za dynamikę. Dzięki temu, przy
zawężeniu pasma transmisji poniżej 40 kbps, pogorszenie jakości jest prawie
niezauważalne. W praktyce, podczas transmisji enkoder jest w stanie zmieniać pasmo od 16
do 64 kbps, z krokiem 1 kbps.
| MPEG4 Audio |
| Natural Coding |
Synthetic Coding |
| PARA (Parametric Coding) |
Code Excited Linear Predictive
(CELP) |
TF (Time-Frequency) |
SA (Structured Audio) |
TTSI (Text-to-Speech Interface) |
Foramty:
HILN
HVXC |
Format:
NB-CELP |
Foramty:
TwinVQ
AAC
BSAC |
SAOL (Structured Audio Orchestra
Language) |
SASL (Structured Audio Score
Language) |
Symboliczny język opisy mowy. |
SAOL (Structured Audio Orchestra Language) definiuje
"orkiestrę" za pomocą poszczególnych "instrumentów".
"Instrument" jest to niewielka sieć danych dla procesora sygnałowego,
pozwalająca na emulację naturalnego brzmienia instrumentu muzycznego.
SASL (Structured Audio Score Language) jest używany do
tworzenia nowych efektów oraz zawiera informacje służące modyfikowaniu istniejącego
dźwięku Pozwala na lepszą kontrolę syntezy oraz bardziej naturalny efekt końcowy. W
przypadku, gdy nie jest wymagana szczegółowa kontrola, do przesyłania danych o
instrumenatch może być wykorzystany protokół MIDI.
W formacie MPEG4 po raz pierwszy pojawia się także
pojęcie "obiektu audio". Najprościej można go zdefiniować jako słyszalną
część docierającego do odbiorcy materiału dźwiękowego, zakodowaną za pomocą
pojedynczego strumienia bitów. Może to być np. głos jednego lub kilku mówców,
dźwięk jednego lub kilku instrumentów lub tło akustyczne. Obiekty audio mogą być
grupowane oraz miksowane, przy czym rozdzielenie pojedynczego obiektu na mniejsze
składowe jest już dosyć trudne. Możliwości wykorzystania tego sposobu transmisji są
bardzo rozległe:
- do odbiorcy, poprzez 5 kanałów przesyłany jest dźwięk z pięciu różnych
instrumentów wchodzących w skład orkiestry. Odbiorca może np. wyłączyć jeden z
instrumentów i grać razem z pozostałymi członkami zespołu.
- transmisja wydarzeń sportowych w kilku językach
- interaktywne filmy oraz aplikacje video, korzystające z obiektowego opisu sceny, np. w
typowej sekwencji z filmu, rozgrywającej się na dworcu kolejowym, można wyróżnić
kilka obiektów audio:
- rozmowa pomiędzy aktorami, najważniejszy element sceny
- tło akustyczne, np. gwar dworcowy oraz odgłosy nadjeżdżających pociągów
- zapowiedzi speakera o przyjazdach i odjazdach pociągów
- tło muzyczne (ścieżka dźwiękowa)
Każdy z obiektów dźwiękowych może być dowolnie
modyfikowany, zależnie od potrzeb. W trudniejszych warunkach transmisji, możliwe jest
ograniczenie pasma lub całkowite usunięcie obiektów nie mających wpływu na treść
przekazu.
Format MPEG4 oferuje znacznie więcej niż jego poprzednicy: MPEG1 oraz MPEG2. Oprócz
narzędzi umożliwiających kompresję i przesyłanie dźwięku naturalnego, wzbogacony
został o możliwości syntezy dźwięku po stronie odbiorcy oraz skalowania przesyłanego
strumienia bitów. Trwają także prace nad formatem MPEG7, który ma połączyć
większość aplikacji multimedialnych w jedną całość. Pozwoli to na łatwe
zarządzanie multimedialnymi zasobami Internetu: wyszukiwanie, sprzedaż lub
udostępnianie utworów oraz filmów. Nad własnym formatem kompresji dżwieku pracuje
również Microsoft. W połowie kwietnia firma zamierza oficjalnie zaprezentować "MS
Audio 4.0", jak mówią przedstawićiele firmy, format będzie całkowicie
"bezpieczny", ponadto przy kompresji na 64 kbps jakość dżwięku ma być
lepsza od plików MP3 oraz AAC skompresowanych na 128 kbps.
Więcej
informacji o MPEG4 znajduje się na tej stronie.
|