Nagrania mowy bez zakłóceń (WCAG 2.0 SC 1.4.7, poziom AAA)

Odpowiedni kontrast to nie tylko obraz, ale także nagrania dźwiękowe. Wszelkiego rodzaju wystąpienia, audycje, wykłady, wywiady i inne nagrania zawierające mowę powinny zachować odpowiedni odstęp głośności od tła.

Kryterium sukcesu 1.4.7 dotyczy nagrań dźwiękowych (także zawartych w nagraniach audiowizualnych), w którym główną informacją jest mowa. Takie nagrania nie powinny w ogóle zawierać tła dźwiękowego lub dawać możliwość jego wyłączenia. Jeżeli zaś już takie tło w nagraniu się pojawia, to jego głośność powinna być niższa od mowy o przynajmniej 20 decybeli, co w praktyce oznacza, że powinno być czterokrotnie cichsze. Zasada ta nie dotyczy mowy użytej jako formy ekspresji artystycznej (na przykład w muzyce rap) oraz w różnego rodzaju jinglach i logach dźwiękowych. Z takiego rozwiązania skorzystają:

użytkownicy słabosłyszący,
seniorzy,
każdy użytkownik słuchający nagrania w trudnych warunkach, na przykład w autobusie.

Problem zakłóceń w nagraniach mowy dotyczy osób mających ograniczoną możliwość oddzielenia sygnałów mowy i tła. Wbrew pozorom jest to bardzo duża grupa odbiorców. Tymczasem w wielu stacjach radiowych i podcastach używa się podkładu dźwiękowego, który z jednej strony ma uatrakcyjnić odbiór, a z drugiej – zamaskować ewentualne braki techniczne nagrania. Muzyka puszczana w tle stanowi szum nakładany na podstawową informację i tak należy ją traktować.

Zasada odpowiedniego kontrastu <strongnie dotyczy utworów muzycznych, nawet jeżeli piosenki zawierają fragmenty recytowane. Natomiast dotyczy poezji i prozy, w której dołączono podkład dźwiękowy. W szczególności zaś dotyczy nagrań, gdzie treść przekazywana mową jest kluczowa, na przykład wykładów i przemówień. W takiej sytuacji najlepiej w ogóle zrezygnować z jakiegokolwiek podkładu, a naturalny (gwar na sali, szum urządzeń) wyeliminować za pomocą specjalnych filtrów.