24 битный звук. Аудио и видео

Биты, герцы, shaped dithering...

Что скрывается за этими понятиями? При разработке стандарта аудио компакт дисков (CD Audio) были приняты значения 44 кГц, 16 бит и 2 канала (т.е. стерео). Почему именно столько? В чём причина такого выбора, а также - почему предпринимаются попытки повысить эти значения до, скажем, 96 кГц и 24 или даже до 32х битов...

Разберёмся сначала с разрешением сэмплирования - то есть с битностью. Так уж получается, что выбирать приходится между числами 16, 24 и 32. Промежуточные значения были бы, конечно, удобнее в смысле звука, но слишком неприятны для использования в цифровой технике (весьма спорное утверждение, если учесть, что многие АЦП имеют 11 или 12 разрядный цифровой выход - прим. сост.).

За что отвечает этот параметр? В двух словах - за динамический диапазон. Диапазон одновременно воспроизводимых громкостей - от максимальной амплитуды (0 децибел) до той наименьшей, которую позволяет передать разрешение, например, около минус 93 децибел для 16 битного аудио. Как ни странно, это сильно связано с уровнем шумов фонограммы. В принципе, для 16 битного аудио вполне возможна передача сигналов мощностью и в -120 дБ, однако эти сигналы будет затруднительно применять на практике из-за такого фундаментального понятия как шум дискретизации . Дело в том, что при взятии цифровых значений мы всё время ошибаемся, округляя реальное аналоговое значение до ближайшего возможного цифрового. Самая маленькая возможная ошибка - нулевая, максимально же мы ошибаемся на половину последнего разряда (бита, далее термин младший бит будет сокращаться до МБ). Эта ошибка даёт нам так называемый шум дискретизации - случайное несоответствие оцифрованного сигнала оригиналу. Этот шум носит постоянный характер и имеет максимальную амплитуду равную половине младшего разряда. Это можно рассматривать как случайные значения, подмешанные в цифровой сигнал. Иногда это называется шум округления или квантования (что является более точным названием, так как кодирование амплитуды называется квантованием, а дискретизацией называется процесс преобразования непрерывного сигнала в дискретную (импульсную) последовательность -- прим. сост.).

Остановимся подробнее на том, что понимается под мощностью сигналов, измеряемой в битах. Самый сильный сигнал в цифровой обработке звука принято принимать за 0 дБ, это соответствует всем битам, поставленным в 1. Если старший бит (далее СБ) обнулить, получившееся цифровое значение будет в два раза меньше, что соответствует потере уровня на 6 децибел (10 * log(2) = 6). Таким образом, обнуляя единички от старших разрядов к младшим, мы будем уменьшать уровень сигнала на шесть децибел. Понятно, что минимальный уровень сигнала (единичка в младшем разряде, а все остальные разряды - нули) (N-1)*6децибел, где N - разрядность отсчета (сэмпла). Для 16 разрядов получаем уровень самого слабого сигнала - 90 децибел.

Когда мы говорим "половина младшего разряда", мы имеем в виду не -90/2, а половину шага до следующего бита - то есть ещё на 3 децибела ниже, минус 93 децибел.

Возвращаемся к выбору разрешения оцифровки. Как уже было сказано, оцифровка вносит шум на уровне половины младшего разряда, это говорит о том, что запись, оцифрованная в 16 бит, постоянно шумит на минус 93 децибел. Она может передавать сигналы и тише, но шум всё равно остаётся на уровне -93 дБ. По этому признаку и определяется динамический диапазон цифрового звука - там, где соотношение сигнал/шум переходит в шум/сигнал (шумов больше, чем полезного сигнала), находится граница этого диапазона снизу. Таким образом, главный критерий оцифровки - сколько шума мы можем себе позволить в восстановленном сигнале? Ответ на этот вопрос зависит отчасти от того, сколько шума было в исходной фонограмме. Важный вывод - если мы оцифровываем нечто с уровнем шумов минус 80 децибел - нет совершенно никаких причин цифровать это в более чем 16 бит, так как, с одной стороны, шумы -93 дБ добавляют очень мало к уже имеющимся огромным (сравнительно) шумам -80 дБ, а с другой стороны - тише чем -80 дБ в самой фонограмме уже начинается шум/сигнал, и оцифровывать и передавать такой сигнал просто не нужно.

Теоретически это единственный критерий выбора разрешения оцифровки. Больше мы не вносим совершенно никаких искажений или неточностей. Практика, как ни странно, почти полностью повторяет теорию. Этим и руководствовались те люди, которые выбирали разрешение 16 бит для аудио компакт дисков. Шум минус 93 децибел - довольно хорошее условие, которое почти точно соответствует условиям нашего восприятия: разница между болевым порогом (140 децибел) и обычным шумовым фоном в городе (30-50 децибел) составляет как раз около сотни децибел, и если учесть, что на уровне громкости, приносящем боль, музыку не слушают - что ещё несколько сужает диапазон - получается, что реальные шумы помещения или даже аппаратуры получаются гораздо сильнее шумов квантования. Если мы можем расслышать уровень под минус 90 децибел в цифровой записи - мы услышим и воспримем шумы квантования, иначе - мы просто никогда не определим, оцифрованное это аудио или живое. Никакой другой разницы в смысле динамического диапазона просто нет. Но в принципе, человек может осмысленно слышать в диапазоне 120 децибел, и было бы неплохо сохранить весь этот диапазон, с чем 16 бит, казалось бы, не справляются.

Но это только на первый взгляд: с помощью специальной техники, называемой shaped dithering , можно изменить частотный спектр шумов дискретизации, почти полностью вынести их в область более 7-15 кГц. Мы как бы меняем разрешение по частоте (отказываемся от воспроизведения тихих высоких частот) на дополнительный динамический диапазон в оставшемся отрезке частот. В сочетании с особенностями нашего слуха - наша чувствительность к выкидываемой области высоких частот на десятки дБ ниже чем в основной области (2-4 кГц) - это делает возможным относительно бесшумную передачу полезных сигналов дополнительно ещё на 10-20 дБ тише, чем -93 дБ - таким образом, динамический диапазон 16 битного звука для человека составляет около 110 децибел. Да и вообще - одновременно человек просто не может слышать звуки на 110 децибел тише, чем только что услышанный громкий звук. Ухо, как и глаз, подстраивается под громкость окружающей действительности, поэтому одновременный диапазон нашего слуха составляет сравнительно мало - около 80 децибел. Поговорим о dithring-е подробнее после обсуждения частотных аспектов.

Для компакт дисков выбрана частота дискретизации 44100 Гц. Бытует мнение (основанное на неверном понимании теоремы Котельникова-Найквиста), что при этом воспроизводятся все частоты вплоть до 22.05 кГц, однако это не совсем так. Однозначно можно сказать лишь то, что частот выше 22.05 кГц в оцифрованном сигнале нет. Реальная же картина воспроизведения оцифрованного звука всегда зависит от конкретной техники и всегда не так идеальна, как хотелось бы, и как соответствует теории. Все зависит от конкретного ЦАП (цифро-аналогового преобразователя, отвечающего за получение звукового сигнала из цифровой последовательности).

Разберемся сначала, что нам хотелось бы получить. Человек среднего возраста (скорее молодой) может чувствовать звуки от 10 Гц до 20 кГц, осмысленно слышать - от 30 Гц до 16 кГц. Звуки выше и ниже воспринимаются, но не составляют акустических ощущений. Звуки выше 16 кГц ощущаются как раздражающий неприятный фактор - давление на голову, боль, особо громкие звуки приносят такой резкий дискомфорт, что хочется покинуть помещение. Неприятные ощущения настолько сильны, что на этом основано действие охранных устройств - несколько минут очень громкого звука высокой частоты сведут с ума кого угодно, и воровать что либо в такой обстановке становится решительно невозможно. Звуки ниже 30 - 40 Гц при достаточной амплитуде воспринимаются как вибрация, исходящая от объектов (колонок). Вернее будет даже сказать так - просто вибрация. Человек акустически почти не определяет пространственное положение настолько низких звуков, поэтому в ход уже идут другие органы чувств - осязательные, мы чувствуем такие звуки телом.

С высокими частотами все немного хуже, по крайней мере точно сложнее . Почти вся суть усовершенствований и усложнений ЦАП и АЦП направлена как раз на более достоверную передачу высоких частот. Под "высокими" подразумеваются частоты сравнимые с частотой дискретизации - то есть в случае 44.1 кГц это 7-10 кГц и выше.

Представим синусоидальный сигнал с частотой 14 кГц, оцифрованный с частотой дискретизации 44.1 кГц. На один период входной синусоиды приходится около трех точек (отсчетов), и чтобы восстановить исходную частоту в виде синусоиды, надо проявить некоторую фантазию. Процесс восстановления формы сигнала по отсчетам происходит и в ЦАП, этим занимается восстанавливающий фильтр. И если сравнительно низкие частоты представляют собой почти готовые синусоиды, то форма и, соответственно, качество восстановления высоких частот лежит целиком на совести восстанавливающей системы ЦАП.Таким образом, чем ближе частота сигнала к одной второй частоты дискретизации, тем сложнее восстановить форму сигнала.

Это и составляет основную проблему при воспроизведении высоких частот. Проблема, однако, не так страшна, как может показаться. Во всех современных ЦАП используется технология пересэмплирования (multirate), которая заключается в цифровом восстановлении до в несколько раз более высокой частоты дискретизации, и в последующем переводе в аналоговый сигнал на повышенной частоте. Таким образом проблема восстановления высоких частот перекладывается на плечи цифровых фильтров, которые могут быть очень качественными. Настолько качественными, что в случае дорогих устройств проблема полностью снимается - обеспечивается неискаженное воспроизведение частот до 19-20 кГц. Пересэмплирование применяется и в не очень дорогих устройствах, так что в принципе и эту проблему можно считать решенной. Устройства в районе $30 - $60 (звуковые карты) или музыкальные центры до $600, обычно аналогичные по ЦАПу этим звуковым картам, отлично воспроизводят частоты до 10 кГц, сносно - до 14 - 15, и кое-как остальные. Этого вполне достаточно для большинства реальных музыкальных применений, а если кому-то нужно большее качество - он найдет его в устройствах профессионального класса, которые не то чтобы сильно дороже - просто они сделаны с умом.

Вернемся к dithering-у - посмотрим, как можно с пользой увеличить динамический диапазон за пределы 16 бит.

Идея dithering-а заключается в том, чтобы подмешать в сигнал шум . Как ни странно это звучит - для того чтобы уменьшить шумы и неприятные эффекты квантования, мы добавляем свой шум. Рассмотрим пример - воспользуемся возможностью CoolEdit-а работать в 32х битах. 32 бита - это в 65 тысяч раз большая точность, нежели 16 бит, поэтому в нашем случае 32х битный звук можно считать аналоговым оригиналом, а перевод его в 16 бит - оцифровкой. Пусть в исходном 32х битном звуке самый высокий уровень звука соответствует минус 110 децибел. Это с запасом гораздо тише динамического диапазона 16 битного звука, для которого самый слабый различимый звук соответствует уровню минус 90 децибел. Поэтому если просто округлить данные до 16 бит - мы получим полную цифровую тишину.

Добавим в сигнал "белый" шум (т.е. широкополосный и равномерный по всей полосе частот) с уровнем минус 90 децибел, примерно соответствующий по уровню шумам квантования. Теперь, если преобразовать эту сместь сигнала и "белого" шума в 16 бит (возможны только целые значения - 0, 1, -1, ...), то окажется, что какая-то часть сигнала осталась. Там, где исходный сигнал имел больший уровень, больше единиц, где меньший - нулей.

Для экспериментальной проверки изложенного выше способа можно воспользоваться звуковым редактором Cool Edit (или любым другим, поддерживающим 32 битный формат). Чтобы услышать то, что получится, следует усилить сигнал на 14 бит (на 78 дБ).

Результат - зашумленный 16 битный звук, содержащий исходный сигнал, который имел уровень минус 110 децибел. В принципе, это и есть стандартный способ расширения динамического диапазона, получающийся часто чуть ли не сам собой - шума везде хватает. Однако само по себе это довольно бессмысленно - уровень шумов дискретизации так и остаётся на прежнем уровне, а передавать сигнал слабее шума - занятие не очень понятное с точки зрения логики... (Весьма ошибочное мнение, так как передача сигнала с уровнем, который меньше уровня шумов, - это один из фундаментальных методов кодирования данных. Прим. сост.)

Более сложный способ - shaped dithering , заключается в том, что раз мы всё равно не слышим высоких частот в очень тихих звуках, значит, следует основную мощность шума направить в эти частоты, при этом можно даже воспользоваться шумом более высокого уровня - я воспользуюсь уровнем в 4 младших разряда (два бита в 16 битном сигнале). Полученную смесь 32 битного сигнала и шума преобразуем в 16 битный сигнал, отфильтровываем верхние частоты (которые реально не воспринимаются человеком на слух) и повышаем уровень сигнала, чтобы можно было оценить результат.

Это уже вполне хорошая (для запредельно низкой громкости) передача звука, шумы примерно равняются по мощности самому звуку с исходным уровнем минус 110 децибел! Важное замечание: мы повысили реальные шумы дискретизации с половины младшего разряда (-93 дБ) до четырёх младших разрядов (-84 дБ), понизив слышимые шумы дискретизации с -93 дБ до примерно -110 дБ. Отношение сигнал/шум ухудшилось , но шум ушел в высокочастотную область и перестал быть слышимым, что дало существенное улучшение реального (воспринимаемого человеком) отношения сигнал/шум.

(Иными словами, поскольку мощность шума как бы "размазана" по частотному диапазону, то не пропуская верхние частоты, мы отбираем у него часть мощности, в результате чего во временном представлении сигналов улучшается соотношение сигнал/шум. - Прим. сост.)

Практически это уже уровень шумов дискретизации 20 битного звука. Единственное условие этой технологии - наличие частот для шума. 44.1 кГц звук даёт возможность размещать шум в неслышимых на тихой громкости частотах 10-20 кГц. А вот если оцифровывать в 96 кГц - частотная область для шума (неслышимая человеком) будет настолько велика, что при использовании shaped dithering 16 бит реально превращаются и во все 24.

[На заметку: PC Speaker - однобитное устройство, с однако довольно высокой максимальной частотой дискретизации (включения/выключения этого единственного бита). С помощью процесса, сходного по сути с dithering-ом, называемым скорее широтно-импульсная модуляция, на нём игрался довольно качественный цифровой звук - из одного бита и высокой частоты дискретизации вытягивались 5-8 бит низкой частоты, а фильтром высокочастотного шума выступала неспособность аппаратуры воспроизводить столь высокие частоты, как впрочем и наша неспособность их слышать. Лёгкий высокочастотный свист, однако - слышимая часть этого шума - был слышен.]

Таким образом, shaped dithering позволяет существенно понизить и без того низкие шумы дискретизации 16 битного звука, спокойно расширив таким образом полезный (бесшумный) динамический диапазон на всю область человеческого слуха. Поскольку сейчас уже всегда при переводе из рабочего формата 32 бит в конечный 16 бит для CD используется shaped dithering - наши 16 бит совершенно достаточны для полной передачи звуковой картины.

Следует отметить, что эта технология действует только на этапе подготовки материала к воспроизведению. Во время обработки качественного звука просто необходимо оставаться в 32х битах, чтобы не применять dithering после каждой операции, более качественно кодируя результаты обратно в 16 бит. Но если уровень шума фонограммы составляет более минус 60 децибел - можно без малейших зазрений совести вести всю обработку в 16 битах. Промежуточный dithering обеспечит отсутствие искажений округления, а добавленный им шум в сотни раз слабее уже имеющегося и поэтому совершенно безразличен.

Q:
Почему говорят, что 32-х битный звук качественнее 16 битного?
A1: Ошибаются.
A2: [Имеют в виду немного другое: при обработке или записи звука нужно использовать большее разрешение. Этим пользуются всегда . Но в звуке как в готовой продукции разрешение более 16 бит не требуется.]
Q: Имеет ли смысл увеличивать частоту дискретизации (например до 48 кГц или до 96)?
A1: Не имеет. При хоть сколь грамотном подходе в конструировании ЦАП 44 кГц передают весь необходимый частотный диапазон.
A2: [Имеют в виду немного другое: это имеет смысл, но лишь при обработке или записи звука.]
Q: Почему всё же идет внедрение больших частот и битности?
A1: Прогрессу важно двигаться. Куда и зачем - уже не столь важно...
A2: Многие процессы в этом случае происходят легче. Если, например, устройство собирается обработать звук - ему будет легче это сделать в 96 кГц / 32 бита. Почти все DSP используют 32 бита для обработки звука, и возможность забыть про преобразования - облегчение разработки и всё же небольшое увеличение качества. Да и вообще - звук для дальнейшей обработки имеет смысл хранить в большем разрешении, нежели 16 бит. Для hi-end устройств которые лишь воспроизводят звук это абсолютно безразлично.
Q: 32х или 24х или даже 18 битные ЦАП лучше чем 16 битные?
A: В общем случае - нет . Качество преобразования нисколько не зависит от битности. В AC"97 кодеке (современная звуковая карта до $50) используется 18 битный кодек, а в картах за $500, звук которых с этой ерундой даже сравнивать нельзя - 16 битный. Это не имеет абсолютно никакого значения для воспроизведения 16 битного звука .
Стоит также иметь в виду, что большинство ЦАПов обычно реально воспроизводят меньше бит, чем берутся. Например, реальный уровень шумов типичного дешевого кодека составляет -90 дБ, что составляет 15 бит, и даже если он сам 24х битный - вы не получите никакой отдачи от "лишних" 9 бит - результат их работы, даже если он имелся, потонет в их же собственном шуме. Большинство же дешевых устройств просто игнорируют дополнительные биты - они просто реально не идут в расчет в их процессе синтеза звука, хотя и поступают на цифровой вход ЦАПа.
Q: А для записи?
A: Для записи - лучше иметь АЦП большей разрядности. Опять же, большей реальной разрядности. Разрядность ЦАПа должна соответствовать уровню шумов исходной фонограммы, или просто быть достаточной для достижения желаемо низкого уровня шума .
Также удобно бывает иметь разрядность с запасом, чтобы использовать повышенный динамический диапазон для менее точной регулировки уровня записи. Но помните - вы должны всегда попадать в реальный диапазон кодека. В реальности 32х битный АЦП, к примеру, почти полностью бессмысленнен , так как младший десяток бит будут просто непрерывно шуметь - настолько малого шума (под -200 дБ) просто не бывает в аналоговом музыкальном источнике.

Требовать от звука повышенной разрядности или частоты дискретизации, по сравнению с CD, лучшего качества - не стоит. 16 бит / 44 кГц, доведённые до предела с помощью shaped dithering, вполне способны полностью передать интересующую нас информацию, если дело не идет о процессе звукообработки. Не стоит тратить место на лишние данные готового материала, также как не стоит ожидать повышенного качества звука от DVD-Audio с его 96 кГц / 24 бит. При грамотном подходе при создании звука в формате стандартного CD мы будем иметь качество, которое просто не нуждается в дальнейшем улучшении, а ответственность за правильную звукозапись конечных данных давно взяли на себя разработанные алгоритмы и люди, умеющие правильно их использовать. В последние несколько лет вы уже не найдете нового диска без shaped dithering и других приемов доведения качества звукопередачи до предела. Да, ленивым или просто криворуким будет удобнее давать готовый материал в 32х битах и 96 кГц, но по идее - стоит ли это в несколько раз больших аудио данных?..

Что является одним из наиболее распространенных и глубоко укоренившихся заблуждений в мире меломанов?

Сохранить и прочитать потом -

Прим. перев.: Это перевод второй (из четырех) частей развернутой статьи Кристофера «Монти» Монтгомери (создателя Ogg Free Software и Vorbis) о том, что, по его мнению, является одним из наиболее распространенных и глубоко укоренившихся заблуждений в мире меломанов.

Частота 192 кГц считается вредной

Музыкальные цифровые файлы с частотой 192 кГц не приносят никакой выгоды, но всё же оказывают кое-какое влияние. На практике оказывается, что их качество воспроизведения немного хуже, а во время воспроизведения возникают ультразвуковые волны.

И аудиопреобразователи, и усилители мощности подвержены влиянию искажений, а искажения, как правило, быстро нарастают на высоких и низких частотах. Если один и тот же динамик воспроизводит ультразвук наряду с частотами из слышимого диапазона, то любая нелинейная характеристика будет сдвигать часть ультразвукового диапазона в слышимый спектр в виде неупорядоченных неконтролируемых нелинейных искажений, охватывающих весь слышимый звуковой диапазон. Нелинейность в усилителе мощности приведет к такому же эффекту. Эти эффекты трудно заметить, но тесты подтвердили, что оба вида искажений можно расслышать.

График выше показывает искажения, полученные в результате интермодуляции звука частотой 30 кГц и 33 кГц в теоретическом усилителе с неизменным коэффициентом нелинейных искажений (КНИ) около 0.09%. Искажения видны на протяжении всего спектра, даже на меньших частотах.

Неслышимые ультразвуковые волны способствуют интермодуляционным искажениям в слышимом диапазоне (светло-синяя зона). Системы, не предназначенные для воспроизведения ультразвука, обычно имеют более высокие уровни искажений, около 20 кГц, дополнительно внося вклад в интермодуляцию. Расширение диапазона частот для включения в него ультразвука требует компромиссов, которые уменьшат шум и активность искажений в пределах слышимого спектра, но в любом случае ненужное воспроизведение ультразвуковой составляющей ухудшит качество воспроизведения.

Есть несколько способов избежать дополнительных искажений:

  1. Динамик, предназначенный только для воспроизведения ультразвука, усилитель и разделитель спектра сигнала, чтобы разделить и независимо воспроизводить ультразвук, который вы не можете слышать, чтобы он не влиял на другие звуки.
  2. Усилители и преобразователи, спроектированные для воспроизведения более широкого спектра частот так, чтобы ультразвук не вызывал слышимых нелинейных искажений. Из-за дополнительных затрат и сложности исполнения, дополнительный частотный диапазон будет уменьшать качество воспроизведения в слышимой части спектра.
  3. Качественно спроектированные динамики и усилители, которые совсем не воспроизводят ультразвук.
  4. Для начала можно не кодировать такой широкий диапазон частот. Вы не можете (и не должны) слышать ультразвуковые нелинейные искажения в слышимой полосе частот, если в ней нет ультразвуковой составляющей.

Все эти способы нацелены на решение одной проблемы, но только 4 способ имеет какой-то смысл.

Если вам интересны возможности вашей собственной системы, то нижеследующие сэмплы содержат: звук частотой 30 кГц и 33 кГц в формате 24/96 WAV, более длинную версию в формате FLAC, несколько мелодий и нарезку обычных песен с частотой, приведенной к 24 кГц так, что они полностью попадают в ультразвуковой диапазон от 24 кГц до 46 кГц.

Тесты для измерения нелинейных искажений:

  • Звук 30 кГц + звук 33 кГц (24 бит / 96 кГц)
  • Мелодии 26 кГц – 48 кГц (24 бит / 96 кГц)
  • Мелодии 26 кГц – 96 кГц (24 бит / 192 кГц)
  • Нарезка из песен, приведенных к 24 кГц (24 бит / 96 кГц WAV) (оригинальная версия нарезки) (16 бит / 44.1 кГц WAV)

Предположим, что ваша система способна воспроизводить все форматы с частотами дискретизации 96 кГц . При воспроизведении вышеуказанных файлов, вы не должны слышать ничего, ни шума, ни свиста, ни щелчков или каких других звуков. Если вы слышите что-то, то ваша система имеет нелинейную характеристику и вызывает слышимые нелинейные искажения ультразвука. Будьте осторожны при увеличении громкости, если вы попадете в зону цифрового или аналогового ограничения уровня сигнала, даже мягкого, то это может вызвать громкий интермодуляционный шум.

В целом, не факт, что нелинейные искажения от ультразвука будут слышимы на конкретной системе. Вносимые искажения могут быть как незначительны, так и довольно заметны. В любом случае, ультразвуковая составляющая никогда не является достоинством, и во множестве аудиосистем приведет к сильному снижению качества воспроизведения звука. В системах, которым она не вредит, возможность обработки ультразвука можно сохранить, а можно вместо этого пустить ресурс на улучшение качества звучания слышимого диапазона.

Недопонимание процесса дискретизации

Теория дискретизации часто непонятна без контекста обработки сигналов. И неудивительно, что большинство людей, даже гениальные доктора наук в других областях, обычно не понимают её. Также неудивительно, что множество людей даже не осознают, что понимают её неправильно.

Дискретизированные сигналы часто изображают в виде неровной лесенки, как на рисунке выше (красным цветом), которая выглядит как грубое приближение к оригинальному сигналу. Однако такое представление является математически точным, и когда происходит преобразование в аналоговый сигнал, его график становится гладким (голубая линия на рисунке).

Наиболее распространенное заблуждение заключается в том, что, якобы, дискретизация – процесс грубый и приводит к потерям информации. Дискретный сигнал часто изображается как зубчатая, угловатая ступенчатая копия оригинальной идеально гладкой волны. Если вы так считаете, то можете считать, что чем больше частота дискретизации (и чем больше бит на отсчет), тем меньше будут ступеньки и тем точнее будет приближение. Цифровой сигнал будет все больше напоминать по форме аналоговый, пока не примет его форму при частоте дискретизации, стремящейся к бесконечности.

По аналогии, множество людей, не имеющих отношения к цифровой обработке сигналов, взглянув на изображение ниже, скажут: «Фу!» Может показаться, что дискретный сигнал плохо представляет высокие частоты аналоговой волны, или, другими словами, при увеличении частоты звука, качество дискретизации падает, и частотная характеристика ухудшается или становится чувствительной к фазе входного сигнала.

Это только так выглядит. Эти убеждения неверны!

Комментарий от 04.04.2013: В качестве ответа на всю почту, касательно цифровых сигналов и ступенек, которую я получил, покажу реальное поведение цифрового сигнала на реальном оборудовании в нашем видео Digital Show & Tell , поэтому можете не верить мне на слово.

Все сигналы частотой ниже частоты Найквиста (половина частоты дискретизации) в ходе дискретизации будут захвачены идеально и полностью, и бесконечно высокая частота дискретизации для этого не нужна. Дискретизация не влияет на частотную характеристику или фазу. Аналоговый сигнал может быть восстановлен без потерь – таким же гладким и синхронным как оригинальный.

С математикой не поспоришь, но в чем же сложности? Наиболее известной является требование ограничения полосы. Сигналы с частотами выше частоты Найквиста должны быть отфильтрованы перед дискретизацией, чтобы избежать искажения из-за наложения спектров. В роли этого фильтра выступает печально известный сглаживающий фильтр. Подавление помехи дискретизации, на практике, не может пройти идеально, но современные технологии позволяют подойти к идеальному результату очень близко. А мы подошли к избыточной дискретизации.

Избыточная дискретизация

Частоты дискретизации свыше 48 кГц не имеют отношения к высокой точности воспроизведения аудио, но они необходимы для некоторых современных технологий. Избыточная дискретизация (передискретизация) – наиболее значимая из них .

Идея передискретизации проста и изящна. Вы можете помнить из моего видео «Цифровое мультимедиа. Пособие для начинающих гиков», что высокие частоты дискретизации обеспечивают гораздо больший разрыв между высшей частотой, которая нас волнует (20 кГц) и частотой Найквиста (половина частоты дискретизации). Это позволяет пользоваться более простыми и более надежными фильтрами сглаживания и увеличить точность воспроизведения. Это дополнительное пространство между 20 кГц и частотой Найквиста, по существу, просто амортизатор для аналогового фильтра.

На рисунке выше представлены диаграммы из видео «Цифровое мультимедиа. Пособие для начинающих гиков», иллюстрирующие ширину переходной полосы для ЦАП или АЦП при частоте 48 кГц (слева) и 96 кГц (справа).

Это только половина дела, потому что цифровые фильтры имеют меньше практических ограничений в отличие от аналоговых, и мы можем завершить сглаживание с большей точностью и эффективностью. Высокочастотный необработанный сигнал проходит сквозь цифровой сглаживающий фильтр, который не испытывает проблем с размещением переходной полосы фильтра в ограниченном пространстве. После того, как сглаживание завершено, дополнительные дискретные отрезки в амортизирующем пространстве просто откидываются. Воспроизведение передискретизированного сигнала проходит в обратном порядке.

Это означает, что сигналы с низкой частотой дискретизации (44.1 кГц или 48 кГц) могут обладать такой же точностью воспроизведения, гладкостью АЧХ и низким уровнем наложений, как сигналы с частотой дискретизации 192 кГц или выше, но при этом не будет проявляться ни один из их недостатков (ультразвуковые волны, вызывающие интермодуляционные искажения, увеличенный размер файлов). Почти все современные ЦАП и АЦП производят избыточную дискретизацию на очень высоких скоростях, и мало кто об этом знает, потому что это происходит автоматически внутри устройства.

ЦАП и АЦП не всегда умели передискретизировать. Тридцать лет назад некоторые звукозаписывающие консоли использовали для звукозаписи высокие частоты дискретизации, используя только аналоговые фильтры. Этот высокочастотный сигнал потом использовался для создания мастер-дисков. Цифровое сглаживание и децимация (повторная дискретизация с более низкой частотой для CD и DAT) происходили на последнем этапе создания записи. Это могло стать одной из ранних причин, почему частоты дискретизации 96 кГц и 192 кГц стали ассоциироваться с производством профессиональных звукозаписей.

16 бит против 24 бит

Хорошо, теперь мы знаем, что сохранять музыку в формате 192 кГц не имеет смысла. Тема закрыта. Но что насчет 16-битного и 24-битного аудио? Что же лучше?

16-битное аудио с импульсно-кодовой модуляцией действительно не полностью покрывает теоретический динамический звуковой диапазон, который способен слышать человек в идеальных условиях. Также есть (и будут всегда) причины использовать больше 16 бит для записи аудио.

Ни одна из этих причин не имеет отношения к воспроизведению звука – в этой ситуации 24-битное аудио настолько же бесполезно, как и дискретизация на 192 кГц. Хорошей новостью является тот факт, что использование 24-битного квантования не вредит качеству звучания, а просто не делает его хуже и занимает лишнее место.

Примечания к Части 2

6. Многие из систем, которые неспособны воспроизводить сэмплы 96 кГц, не будут отказываться их воспроизводить, а будут незаметно субдискретизировать их до частоты 48 кГц. В этом случае звук не будет воспроизводиться совсем, и на записи ничего не будет, вне зависимости от степени нелинейности системы.

7. Передискретизация – не единственный способ работы с высокими частотами дискретизации в обработке сигналов. Есть несколько теоретических способов получить ограниченный по полосе звук с высокой частотой дискретизации и избежать децимации, даже если позже он будет субдискретизирован для записи на диски. Пока неясно, используются ли такие способы на практике, поскольку разработки большинства профессиональных установок держатся в секрете.

8. Неважно, исторически так сложилось или нет, но многие специалисты сегодня используют высокие разрешения, потому что ошибочно полагают, что звук с сохраненным содержимым за пределами 20 кГц звучит лучше. Прямо как потребители.

Доступные на сегодняшнем рынке high-end звуковые карты предлагают множество функций, чтобы удовлетворить требования широких масс потребителей. Звуковые карты потребительского уровня могут не соответствовать специализированным критериям профессионального использования, но сегодня они поддерживают несколько современных аудио-технологий, включая многоканальный звук (Dolby Digital, DTS и другие).

Из карт в нашем сравнительном тестировании Creative Platinum и Platinum EX поддерживают 6.1, Terratec Aureon Sky является картой 5.1 и Aureon Space - 7.1. Вы сможете найти подходящий для вас продукт, начиная с классического Dolby Digital и заканчивая наиболее проработанной версией многоканального звука. Конечно, не следует забывать, что очень немного DVD имеют что-либо другое, помимо доступных пяти каналов звука.

Следует также отметить, что возможности вашей звуковой карты зависят от программного обеспечения. Для работы со звуком на 192 кГц вам необходимо установить Windows XP Service Pack 1. Для работы в режиме 7.1 использование Windows XP просто обязательно, поскольку в старых системах вы будете ограничены звуком 6.1.

Карты Creative используют широко известный чип Audigy 2, базирующийся на мощном ЦСП/DSP (цифровой сигнальный процессор), работающим на 32 битах с частотой 48 кГц. Чип и связанные с ним компоненты скомбинированы с 24-битными преобразователями, способными работать на частоте до 192 кГц при проигрывании и 96 кГц при записи.

Однако здесь следует отметить несоответствие. Хотя Audigy 2 может осуществлять прямую запись на диск в формате 24 бита/96 кГц, подобный поток не может обрабатываться ЦСП. Так что эффектов реального времени ожидать не следует.

Карты Creative различаются по набору компонентов: на версии Platinum присутствует схема Sigmatel STAC9721T (18 бит/48 кГц), которая отвечает за внутренние аналоговые входы на карте PCI.

На версии Platinum EX подобной возможности нет, поэтому карта PCI не имеет аналоговых входов. Аудио потоки проходят через шину PCI. То есть вы можете забыть об использовании аудио-кабеля приводов CD или DVD, и в то же время, вы не сможете подключать любую периферию внутри компьютера.

Что касается Terratec, то здесь используется чип VIA Envy 24 HT. Чип является производной Envy 24 и нацелен на высококачественное воспроизведение. Он поддерживает 24 бита на частоте до 192 кГц максимум с 8 каналами выхода (7.1).

С другой стороны, чип обеспечивает только два 24-битных входных канала, поскольку он не предназначен для записи многоканальных дорожек. Для внутренних аналоговых входов на карте Terratec используется 18-битный чип Sigmatel STAC9744T, работающий на 48 кГц.

Envy 24HT не предлагает множества опций по обработке звука. В то же время чип может работать на широком диапазоне частот.

Поэтому концепции карт Creative и Terratec существенно отличаются. Creative использует мощный встроенный ЦСП, который ограничен частотой дискретизации 48 кГц. ЦСП позволяет накладывать множество эффектов реального времени без обращения к вычислительным ресурсам центрального процессора.

Terratec выбрала иной путь: процессор не обеспечивает функций ЦСП в привычном понимании. Поэтому эффекты зависят от программного обеспечения и производительности центрального процессора.

Карта Audigy 2 Platinum обеспечивает большое разнообразие возможностей по подключению. В случае с Platinum, к примеру, в 5,25" отсек спереди ПК вставляется специальный модуль, так что вам может понадобиться большой корпус.

В случае с Platinum EX модуль выполнен в виде внешней коробки, подключённой по кабелю к карте PCI. Несмотря на двойную работу, ещё и в роли интерфейса FireWire, кабель относительно гибкий и тонкий.

Единственное неудобство с подобными интерфейсами заключается в относительно сложной установке из-за многочисленных подключений, особенно это относится к питанию. Если для Platinum прилагается кабель-удлинитель питания, то для Platinum EX вам понадобится свободный разъём питания. Лучше всего будет докупить Y-разветвитель.

Конечно же, существует версия Audigy 2 и без внешнего модуля, к тому же она стоит намного дешевле. Её возможности очень близки к Audigy 2 Platinum, но там присутствуют и ограничения. Карта работает только с драйверами ASIO, поддерживающими 16 бит и 48 кГц. Впрочем, как и более продвинутые модели, карта способна считывать DVD-аудио на 192 кГц и поддерживает многие другие модные функции.

Упрощённая карта обеспечивает шесть (5.1) линейных выходов и один общий выход (цифровой и седьмой канал для 6.1). Вы даже можете добавить интерфейс FireWire в свой ПК. Хороший выбор, если вы планируете проигрывать аудио- и видео-DVD.

Audigy 2
Интерфейс PCI
Аудио чип Audigy 2 CA0102-IAT
192 кГц
24 бит
ASIO 16 бит/48 кГц
MIDI/игровой порт Да
Входы
Встроенные line-in, mic, FireWire
На плате
Передняя панель -
Выходы
На плате 3x line-out (6.1), 1x digital-out, Creative
Передняя панель -
DVD и кинотеатр
Стандарты Dolby Digital, DTS через S/PDIF-выход
Конфигурация до 6.1
DVD-аудио да, до192 кГц
3D-звук в играх
Стандарты
Конфигурация 2x 6.1
MIDI
Аппаратный синтезатор 32 канала, 64 голоса
Программный синтезатор Creative, 16 каналов

Разместив Platinum EX во внешнем корпусе, Creative смогла интегрировать все разъёмы на этот модуль, за исключением выходов на колонки, которые вполне логично продолжают оставаться на карте. Там находятся три 3,5 мм гнезда: два двухканальных гнезда для фронтальных и тыловых колонок, и третье гнездо на три канала (центральный передний, центральный задний и низкочастотный). Выходы продолжают оставаться совместимыми с системой 5.1: если вы сконфигурируете карту подобным образом и вставите двухканальный разъём, всё будет работать.

Во внешнем корпусе доступны шесть входных каналов, разделённых на три стерео-входа. Среди них два 1/4" гнезда спереди и пара разъёмов Cinch сзади. Даже если подобная конфигурация и отличается от профессиональных карт, шестиканальный вход с высоким разрешением является редкой и интересной особенностью. С его помощью вы можете микшировать или накладывать дорожки друг на друга. На одном из передних входов присутствует потенциометр, так что вы можете подключить микрофон или использовать вход с регулировкой уровня сигнала - как вам будет угодно. Однако микрофонный вход не оборудован кабелем phantom feed.


Что касается выходов, то на модуле спереди присутствует 1/4" гнездо для наушников, с регулятором громкости, аналогичным общим выходам. Сзади размещёно 3,5 мм гнездо, позволяющее подключать цифровые колонки специальным кабелем Creative. Также здесь присутствуют классические цифровые входы и выходы S/P DIF в паре с двумя разъёмами Toslink спереди и двумя Cinch сзади.

Для интерфейса MIDI Creative благоразумно отказалась от разъёма mini-DIN. Сзади размещены два классических гнезда DIN IN/OUT. Наконец, отметим разъёмы FireWire (один сзади, один спереди). Второе гнездо сзади служит для связи с картой PCI, но оно не предусматривает подключения аудио. Так что CD будут проигрываться в цифровом режиме - вполне логичный ход для карты подобного уровня.

Audigy 2 Platinum EX
Интерфейс PCI
Аудио чип Audigy 2 CA0102-IAT
Максимальная частота дискретизации воспроизведения 192 кГц
Цифро-аналоговое преобразование 24 бита
ASIO 24 бита/96 кГц
MIDI/игровой порт да
Входы
На плате нет
Внутренние нет
Внешние 2x line-in, 1x mic/line-in, коаксиальный и оптический цифровые, 2x FireWire, MIDI
Выходы
На плате 3 line-out (6.1)
Внешние 1x наушники, оптический и коаксиальный цифровые выходы, MIDI
DVD и кинотеатр
Стандарты
Конфигурация до 6.1
Аудио DVD да, до 92 кГц
3D-звук в играх
Стандарты DS3D, A3D, EAX 1.0/2.0, Advanced HD
Конфигурация 2x 6.1
MIDI
Аппаратный синтезатор 32 канала, 64 голоса
Программный синтезатор Creative, 16 каналов

Как и предполагалось, карта Platinum PCI содержит три 3,5 мм гнезда для выходов на колонки, но здесь также присутствует и цифровой выход для связи с цифровыми колонками. Добавим к этому вход микрофона и линейный вход, а также интерфейс FireWire. Всё остальное вынесено на модуль 5,25" отсека, где присутствуют практически те же самые опции, что и на внешнем модуле Platinum EX, - два линейных входа (один через гнездо Cinch, второй через 1/4" гнездо с регулятором уровня сигнала, причём он легко преобразуется во вход для микрофона), выход на наушники с регулятором громкости, цифровые коаксиальные и оптические входы и выходы S/P DIF, а также интерфейс FireWire. Для интерфейса MIDI появился маленький разъём DIN. В комплект поставки входят адаптеры для стандартных разъёмов DIN.

На карте PCI доступны три аналоговых входа, а также цифровой вход S/PDIF. Следует отметить, что входная линия недоступна для чтения, в отличие от двух других: вы не сможете выбрать её в качестве источника для записи звука - перед нами результат разнесения входов между картой и модулем.

Две карты Creative поставляются с "косичкой", занимающей дополнительный слот PCI, на которой присутствуют традиционный разъём для джойстика и MIDI, но устанавливать её необязательно. В комплект поставки карт входит инфракрасное дистанционное управление, а приёмник находится во внешнем модуле или на 3,5" модуле. Очень удобно, если вы используете ваш ПК в роли проигрывателя DVD, видео или аудио.

Audigy 2 Platinum
Интерфейс PCI
Аудио чип Audigy 2 CA0102-IAT
Максимальная частота дискретизации воспроизведения 192 кГц
Цифро-аналоговое преобразование 24 бита
ASIO 16 бит/48 кГц
MIDI/игровой порт да
Входы
На плате line-in, mic, FireWire
Внутренние 3x line-in, 1x S/PDIF, 1x FireWire
Передняя панель 1x line-in, 1x mic/line-in, коаксиальный и оптический цифровые входы, 1x FireWire, MIDI
Выходы
На плате 3x line-out (6.1), 1x digital, Creative
Передняя панель 1x headphones, коаксиальный и оптический цифровые выходы, MIDI
DVD и кинотеатр
Стандарты Dolby Digital, DTS через выход S/PDIF
Конфигурация до 6.1
Аудио DVD да, до 192 кГц
3D-звук в играх
Стандарты DS3D, A3D, EAX 1.0/2.0, Advanced HD
Конфигурация 2x 6.1
MIDI
Аппаратный синтезатор 32 канала, 64 голоса
Программный синтезатор Creative, 16 каналов

Terratec: только карты

В отличие от Creative, Terratec решила придерживаться формулы "только карта PCI". Более того, Aureon Sky и Space очень похожи друг на друга. Их компоненты и установка идентичны, за исключением выходов, поскольку Sky поддерживает конфигурацию 5.1, а Space - 7.1. Для подключения внешних устройств доступны три аналоговых входа и один цифровой.

На карте доступны все стандартные 3,5" элементы: микрофонный и линейные входы, шесть выходных каналов для Sky и восемь для Space. Добавьте к этому цифровой вход и выход через разъёмы Toslink. Вряд ли можно было придумать более простую конфигурацию без изъятия необходимых компонентов.

Terratec признала, что разъём джойстик/MIDI сегодня является устаревшим и не установила соответствующий порт. Мы согласны, что сегодня среднему пользователю вряд ли понадобится подключать джойстик к звуковой карте.

Terractec Sky 5.1 Terractec Space 7.1
Интерфейс PCI PCI
Аудио чип VIA Envy 24HT VIA Envy 24HT
Максимальная частота дискретизации при воспроизведении 192 кГц 192 кГц
Цифро-аналоговое преобразование 24 бита 24 бита
ASIO 24 бита/96 кГц 24 бита/96 кГц
Midi/игровой порт нет нет
Входы
На плате Line-in, mic, 1x оптический цифровой вход
Внутренние 3x line-in, 1x S/PDIF-in 3x line-in, 1x S/PDIF-in
Выходы
На плате 3x line-out (5.1), 1x оптический цифровой выход 4x line-out (7.1), 1x оптический цифровой выход
DVD и кинотеатр
Стандарты Dolby Digital, DTS через выход S/PDIF Dolby Digital, DTS через выход S/PDIF
Конфигурация до 5.1 до 7.1
Аудио DVD нет нет
3D-звук в играх
Стандарты DS3D, A3D, EAX 1.0/2.0 DS3D, A3D, EAX 1.0/2.0
Конфигурация 2x 5.1 2x 7.1
MIDI
Аппаратный синтезатор нет нет
Программный синтезатор Microsoft Microsoft

Terratec, по всей видимости, зашла в тупик с интерфейсом MIDI. Это отнюдь не означает, что вы не сможете использовать MIDI, поскольку им можно управлять программно. Как видим, эта карта не предназначена для качественного воспроизведения музыкальных инструментов.

Creative следует совершенно иной логике, поскольку карты компании высоко оцениваются музыкантами (в частности, немало благодаря "Soundfonts", которая позволяет музыкантам создавать и модифицировать базы данных звука MIDI).

Карты Creative комбинируют 2 x 16 канальный аппаратный синтезатор с 64-голосовой полифонией, программным синтезатором и 48 внутренними каналами.

В целом, мы наблюдаем начало разделения между картами для музыкантов и картами, нацеленными на широкую публику, которая, практически без исключения, интересуется лишь звуком. Карты для широких масс поддерживают разнообразные опции, типа проигрывания MP3, аудио и видео DVD, в то время как MIDI-карты предназначены для профессионального использования. Различие между картами для двух сфер продолжает расширяться.

Драйверы Creative обеспечивают богатые возможности. Однако их подчас бывает трудно обнаружить. Creative любит поставлять множество программных модулей и поиск нужного из них часто напоминает игру в прятки.

Компании не мешало бы обзавестись центральной системой управления. К примеру, чтобы включить автоматическое определение наушников (когда карта сама выключает звук на колонках при подключении наушников), вам придётся перейти в "Audio HQ" из панели конфигурации Windows, затем выбрать "Управление периферией/Peripheral controls", тогда как, по логике вещей, эту опцию следовало бы отнести к конфигурации колонок.



Мы не будем детально разбирать эти драйверы, поскольку информация о них широко известна и доступна. Мы надеемся, что Creative улучшит пользовательский интерфейс по отношению к некоторым функциям.

Графический интерфейс явно не помешал бы. Вряд ли кто-нибудь станет подвергать сомнению впечатляющий ассортимент возможностей процессора Audigy 2, которые включают управление скоростью проигрывания (от 50 до 200%), коррекцию ошибок источника в реальном времени и множество остальных функций.

Что касается музыки, то пользователи чаще всего предпочитают использовать драйверы ASIO (потоковый вход-выход аудио/Audio Streaming Input-Output) для управления аудио потоками, которые созданы программной компанией Steinberg. Они позволяют достичь меньших задержек, чем традиционные драйверы Windows. Эти драйверы также широко используются совместно с музыкальным программным обеспечением.

Драйверы ASIO 2 поставляются с Platinum EX и реализуют функцию прямого мониторинга (Direct Monitoring), а также запись на шесть каналов 24 бита/96 кГц. С другой стороны, прямое прохождение 44,1 кГц до сих пор невозможно.

Карта работает на 48 кГц, что приводит к некоторым неудобствам. Platinum сохранила драйверы ASIO 1, которые работают только на 16 бит/48 кГц.

В отличие от Creative, Terratec использует одну панель для управления всеми функциями карты. Функции управления очень удобно расположены на чётко подписанных закладках. Так что, на первый взгляд, всё обстоит очень неплохо. При более внимательном рассмотрении некоторые функции оказываются богаты и проработаны.

Однако мы бы хотели отметить неудобство управления многоканальным проигрыванием. Виртуальный джойстик Creative нам показался намного удобнее, чем множество линейных потенциометров Terratec. Впрочем, по управлению связями S/P DIF Terratec выходит вперёд: пользователь получает расширенный набор возможностей, который удобен и понятен, по крайней мере, для тех людей, кто понимает природу данной функции. Для новичков лучше в такие дебри не забираться.

Неплохо реализована и функция управления ASIO, в которой доступны опции управления размером буфера, частоты дискретизации и показана её связь с задержками. Схема Terratec позволяет по минимуму использовать обработку звука, так что здесь вы не найдёте всего того богатства функций, которое присутствует у Creative. Вам придётся использовать дополнительное программное обеспечение по обработке, если вам нужна подобная функциональность.






Creative по-прежнему не поставляет какой-либо проигрыватель DVD вместе со своими картами. Подобная особенность разочарует множество людей. С другой стороны, карта обладает многочисленными возможностями по декодированию. Если у вас есть проигрыватель DVD, типа Power DVD, вы можете декодировать диск программно.

Чтобы вывести поток AC3 на выход S/PDIF для внешнего декодирования Dolby Digital вам нужно перейти в панель "Управление периферией/Peripheral controls".

Некоторым может не понравиться то, что Creative по-прежнему игнорирует DTS. Так что вам придётся довольствоваться различными конфигурациями Dolby, за исключением Dolby Pro-Logic II, которая тоже не поддерживается.

Система CMSS, позволяющая микшировать источник со стерео-потоком на конфигурацию 5.1 или 6.1, чётко не разъясняется в руководстве. Следует сказать, что типичное использование карты всё ещё относится к проигрыванию DVD с форматом Dolby Digital (5.1). Кстати, обе карты Creative сертифицированы THX, что может убедить новичков при покупке продукта.

С картой Terratec поставляется проигрыватель Power DVD 4.0. Он обеспечивает классическое декодирование Dolby Digital и поддерживает Dolby Pro-Logic. С другой стороны, здесь нет поддержки DTS, как и в случае с Creative. Если вам нужна эта поддержка, вам придётся купить коммерческую версию Power DVD.

Довольно сложно выделить какого-то одного производителя, поскольку все устройства обладают достаточной мощью.

Во всяком случае, качество звука было очень хорошим в любом из режимов 5.1, 6.1 и 7.1 - не будем забывать, что на рынке присутствует крайне мало DVD с чем-либо, отличающимся от 5.1. Во время нашего просмотра магазинов мы обнаружили только два диска со звуком выше 5.1.

Хотя аудио DVD остаются редкими, они, безусловно, крайне интересны для любителей хорошего звука. Creative стала первой компанией-производителем звуковых карт, обеспечившей драйвер Audio DVD для своих продуктов. Чтобы понять интерес компании, давайте погрузимся в содержимое дисков на современном рынке.

Audio DVD имеют примечание, которое заявляет о совместимости со всеми проигрывателями DVD-видео на рынке, но они не совместимы с проигрывателями CD. Дело в том, что Audio DVD содержат дорожку Dolby Digital, которую может считывать проигрыватель DVD-видео.

Однако эта дорожка записана по классической технологии, в форме кодирования AC-3 на частоте 48 кГц со сжатием. Диски также могут содержать дорожку DTS.

Для нормального воспроизведения Audio DVD вам понадобится специальный проигрыватель. На диске обычно содержится стерео дорожка 24 бита/96 кГц или 24 бита/192 кГц в многоканальной дорожке, обычно 5.1, 24 бита/96 кГц.



Некоторые аудио DVD имеют список дорожек на диске и список проигрывателей, которые могут их воспроизвести. Однако эта индикация не систематизирована, к тому же список часто бывает ошибочным! Например, "Hotel California" от The Eagles содержит дорожки DTS, которые не упомянуты!

Что касается аудио DVD, Creative смогла вырваться вперёд и обеспечить всех заинтересованных в новом носителе людей необходимыми инструментами. Однако некоторые возможности аудио DVD не поддерживаются.

Тестовая конфигурация

Системное аппаратное обеспечение
Процессор Pentium 4, 2,4 ГГц
Память 1 Гбайт DDR
Графическая карта NVIDIA GeForce Ti 4200
Жёсткий диск 80 Гбайт, 7200 об/мин
Оптический привод DVD LG16/48X
ОС Windows XP Pro + SP1
Версия DirectX 9.0
Аудио система
Колонки Creative MegaWorks 510D (DVD и многоканальные
Эффективное усиление 2 x 12 Вт (музыка)
Тесты
Right Mark Audio Analyser 5.0
Audio Winbench 99
DAAS audio measurement system
Neutrik 3337 audio measurement system

Все протестированные карты обеспечивают достаточный выходной уровень.

Creative даёт примерно 2,25 В, Terratec чуть выше - 2,5 В.

Чувствительность линейных входов изменялась более заметно, от 560 мВ у Platinum EX до 1,16 В у Platinum, в то время как карта Terratec показала 820 мВ. Хотя Creative Platinum EX оказалась наиболее чувствительной, она быстрее остальных достигала перегрузки - для этого было достаточно 2,1 В.

Карты Audigy позволяют осуществлять перенаправление низких частот или, говоря другими словами, фильтрацию высоких частот на сателлиты - интересная технология для тех, кто не владеет колонками с соответствующим фильтром или кто желает построить свою собственную систему.

Порог фильтра может быть отрегулирован, однако очень жаль, что эта функция чётко не показана.

Что касается качества, карты Creative продемонстрировали свою обычную слабость на 44,1 кГц.

На высоких частотах лидирует Creative Platinum EX, за ней следуют обе карты Terratec с несколько более высоким уровнем шума и с немного сниженным общим качеством. Там явно заметны перекрёстные помехи, более ощутимые на высоких частотах.

Creative Platinum находится в конце по причине заметно большего уровня помех. Конечно, эта проблема может быть частично связана с нашей тестовой конфигурацией, но она является также следствием передачи сигнала внутри ПК - в условиях больших помех. Мы заметили подобный феномен и с другими картами, использующими внутренние модули в отсеках.

В любом случае, карты отличаются высоким качеством. Автоматическая оценка теста Rightmark дала результат "очень хорошо/very good" для трёх карт и "великолепно/excellent" для Platinum EX. Обычные пользователи вряд ли обнаружат какие-либо недостатки на этих картах.

Чтобы вы смогли осуществить визуальное сравнение характеристик всех четырёх карт, мы вывели результаты на единый график для разных параметров и частот дискретизации.



Неравномерность АЧХ : на 44,1 кГц карты Creative имеют более узкую частотную характеристику на высоких частотах, что может быть связано с проблемами нашего тестового экземпляра. Карты Aureon дают практически идеальный результат.

Уровень шума : уровень шума оказался очень низким на всех картах, однако Creative Platinum явно была самой "шумной". Platinum EX даёт наилучший результат, а две карты Aureon попадают где-то в середину.

Динамический диапазон : неудивительно, что результаты оказались теми же самыми, что и для уровня шума.

Нелинейные искажения : Platinum оказалась последней, в то время как остальные три модели дали близкие результаты. Поскольку у всех них после запятой присутствуют два нуля, то беспокоиться не о чем!

Интермодуляционные искажения : здесь вновь картам Creative мешает передискретизация, в результате чего они оказываются существенно хуже продуктов Terratec!

Взаимопроникновение каналов : две карты Creative дали прекрасные результаты, в то время как Platinum EX вышла немного вперёд. Карты Aureon давали перекрёстные помехи, которые уменьшались по мере роста частоты. Общий результат оказался хорошим, но он мог быть и лучше.



Неравномерность АЧХ : карты Platinum ограничили свою частотную характеристику отметкой 15 кГц, в то время как Aureon дала более высокие частоты. Хотя на практике разница минимальна, это улучшение следует отметить.

Уровень шума : здесь мы наблюдаем то же самое, что и на частоте 44,1 кГц, когда Platinum EX выходит в лидеры, а Platinum остаётся в аутсайдерах.

Динамический диапазон : то же самое - две карты Creative находятся по разные стороны от двух карт Terratec

Нелинейные искажения : вновь Platinum отстаёт от трёх других карт, которые демонстрируют более или менее одинаковые результаты.

Уровень шума : порядок вновь не изменился. На первом месте Platinum EX, карты Aureon дают средние показатели, причем они оказываются ближе к Platinum EX. Карта Platinum даёт наихудшие показатели.

Динамический диапазон : вновь всё то же самое!

Нелинейные искажения : Platinum EX демонстрирует очень малый уровень искажений, в то время как результаты Platinum немного ухудшаются шумом, но в любом случае, результаты всех карт превосходны.

Интермодуляционные искажения : при данной частоте все карты показали великолепные результаты.

Взаимопроникновение каналов : как видим, перекрёстные помехи карт Aureon растут по мере увеличения частоты - эта тенденция не изменилась. Platinum EX вновь находится в лидерах.

Довольно логично, что в целом карты Creative, оснащённые аппаратными синтезаторами, работают лучше Terratec. Мы провели тесты на играх Comanche 4, Quake III и Splinter Cell, где получили стабильные результаты, демонстрирующие превосходство двух карт Creative, за ними следовала Terratec Sky, а в конце находилась Space, хотя это наверняка было связано с работой в режиме 7.1.

Вам решать, так ли уж вам необходима игра в режимах 6.1 и 7.1. Различие между конфигурацией 5.1 при условии правильного размещения колонок будет практически незаметным.

Что касается создания звукового пространства, то результат сильно зависел от самих игр. Можно отметить хорошую работу карт Creative в стандарте EAX HD в поддерживающих его играх.

Благодаря использованию ЦСП, в Audigy 2 можно добиться очень реалистичных звуковых пространств. Действительно, реализм сегодня находится на уровень выше, чем раньше, благодаря технологиям звуковой трансформации (morphing), которые реалистично озвучивают переход между сценами в игре, скажем, между комнатами в Quake.

Программное обеспечение

Как можно ожидать от карт верхнего диапазона, комплект поставки программного обеспечения довольно богат по сравнению с "бюджетными" картами.

С картой Platinum - помимо "собственного" программного обеспечения типа Mediasource - вы найдёте Cubasis VST4.0 и Wavelab Lite 2.0 (аудио/MIDI синтезатор и редактор звука), редактор видео Videostudio 5.0SE, Traktor DJ (копирование, функции MP3 и DJ) и две игры (Soldier of Fortune II Double Helix и Hitman 2 Silent Assassin). С картой Platinum EX дополнительно поставляются Ableton Live 1.5 (сэмплер) и Fruity Loops Pro 3.5 (loop management).

Даже если эти программы поставляются в ограниченных версиях (по сравнению с коммерческими вариантами), они всё ещё могут заинтересовать многих пользователей, которые затем могут пожелать обновить их до полных вариантов.

Что касается Terratec, то комплект поставки идентичен для обеих карт: Power DVD для проигрывания видео DVD, Wavelab Lite 2.0 для редактирования звука, Emagic Logic Fun (аудио/MIDI синтезатор) и Musicmatch Jukebox для MP3s. Комплект поставки явно более скуден, хотя всё основное в нём присутствует.

Заключение

Как показали результаты теста, в нашем распоряжении оказались действительно карты верхнего уровня, способные удовлетворить потребности большинства пользователей. Однако опции карт разных производителей сильно отличаются друг от друга.

Мы бы хотели отметить Platinum EX в качестве лучшей карты на high-end сегменте рынка, хотя её цена ощутимо выше карт от Terratec. Впрочем, Platinum EX и обладает куда более богатыми возможностями по подключению различной периферии к ПК, начиная от звукозаписывающих устройств и заканчивая синтезаторами. Карты Terratec, с другой стороны, не занимают много места в корпусе компьютера (они представляют собой просто карту PCI), в то же время обеспечивая великолепное качество и имеющие комплект поставки программного обеспечения, который вполне удовлетворит среднего пользователя.

Нет, честно говоря, никаких вводных слов не будет. Чтобы было сразу понятно, к чему клонит вся эта статья, сразу сформулирую её основной вывод: нет смысла распространять музыку в формате 24 бита и 192 кГц, потому что его качество редко лучше 16/44.1 или 16/48, а занимает он в 6 раз больше места.

Кое-что о человеческой психологии

В прошлом году Нил Янг* и Стив Джобс обсуждали создание сервиса для скачивания аудио в «бескомпромиссном студийном качестве», а спустя некоторое время , который должен будет использоваться для воспроизведения этого аудио. В общем, эта идея нравится инвесторам, и они совсем недавно выделили $500,000 на популяризацию этого формата. По-сути, на что выделены эти деньги? На одурачивающий маркетинг. Почему этот маркетинг работает ? Ну, он работает из-за существования парочки факторов .

Во-первых , при восприятии таких новостей люди зачастую основываются на догадках о том, как работает цифровое аудио, а не на том, как на самом деле оно работает: они предполагают, что увеличение частоты дискретизации аналогично увеличению количества кадров в секунду в видео. На самом деле такое увеличение аналогично добавлению инфракрасных и ультрафиолетовых цветов, которые мы никогда не увидим и видеть не можем в принципе. (Об этом повествует центральная часть статьи, но она будет чуть-чуть дальше.)

Во-вторых , люди могут считать, что слышат разницу в звуке, когда её на самом деле нет. Допускать такие ошибки мышления — это нормально для человека. Ошибки эти называются когнитивными искажениями. Подтверждение предубеждения, стадный инстинкт, эффект плацебо, доверие авторитету — это лишь некоторые когнитивные искажения, могущие заставить человека поверить в то, что он слышит разницу. Подтверждение предубеждения: «В 24/192 больше информации, значит я её должен слышать; о, слышу!» Стадный инстинкт вообще каким-то магическим образом заставляет людей верить в то, чего нет и быть не может. Доверие авторитету либо заставляет совершенно не критично относиться к информации, либо при сравнении со своим честным мнением отдавать предпочтение чужому мнению. В советском научно-популярном фильме «Я и другие» наглядно показываются некоторые социальные когнитивные искажения. Например, в фильме показывается следующий эксперимент: группе студентов показывают несколько портретов людей, и они должны сказать, на каких из двух портретов изображён один и тот же человек. Все студенты, кроме одного, — подставные и указывают на два портрета совершенно непохожих людей, а испытуемый, хоть изначально и не думал о таком варианте, зачастую соглашается с мнением большинства. Вы скажете: «Нет, ну я-то не такой». Вообще, вряд ли. Все мы люди, просто отличаемся тем, что в разной степени в чём-либо осведомлены. В любом случае, если бы люди не были подвластны таким когнитивным искажениям, то уже давно не работал бы маркетинг. Посмотрите кругом: люди покупают необоснованно дорогие товары и радуются этому.

Итак, 24/192 обычно не улучшает качество и это звучит как плохая новость. Хорошая новость заключается в том, что качество звучания улучшить несложно — достаточно просто купить хорошие наушники** . В конце концов улучшение качества звучания от них заметно сразу, оно не иллюзорно и радует. По крайней мере взяв наушники хотя бы в ценовом диапазоне от $100 до $200, вы будете радоваться и скажете мне спасибо за мой совет купить хорошие наушники, если, конечно, вы не купите красивые и дорогие имиджевые наушники, предназначенные совсем не для качественного воспроизведения аудио. А теперь давайте перейдём к самому интересному.

* Да, я тоже понятия не имел, кто такой Нил Янг. Оказывается, это известный канадский музыкант... уже 50 лет как известный.
** Это моё личное мнение, я не являюсь представителем каких-либо магазинов и не преследую никакой коммерческой цели.

Теорема Найквиста-Шеннона

Для того, чтобы не оказаться в ловушке мышления, попробуем с самых азов понять, из-за чего работает цифровое аудио.

Сначала чётко уясним термины (будем формулировать их так, будто они применяются только при анализе звуков).
Сигнал — функция, зависящая от времени. Например, как сигнал можно выразить электрическое напряжение в проводах аудиоаппаратуры или, скажем, давление звука на барабанную перепонку (в зависимости от момента времени).

Спектр — представление сигнала в зависимости от частоты, а не времени. Это означает, что функция выражается не как «громкость», записанная во времени, а как набор громкостей бесконечного количества гармоник (косинусоид), включенных в один и тот же момент времени. То есть изначальный сигнал может быть представлен как набор гармонических сигналов разных частот и амплитуд («громкостей»). Да, физические величины зачастую (на деле почти всегда) можно представлять таким «странным» образом (проведя преобразование Фурье над изначальной функцией). (Отображение значения спектра в произвольный момент времени — это один из самых наглядных способов изобразить визуально музыку в аудиоплеере . Замечу, что тот спектр, о котором я говорю, содержит информацию о всем промежутке времени, а не о каком-то мгновенном значении, т.к. по набору гармоник (спектру) можно воссоздать весь звуковой отрывок.)

Теорема Найквиста-Шеннона утверждает, что если сигнал имеет ограниченный спектр, то он может быть восстановлен по своим отсчётам, взятым с частотой, строго большей удвоенной верхней частоты f c : f > 2 f c . Если мы будем увеличивать частоту отсчётов, то это повлияет лишь на то, что формат цифрового аудио начнёт позволять записывать более высокие частоты — те, которые мы никак не воспринимаем. Кстати, в этой теореме говорится о сигнале, состоящем не из конечного набора частот, а из бесконечного, как в реальном звуке. Если говорить простым языком, то смысл теоремы заключается в том, что если мы возьмём какой-нибудь звуковой сигнал, содержащий только частоты, меньшие f c , и запишем (в файл) его значения через каждые 1/f секунды, то мы сможем потом воссоздать изначальный звуковой сигнал по этим значениям. Да-да, воссоздать полностью, без потери какого-либо качества вообще. Но формулировка не объясняет, как воссоздать этот звук. Вообще, это теорема из работы Найквиста «Certain topics in telegraph transmission theory» за 1928 год, в этой работе ничего не сказано про то, как воссоздать звук. А вот теорема Котельникова, предложенная и доказанная В.А. Котельниковым в 1933 году, объясняет это довольно чётко.


Что же это означает? Во-первых, обратим внимание на функцию sinc(t) = sin(t)/t. Наглядно это просто мексиканская шляпа:



Вычитание k /(2f 1 ) из t означает сдвиг шляпы в нужное место (в то самое место, где был записан отсчёт), а умножение на D k означает растягивание этой шляпы по вертикали так, чтобы её макушка совпадала с точкой отсчёта. То есть теорема утверждает, что для воссоздания звука достаточно собрать шляпы в точках, соответствующих отсчётам, причём таким образом, чтобы вершины шляп совпадали с измерениями в отсчётах. Теорему оставим без доказательства — его можно найти в почти любой литературе по обработке сигналов. Однако обращу внимание на то, что воссоздание функции по теореме Котельникова не является просто сглаживанием. Да, шляпа не влияет на значения в соседних отсчётах, но влияет на значения между ними. И когда мы имеет низкочастотный сигнал, это может выглядеть как сглаживание, но если мы имеем, скажем высокочастотный косинус, то при его изображении в виде ступенек, мы даже не поймём, что это косинус — он будет казаться просто хаотичным набором отсчётов, однако, при восстановлении получится самый настоящий и идеально гладенький косинус.



Ну что же, математически понятно, что восстановить звук возможно. Чисто теоретически. И это не значит, что устройства воспроизведения цифрового звука воссоздают звук неотличимым от оригинального, это лишь значит, что аудиоформат позволяет такое сделать. А вот как правильно подкидывать мексиканские шляпы на выход цифро-аналогового преобразователя и как донести полученный звук до уха с минимальными искажениями — это уже совсем другая магия, не имеющая отношения к данной статье. К счастью для нас, добрые инженеры уже тысячу раз подумали над тем, как им решить для нас эту задачу.

Что дают 24 бита

При обсуждении применения теоремы Котельникова к цифровому аудио мы для простоты забыли, что при квантовании (оцифровке) числа D k — это числа, записанные на компьютере, а, значит, это числа не любой точности, а какой-то определённой — той, что мы выберем для нашего аудиоформата. Это означает, что значения изначального сигнала записываются не точно, и это приводит к, вообще говоря, невозможности воссоздать оригинальный сигнал. Но как в реальности это влияет на воспринимаемый человеком звук при честном сравнении 16 и 24 битных сигналов? Проводились исследования, что лучше, 24/44 или 16/88 (да-да, именно так!), удвоение частоты качества не прибавило, а вот увеличение разрядности испытуемые определяли без проблем. В сторону 32 и 64 бит пока никто не смотрит, нет в природе устройств, которые бы могли реализовать потенциал 64-битного звука. А вот при внутренней обработке звука в музыкальных редакторах используют высокую разрядность под 64 бит и выше.

Давайте поговорим о громкости звука. Громкость звука — это субъективная величина, возрастающая очень медленно при увеличении звукового давления и зависит от него, амплитуды и частоты звука.Уровень громкости звука — это относительная величина, которая выражается в фонах и численно равна уровню звукового давления , создаваемого синусоидальным тоном частотой 1 кГц такой же громкости, как и измеряемый звук. Уровень звукового давления (sound pressure level, SPL) измеряется в дБ относительно порога слышимости синусоидальной волны в 1 кГц для человеческого уха, а при возрастании звукового давления в 2 раза, уровень звукового давления увеличивается на 6 дБ. Приведу несколько значений звукового давления:

  • 20-30 дБ SPL - очень тихая комната (да-да, комната, в которой ничего не происходит).
  • 40-50 дБ SPL - обычный разговор.
  • 75 дБ SPL - крик, смех на расстоянии 1 метр.
  • 85 дБ SPL - опасная для слуха громкость — повреждение при длительном воздействии 8 часов в день, для некоторых людей эта величина может быть меньше [Hearing damage ]. Примерно такая громкость на автостраде в час пик [Sound pressure levels ]. Не знаю как вы, но я на такой громкости никогда не слушаю музыку — это становится понятно, когда иду в закрытых накладных/охватывающих наушниках мимо шоссе и пытаюсь слушать музыку.
  • 91 дБ SPL - повреждение слуха при воздействии 2 часа в день.
  • 100 дБ SPL - это максимальное допустимое звуковое давление для наушников по нормам Евросоюза.
  • 120 дБ SPL - почти невыносимо — болевой порог.
  • 140 дБ SPL и выше — разрыв барабанной перепонки, баротравма или даже смерть.
Эта сводная таблица уровней громкости рассчитана на воспроизведение с акустических систем, где негативное влияние оказывает высокое звуковое давление на все тело.

В наушниках без особых проблем многие слушают под 130-140 дБ и никакого разрыва перепонки не случается. Слух попортить безусловно можно. Основные данные по болевым порогам получены от колонок, где наибольший вред наносят низкие частоты, которые действуют не столько на ухо, сколько на все тело, вводя в резонанс внутренние органы и разрушая их. Повредить грудную клетку от низких частот из наушников просто не реально. А вот в автомобиле от сабвуфера - в самый раз. Но более важно то, что таблица создавалась изначально под производственный шум на заводах. Ухо от наушников повредить можно на высокой громкости только в области верхних средних частот, где у уха есть собственный резонанс.

Эффективный же динамический диапазон 16-битного аудио — 96 дБ. Сравнивая 130 и 96 дБ становится понятно, что разницу в звуке мы услышать можем. Но чисто теоретически. Во-первых, 96 дБ — это величина отношения сигнал/шум в типичных источниках звука. Во-вторых, для популяризации форматов высокого разрешения на студиях часто сводят звук для CD и DVD-Audio с несколько разным усердием и в итоге покупатель может слышать посредственно сведённый материал в первом случае и хорошо сведенный во втором.

Последнее время стало модным выпускать ремастеры различных альбомов исполнителей. Но при этом большая часть таких ремастеров, сделанных на более новом оборудовании и в тяжеловесных форматах звучит существенно хуже, чем старые записи... Здесь возникает подозрение, что вместо качественного сведения талантливым звукорежиссером, все заменяется просто качественным оборудованием и уверенности, что это даст лучший результат, а если нет, то и так все раскупят.

Получается, что с позиции технических параметров 24 бит всегда будут лучше, чем 16, но услышать это можно на качественно сделанных записях, если сделать запись с радио, то там различить 16 и 24 бита будет очень сложно. Таким образом стоит гнаться не за высокими форматами, а за качественно записанными и сведенными записями и стремится к повышению качества аппаратуры.

Гонка к тяжеловесным форматам сопоставима с гонкой за мегапикселями фотоаппаратов, где любой профессионал знает, что итоговое качество от этого зависит довольно слабо.

В дорогих системах порой используют отдельную обработку в виде SRC как в , что при переводе 44.1/16>192/24 позволяет перевести ЦАП в другой режим работы и заменить его блок цифровой фильтрации сигнала (от альязинга) более совершенным внешним SRC конвертером. Так же отдельно сконвертированные файлы из 44.1/16 в 192/24 порой могут звучать лучше, но именно из-за особенностей используемого ЦАП и это дает повод задуматься над апгрейдом системы в целом.

Надо отметить, что проверка различных DVD-Audio дисков порой выдавала удручающий результат, т.к. изначальный исходник для тяжеловесного формата был взят из стандартного CD-Audio.

Дополнительно

Ну что же, если наша цель заключается в том, чтобы наслаждаться звучанием, то осталось понять, что новость про бессмысленность 24/192 даже и не плохая вовсе — она, на самом деле говорит о том, что качество звука улучшить можно, но для этого не надо гнаться за тяжеловесными форматами.

Но раз существует как минимум два мнения по поводу «16/44.1 против 24/192», то, может быть есть и ещё какие-то иные и интересные мнения? Да, есть. Как минимум есть ещё две интересные статьи с неожиданными выводами: «Coding High Quality Digital Audio » от J. Robert Stuart (статья на английском) и «24/192 Music Downloads... and why they make no sense » от Monty, разработчика формата OGG (эта статья тоже на английском, она утверждает, что 24 бита тоже бессмысленны).

Резюме

  • Нет смысла хранить аудио в 24/192, поскольку это не улучшит качество звука просто так.
  • 192 кГц бессмысленны потому, что позволяют записывать звуки с частотами, которые мы не слышим, а все слышимые звуки есть в 44.1 кГц.
  • Кстати, если бы на этих частотах содержалась какая-нибудь информация, и если бы она воспроизводилась цифро-аналоговым преобразователем, то она бы вносила дополнительные искажения (шумы) в слышимом диапазоне частот. А вы знаете причины такого поведения аудиосистемы?
  • 24 бита позволяют записывать звуки такой громкости, какую мы не можем слышать на обычной аппаратуре (или позволяет записывать громкость слышимых звуков с такой точностью, которая неотличима от 16 бит).
  • Из-за когнитивных искажений мы можем считать, что разница между 16/44.1 и 24/192 существует и заметна.
  • Многие маркетинговые ходы и стратегии основываются на когнитивных искажениях и незнании.
  • Качество звучания можно улучшить, но другими способами.

Нашли опечатку в тексте? Выделите и нажмите Ctrl+Enter . Это не требует регистрации. Спасибо.