الإتقان العكسي: هل من الممكن زيادة النطاق الديناميكي للتسجيلات المضغوطة؟ الضغط الديناميكي النطاق الديناميكي مضغوط أو قياسي

💖 هل يعجبك؟شارك الرابط مع أصدقائك

تعتمد هذه المجموعة من الطرق على حقيقة أن الإشارات المرسلة تخضع لتحولات سعة غير خطية، وفي أجزاء الإرسال والاستقبال تكون اللاخطية متبادلة. على سبيل المثال، إذا تم استخدام الدالة غير الخطية Öu في جهاز الإرسال، فسيتم استخدام u 2 في جهاز الاستقبال. سيضمن التطبيق المتسق للوظائف المتبادلة بقاء التحول العام خطيًا.

تتمثل فكرة طرق ضغط البيانات غير الخطية في أن جهاز الإرسال يمكنه، بنفس سعة إشارات الإخراج، إرسال نطاق أكبر من التغييرات في المعلمة المرسلة (أي نطاق ديناميكي أكبر). النطاق الديناميكي- هذه هي نسبة أكبر سعة إشارة مسموح بها إلى أصغر سعة، معبرًا عنها بالوحدات النسبية أو الديسيبل:

; (2.17)
. (2.18)

إن الرغبة الطبيعية في زيادة النطاق الديناميكي عن طريق تقليل U min محدودة بحساسية المعدات والتأثير المتزايد للتداخل والضوضاء الذاتية.

في أغلب الأحيان، يتم تنفيذ ضغط النطاق الديناميكي باستخدام زوج من الوظائف المتبادلة للوغاريتم والتقوية. تسمى العملية الأولى لتغيير السعة ضغط(عن طريق الضغط)، والثاني - توسع(تمتد). يرتبط اختيار هذه الوظائف المعينة بقدراتها الكبيرة على الضغط.

وفي الوقت نفسه، هذه الأساليب لها أيضا عيوب. أولها أن لوغاريتم العدد الصغير سالب وفي الحد:

أي أن الحساسية غير خطية للغاية.

لتقليل هذه العيوب، يتم تعديل كلتا الدالتين عن طريق الإزاحة والتقريب. على سبيل المثال، بالنسبة لقنوات الهاتف، تكون الوظيفة التقريبية بالشكل (النوع A):

مع أ = 87.6. الربح من الضغط هو 24 ديسيبل.

يتم تنفيذ ضغط البيانات باستخدام الإجراءات غير الخطية بوسائل تمثيلية مع وجود أخطاء كبيرة. يمكن أن يؤدي استخدام الأدوات الرقمية إلى تحسين دقة أو سرعة التحويل بشكل كبير. وفي الوقت نفسه، الاستخدام المباشر للأموال تكنولوجيا الكمبيوتر(أي حساب اللوغاريتمات والأسس مباشرة) لن يعطي أفضل النتائج بسبب الأداء المنخفض وتراكم الأخطاء الحسابية.

نظرًا لقيود الدقة، يتم استخدام ضغط البيانات عن طريق الضغط في الحالات غير الحرجة، على سبيل المثال، لنقل الكلام عبر قنوات الهاتف والراديو.

الترميز الفعال

تم اقتراح الرموز الفعالة بواسطة K. Shannon وFano وHuffman. جوهر الرموز هو أنها غير متساوية، أي مع عدد غير متساو من البتات، وطول الكود يتناسب عكسيا مع احتمال حدوثه. ميزة أخرى رائعة للرموز الفعالة هي أنها لا تتطلب محددات، على سبيل المثال. شخصيات خاصة، وفصل مجموعات التعليمات البرمجية المتجاورة. يتم تحقيق ذلك باتباع قاعدة بسيطة: الرموز الأقصر ليست بداية للرموز الأطول. في هذه الحالة، يتم فك تشفير التدفق المستمر من البتات بشكل فريد لأن وحدة فك التشفير تكتشف كلمات التشفير الأقصر أولاً. لقد كانت الرموز الفعالة أكاديمية بحتة منذ فترة طويلة، ولكن مؤخرايتم استخدامها بنجاح في إنشاء قواعد البيانات، وكذلك في ضغط المعلومات في أجهزة المودم الحديثة وأرشيفات البرامج.

بسبب التفاوت، يتم تقديم متوسط ​​طول الكود. متوسط ​​الطول - التوقع الرياضي لطول الكود:

علاوة على ذلك، l av يميل إلى H(x) من الأعلى (أي l av > H(x)).

يصبح استيفاء الشرط (2.23) أقوى مع زيادة N.

هناك نوعان من الرموز الفعالة: Shannon-Fano وHuffman. دعونا نلقي نظرة على كيفية الحصول عليها باستخدام مثال. لنفترض أن احتمالات الرموز في التسلسل لها القيم الواردة في الجدول 2.1.

الجدول 2.1.

احتمالات الرمز

ن
باي 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

يتم ترتيب الرموز، أي يتم عرضها في صف واحد بترتيب تنازلي للاحتمالات. بعد ذلك، وباستخدام طريقة شانون فانو، يتم تكرار الإجراء التالي بشكل دوري: يتم تقسيم مجموعة الأحداث بأكملها إلى مجموعتين فرعيتين لهما نفس الاحتمالات الإجمالية (أو نفس الشيء تقريبًا). يستمر الإجراء حتى يبقى عنصر واحد في المجموعة الفرعية التالية، وبعد ذلك يتم حذف هذا العنصر، وتستمر الإجراءات المحددة مع الإجراءات المتبقية. يحدث هذا حتى يتبقى عنصر واحد فقط في المجموعتين الفرعيتين الأخيرتين. دعونا نواصل مثالنا، الذي تم تلخيصه في الجدول 2.2.

الجدول 2.2.

ترميز شانون-فانو

ن باي
4 0.3 أنا
0.2 أنا ثانيا
6 0.15 أنا أنا
0.1 ثانيا
1 0.1 أنا أنا
9 0.05 ثانيا ثانيا
5 0.05 ثانيا أنا
7 0.03 ثانيا ثانيا أنا
8 0.02 ثانيا

كما يتبين من الجدول 2.2، شارك الرمز الأول ذو الاحتمال p 4 = 0.3 في إجراءين للتقسيم إلى مجموعات وانتهى الأمر في كلتا الحالتين في المجموعة رقم I. ووفقا لهذا، يتم ترميزه برمز مكون من رقمين II. العنصر الثاني في المرحلة الأولى من التقسيم ينتمي إلى المجموعة الأولى، في الثانية - إلى المجموعة الثانية. ولذلك فإن رمزه هو 10. ورموز الرموز المتبقية لا تحتاج إلى تعليقات إضافية.

عادة، يتم تصوير الرموز غير الموحدة على شكل أشجار رموز. شجرة التعليمات البرمجية عبارة عن رسم بياني يشير إلى مجموعات التعليمات البرمجية المسموح بها. تم تحديد اتجاهات حواف هذا الرسم البياني مسبقًا، كما هو موضح في الشكل 2.11 (اختيار الاتجاهات تعسفي).

يتنقلون في الرسم البياني كما يلي: إنشاء مسار للرمز المحدد؛ عدد البتات الخاصة به يساوي عدد الحواف في المسار، وقيمة كل بت تساوي اتجاه الحافة المقابلة. يتم رسم المسار من نقطة البداية (في الرسم يتم تمييزه بالحرف A). على سبيل المثال، الطريق إلى القمة 5 يتكون من خمس حواف، جميعها باستثناء الأخيرة لها اتجاه 0؛ نحصل على الكود 00001.

دعونا نحسب الإنتروبيا ومتوسط ​​طول الكلمة في هذا المثال.

H(x) = -(0.3 سجل 0.3 + 0.2 سجل 0.2 + 2 0.1 سجل 0.1+ 2 0.05 سجل 0.05+

0.03 سجل 0.03 + 0.02 سجل 0.02) = 2.23 بت

المتوسط ​​= 0.3 2 + 0.2 2 + 0.15 3 + 0.1 3 + 0.1 4 + 0.05 5 +0.05 4+

0.03 6 + 0.02 6 = 2.9 .

كما ترون، متوسط ​​طول الكلمة قريب من الإنتروبيا.

يتم إنشاء رموز هوفمان باستخدام خوارزمية مختلفة. يتكون إجراء الترميز من مرحلتين. في المرحلة الأولى، يتم إجراء ضغطات فردية للأبجدية بالتتابع. الضغط لمرة واحدة - استبدال الرمزين الأخيرين (بأقل الاحتمالات) برمز واحد، مع احتمال إجمالي. يتم تنفيذ عمليات الضغط حتى يبقى حرفان. في الوقت نفسه، يتم ملء جدول الترميز، حيث يتم إدخال الاحتمالات الناتجة، ويتم تصوير الطرق التي تتحرك بها الرموز الجديدة في المرحلة التالية.

في المرحلة الثانية، يحدث التشفير الفعلي، والذي يبدأ من المرحلة الأخيرة: يتم تعيين الرمز الأول من الرمزين بالرمز 1، والثاني - 0. وبعد ذلك، ينتقلون إلى المرحلة السابقة. الرموز التي لم تشارك في الضغط في هذه المرحلة يتم تعيين رموز لها من المرحلة اللاحقة، ويتم تعيين رمز الرمز الذي تم الحصول عليه بعد اللصق مرتين على الرمزين الأخيرين وإضافته إلى الكود الشخصية العليا 1، الأدنى - 0. إذا لم يكن الرمز متورطا في الإلتصاق، فإن رمزه يبقى دون تغيير. يستمر الإجراء حتى النهاية (أي حتى المرحلة الأولى).

ويبين الجدول 2.3 ترميز هوفمان. كما يتبين من الجدول، تم تنفيذ عملية الترميز على 7 مراحل. على اليسار توجد احتمالات الرمز، وعلى اليمين توجد الرموز المتوسطة. تُظهر الأسهم حركات الرموز المشكلة حديثًا. وفي كل مرحلة، يختلف الرمزان الأخيران فقط في البتة الأقل أهمية، والتي تتوافق مع تقنية التشفير. دعونا نحسب متوسط ​​طول الكلمة:

المتوسط ​​= 0.3 2 + 0.2 2 + 0.15 3 ++ 2 0.1 3 + +0.05 4 + 0.05 5 + 0.03 6 + 0.02 6 = 2.7

وهذا أقرب إلى الإنتروبيا: فالشفرة أكثر كفاءة. في التين. ويبين الشكل 2.12 شجرة كود هوفمان.

الجدول 2.3.

ترميز هوفمان

ن باي شفرة أنا ثانيا ثالثا رابعا الخامس السادس سابعا
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

يفي كلا الرمزين بمتطلبات فك التشفير الذي لا لبس فيه: كما يتبين من الجداول، فإن المجموعات الأقصر ليست بداية لرموز أطول.

مع زيادة عدد الأحرف، تزداد كفاءة الرموز، لذلك في بعض الحالات يتم تشفير كتل أكبر (على سبيل المثال، إذا كنا نتحدث عن النصوص، يمكن تشفير بعض المقاطع والكلمات وحتى العبارات الأكثر تكرارًا).

ويتم تحديد تأثير إدخال هذه الرموز من خلال مقارنتها برمز موحد:

(2.24)

حيث n هو عدد بتات الكود الموحد الذي تم استبداله بالرمز الفعال.

تعديلات على رموز هوفمان

خوارزمية هوفمان الكلاسيكية هي خوارزمية ذات مسارين، أي. يتطلب أولاً جمع إحصائيات حول الرموز والرسائل، ومن ثم الإجراءات الموضحة أعلاه. هذا غير مريح في الممارسة العملية لأنه يزيد من الوقت الذي تستغرقه معالجة الرسائل وتجميع القاموس. في كثير من الأحيان، يتم استخدام أساليب المرور الواحد، حيث يتم الجمع بين إجراءات التراكم والتشفير. وتسمى هذه الأساليب أيضًا بالضغط التكيفي وفقًا لهوفمان [46].

يتلخص جوهر الضغط التكيفي وفقًا لهوفمان في بناء شجرة رموز أولية وتعديلها المتسلسل بعد وصول كل رمز تالٍ. كما كان من قبل، الأشجار هنا ثنائية، أي. ينبثق قوسان على الأكثر من كل قمة في الرسم البياني الشجري. من المعتاد تسمية الرأس الأصلي بالأصل، والرأسين اللاحقين المتصلين به كأبناء. دعونا نقدم مفهوم وزن قمة الرأس - وهو عدد الأحرف (الكلمات) المقابلة لقمة معينة، والتي يتم الحصول عليها عند تغذية التسلسل الأصلي. من الواضح أن مجموع أوزان الأطفال يساوي وزن الوالدين.

بعد إدخال الرمز التالي لتسلسل الإدخال، تتم مراجعة شجرة الرموز: يتم إعادة حساب أوزان القمم، وإذا لزم الأمر، يتم إعادة ترتيب القمم. قاعدة تبديل القمم هي كما يلي: أوزان القمم السفلية هي الأصغر، والقمم الموجودة على يسار الرسم البياني لها أقل الأوزان.

في نفس الوقت يتم ترقيم القمم. يبدأ الترقيم من الرؤوس السفلية (المعلقة، أي التي ليس لها أطفال) من اليسار إلى اليمين، ثم ينتقل إلى افضل مستوىإلخ. قبل ترقيم الرأس الأخير الأصلي. في هذه الحالة يتم تحقيق النتيجة التالية: كلما قل وزن الرأس، انخفض رقمه.

يتم إجراء التقليب بشكل أساسي للقمم المعلقة. عند التقليب، من الضروري أن تأخذ في الاعتبار القاعدة المذكورة أعلاه: القمم ذات الوزن الأكبر لها عدد أكبر.

بعد اجتياز التسلسل (ويسمى أيضًا التحكم أو الاختبار)، يتم تعيين مجموعات التعليمات البرمجية لجميع القمم المعلقة. تشبه قاعدة تعيين الرموز ما ورد أعلاه: عدد بتات الكود يساوي عدد الرؤوس التي يمر عبرها المسار من المصدر إلى الرأس المعلق المحدد، وقيمة بت معينة تتوافق مع الاتجاه من الوالد إلى "الطفل" (على سبيل المثال، الذهاب إلى يسار الوالد يتوافق مع القيمة 1، إلى اليمين - 0 ).

يتم تخزين مجموعات التعليمات البرمجية الناتجة في ذاكرة جهاز الضغط مع نظائرها وتشكل قاموسًا. استخدام الخوارزمية على النحو التالي. يتم تقسيم تسلسل الأحرف المضغوط إلى أجزاء وفقًا للقاموس الموجود، وبعد ذلك يتم استبدال كل جزء بالرمز الخاص به من القاموس. الأجزاء غير الموجودة في القاموس تشكل رؤوسًا معلقة جديدة وتكتسب وزنًا ويتم إدخالها أيضًا في القاموس. بهذه الطريقة، يتم تشكيل خوارزمية تكيفية لتجديد القاموس.

ولزيادة كفاءة الطريقة، من المستحسن زيادة حجم القاموس؛ وفي هذه الحالة تزداد نسبة الضغط. عمليا، حجم القاموس هو 4 - 16 كيلو بايت من الذاكرة.


دعونا نوضح الخوارزمية المحددة بمثال. في التين. يوضح الشكل 2.13 المخطط الأصلي (ويسمى أيضًا شجرة هوفمان). يتم تمثيل كل رأس من رؤوس الشجرة بمستطيل يتم فيه كتابة رقمين من خلال كسر: الأول يعني رقم الرأس، والثاني يعني وزنه. كما ترون، فإن المراسلات بين أوزان القمم وأعدادها راضية.

لنفترض الآن أن الرمز المقابل للقمة 1 يظهر مرة أخرى في تسلسل الاختبار. لقد تغير وزن الرأس كما هو موضح في الشكل. 2.14، ونتيجة لذلك يتم انتهاك قاعدة ترقيم القمم. في المرحلة التالية، نقوم بتغيير موقع الرؤوس المعلقة، حيث نستبدل الرؤوس 1 و 4 ونعيد ترقيم جميع رؤوس الشجرة. يظهر الرسم البياني الناتج في الشكل. 2.15. ثم يستمر الإجراء بنفس الطريقة.

يجب أن نتذكر أن كل قمة معلقة في شجرة هوفمان تتوافق مع رمز معين أو مجموعة من الرموز. ويختلف الوالد عن أبنائه بأن مجموعة الرموز المقابلة له هي رمز واحد أقصر من رمز أبنائه، ويختلف هؤلاء الأبناء في الرمز الأخير. على سبيل المثال، تتوافق الرموز "سيارة" مع الأصل؛ ثم قد يحصل الأطفال على التسلسلين "kara" و"karp".

الخوارزمية المحددة ليست أكاديمية وتستخدم بنشاط في برامج الأرشفة، بما في ذلك عند ضغط البيانات الرسومية (سيتم مناقشتها أدناه).

خوارزميات ليمبل-زيف

هذه هي خوارزميات الضغط الأكثر استخدامًا اليوم. يتم استخدامها في معظم برامج الأرشفة (على سبيل المثال، PKZIP.ARJ، LHA). يتمثل جوهر الخوارزميات في استبدال مجموعة معينة من الرموز برقمها في قاموس تم إنشاؤه خصيصًا أثناء الأرشفة. على سبيل المثال، قد تحتل عبارة "الرقم الصادر لرسالتك..."، والتي توجد غالبًا في المراسلات التجارية، الموضع 121 في القاموس؛ ثم، بدلاً من إرسال أو تخزين العبارة المذكورة (30 بايت)، يمكنك تخزين رقم العبارة (1.5 بايت في شكل ثنائي عشري أو 1 بايت في شكل ثنائي).

تمت تسمية الخوارزميات على اسم المؤلفين الذين اقترحوها لأول مرة في عام 1977. الأول منهم هو LZ77. للأرشفة، يتم إنشاء ما يسمى بنافذة الرسائل المنزلقة، والتي تتكون من جزأين. الجزء الأول، وهو تنسيق أكبر، يعمل على تكوين قاموس ويبلغ حجمه حوالي عدة كيلو بايت. يستقبل الجزء الثاني الأصغر (يصل حجمه عادةً إلى 100 بايت) الأحرف الحالية للنص الذي يتم عرضه. تحاول الخوارزمية العثور على مجموعة من الأحرف في القاموس تتطابق مع تلك التي تم تلقيها في نافذة العرض. إذا نجح ذلك، فسيتم إنشاء رمز يتكون من ثلاثة أجزاء: الإزاحة في القاموس بالنسبة إلى السلسلة الفرعية الأولية، وطول هذه السلسلة الفرعية، والحرف الذي يلي هذه السلسلة الفرعية. على سبيل المثال، تتكون السلسلة الفرعية المحددة من الأحرف "app" (إجمالي 6 أحرف)، والحرف التالي هو "e". ثم، إذا كانت السلسلة الفرعية لها عنوان (مكان في القاموس) 45، فإن الإدخال في القاموس يبدو مثل "45، 6.e". بعد ذلك، يتم تغيير محتويات النافذة حسب الموضع، ويستمر البحث. هذه هي الطريقة التي يتم بها تشكيل القاموس.

ميزة الخوارزمية هي خوارزمية ذات طابع رسمي بسهولة لتجميع القاموس. بالإضافة إلى ذلك، من الممكن فك الضغط بدون القاموس الأصلي (من المستحسن أن يكون لديك تسلسل اختبار) - يتم تشكيل القاموس أثناء فك الضغط.

تظهر عيوب الخوارزمية مع زيادة حجم القاموس - يزداد وقت البحث. بالإضافة إلى ذلك، إذا ظهرت سلسلة من الأحرف في النافذة الحالية غير الموجودة في القاموس، فسيتم كتابة كل حرف برمز مكون من ثلاثة عناصر، أي. والنتيجة ليست ضغط، ولكن تمتد.

تتمتع خوارزمية LZSS، المقترحة في عام 1978، بأفضل الخصائص. لديها اختلافات في دعم النافذة المنزلقة ورموز إخراج الضاغط. بالإضافة إلى النافذة، تقوم الخوارزمية بإنشاء شجرة ثنائية مشابهة لشجرة هوفمان لتسريع البحث عن التطابقات: تتم إضافة كل سلسلة فرعية تترك النافذة الحالية إلى الشجرة كواحدة من العناصر الفرعية. تتيح لك هذه الخوارزمية زيادة حجم النافذة الحالية (من المرغوب فيه أن يكون حجمها مساويًا لقوة اثنين: 128، 256، إلخ. بايت). يتم أيضًا تشكيل رموز التسلسل بشكل مختلف: يتم تقديم بادئة إضافية ذات 1 بت لتمييز الأحرف غير المشفرة عن أزواج "الإزاحة والطول".

يتم الحصول على درجة أكبر من الضغط عند استخدام خوارزميات مثل LZW. تحتوي الخوارزميات الموصوفة مسبقًا على حجم نافذة ثابت، مما يجعل من المستحيل إدخال عبارات أطول من حجم النافذة في القاموس. في خوارزميات LZW (وسلفها LZ78)، يكون حجم نافذة العرض غير محدود، ويقوم القاموس بتجميع العبارات (وليس مجموعة من الأحرف، كما كان من قبل). يحتوي القاموس على طول غير محدود، ويعمل برنامج التشفير (وحدة فك التشفير) في وضع انتظار العبارة. عند تكوين عبارة تطابق القاموس، يتم إصدار رمز المطابقة (أي رمز هذه العبارة في القاموس) ورمز الحرف الذي يليه. إذا، مع تراكم الرموز، يتم تشكيل عبارة جديدة، يتم إدخالها أيضًا في القاموس، مثل العبارة الأقصر. والنتيجة هي إجراء متكرر يوفر تشفيرًا وفك تشفير سريعًا.

فرصة إضافيةيوفر الضغط ترميزًا مضغوطًا للأحرف المتكررة. إذا كانت بعض الأحرف تتبع في صف واحد (على سبيل المثال، في النص، يمكن أن تكون هذه أحرف "مسافة"، في تسلسل رقمي - أصفار متتالية، وما إلى ذلك)، فمن المنطقي استبدالها بالزوج "الحرف؛ "الطول" أو "العلامة، الطول" ". في الحالة الأولى، يشير الرمز إلى الإشارة التي سيتم تشفير التسلسل (عادة 1 بت)، ثم رمز الحرف المكرر وطول التسلسل. في الحالة الثانية (المقدمة للأحرف المتكررة الأكثر تكرارًا)، تشير البادئة ببساطة إلى علامة التكرار.

، مشغلات الوسائط

كانت التسجيلات، وخاصة القديمة منها التي تم تسجيلها وإنتاجها قبل عام 1982، أقل عرضة للاختلاط لجعل التسجيل أعلى صوتًا. إنهم يعيدون إنتاج الموسيقى الطبيعية بنطاق ديناميكي طبيعي يتم الاحتفاظ به في التسجيل ويفقد في معظم التنسيقات الرقمية أو عالية الوضوح القياسية.

هناك استثناءات لذلك، بالطبع، استمع إلى ألبوم ستيفن ويلسون الأخير من MA Recordings أو Reference Recordings وستسمع مدى جودة الصوت الرقمي. ولكن هذا أمر نادر الحدوث، فمعظم التسجيلات الصوتية الحديثة تكون عالية ومضغوطة.

لقد تعرض ضغط الموسيقى للكثير من الانتقادات مؤخرًا، لكنني على استعداد للمراهنة على أن جميع تسجيلاتك المفضلة تقريبًا تكون مضغوطة. بعضها أقل، وبعضها أكثر، لكنها لا تزال مضغوطة. يعد ضغط النطاق الديناميكي كبش فداء للموسيقى ذات الصوت السيئ، لكن الموسيقى المضغوطة للغاية ليست شيئًا جديدًا: استمع إلى ألبومات Motown من الستينيات. ويمكن قول الشيء نفسه عن الأعمال الكلاسيكية لليد زيبلين أو الألبومات الأصغر لويلكو وراديوهيد. يؤدي ضغط النطاق الديناميكي إلى تقليل العلاقة الطبيعية بين أعلى الأصوات وأضعفها في التسجيل، لذلك يمكن أن يكون صوت الهمس مرتفعًا مثل الصراخ. من الصعب جدًا العثور على موسيقى بوب من الخمسين عامًا الماضية لم يتم ضغطها.

لقد أجريت مؤخرًا محادثة لطيفة مع مؤسس ومحرر مجلة Tape Op Larry Crane حول الجوانب الجيدة والسيئة والقبيحة للضغط. عمل لاري كرين مع فرق وفنانين مثل ستيفان ماركوس، وكات باور، وسليتر كيني، وجيني لويس، وإم وارد، وذا جو بينتوينز، وجيسون ليتل، وإليوت سميث، وكواسي، وريتشموند فونتين. كما أنه يدير استوديو التسجيل Jackpot! في بورتلاند، أوريغون، التي كانت موطنًا لـ The Breeders، وThe Decembists، وEddie Vedder، وPavement، وR.E.M.، وShe & Him والعديد والعديد من الآخرين.

كمثال على الأغاني التي تبدو غير طبيعية بشكل مدهش ولكنها لا تزال رائعة، أستشهد بألبوم Spoon لعام 2014 They Want My Soul. يضحك كرين ويقول إنه يستمع إليها في السيارة لأنها تبدو رائعة هناك. وهو ما يقودنا إلى إجابة أخرى لسؤال لماذا يتم ضغط الموسيقى: لأن الضغط و"الوضوح" الإضافي يسهل سماعها في الأماكن الصاخبة.

لاري كرين في العمل. تصوير جيسون كويجلي

عندما يقول الناس أنهم يحبون صوت التسجيل الصوتي، أعتقد أنهم يحبون الموسيقى، كما لو كان الصوت والموسيقى مصطلحين لا ينفصلان. لكن بنفسي أفرق بين هذه المفاهيم. من وجهة نظر عشاق الموسيقى، قد يكون الصوت خشنًا وخامًا، لكن هذا لن يهم معظم المستمعين.

يسارع الكثيرون إلى اتهام مهندسي الإتقان بالإفراط في استخدام الضغط، ولكن يتم تطبيق الضغط مباشرة أثناء التسجيل، أثناء المزج، وعندها فقط أثناء الإتقان. ما لم تكن حاضرًا شخصيًا في كل مرحلة من هذه المراحل، فلن تتمكن من تحديد كيف تبدو الآلات والأجزاء الصوتية في بداية العملية.

قال كرين: "إذا أراد الموسيقي أن يبدو مجنونًا ومشوهًا عمدًا مثل تسجيلات Guided by Voices، فلا حرج في ذلك - فالرغبة تفوق دائمًا جودة الصوت." يتم ضغط صوت المؤدي دائمًا تقريبًا، ويحدث نفس الشيء مع الجهير والطبول والقيثارات وأجهزة المزج. مع الضغط، يظل حجم الغناء عند المستوى المطلوب طوال الأغنية أو يتم رفعه قليلاً عن خلفية الأصوات الأخرى.

يمكن أن يؤدي الضغط الذي يتم إجراؤه بشكل صحيح إلى جعل صوت الطبول أكثر حيوية أو غريبًا عن قصد. لجعل الموسيقى تبدو رائعة، يجب أن تكون قادرًا على استخدام الأدوات اللازمة. ولهذا السبب يستغرق الأمر سنوات لمعرفة كيفية استخدام الضغط دون المبالغة فيه. إذا قام مهندس المزج بضغط جزء الجيتار كثيرًا، فلن يتمكن مهندس الإتقان من استعادة الترددات المفقودة بالكامل.

إذا أراد الموسيقيون أن تستمع إلى موسيقى لم تمر بمراحل المزج والإتقان، فسوف يطلقونها على رفوف المتاجر مباشرة من الاستوديو. يقول كرين إن الأشخاص الذين يقومون بإنشاء الموسيقى المسجلة وتحريرها ومزجها وإتقانها ليسوا موجودين ليعيقوا طريق الموسيقيين - لقد ساعدوا الفنانين منذ البداية، لأكثر من مائة عام.

هؤلاء الأشخاص هم جزء من عملية الإبداع التي تؤدي إلى أعمال فنية مذهلة. يضيف كرين: "أنت لا تريد نسخة من Dark Side of the Moon لم يتم مزجها وإتقانها." أصدرت بينك فلويد الأغنية بالطريقة التي أرادوا سماعها.

مستوى الصوت هو نفسه في جميع أنحاء التكوين بأكمله، وهناك عدة توقفات.

تضييق النطاق الديناميكي

تضييق النطاق الديناميكي، أو ببساطة أكثر ضغط، ضروري لأغراض مختلفة، وأكثرها شيوعا هي:

1) تحقيق مستوى صوت موحد في كامل التكوين (أو جزء الآلة).

2) تحقيق مستوى صوت موحد للأغاني طوال فترة الألبوم/البث الإذاعي.

2) زيادة الوضوح، خاصة عند ضغط جزء معين (غناء، طبلة الجهير).

كيف يحدث تضييق النطاق الديناميكي؟

يقوم الضاغط بتحليل مستوى الصوت عند الإدخال من خلال مقارنته بقيمة الحد المحددة من قبل المستخدم.

إذا كان مستوى الإشارة أقل من القيمة عتبة– ثم يستمر الضاغط في تحليل الصوت دون تغييره. إذا تجاوز مستوى الصوت قيمة الحد الأدنى، يبدأ الضاغط في عمله. وبما أن دور الضاغط هو تضييق النطاق الديناميكي، فمن المنطقي افتراض أنه يحد من قيم السعة الأكبر والأصغر (مستوى الإشارة). في المرحلة الأولى تكون القيم الأكبر محدودة، والتي يتم تقليلها بقوة معينة، وهو ما يسمى نسبة(سلوك). لنلقي نظرة على مثال:

تعرض المنحنيات الخضراء مستوى الصوت؛ وكلما زاد مدى تذبذباتها من المحور X، زاد مستوى الإشارة.

الخط الأصفر هو العتبة (العتبة) لتشغيل الضاغط. من خلال جعل قيمة العتبة أعلى، يقوم المستخدم بتحريكها بعيدًا عن المحور X. ومن خلال جعل قيمة العتبة أقل، يقوم المستخدم بتقريبها من المحور Y. ومن الواضح أنه كلما انخفضت قيمة العتبة، كلما زاد الضغط على الضاغط تعمل والعكس صحيح، كلما كان ذلك أعلى، كلما كان ذلك أقل في كثير من الأحيان. إذا كانت قيمة النسبة مرتفعة جدًا، فبعد الوصول إلى مستوى إشارة العتبة، سيتم قمع جميع الإشارات اللاحقة بواسطة الضاغط حتى الصمت. إذا كانت قيمة النسبة صغيرة جدًا، فلن يحدث شيء. سيتم مناقشة اختيار قيم العتبة والنسبة لاحقًا. الآن يجب أن نسأل أنفسنا السؤال التالي: ما الفائدة من قمع كل الأصوات اللاحقة؟ في الواقع، هذا ليس له أي معنى، نحتاج فقط إلى التخلص من قيم السعة (القمم) التي تتجاوز قيمة العتبة (المميزة باللون الأحمر على الرسم البياني). لحل هذه المشكلة توجد معلمة يطلق(التوهين) الذي يحدد مدة الضغط.

يوضح المثال أن التجاوز الأول والثاني لعتبة العتبة يدوم أقل من التجاوز الثالث لعتبة العتبة. لذلك، إذا تم تعيين معلمة الإصدار على القمتين الأولين، فعند معالجة الجزء الثالث، قد يبقى جزء غير معالج (نظرًا لأن تجاوز عتبة العتبة يستمر لفترة أطول). إذا تم تعيين معلمة الإصدار على الذروة الثالثة، فعند معالجة القمم الأولى والثانية، يتم تشكيل انخفاض غير مرغوب فيه في مستوى الإشارة خلفهما.

الأمر نفسه ينطبق على معلمة النسبة. إذا تم ضبط معلمة النسبة على القمتين الأوليين، فلن يتم قمع الثالثة بشكل كافٍ. إذا تم تكوين معلمة النسبة لمعالجة الذروة الثالثة، فستكون معالجة القمتين الأوليين مفرطة للغاية.

ويمكن حل هذه المشاكل بطريقتين:

1) تحديد معلمة الهجوم (الهجوم) - حل جزئي.

2) الضغط الديناميكي - الحل الكامل.

معامل ألا يزال (هجوم)الغرض منه هو ضبط الوقت الذي سيبدأ الضاغط بعده في العمل بعد تجاوز عتبة الحد الأدنى. إذا كانت المعلمة قريبة من الصفر (تساوي الصفر في حالة الضغط المتوازي، راجع المقالة المقابلة) - فسيبدأ الضاغط في قمع الإشارة على الفور، وسيعمل لمدة الوقت المحددة بواسطة معلمة الإصدار. إذا كانت سرعة الهجوم عالية، فسيبدأ الضاغط عمله بعد فترة زمنية معينة (وهذا ضروري لإعطاء الوضوح). في حالتنا، يمكننا ضبط معلمات العتبة (العتبة)، والتوهين (الإصدار)، ومستوى الضغط (النسبة) لمعالجة القمتين الأوليين، وتعيين قيمة الهجوم بالقرب من الصفر. ثم يقوم الضاغط بقمع القمتين الأوليين، وعند معالجة الثالثة، يقوم بقمعها حتى يتم تجاوز العتبة (العتبة). ومع ذلك، فإن هذا لا يضمن معالجة صوت عالية الجودة وهو قريب من الحد (قطع تقريبي لجميع قيم السعة، في هذه الحالة يسمى الضاغط المحدد).

دعونا نلقي نظرة على نتيجة معالجة الصوت باستخدام الضاغط:

اختفت القمم، وألاحظ أن إعدادات المعالجة كانت لطيفة جدًا وقمنا بقمع قيم السعة الأبرز فقط. ومن الناحية العملية، يضيق النطاق الديناميكي أكثر بكثير وهذا الاتجاه يتقدم فقط. في أذهان العديد من الملحنين، فإنهم يجعلون الموسيقى أعلى صوتًا، لكنهم في الواقع يحرمونها تمامًا من الديناميكية بالنسبة للمستمعين الذين قد يستمعون إليها في المنزل وليس على الراديو.

علينا فقط أن نأخذ في الاعتبار معلمة الضغط الأخيرة، وهي هذه يكسب(يكسب). تم تصميم الكسب لزيادة سعة التركيبة بأكملها، وفي الواقع، يعادل أداة أخرى لتحرير الصوت - التطبيع. دعونا نلقي نظرة على النتيجة النهائية:

في حالتنا، تم تبرير الضغط وتحسين جودة الصوت، حيث أن الذروة البارزة هي على الأرجح حادث أكثر من كونها نتيجة متعمدة. بالإضافة إلى ذلك، من الواضح أن الموسيقى إيقاعية، وبالتالي فهي ذات نطاق ديناميكي ضيق. في الحالات التي تكون فيها قيم السعة العالية مقصودة، قد يكون الضغط خطأ.

الضغط الديناميكي

الفرق بين الضغط الديناميكي والضغط غير الديناميكي هو أنه في الأول، يعتمد مستوى كبت الإشارة (النسبة) على مستوى إشارة الدخل. الضواغط الديناميكية موجودة في جميع البرامج الحديثة، ويتم التحكم في معاملات النسبة والعتبة باستخدام نافذة (كل معلمة لها محورها الخاص):

لا يوجد معيار واحد لعرض الرسم البياني؛ في مكان ما على طول المحور Y يتم عرض مستوى الإشارة الواردة، وفي مكان ما على العكس من ذلك، يتم عرض مستوى الإشارة بعد الضغط. في مكان ما النقطة (0،0) تقع في الزاوية اليمنى العليا، في مكان ما في أسفل اليسار. على أية حال، عند تحريك مؤشر الماوس فوق هذا الحقل، تتغير قيم الأرقام التي تتوافق مع معلمات النسبة والعتبة. أولئك. يمكنك تعيين مستوى الضغط لكل قيمة عتبة، مما يسمح بإعدادات ضغط مرنة للغاية.

سلسلة جانبية

يقوم ضاغط السلسلة الجانبية بتحليل إشارة قناة واحدة، وعندما يتجاوز مستوى الصوت العتبة (العتبة)، فإنه يطبق الضغط على قناة أخرى. تتميز السلسلة الجانبية بمزايا العمل مع الأدوات الموجودة في نفس منطقة التردد (يتم استخدام مجموعة الركلة الجهيرية بشكل نشط)، ولكن في بعض الأحيان يتم استخدام الأدوات الموجودة في مناطق تردد مختلفة أيضًا، مما يؤدي إلى تأثير سلسلة جانبية مثير للاهتمام.

الجزء الثاني – مراحل الضغط

هناك ثلاث مراحل للضغط:

1) المرحلة الأولى هي ضغط الأصوات الفردية (الأصوات المنفردة).

يتميز جرس أي أداة بالخصائص التالية: الهجوم، التثبيت، الاضمحلال، التأخير، الاستدامة، الإصدار.

تنقسم مرحلة ضغط الأصوات الفردية إلى قسمين:

1.1) ضغط الأصوات الفردية للآلات الإيقاعية

غالبًا ما تتطلب مكونات الإيقاع ضغطًا منفصلاً لمنحها الوضوح. يقوم العديد من الأشخاص بمعالجة طبلة الجهير بشكل منفصل عن الآلات الإيقاعية الأخرى، سواء في مرحلة ضغط الأصوات الفردية أو في مرحلة ضغط الأجزاء الفردية. ويرجع ذلك إلى حقيقة أنها تقع في منطقة التردد المنخفض، حيث بالإضافة إلى ذلك، عادة ما يكون هناك صوت جهير فقط. وضوح طبلة الجهير يعني وجود نقرة مميزة (تتميز طبلة الجهير بهجوم قصير جدًا ووقت انتظار). إذا لم يكن هناك نقرة، فأنت بحاجة إلى معالجتها باستخدام ضاغط، وتعيين العتبة على الصفر ووقت الهجوم من 10 إلى 50 مللي ثانية. يجب أن ينتهي التدحرج (Realese) للضاغط قبل أن تضرب أسطوانة الركلة التالية. يمكن حل المشكلة الأخيرة باستخدام الصيغة: 60.000 / نبضة في الدقيقة، حيث BPM هو إيقاع المقطوعة الموسيقية. لذلك، على سبيل المثال) 60,000/137=437.96 (الوقت بالمللي ثانية حتى ظهور إيقاع متشائم جديد لتركيبة رباعية الأبعاد).

ينطبق كل ما سبق على الآلات الإيقاعية الأخرى ذات وقت الهجوم القصير - يجب أن يكون لها نقرة حادة لا ينبغي قمعها بواسطة الضاغط في أي مرحلة من مستويات الضغط.

1.2) الضغطالأصوات الفرديةالأدوات التوافقية

على عكس الآلات الإيقاعية، نادرا ما تتكون أجزاء الآلات التوافقية من أصوات فردية. ومع ذلك، هذا لا يعني أنه لا ينبغي معالجتها على مستوى ضغط الصوت. إذا كنت تستخدم عينة مع جزء مسجل، فهذا هو المستوى الثاني من الضغط. تنطبق فقط الأدوات التوافقية المركبة على مستوى الضغط هذا. يمكن أن تكون هذه أدوات أخذ العينات، وأجهزة توليف باستخدام طرق مختلفة لتوليف الصوت (النمذجة المادية، FM، المضافة، الطرح، وما إلى ذلك). كما خمنت على الأرجح، نحن نتحدث عن برمجة إعدادات آلة النطق. نعم! وهذا أيضًا ضغط! تحتوي جميع آلات المزج تقريبًا على معلمة مغلف قابلة للبرمجة (ADSR)، والتي تعني المغلف. باستخدام المظروف، يمكنك ضبط وقت الهجوم، والاضمحلال، والاستدامة، والإفراج. وإذا أخبرتني أن هذا ليس ضغطًا لكل صوت على حدة - فأنت عدوي مدى الحياة!

2) المرحلة الثانية – ضغط الأجزاء الفردية.

أعني بضغط الأجزاء الفردية تضييق النطاق الديناميكي لعدد من الأصوات الفردية المدمجة. تتضمن هذه المرحلة أيضًا تسجيلات للأجزاء، بما في ذلك الأغاني، والتي تتطلب معالجة الضغط لإضفاء الوضوح والوضوح. عند معالجة الأجزاء عن طريق الضغط، عليك أن تأخذ في الاعتبار أنه عند إضافة أصوات فردية، قد تظهر قمم غير مرغوب فيها، والتي تحتاج إلى التخلص منها في هذه المرحلة، لأنه إذا لم يتم ذلك الآن، فقد تتفاقم الصورة في مرحلة خلط التركيبة بأكملها. في مرحلة ضغط الأجزاء الفردية، من الضروري مراعاة ضغط مرحلة معالجة الأصوات الفردية. إذا حققت وضوح طبلة Bass، فإن إعادة المعالجة غير الصحيحة في المرحلة الثانية يمكن أن تدمر كل شيء. ليس من الضروري معالجة جميع الأجزاء باستخدام الضاغط، كما أنه ليس من الضروري معالجة جميع الأصوات الفردية. أنصحك بتثبيت محلل السعة، فقط في حالة، لتحديد وجود آثار جانبية غير مرغوب فيها للجمع بين الأصوات الفردية. بالإضافة إلى الضغط في هذه المرحلة، من الضروري التأكد من أن الدفعات مختلفة إن أمكن نطاقات الترددلكي يتم التكميم. من المفيد أيضًا أن نتذكر أن الصوت له خاصية الإخفاء (الصوتيات النفسية):

1) يتم إخفاء الصوت الأكثر هدوءًا بواسطة صوت أعلى يأتي أمامه.

2) يتم إخفاء الصوت الأكثر هدوءًا عند التردد المنخفض بصوت أعلى عند التردد العالي.

لذلك، على سبيل المثال، إذا كان لديك جزء مركب، فغالبًا ما تبدأ النوتات الموسيقية في التشغيل قبل انتهاء النغمات السابقة. في بعض الأحيان يكون ذلك ضروريًا (إنشاء الانسجام، وأسلوب اللعب، وتعدد الأصوات)، ولكن في بعض الأحيان لا يكون كذلك على الإطلاق - يمكنك قطع نهايتها (تأخير - تحرير) إذا كانت مسموعة في الوضع الفردي، ولكنها غير مسموعة في وضع التشغيل لجميع الأجزاء . وينطبق الشيء نفسه على التأثيرات، مثل الصدى - فلا ينبغي أن يستمر حتى يبدأ مصدر الصوت مرة أخرى. من خلال قطع الإشارة غير الضرورية وإزالتها، فإنك تجعل الصوت أكثر نظافة، ويمكن اعتبار ذلك أيضًا بمثابة ضغط - لأنك تقوم بإزالة الموجات غير الضرورية.

3) المرحلة الثالثة – ضغط التكوين.

عند ضغط تركيبة كاملة، عليك أن تأخذ في الاعتبار حقيقة أن جميع الأجزاء عبارة عن مزيج من العديد من الأصوات الفردية. لذلك، عند الجمع بينهما والضغط اللاحق، علينا التأكد من أن الضغط النهائي لا يفسد ما حققناه في المرحلتين الأوليين. تحتاج أيضًا إلى فصل التراكيب التي يكون فيها النطاق الواسع أو الضيق مهمًا. عند ضغط التركيبات ذات النطاق الديناميكي الواسع، يكفي تركيب ضاغط يسحق القمم قصيرة المدى التي تكونت نتيجة إضافة الأجزاء معًا. عند ضغط تركيبة يكون فيها النطاق الديناميكي الضيق مهمًا، يكون كل شيء أكثر تعقيدًا. هنا تم تسمية الضواغط مؤخرًا بالمكبرات. Maximizer هو مكون إضافي يجمع بين الضاغط والمحدد ومعادل الرسوميات والمنشط وأدوات تحويل الصوت الأخرى. وفي نفس الوقت يجب أن يكون لديه أدوات تحليل سليمة. يعد تعظيم المعالجة النهائية باستخدام الضاغط أمرًا ضروريًا إلى حد كبير لمكافحة الأخطاء التي حدثت في المراحل السابقة. الأخطاء - ليس كثيرًا في الضغط (ومع ذلك، إذا فعلت في المرحلة الأخيرة ما كان بإمكانك فعله في المرحلة الأولى، فهذا خطأ بالفعل)، ولكن في الاختيار الأولي للعينات والأدوات الجيدة التي لن تتداخل مع كل منها أخرى (نحن نتحدث عن نطاقات التردد) . وهذا هو بالضبط سبب تصحيح استجابة التردد. غالبًا ما يحدث أنه مع الضغط القوي على السيد، من الضروري تغيير معلمات الضغط والمزج في مراحل مبكرة، لأنه مع تضييق قوي للنطاق الديناميكي، تخرج الأصوات الهادئة التي كانت ملثمة مسبقًا، وصوت المكونات الفردية من تغييرات التكوين.

في هذه الأجزاء، لم أتحدث عمدا عن معلمات ضغط محددة. لقد وجدت أنه من الضروري أن أكتب عن حقيقة أنه عند الضغط من الضروري الانتباه إلى جميع الأصوات وجميع الأجزاء في جميع مراحل إنشاء التركيبة. هذه هي الطريقة الوحيدة التي ستحصل بها في النهاية على نتيجة متناغمة ليس فقط من وجهة نظر نظرية الموسيقى، ولكن أيضًا من وجهة نظر هندسة الصوت.

الجدول أدناه يعطي نصيحة عمليةلمعالجة الدفعات الفردية. ومع ذلك، في عملية الضغط، يمكن للأرقام والإعدادات المسبقة أن تقترح فقط المنطقة المطلوبة للبحث فيها. تعتمد إعدادات الضغط المثالية على كل حالة على حدة. تفترض معلمات الكسب والعتبة مستوى صوت عادي (الاستخدام المنطقي للنطاق بأكمله).

الجزء الثالث - معلمات الضغط

معلومات مختصرة:

العتبة - تحدد مستوى صوت الإشارة الواردة، وعند الوصول إليها يبدأ الضاغط في العمل.

الهجوم – يحدد الوقت الذي سيبدأ الضاغط في العمل بعده.

المستوى (النسبة) - يحدد درجة التخفيض في قيم السعة (بالنسبة لقيمة السعة الأصلية).

الإصدار - يحدد الوقت الذي سيتوقف الضاغط عن العمل بعده.

الكسب – يحدد مستوى الزيادة في الإشارة الواردة بعد معالجتها بواسطة الضاغط.

جدول الضغط:

أداة عتبة هجوم نسبة يطلق يكسب وصف
غناء 0 ديسيبل 1-2 مللي ثانية

2-5 مللي ثانية

10 مللي ثانية

0.1 مللي ثانية

0.1 مللي ثانية

أقل من 4:1

2,5: 1

4:1 – 12:1

2:1 -8:1

150 مللي ثانية

50-100 مللي ثانية

150 مللي ثانية

150 مللي ثانية

0.5 ثانية

يجب أن يكون الضغط أثناء التسجيل في حده الأدنى، فهو يتطلب معالجة إلزامية في مرحلة الخلط لإضفاء الوضوح والوضوح.
آلات النفخ 1 - 5 مللي ثانية 6:1 – 15:1 0.3 ثانية
برميل 10 إلى 50 مللي ثانية

10-100 مللي ثانية

4:1 وما فوق

10:1

50-100 مللي ثانية

1 مللي ثانية

كلما انخفض العتبة وارتفعت النسبة وطال الهجوم، زادت وضوح النقرة في بداية طبلة الركلة.
المزج يعتمد على نوع الموجة (مظاريف ADSR).
طبل كمين: 10-40 مللي ثانية

1- 5 مللي ثانية

5:1

5:1 – 10:1

50 مللي ثانية

0.2 ثانية

مرحبا هات 20 مللي ثانية 10:1 1 مللي ثانية
الميكروفونات العلوية 2-5 مللي ثانية 5:1 1-50 مللي ثانية
طبول 5 مللي ثانية 5:1 – 8:1 10 مللي ثانية
الغيتار الأساسي 100-200 مللي ثانية

4 مللي ثانية إلى 10 مللي ثانية

5:1 1 مللي ثانية

10 مللي ثانية

سلاسل 0-40 مللي ثانية 3:1 500 مللي ثانية
موالفة. صوت عميق 4 مللي ثانية - 10 مللي ثانية 4:1 10 مللي ثانية يعتمد على المغلفات.
قرع 0-20 مللي ثانية 10:1 50 مللي ثانية
جيتار صوتي، بيانو 10-30 مللي ثانية

5 - 10 مللي ثانية

4:1

5:1 -10:1

50-100 مللي ثانية

0.5 ثانية

الكهربائية نيتارا 2 - 5 مللي ثانية 8:1 0.5 ثانية
الضغط النهائي 0.1 مللي ثانية

0.1 مللي ثانية

2:1

من 2:1 إلى 3:1

50 مللي ثانية

0.1 مللي ثانية

خرج 0 ديسيبل يعتمد وقت الهجوم على الغرض - سواء كنت بحاجة إلى إزالة القمم أو جعل المسار أكثر سلاسة.
المحدد بعد الضغط النهائي 0 مللي ثانية 10:1 10-50 مللي ثانية خرج 0 ديسيبل إذا كنت بحاجة إلى نطاق ديناميكي ضيق و"قطع" تقريبي للموجات.

تم أخذ المعلومات من مصادر مختلفة تمت الإشارة إليها بواسطة الموارد الشائعة على الإنترنت. يتم تفسير الاختلاف في معلمات الضغط من خلال تفضيلات الصوت المختلفة والعمل مع مواد مختلفة.

في الوقت الذي كان فيه الباحثون قد بدأوا للتو في حل مشكلة إنشاء واجهة كلام لأجهزة الكمبيوتر، كان عليهم في كثير من الأحيان صنع معداتهم الخاصة التي من شأنها أن تسمح بإدخال المعلومات الصوتية إلى الكمبيوتر وإخراجها أيضًا من الكمبيوتر. اليوم، قد تكون هذه الأجهزة ذات أهمية تاريخية فقط، حيث يمكن تجهيز أجهزة الكمبيوتر الحديثة بسهولة بأجهزة إدخال وإخراج الصوت، مثل محولات الصوت والميكروفونات وسماعات الرأس ومكبرات الصوت.

لن نخوض في تفاصيل البنية الداخلية لهذه الأجهزة، ولكننا سنتحدث عن كيفية عملها ونقدم بعض التوصيات لاختيار أجهزة الكمبيوتر الصوتية للعمل مع أنظمة التعرف على الكلام وتوليفه.

وكما قلنا في الفصل السابق، فإن الصوت ليس أكثر من اهتزازات هوائية، يقع ترددها في نطاق الترددات التي يدركها الإنسان. قد تختلف الحدود الدقيقة لنطاق التردد المسموع من شخص لآخر، ولكن يُعتقد أن الاهتزازات الصوتية تقع في نطاق 16-20000 هرتز.

تتمثل وظيفة الميكروفون في تحويل اهتزازات الصوت إلى اهتزازات كهربائية، والتي يمكن بعد ذلك تضخيمها وتصفيتها لإزالة التداخل ورقمنتها للإدخال. معلومات صوتيةإلى الكمبيوتر.

بناءً على مبدأ عملها، تنقسم الميكروفونات الأكثر شيوعًا إلى الكربون والكهروديناميكي والمكثف والإلكتريت. تتطلب بعض هذه الميكروفونات مصدر تيار خارجي لتشغيلها (على سبيل المثال، الكربون والمكثف)، والبعض الآخر، تحت تأثير الاهتزازات الصوتية، قادر على توليد جهد كهربائي متناوب بشكل مستقل (هذه هي الميكروفونات الكهروديناميكية والإلكتريت).

يمكنك أيضًا فصل الميكروفونات حسب الغرض منها. هناك ميكروفونات استوديو يمكن حملها بيدك أو تثبيتها على حامل، وهناك ميكروفونات راديو يمكن تثبيتها على الملابس، وما إلى ذلك.

هناك أيضًا ميكروفونات مصممة خصيصًا لأجهزة الكمبيوتر. عادة ما يتم تركيب هذه الميكروفونات على حامل موضوع على سطح الطاولة. يمكن دمج ميكروفونات الكمبيوتر مع سماعات الرأس، كما هو موضح في الشكل. 2-1.

أرز. 2-1. سماعات مع ميكروفون

كيف يمكنك الاختيار من بين مجموعة متنوعة من الميكروفونات الأكثر ملاءمة لأنظمة التعرف على الكلام؟

من حيث المبدأ، يمكنك تجربة أي ميكروفون لديك، طالما أنه يمكن توصيله بمحول الصوت الخاص بجهاز الكمبيوتر الخاص بك. ومع ذلك، يوصي مطورو أنظمة التعرف على الكلام بشراء ميكروفون يكون على مسافة ثابتة من فم المتحدث أثناء التشغيل.

إذا لم تتغير المسافة بين الميكروفون والفم، فلن يتغير متوسط ​​مستوى الإشارة الكهربائية القادمة من الميكروفون كثيرًا أيضًا. سيكون لهذا تأثير إيجابي على أداء أنظمة التعرف على الكلام الحديثة.

ما هي المشكلة؟

يستطيع الشخص التعرف بنجاح على الكلام الذي يختلف حجمه على نطاق واسع جدًا. إن العقل البشري قادر على تصفية الكلام الهادئ من التداخلات، مثل ضجيج السيارات المارة في الشارع، والمحادثات الخارجية والموسيقى.

أما بالنسبة لأنظمة التعرف على الكلام الحديثة، فإن قدراتها في هذا المجال تترك الكثير مما هو مرغوب فيه. إذا كان الميكروفون على طاولة، فعندما تدير رأسك أو تغير وضع جسمك، ستتغير المسافة بين فمك والميكروفون. سيؤدي هذا إلى تغيير مستوى إخراج الميكروفون، والذي بدوره سيقلل من موثوقية التعرف على الكلام.

ولذلك، عند العمل مع أنظمة التعرف على الكلام، سيتم تحقيق أفضل النتائج إذا كنت تستخدم ميكروفونًا متصلًا بسماعات الرأس، كما هو موضح في الشكل. 2-1. عند استخدام مثل هذا الميكروفون، ستكون المسافة بين الفم والميكروفون ثابتة.

نلفت انتباهكم أيضًا إلى حقيقة أنه من الأفضل إجراء جميع تجارب أنظمة التعرف على الكلام في خصوصية وفي غرفة هادئة. في هذه الحالة، سيكون تأثير التدخل ضئيلا. بالطبع، إذا كنت بحاجة إلى تحديد نظام التعرف على الكلام الذي يمكن أن يعمل في ظروف التداخل القوي، فيجب إجراء الاختبارات بشكل مختلف. ومع ذلك، بقدر ما يعرف مؤلفو الكتاب، فإن مناعة الضوضاء لأنظمة التعرف على الكلام لا تزال منخفضة للغاية.

يقوم الميكروفون بتحويل الموجات الصوتية إلى اهتزازات بالنسبة لنا. التيار الكهربائي. يمكن رؤية هذه التقلبات على شاشة راسم الذبذبات، لكن لا تتسرع في الذهاب إلى المتجر لشراء هذا الجهاز باهظ الثمن. يمكننا إجراء جميع الدراسات الذبذبية باستخدام جهاز كمبيوتر عادي مزود بمحول صوت، على سبيل المثال، محول Sound Blaster. سنخبرك لاحقًا بكيفية القيام بذلك.

في التين. 2-2 أظهرنا مخطط الذبذبات إشارة صوتيةالناتج عن نطق صوت طويل أ. تم الحصول على هذا الشكل الموجي باستخدام برنامج GoldWave والذي سنتحدث عنه لاحقاً في هذا الفصل من الكتاب، بالإضافة إلى استخدام محول صوت Sound Blaster وميكروفون مشابه لذلك الموضح في الشكل. 2-1.

أرز. 2-2. مخطط ذبذبات الإشارة الصوتية

يتيح لك برنامج GoldWave تمديد مخطط الذبذبات على طول المحور الزمني، مما يسمح لك برؤية أصغر التفاصيل. في التين. في الشكل 2-3، أظهرنا جزءًا ممتدًا من مخطط ذبذبات الصوت المذكور أعلاه أ.

أرز. 2-3. جزء من مخطط الذبذبات للإشارة الصوتية

يرجى ملاحظة أن حجم إشارة الإدخال القادمة من الميكروفون يتغير بشكل دوري ويأخذ قيمًا إيجابية وسلبية.

إذا كان هناك تردد واحد فقط موجود في إشارة الدخل (أي إذا كان الصوت "نظيفًا")، فإن شكل الموجة المستقبلة من الميكروفون سيكون موجة جيبية. ومع ذلك، كما قلنا من قبل، يتكون طيف أصوات الكلام البشري من مجموعة من الترددات، ونتيجة لذلك يكون شكل مخطط الذبذبات لإشارة الكلام بعيدًا عن الجيبية.

سوف نقوم باستدعاء إشارة يتغير حجمها بشكل مستمر مع مرور الوقت الإشارات التناظرية. هذه هي بالضبط الإشارة التي تأتي من الميكروفون. على عكس التناظرية، الإشارات الرقميةهي مجموعة من القيم العددية التي تتغير بشكل منفصل مع مرور الوقت.

لكي يتمكن الكمبيوتر من معالجة إشارة صوتية، يجب تحويلها من الشكل التناظري إلى الشكل الرقمي، أي تقديمها كمجموعة من القيم الرقمية. تسمى هذه العملية رقمنة الإشارة التناظرية.

يتم إجراء رقمنة الإشارة الصوتية (وأي إشارة تناظرية) باستخدام جهاز خاص يسمى محول تناظري رقمي ADC (محول تناظري إلى رقمي، ADC). يقع هذا الجهاز على لوحة محول الصوت وهو عبارة عن دائرة كهربائية دقيقة ذات مظهر عادي.

كيف يعمل المحول التناظري إلى الرقمي؟

يقوم بقياس مستوى إشارة الدخل بشكل دوري ويخرج قيمة رقمية لنتيجة القياس. تم توضيح هذه العملية في الشكل. 2-4. تشير المستطيلات الرمادية هنا إلى قيم إشارة الإدخال المقاسة في فترة زمنية ثابتة. مجموعة من هذه القيم هي تمثيل رقمي للإشارة التناظرية المدخلة.

أرز. 2-4. قياسات سعة الإشارة مقابل الوقت

في التين. لقد أظهرنا في الشكل 2-5 توصيل محول تناظري إلى رقمي بالميكروفون. في هذه الحالة، يتم توفير إشارة تناظرية للمدخل x 1، وتتم إزالة الإشارة الرقمية من المخارج u 1 -u n.

أرز. 2-5. محول تناظري رقمي

تتميز المحولات التناظرية إلى الرقمية بمعلمتين مهمتين - تردد التحويل وعدد مستويات التكميم لإشارة الدخل. يعد الاختيار الصحيح لهذه المعلمات أمرًا بالغ الأهمية لتحقيق التمثيل الرقمي المناسب للإشارة التناظرية.

كم مرة تحتاج إلى قياس سعة الإشارة التناظرية للإدخال حتى لا يتم فقدان المعلومات حول التغييرات في إشارة الإدخال التناظرية نتيجة للرقمنة؟

يبدو أن الإجابة بسيطة - يجب قياس إشارة الإدخال كلما أمكن ذلك. في الواقع، كلما قام المحول التناظري إلى الرقمي بإجراء مثل هذه القياسات في كثير من الأحيان، كلما كان قادرًا على تتبع أدنى التغييرات في سعة الإشارة التناظرية المدخلة بشكل أفضل.

ومع ذلك، يمكن أن تؤدي القياسات المتكررة بشكل مفرط إلى زيادة غير مبررة في تدفق البيانات الرقمية وإهدار موارد الكمبيوتر عند معالجة الإشارة.

لحسن الحظ، الاختيار الصحيحترددات التحويل (ترددات أخذ العينات) سهلة للغاية. للقيام بذلك، يكفي اللجوء إلى نظرية Kotelnikov المعروفة لدى المتخصصين في مجال معالجة الإشارات الرقمية. تنص النظرية على أن تردد التحويل يجب أن يكون ضعف الحد الأقصى لتردد طيف الإشارة المحولة. لذلك، للرقمنة دون فقدان جودة الإشارة الصوتية التي يقع ترددها في نطاق 16-20000 هرتز، تحتاج إلى تحديد تردد تحويل لا يقل عن 40000 هرتز.

ومع ذلك، لاحظ أنه في المعدات الصوتية الاحترافية، يتم تحديد تردد التحويل أعلى عدة مرات من القيمة المحددة. يتم ذلك لتحقيق غاية جودة عاليةالصوت الرقمي. هذه الجودة ليست ذات صلة بأنظمة التعرف على الكلام، لذلك لن نركز انتباهك على هذا الاختيار.

ما هو تردد التحويل المطلوب لرقمنة صوت الكلام البشري؟

وبما أن أصوات الكلام البشري تقع في نطاق تردد يتراوح بين 300-4000 هرتز، فإن الحد الأدنى لتردد التحويل المطلوب هو 8000 هرتز. ومع ذلك، تستخدم العديد من برامج التعرف على الكلام بالكمبيوتر تردد التحويل القياسي البالغ 44000 هرتز لمحولات الصوت التقليدية. من ناحية، لا يؤدي تردد التحويل هذا إلى زيادة مفرطة في تدفق البيانات الرقمية، ومن ناحية أخرى، فإنه يضمن رقمنة الكلام بجودة كافية.

مرة أخرى في المدرسة، علمنا أنه مع أي قياسات هناك أخطاء، والتي لا يمكن القضاء عليها بالكامل. تنشأ مثل هذه الأخطاء بسبب الدقة المحدودة لأدوات القياس، وكذلك بسبب حقيقة أن عملية القياس نفسها يمكن أن تؤدي إلى بعض التغييرات في القيمة المقاسة.

يمثل المحول التناظري إلى الرقمي إشارة الإدخال التناظرية كتيار من الأرقام ذات السعة المحدودة. تحتوي محولات الصوت التقليدية على كتل ADC ذات 16 بت قادرة على تمثيل سعة إشارة الإدخال كقيم مختلفة تبلغ 216 = 65536. يمكن أن تكون أجهزة ADC في الأجهزة الصوتية المتطورة 20 بت، مما يوفر دقة أكبر في تمثيل سعة الإشارة الصوتية.

تم إنشاء أنظمة وبرامج التعرف على الكلام الحديثة من أجل أجهزة الكمبيوتر العاديةومجهزة بمحولات الصوت التقليدية. لذلك، لإجراء تجارب التعرف على الكلام، لا تحتاج إلى شراء محول صوت احترافي. يعد المحول مثل Sound Blaster مناسبًا تمامًا لرقمنة الكلام بغرض التعرف عليه بشكل أكبر.

إلى جانب الإشارة المفيدة، يدخل الميكروفون عادةً ضوضاء مختلفة - ضوضاء من الشارع، وضجيج الرياح، ومحادثات غريبة، وما إلى ذلك. للضوضاء تأثير سلبي على أداء أنظمة التعرف على الكلام، لذا يجب التعامل معها. لقد ذكرنا بالفعل إحدى الطرق - من الأفضل استخدام أنظمة التعرف على الكلام اليوم في غرفة هادئة، بمفردك مع الكمبيوتر.

ومع ذلك، ليس من الممكن دائمًا تهيئة الظروف المثالية، لذلك من الضروري استخدام طرق خاصة للتخلص من التداخل. لتقليل مستوى الضوضاء، يتم استخدام حيل خاصة عند تصميم الميكروفونات والمرشحات الخاصة التي تزيل الترددات من طيف الإشارة التناظرية التي لا تحمل معلومات مفيدة. بالإضافة إلى ذلك، يتم استخدام تقنية مثل ضغط النطاق الديناميكي لمستويات إشارة الإدخال.

دعونا نتحدث عن كل هذا بالترتيب.

مرشح الترددهو جهاز يقوم بتحويل طيف التردد للإشارة التناظرية. في هذه الحالة، أثناء عملية التحويل، يتم إطلاق (أو امتصاص) اهتزازات ترددات معينة.

يمكنك أن تتخيل هذا الجهاز كنوع من الصندوق الأسود بمدخل واحد ومخرج واحد. فيما يتعلق بحالتنا، سيتم توصيل ميكروفون بمدخل مرشح التردد، وسيتم توصيل محول تناظري إلى رقمي بالإخراج.

هناك مرشحات تردد مختلفة:

· مرشحات تمريرة منخفضة.

مرشحات تمرير عالية.

· يحيل مرشحات ممر الموجة.

· مرشحات الفرقة التوقف.

مرشحات تمرير منخفضة(مرشح الترددات المنخفضة) يزيل من طيف إشارة الدخل جميع الترددات التي تكون قيمها أقل من تردد عتبة معين، اعتمادًا على إعداد المرشح.

نظرًا لأن الإشارات الصوتية تقع في نطاق 16-20000 هرتز، فيمكن قطع جميع الترددات الأقل من 16 هرتز دون المساس بجودة الصوت. للتعرف على الكلام، يعد نطاق التردد 300-4000 هرتز مهمًا، لذلك يمكن قطع الترددات الأقل من 300 هرتز. في هذه الحالة، سيتم قطع جميع التداخلات التي يقع طيف ترددها أقل من 300 هرتز من إشارة الإدخال، ولن تتداخل مع عملية التعرف على الكلام.

على نفس المنوال، مرشحات تمرير عالية(مرشح التمرير العالي) يقطع من طيف إشارة الإدخال جميع الترددات التي تزيد عن تردد عتبة معين.

لا يستطيع البشر سماع الأصوات بتردد 20.000 هرتز أو أعلى، لذلك يمكن استبعادهم من الطيف دون حدوث تدهور ملحوظ في جودة الصوت. أما بالنسبة للتعرف على الكلام، فيمكنك هنا قطع جميع الترددات التي تزيد عن 4000 هرتز، مما سيؤدي إلى انخفاض كبير في مستوى التداخل عالي التردد.

مرشح تمرير الفرقة(مرشح تمرير النطاق) يمكن اعتباره مزيجًا من مرشح التمرير المنخفض والتمرير العالي. يقوم هذا المرشح بتأخير جميع الترددات الموجودة أسفل ما يسمى تردد تمرير أقل، وما فوق أيضًا تردد التمرير العلوي.

وبالتالي، يعد مرشح نطاق التمرير مناسبًا لنظام التعرف على الكلام، والذي يؤخر جميع الترددات باستثناء الترددات في حدود 300-4000 هرتز.

أما بالنسبة لمرشحات إيقاف النطاق، فهي تسمح لك بقطع جميع الترددات الموجودة في نطاق معين من طيف إشارة الإدخال. يعد هذا المرشح مناسبًا، على سبيل المثال، لقمع التداخل الذي يشغل جزءًا مستمرًا معينًا من طيف الإشارة.

في التين. 2-6 أظهرنا اتصال مرشح تمرير النطاق الترددي.

أرز. 2-6. تصفية الإشارة الصوتية قبل الرقمنة

يجب أن يقال أن محولات الصوت التقليدية المثبتة في الكمبيوتر تتضمن مرشح تمرير النطاق الذي تمر من خلاله الإشارة التناظرية قبل الرقمنة. يتوافق نطاق تمرير هذا المرشح عادةً مع نطاق الإشارات الصوتية، أي 16-20000 هرتز (في محولات الصوت المختلفة، قد تختلف قيم الترددات العلوية والسفلية ضمن حدود صغيرة).

كيف يمكن تحقيق نطاق ترددي أضيق يبلغ 300-4000 هرتز، وهو ما يتوافق مع الجزء الأكثر إفادة في طيف الكلام البشري؟

بالطبع، إذا كان لديك ميل لتصميم المعدات الإلكترونية، فيمكنك إنشاء مرشح خاص بك من شريحة مضخم التشغيل والمقاومات والمكثفات. وهذا تقريبًا ما فعله المبدعون الأوائل لأنظمة التعرف على الكلام.

ومع ذلك، يجب أن تكون أنظمة التعرف على الكلام الصناعية قادرة على العمل وفقًا للمعايير معدات الحاسوبلذا فإن طريقة صنع مرشح ممر الموجة الخاص ليست مناسبة هنا.

بدلا من ذلك، في الأنظمة الحديثةتستخدم معالجة الكلام ما يسمى مرشحات التردد الرقمية، تنفيذها في البرمجيات. أصبح هذا ممكنًا بعد أن أصبح المعالج المركزي للكمبيوتر قويًا بدرجة كافية.

يقوم مرشح التردد الرقمي، المطبق في البرنامج، بتحويل الإشارة الرقمية المدخلة إلى إشارة رقمية مخرجة. أثناء عملية التحويل، يقوم البرنامج بطريقة خاصة بمعالجة تدفق القيم الرقمية لسعة الإشارة القادمة من المحول التناظري إلى الرقمي. ستكون نتيجة التحويل أيضًا دفقًا من الأرقام، لكن هذا الدفق سيتوافق مع الإشارة التي تمت تصفيتها بالفعل.

أثناء الحديث عن المحول التناظري إلى الرقمي، لاحظنا خاصية مهمة مثل عدد مستويات التكميم. إذا تم تركيب محول تناظري إلى رقمي 16 بت في محول الصوت، فبعد الرقمنة، يمكن تمثيل مستويات الإشارة الصوتية على أنها 216 = 65536 قيم مختلفة.

إذا كان هناك عدد قليل من مستويات التكميم، فإن ما يسمى الضوضاء الكمي. وللحد من هذا الضجيج، يجب أن تستخدم أنظمة الرقمنة الصوتية عالية الجودة محولات تناظرية إلى رقمية مع الحد الأقصى لعدد مستويات التكميم المتاحة.

ومع ذلك، هناك تقنية أخرى لتقليل تأثير ضوضاء التكميم على جودة الإشارة الصوتية، وهي تستخدم في أنظمة التسجيل الصوتي الرقمي. عند استخدام هذه التقنية، يتم تمرير الإشارة عبر مضخم غير خطي قبل الرقمنة، مع التركيز على الإشارات ذات سعة الإشارة المنخفضة. يقوم هذا الجهاز بتضخيم الإشارات الضعيفة أكثر من الإشارات القوية.

ويتضح ذلك من خلال الرسم البياني لسعة إشارة الخرج مقابل سعة إشارة الدخل الموضحة في الشكل. 2-7.

أرز. 2-7. التضخيم غير الخطي قبل الرقمنة

في خطوة تحويل الصوت الرقمي مرة أخرى إلى تناظري (سننظر إلى هذه الخطوة لاحقًا في هذا الفصل)، يتم تمرير الإشارة التناظرية مرة أخرى عبر مضخم غير خطي قبل إخراجها إلى مكبرات الصوت. هذه المرة، يتم استخدام مكبر صوت مختلف، والذي يركز على الإشارات ذات السعة العالية وله خاصية النقل (اعتماد سعة إشارة الخرج على سعة إشارة الإدخال) عكس تلك المستخدمة أثناء الرقمنة.

كيف يمكن لكل هذا أن يساعد منشئي أنظمة التعرف على الكلام؟

من المعروف أن الشخص يتعرف بشكل جيد على الكلام المنطوق بصوت هامس هادئ أو بصوت عالٍ إلى حد ما. يمكننا القول أن النطاق الديناميكي لمستويات جهارة الصوت للكلام المعترف به بنجاح لدى الشخص واسع جدًا.

اليوم أنظمة الكمبيوترالتعرف على الكلام، لسوء الحظ، لا يمكن أن يتباهى بهذا بعد. ومع ذلك، من أجل توسيع النطاق الديناميكي المحدد قليلاً، قبل التحويل الرقمي، يمكنك تمرير الإشارة من الميكروفون من خلال مضخم صوت غير خطي، تظهر خاصية النقل الخاصة به في الشكل. 2-7. سيؤدي ذلك إلى تقليل مستوى ضوضاء التكميم عند رقمنة الإشارات الضعيفة.

يضطر مطورو أنظمة التعرف على الكلام مرة أخرى إلى التركيز بشكل أساسي على محولات الصوت المنتجة تجاريًا. وهي لا توفر تحويل الإشارة غير الخطية الموضح أعلاه.

ومع ذلك، من الممكن إنشاء برنامج مكافئ لمكبر الصوت غير الخطي الذي يحول الإشارة الرقمية قبل تمريرها إلى وحدة التعرف على الكلام. على الرغم من أن مكبر الصوت هذا لن يكون قادرًا على تقليل ضوضاء التكميم، إلا أنه يمكن استخدامه للتأكيد على مستويات الإشارة التي تحمل معظم معلومات الكلام. على سبيل المثال، يمكنك تقليل سعة الإشارات الضعيفة، وبالتالي تخليص الإشارة من الضوضاء.

الضغط الديناميكي(ضغط النطاق الديناميكي، DRC) - تضييق (أو توسيع في حالة الموسع) النطاق الديناميكي للتسجيل الصوتي. النطاق الديناميكي، هو الفرق بين الصوت الأهدأ والأعلى. في بعض الأحيان يكون الصوت الأكثر هدوءًا في الموسيقى التصويرية أعلى قليلاً من مستوى الضوضاء، وأحيانًا أهدأ قليلاً من الصوت الأعلى. تسمى الأجهزة والبرامج التي تقوم بالضغط الديناميكي بالضواغط، وتميز بينها أربع مجموعات رئيسية: الضواغط نفسها، والمحددات، والموسعات، والبوابات.

ضاغط أنبوبي تناظري DBX 566

الضغط للأسفل والأعلى

الضغط السفلي(الضغط لأسفل) يقلل من مستوى الصوت عندما يبدأ في تجاوز عتبة معينة، مع ترك الأصوات الأكثر هدوءًا دون تغيير. النسخة المتطرفة من الضغط الهبوطي هي المحدد. تعزيز الضغطمن ناحية أخرى، يؤدي الضغط التصاعدي إلى زيادة حجم الصوت إذا كان أقل من الحد دون التأثير على الأصوات الأعلى. وفي الوقت نفسه، يعمل كلا النوعين من الضغط على تضييق النطاق الديناميكي للإشارة الصوتية.

الضغط السفلي

تعزيز الضغط

الموسع والبوابة

إذا قام الضاغط بتقليل النطاق الديناميكي، فإن الموسع يزيده. عندما يرتفع مستوى الإشارة فوق مستوى العتبة، يقوم الموسع بزيادتها أكثر، وبالتالي يزيد الفرق بين الأصوات العالية والناعمة. غالبًا ما يتم استخدام مثل هذه الأجهزة عند تسجيل مجموعة الطبول لفصل أصوات طبلة عن الأخرى.

يسمى نوع الموسع الذي لا يستخدم لتضخيم الأصوات العالية، ولكن لتخفيف الأصوات الهادئة التي لا تتجاوز مستوى العتبة (على سبيل المثال، ضجيج الخلفية) بوابة الضجيج. في مثل هذا الجهاز، بمجرد أن يصبح مستوى الصوت أقل من العتبة، تتوقف الإشارة عن المرور. عادةً ما يتم استخدام بوابة لقمع الضوضاء أثناء فترات التوقف المؤقت. في بعض الطرز، يمكنك التأكد من أن الصوت لا يتوقف فجأة عندما يصل إلى مستوى العتبة، ولكنه يتلاشى تدريجيًا. في هذه الحالة، يتم تحديد معدل الاضمحلال عن طريق التحكم في الاضمحلال.

البوابة، مثل الأنواع الأخرى من الضواغط، يمكن أن تكون تعتمد على التردد(أي تعامل مع نطاقات تردد معينة بشكل مختلف) ويمكن أن تعمل فيها سلسلة جانبية(انظر أدناه).

مبدأ تشغيل الضاغط

يتم تقسيم الإشارة التي تدخل الضاغط إلى نسختين. يتم إرسال نسخة واحدة إلى مكبر للصوت، حيث يتم التحكم في درجة التضخيم عن طريق إشارة خارجية، والنسخة الثانية تولد هذه الإشارة. يدخل إلى جهاز يسمى السلسلة الجانبية، حيث يتم قياس الإشارة وبناء على هذه البيانات يتم إنشاء مظروف يصف التغير في حجمها.
هذه هي الطريقة التي يتم بها تصميم معظم الضواغط الحديثة، وهذا ما يسمى بنوع التغذية الأمامية. في الأجهزة القديمة (نوع التغذية المرتدة)، يتم قياس مستوى الإشارة بعد مكبر الصوت.

هناك العديد من تقنيات التضخيم التناظرية ذات الكسب المتغير، ولكل منها مزاياها وعيوبها: الأنبوب، والمقاومات الضوئية باستخدام المقاومات الضوئية، والترانزستور. عند العمل مع الصوت الرقمي(في محرر الصوت أو DAW) يمكنه استخدام الخوارزميات الرياضية الخاصة به أو محاكاة تشغيل التقنيات التناظرية.

المعلمات الرئيسية للضواغط

عتبة

يقوم الضاغط بخفض مستوى الإشارة الصوتية إذا تجاوزت سعتها قيمة عتبة معينة (العتبة). يتم تحديده عادةً بالديسيبل، مع حد أدنى (على سبيل المثال -60 ديسيبل) مما يعني أنه سيتم معالجة المزيد من الصوت مقارنة بالعتبة الأعلى (على سبيل المثال -5 ديسيبل).

نسبة

يتم تحديد مقدار تخفيض المستوى بواسطة معلمة النسبة: النسبة 4:1 تعني أنه إذا كان مستوى الإدخال أعلى بمقدار 4 ديسيبل من العتبة، فإن مستوى الإخراج سيكون أعلى بمقدار 1 ديسيبل من العتبة.
على سبيل المثال:
العتبة = −10 ديسيبل
الإدخال = −6 ديسيبل (4 ديسيبل فوق العتبة)
الخرج = -9 ديسيبل (1 ديسيبل فوق العتبة)

من المهم أن نأخذ في الاعتبار أن قمع مستوى الإشارة يستمر لبعض الوقت بعد أن ينخفض ​​​​إلى ما دون مستوى العتبة، ويتم تحديد هذه المرة من خلال قيمة المعلمة يطلق.

يسمى الضغط بنسبة قصوى تبلغ ∞:1 بالحد. وهذا يعني أن أي إشارة أعلى من مستوى العتبة يتم تخفيفها إلى مستوى العتبة (باستثناء فترة قصيرة بعد الزيادة المفاجئة في حجم الإدخال). راجع "المحدد" أدناه لمزيد من التفاصيل.

أمثلة على قيم النسبة المختلفة

الهجوم والإفراج

يوفر الضاغط بعض التحكم في مدى سرعة استجابته للتغيرات في ديناميكيات الإشارة. تحدد معلمة الهجوم الوقت الذي يستغرقه الضاغط لتقليل الكسب إلى مستوى تحدده معلمة النسبة. يحدد الإصدار الوقت الذي يقوم فيه الضاغط، على العكس من ذلك، بزيادة الكسب أو العودة إلى الوضع الطبيعي إذا انخفض مستوى إشارة الإدخال عن قيمة العتبة.

مراحل الهجوم والإفراج

تشير هذه المعلمات إلى الوقت (عادةً بالمللي ثانية) الذي سيستغرقه تغيير الكسب بمقدار معين من الديسيبل، عادةً 10 ديسيبل. على سبيل المثال، في هذه الحالة، إذا تم ضبط الهجوم على 1 مللي ثانية، فسوف يستغرق الأمر 1 مللي ثانية لتقليل الكسب بمقدار 10 ديسيبل، و2 مللي ثانية لتقليل الكسب بمقدار 20 ديسيبل.

في العديد من الضواغط، يمكن تعديل معلمات الهجوم والتحرير، ولكن في بعضها تكون محددة مسبقًا ولا يمكن تعديلها. في بعض الأحيان يتم تصنيفها على أنها "تلقائية" أو "تعتمد على البرنامج"، أي. يتغير حسب إشارة الإدخال.

ركبة

معلمة ضاغط أخرى: الركبة الصلبة/الناعمة. فهو يحدد ما إذا كانت بداية الضغط ستكون مفاجئة (صعبة) أو تدريجية (ناعمة). الركبة الناعمة تقلل من ملاحظة الانتقال من الإشارة الجافة إلى الإشارة المضغوطة، خاصة عند قيم النسبة العالية والزيادات المفاجئة في الحجم.

ضغط الركبة الصلبة والركبة الناعمة

الذروة وRMS

يمكن للضاغط أن يستجيب لقيم الذروة (الحد الأقصى على المدى القصير) أو للمستوى المتوسط ​​لإشارة الدخل. يمكن أن يؤدي استخدام قيم الذروة إلى تقلبات حادة في درجة الضغط وحتى التشويه. ولذلك، تطبق الضواغط دالة متوسطة (عادةً RMS) على إشارة الدخل عند مقارنتها بقيمة عتبة. وهذا يعطي ضغطًا أكثر راحة وأقرب إلى الإدراك البشري لجهارة الصوت.

RMS هي معلمة تعكس متوسط ​​حجم الصوت. من وجهة نظر رياضية، RMS (جذر متوسط ​​المربع) هو جذر متوسط ​​قيمة مربع سعة عدد معين من العينات:

ربط ستيريو

يطبق الضاغط في وضع ربط الاستريو نفس الكسب على كلتا قناتي الاستريو. يؤدي هذا إلى تجنب تحولات الاستريو التي قد تنتج عن المعالجة الفردية للقنوات اليسرى واليمنى. يحدث هذا التحول، على سبيل المثال، إذا تم تحريك عنصر مرتفع خارج المركز.

مكسب مكياج

نظرًا لأن الضاغط يقلل من مستوى الإشارة الإجمالي، فإنه عادةً ما يضيف خيار كسب خرج ثابت لتحقيق المستوى الأمثل.

انظر الى الامام

تم تصميم وظيفة التطلع إلى الأمام لحل المشكلات المرتبطة بقيم الهجوم والإصدار العالية جدًا والمنخفضة جدًا. وقت الهجوم الطويل جدًا لا يسمح لنا باعتراض العابرين بشكل فعال، ووقت الهجوم القصير جدًا قد لا يكون مريحًا للمستمع. عند استخدام وظيفة النظرة المستقبلية، تتأخر الإشارة الرئيسية بالنسبة لإشارة التحكم، وهذا يسمح لك ببدء الضغط مقدمًا، حتى قبل أن تصل الإشارة إلى قيمة العتبة.
العيب الوحيد لهذه الطريقة هو التأخير الزمني للإشارة، وهو أمر غير مرغوب فيه في بعض الحالات.

استخدام الضغط الديناميكي

يتم استخدام الضغط في كل مكان، ليس فقط في الموسيقى التصويرية، ولكن أيضًا حيثما يكون ذلك ضروريًا لزيادة الحجم الإجمالي دون زيادة مستويات الذروة، حيث يتم استخدام معدات إعادة إنتاج الصوت غير المكلفة أو قناة إرسال محدودة (أنظمة العناوين العامة والاتصالات، راديو الهواة، إلخ.) .

يتم تطبيق الضغط أثناء التشغيل خلفيه موسيقية(في المحلات التجارية والمطاعم وغيرها) حيث لا يكون من المرغوب فيه حدوث أي تغييرات ملحوظة في الحجم.

لكن المجال الأكثر أهمية لتطبيق الضغط الديناميكي هو إنتاج الموسيقى وبثها. يستخدم الضغط لإعطاء الصوت "الكثافة" و"القيادة". أفضل مزيجالآلات مع بعضها البعض، وخاصة عند معالجة الغناء.

غالبًا ما يتم ضغط الأغاني في موسيقى الروك والبوب ​​لجعلها تبرز من المرافقة وتضفي الوضوح. يتم استخدام نوع خاص من الضاغط الذي يتم ضبطه فقط على ترددات معينة - مزيل الضغط - لقمع أصوات الصفير.

في الأجزاء الآلية، يتم استخدام الضغط أيضًا للتأثيرات التي لا ترتبط بشكل مباشر بالحجم، على سبيل المثال، يمكن جعل أصوات الطبل المتدهورة بسرعة تدوم لفترة أطول.

غالبًا ما تستخدم موسيقى الرقص الإلكترونية (EDM) التسلسل الجانبي (انظر أدناه) - على سبيل المثال، قد يتم تشغيل خط الجهير بواسطة طبلة ركلة أو ما شابه ذلك لمنع تصادم الجهير والطبول وإنشاء نبض ديناميكي.

يستخدم الضغط على نطاق واسع في البث (الراديو والتلفزيون والبث عبر الإنترنت) لزيادة جهارة الصوت الملموسة مع تقليل النطاق الديناميكي للصوت المصدر (عادة قرص مضغوط). تفرض معظم البلدان قيودًا قانونية على الحد الأقصى للحجم الفوري الذي يمكن بثه. عادةً ما يتم تنفيذ هذه القيود بواسطة ضواغط الأجهزة الدائمة في السلسلة الهوائية. بالإضافة إلى ذلك، تؤدي زيادة جهارة الصوت إلى تحسين "جودة" الصوت من وجهة نظر معظم المستمعين.

أنظر أيضا حرب الصخب.

زيادة مستمرة في مستوى صوت نفس الأغنية التي تم إعادة صياغتها للقرص المضغوط من عام 1983 إلى عام 2000.

تسلسل جانبي

مفتاح الضاغط الآخر الشائع هو "السلسلة الجانبية". في هذا الوضع، يحدث ضغط الصوت ليس اعتمادا على مستواه الخاص، ولكن اعتمادا على مستوى الإشارة التي تدخل الموصل، والتي تسمى عادة السلسلة الجانبية.

هناك عدة استخدامات لهذا. على سبيل المثال، لدى المغني لثغة وجميع حروف "s" تبرز من الصورة العامة. تقوم بتمرير صوته من خلال الضاغط، وتغذي نفس الصوت في موصل السلسلة الجانبية، ولكن يتم تمريره من خلال المعادل. باستخدام المعادل، يمكنك قطع جميع الترددات باستثناء تلك التي يستخدمها المنشد عند نطق حرف "s". عادة حوالي 5 كيلو هرتز، ولكن يمكن أن تتراوح من 3 كيلو هرتز إلى 8 كيلو هرتز. إذا قمت بعد ذلك بوضع الضاغط في وضع السلسلة الجانبية، فسيتم ضغط الصوت في تلك اللحظات التي يتم فيها نطق الحرف "s". نتج عن ذلك جهاز يعرف باسم de-esser. طريقة العمل هذه تسمى "تعتمد على التردد".

استخدام آخر لهذه الوظيفة يسمى "البطة". على سبيل المثال، في محطة الراديو، تمر الموسيقى عبر ضاغط، وتأتي كلمات DJ عبر سلسلة جانبية. عندما يبدأ DJ في الدردشة، ينخفض ​​مستوى صوت الموسيقى تلقائيًا. يمكن أيضًا استخدام هذا التأثير بنجاح في التسجيل، على سبيل المثال، لتقليل مستوى صوت أجزاء لوحة المفاتيح أثناء الغناء.

حدود جدار من الطوب

يعمل الضاغط والمحدد بنفس الطريقة تقريبًا؛ يمكننا القول أن المحدد عبارة عن ضاغط ذو نسبة عالية (من 10:1)، وعادةً ما يكون وقت الهجوم منخفضًا.

هناك مفهوم الحد من جدار الطوب - الحد بنسبة عالية جدًا (20:1 وما فوق) وهجوم سريع جدًا. ومن الناحية المثالية، لا يسمح للإشارة بتجاوز مستوى العتبة على الإطلاق. ستكون النتيجة غير سارة للأذن، ولكن هذا سيمنع تلف معدات إعادة إنتاج الصوت أو الفائض عرض النطاققناة. تقوم العديد من الشركات المصنعة بدمج المحددات في أجهزتها لهذا الغرض بالذات.

كليبر مقابل. المحدد، لقطة ناعمة وصعبة



أخبر الأصدقاء