الأغراض التي تحيط بنا في حياتنا اليومية (سيارات، مجلات، وبرمجيات) ستكون قادرة على التحدث بصوت مركب تم توليفه بجودة عالية تشبه إلى حد بعيد الصوت البشري من خلال تقنية جديدة كلياً تسمى البصمة الصوتية. نظام تحديد المواقع يثبت ذلك، فالأشياء تتحدث منذ مدة طويلة، ولكن الجديد هنا أن خوارزميات جديدة ستمكننا من استنساخ الصوت البشري حتى لأولئك الذين غيبهم الموت،لكن ذلك ربما لن يخلو من بعض الإزعاج. تخيل مثلاً أن هذا المقال الذي تشرع للتو في قراءته، يقرأه بصوت عال جهاز ما ومن البديهي ستتوقع سماع صوت اصطناعي أحادي النغمة غير شخصي، لكن على الرغم من ذلك تلاحظ أن هذا الصوت شديد القرب من نغمة الصوت البشري، كما هو الحال في أجهزة GPS في السيارة التي ترشدك بصوت بشري أن تأخذ الاتجاه يساراً ومهما بلغت مصداقية هذا الصوت الآلي إلا أنه يفتقر إلى الدفء، والسلاسة التي تحدث الفرق مع الصوت البشري. يبدو أن تخيلك لم يكن دقيقاً تماماً فشركة Voxygen، المتخصصة في تركيب الأصوات التي تأسست في عام 2011 انطلاقاً من المهارات القديمة التي تمخضت عن (المركز القومي الفرنسي لبحوث الاتصالات) الذي أصبح الآن تحت مسمى مختبرات أورانج تفخر بوضع خوارزميات للنطق تعمل على الدخول بتقنية تركيب الصوت إلى عهد جديد. ويبدو أن إمكانية تصنيع أو إنتاج صوت بشري حقيقي سيفتح آفاقاً كبرى في السينما وكذلك في الطب والتراث، وحتى في عالم المخابرات. والواقع أنه عندما تستمع إلى صوت مركب من خلال جهاز كومبيوتر فإنه من الصعب أن تجد فرقاً بينه وبين الصوت البشري، سواء أكان من ناحية التنفس أم طريقة الإلقاء، أو ارتفاع وانخفاض الصوت في الكلام، ودفء الحديث، فكل شيء تقريباً موجود في هذا الصوت الآلي، وبالتأكيد، فإن الطلب من جهاز الكمبيوتر قراءة نص ليس أمراً جديداً، فالساعة الناطقة كانت بمثابة المرحلة الأولى لهذا الأمر، كما أن البنوك وشركات التأمين والمتاجر تمتلك خدمات صوتية تلقائية للرد على المكالمات، ولكن الخوارزميات التي أوجدتها شركة Voxygen تثبت ذلك ويمكن القول إنه اجتياز لعتبة صعبة، حيث باتت الآلات قادرة على تقليد أي صوت بشري، أو حتى إنشاء الصوت من العدم إلى درجة أنه يمكنك طلب قراءة هذا المقال مثلاً بصوت نيكولا ساركوزي، أو فرانسوا هولاند، أو بصوتك أنت إن شئت، هذه الآفاق ربما تصيب البعض بالدوار أو حتى الذهول. يقول تييري مودونغ مؤسس شركة Voxygen إن الناس ربما لا يدركون أهمية هوية الصوت، فنحن نتأثر حقاً من الناحية العاطفية والانفعالية، بالصوت البشري، ومع ذلك نجد أن كل صوت فريد من نوعه، فعندما يمر الهواء من خلال الحبال الصوتية يهزها، والاضطرابات، والتقلصات التي تحدث في العضلات تولد مجموعة من العيوب التي تعطيه شكله الأول أو بصمته الأولى (صوت هامس، أجش)، بعد ذلك يمر الهواء من خلال الجهاز الصوتي (الحنجرة والفم) والذي تساهم هندسته في إعطاء الأفضلية لترددات معينة، ما يتيح للصوت التميز ببصمة خاصة، وأخيراً، فإن طريقة التحدث تضيف إلى الصوت خصوصيته، كسرعة تدفق الكلمات، الارتفاع والانخفاض في الإيقاعات بمعنى أن كل هذه الملامح المتعلقة بالصوت، يمكن لبرنامج تركيب الصوت الحديثة إنتاجها، لكن تبقى هناك مهمة صعبة بعض الشيء، فلكي تحدث قراءة الجمل الطويلة المتنوعة رنيناً معيناً في أذن المستمع ويتولد لديه الانطباع أنه يستمع إلى صوت إنسان، يجب أن نحصل على نغمة صحيحة. وهنا يوضح تييري مودونك أنه ينبغي للصوت الارتفاع عند طرح سؤال أو قبل الفاصلة، على سبيل المثال، فقبل ذلك كنا إذا أردنا الحصول على نغمات صحيحة، نقوم بتغيير صوت مسجل سابقاً، ولكن بما أنه لم يكن هناك أحد يعرف تماماً كيفية نمذجة إشارة كلامية، فكانت النتيجة متفاوتة الدقة في غالب الأحيان، وكانت الأصوات التي يتم الحصول عليها لا بشرية ولا آلية كلياً، ويضيف مودونك أنه منذ بداية العام 2000، تغير النهج، فبدلاً من الاكتفاء ببعض المقاطع المسجلة والمشوهة بطريقة أو بأخرى لإنتاج البصمة الطبيعية للصوت، اخترعت برمجيات تسمى بخوارزميات التعلم الآلي التي تستند إلى آلاف من التسجيلات للصوت المطلوب إعادة إنتاجه، وبالتالي الكشف من خلال التحليل الإحصائي لإشارة الصوت، على جميع التغييرات في طبقة الصوت أو (التحويرات الطبيعية)، ويشير مودونك إلى أنه مع وجود ما يكفي من التسجيلات الصوتية المستقرة والمترابطة، غدت شركة Voxygen قادرة بالفعل على إعادة إنتاج صوت أي شخص. ويرى نيكولا أوبن من معهد البحوث والتنسيق الصوتي/ الموسيقى (IRCAM) أن ما يميز الجودة الصوتية المنتجة اليوم بشكل آلي، أن هذا الصوت يتميز بأنه أكثر ميلاً نحو الطبيعي ما يجعله أكثر ثراء وإنسانية، ويضيف أوبن أنه خلال سنوات قليلة، سيتمكن المتخصصون من توليف وتركيب الأصوات من خلال معالجة الصوت في الزمن الفعلي، من عمل كاريوكي (نوع من الغناء يغني فيه المغنون الهواة أغنية بمصاحبة موسيقى مسجلة مع استعمال ميكروفون وعرض كلمات الأغنية على شاشة أمام المغني) بصوت ألفيس بريسلي أو التحدث على الهاتف مع نغمة أو بصمة صوتية أكثر إقناعاً أو جاذبية للمستمع بصوت أحد المشاهير، وعندما قام نيكولا أوبن بإسماع الممثل الفرنسي أندريه ديسولييه نصاً مقروءاً بصوته المستنسخ، لم يندهش الممثل للتشابه الكبير بين هذا الصوت وصوته فحسب، لكنه اعترف بوجود فروق صغيرة ما كان له أن يفعلها بنفسه، وقال إنه أمر مثير للعجب والقلق أيضاً خاصة عندما نتصور ما يمكننا القيام به مع هذا الأمر من تصرفات، ولكن يبدو أن الممثل ديسولييه لا يدرك أن الباحثين ذهبوا بالفعل أبعد من ذلك، حيث سمحت الخوارزميات التي اخترعوها للفنان المغربي جمال دبوز بدمج صوت الممثل الفرنسي الشهير لويس دو فونيس في فيلمه الذي صدر في إبريل لماذا لم ألتهم والدي، وفي الفيلم الوثائقي (الحكم على الماريشال فيليب بيتان العسكري ورجل الدولة الفرنسي في 1918، ورئيس الدولة الفرنسية (1940-1944) ورئيس الوزراء (1940) ووزير الحربية (1934)، الذي سيبث هذا العام، ونلاحظ كيف أن صوت الماريشال بيتان، المعروف برعشته وارتجافه يبدو لا لبس فيه كما لو أنه يعود اليوم ليوضح الكثير من الأمور الغامضة. وأخيراً، سنكون مع موعد مع صوت مارلين مونرو، الساذج والمفعم بالحسية في فيلم مارلين، لفيليب بارينو. الإنجاز المذهل اليوم أنه قبل خمس سنوات فقط، كانت مسألة إعادة إحياء أو استنساخ صوت شخص معين أمراً مستحيلاً لكننا حاولنا ونجحنا، على حد قول نيكولا أوبن، علماً بأن نوعية الأصوات كانت سيئة للغاية في العديد من الإنتاجات السينمائية الكبيرة، ولإحياء تلك الأصوات المفقودة، قام خبراء من IRCAM، بقيادة أكسل رويبل، باستخدم تسجيلات لممثلين بدلاً من إعادة تجميع مقاطع صوتية أصلية، وعملت خوارزميات قوية على تغيير الوتيرة والمدة الزمنية لكل ظاهرة صوتية منطوقة من خلال هؤلاء الممثلين للحصول في حالة ما على بصمة صوت الماريشال بيتان، أوعلى بصمة صوت مارلين، ولم تكن تلك سوى الخطوة الأولى في عملية تهدف إلى الاستغناء تماماً عن فكرة التسجيلات. ويقول نيكولا أوبن إن الخوارزميات اليوم أصبحت قادرة، من خلال الآلاف من الأصوات المختلفة، على تعريف صوت اصطناعي وسطي تماماً بمعنى أن هذا الصوت الوسطي يمكن تغييره كما نشاء بفضل ما يسمى بخوارزميات الشبكات العصبية العميقة لأي صوت آخر، بعد تطبيق مرشحات التردد الخاصة بهذا الصوت، وبالطبع فإن كل ظاهرة صوتية تتميز بمجموعة من الترددات المضخمة أو المخففة، فمرشح التردد تتغير قيمه بناء على الظاهرة الصوتية السابقة أو التالية له (المقطع يلفظ بشكل مختلف اعتماداً على مكانه في الكلمة أو العبارة) وعلى صوت الشخص الذي يتكلم، لكن تسجيل بضع دقائق كافية لإنشاء مرشحات تردد الصوت وإيجاد بصمته الصوتية. هذه الطريقة، فيها من التعقيد الرياضي ما فيها والنتائج يمكن أن تكون أفضل مع الوقت، خاصة أن الأذن تميز بسهولة الصوت الأصلي من المقلد له ولكن التقدم السريع والاهتمام الكبير بهذه التكنولوجيا، وإتقانها سيساهم في التغلب على كل العقبات. وفي الوقت الراهن تسعى عدة شركات مثل غوغل، وآي بي إم، وأبل باعتبارها من المساهمين الأساسيين في العالم الرقمي إلى الاستثمار بشكل كبير في هذا المجال، حسب رأي نيكولا أوبن، لأن ما يسمى بالغزو الاستنساخي للأصوات بات وشيكاً وعلينا التحقق من فعالية هذا الابتكار التقني الذي سيحدث قريباً ثورة حقيقية لا يمكن قياس آثارها الكاملة على المدى القريب، لأننا سنسمع أصواتاً من دون معرفة ما إذا كانت حقيقية أم لا، ما يعني أن أحد معاقل هويتنا سقط في المجال العام. عما قريب سيتمكن أي شخص من انتحال شخصية آخر من خلال الحديث، سواء أكان ذلك لمجرد المزاح، أم لأسباب ربما تكون أقل نبلاً مما نتخيل. منجزات مرتقبة باستخدام التقنية الجديدة لبصمة الصوت وإمكان استنساخه يمكن الحصول على المنجزات التالية: 1- إحياء أصوات أشخاص في عداد الأموات ليقرؤوا لنا نصوصاً فعلية بأصواتهم الحقيقية . 2- إنشاء بديل صوتي حيث تقوم شركة Voxygen حالياً، باختبار نموذج أولي لصوت مستنسخ في المستشفيات، على 60 مريضاً فقدوا أصواتهم، باستخدام لوحة رقمية بسيطة تعمل باللمس، النص المكتوب يقرأ بصوت حقيقي، هذا البديل الصوتي يتطلب إجراء حفظ قبل العملية (إزالة ورم)، لصوت المريض الذي يجب أن يعيد عدة آلاف من الجمل، ويقول تييري مودونك: نعمل جاهدين لتقليص طول التسجيلات وتسريع اللوحة التفاعلية. 3- التواصل بشكل أفضل مع مرضى الزهايمر حيث أدرك الأطباء أن الأشخاص الذين يعانون مرض الزهايمر يعرفون أصوات المحيطين بهم، ومن هنا جاءت فكرة تصميم نظام لإملاء التعليمات تلقائياً، مثل خذ الدواء الخاص بك، بصوت الزوج، وذلك عندما لا يكون الزوج موجوداً أو مرهقاً. وسيكون من الممكن أيضاً: 1- اختراع أصوات وهمية، فعندما نتعامل مع تجريديات رقمية، يمكننا فعل ما نريد، مثل مزج صوتين لتوليد صوت هجين، فنيكولا أوبن حصل على صوت بشري بعد استبدال حباله الصوتية بأخرى تخص أسداً. 2- تحسين صوتك، فلو أردت ذلك لأنه رفيع، أجش أو يخرج من الأنف، فثمة برنامج لتوليف الصوت يساعدك على تحقيق ذلك، ويقول نيكولا أوبن: يمكن للمرء تغيير صوته كما يريد، وينتج صوتاً شاعرياً تبدو عليه ملامح السعادة أو الغضب. 3- انتحال هوية كاذبة: من عيوب هذه التقنية إمكانية سماع نص مقروء على لسان أحد القادة علماً بأنه لم يقله سواء في حياته أو بعد مماته، وسماع تسجيلات لأشخاص غائبين أثناء المحاكمة، من خلال خدع عبر الهاتف، وكذلك انتحال هوية شخص ما، الآفاق مفتوحة على عالم تركيب الأصوات المزيفة في جميع أنحاء العالم بل إن هذا المجال يبدو أكثر ثراء من مجال التلاعب بالصور، ويضعنا نيكولا أوبن على المحك عندما يقول: عندما سيتم تحسين أنظمة توليف الأصوات بشكل كامل لبناء أصوات مزيفة لا يمكن تمييزها عن الأصوات الحقيقية، عندها لا يمكن لأي خبير مهما أوتي من المعرفة التفريق بين الصوتين الحقيقي والمزيف.