طوّرت الباحثة الكورية الجنوبية سي جين بارك نموذجاً صوتياً جديداً يُعرف باسم “SpeechSSM”، الذي يمكّن من توليد كلام اصطناعي يبدو طبيعياً ويمكن أن يمتد لمدة تصل إلى 16 دقيقة. يأتي هذا الابتكار في إطار جهودها لتعزيز تكنولوجيا الذكاء الاصطناعي في مجال الصوت، ويتجاوز القيود الموجودة في النماذج السابقة التي كانت تُنتج محتوى صوتياً قصيراً فقط.
حسب الورقة البحثية المنشورة على منصة arXiv، فإن النموذج “SpeechSSM” يعتمد على تصميم هجيني يجمع بين طبقات “الانتباه” والتركيز على السياق، مما يسمح له بتوليد كلام مطوّل مع الحفاظ على المعنى والسلاسة. تُحلل البيانات الصوتية في نوافذ زمنية قصيرة، مما يُسهم في تقليل استهلاك الذاكرة ويجعل العملية أكثر كفاءة.
يستخدم “SpeechSSM” تقنية جديدة تُدعى “SoundStorm”، التي تُنتج مقاطع صوتية متعددة في آن واحد، مما يحسن سرعة التوليد دون المساس بجودة الصوت. وقد صممت الباحثة أيضاً مجموعة بيانات جديدة تُعرف باسم “LibriSpeech-Long” لاختبار القدرات الطويلة لهذا النموذج.
بالإضافة إلى تطوير النموذج، قدمت بارك أدوات تقييم جديدة لتحسين قياسات جودة الصوت، مما يُعزز الفهم لمدى تنسيق المحتوى الصوتي. النتائج أظهرت أن النموذج يحافظ على الشخصيات والأحداث بشكل متسق وصحيح حتى أثناء توليد محتوى طويل.
تؤمن بارك أن “SpeechSSM” سيساهم في تحسين تطبيقات الذكاء الاصطناعي كالمساعدات الصوتية من خلال تعزيز الاتساق وسرعة التفاعل في الزمن الحقيقي.
عدد المصادر التي تم تحليلها: 6
المصدر الرئيسي : الشرق
معرف النشر: TECH-070725-445