ترجمة: أ. جنا الدوسري
تُعدّ صعوبات التواصل الاجتماعي من السمات الجوهرية لاضطراب طيف التوحد (ASC)، إذ تؤثر بشكل كبير على قدرة الأفراد على تفسير الإشارات غير اللفظية مثل تعابير الوجه، التواصل البصري، ونبرة الصوت. يعتمد التشخيص السريري لهذا الاضطراب حالياً على التقييمات الذاتية والموضوعية التي تشمل أدوات معيارية مثل جدول الملاحظة التشخيصي للتوحد (ADOS) والمقابلة التشخيصية للتوحد المنقحة (ADI-R). ورغم دقة هذه الأدوات، فإنها تتطلب وقتاً طويلاً وتعتمد على توافر الخبراء، ما يؤدي أحياناً إلى طول فترات الانتظار، بالإضافة إلى احتمال تشخيص خاطئ، خصوصاً بين البالغين والإناث الذين قد يظهرون أعراضاً غير نمطية. هذا الوضع يسلط الضوء على الحاجة الملحة لتطوير أدوات موضوعية، قابلة للتوسع، ويسهل الوصول إليها لدعم فحص التوحد والتقييم السلوكي.
شهدت السنوات الأخيرة تقدماً ملحوظاً في مجال التعلم الآلي (ML) الذي أتاح إمكانية تحليل السلوكيات غير اللفظية بشكل تلقائي للمساعدة في الكشف عن ASC من خلال تقنيات الفيديو. أظهرت الدراسات أن تحليل تعابير الوجه، وسلوكيات النظر، وخصائص النبرة الصوتية، يمكن أن يساهم في التعرف على الأنماط المرتبطة بالتوحد. وتكمل هذه الأساليب أدوات التشخيص التقليدية، مما يسهل الاكتشاف المبكر، والفحص عن بعد، وإجراء الدراسات السلوكية على نطاق واسع. مع ذلك، لا تزال هناك تحديات كبيرة تواجه هذا المجال.
تركز معظم مجموعات البيانات المستخدمة لتقييم ASC باستخدام الحاسوب على الأطفال، بهدف التشخيص المبكر. لكن غالباً ما يظل التوحد غير مشخص حتى مرحلة البلوغ، خصوصاً لدى الإناث والأشخاص الذين يمتلكون سمات خفيفة للاضطراب. كما أن مجموعات البيانات الخاصة بالبالغين محدودة، سواء من حيث حجم العينة أو تنوع السمات المسجلة، وغالباً ما تُجمع في بيئات مخبرية محكومة، ما يقلل من موثوقية النماذج في المواقف الطبيعية. بالإضافة إلى ذلك، تتطلب العديد من أنواع البيانات، مثل التصوير العصبي، والبيانات الجزيئية والوراثية، أجهزة باهظة الثمن، ما يعرقل تطوير ونشر أدوات الذكاء الاصطناعي لتقييم ASC.
تعدّ التفاعلات الاجتماعية متعددة الوسائط، إذ تشمل النظر، وتعابير الوجه، والنبرة الصوتية، وحركات الجسم. وعلى الرغم من أن نماذج التعلم الآلي متعددة الوسائط قد حسّنت دقة التصنيف، إلا أن الكثير منها يركز بشكل مفرط على تعابير الوجه، متجاهلاً جوانب أخرى مثل سلوكيات النظر، والتي تُعد مؤشراً تشخيصياً معتمداً في ASC. فقلة التواصل البصري وزيادة تجنب النظر تعد من السمات البارزة للاضطراب، وقد لوحظت هذه الأنماط في كل من البيئات المخبرية والطبيعية. رغم أن بعض الدراسات استخدمت أجهزة تتبع النظر لتحليل سلوكيات النظر، إلا أن هذه الأساليب تعتمد غالباً على معدات متخصصة أو مهام مخبرية محددة، بدلاً من التفاعلات الاجتماعية الطبيعية. كما أن التحليلات القائمة على كاميرات الويب أظهرت أداءً ضعيفاً، ربما بسبب الاعتماد على مؤشرات مبسطة لا تعكس سلوكيات النظر في سياق المحفزات الاجتماعية.
اقترحت عدة دراسات أن تغيّرات معدل ضربات القلب (HRV) قد تُستخدم كعلامة حيوية للاضطراب، نظراً لارتباطها بوظائف الجهاز العصبي المستقل. أظهرت الأبحاث أن الأفراد المصابين بالاضطراب غالباً ما يعانون من اضطرابات في تنظيم النشاط الذاتي للجسم، بما يشمل حالات فرط النشاط أو انخفاض النشاط في الراحة، ما قد يؤثر على قدرتهم على التفاعل مع البيئات الاجتماعية وتنظيم المدخلات الحسية. وقد أظهرت بعض الدراسات انخفاضاً ملحوظاً في معدل ضربات القلب في الراحة لدى كل من الأطفال والبالغين المصابين بالاضطراب، واستخدمت بعض الدراسات التعلم الآلي على بيانات معدل ضربات القلب لتحقيق دقة عالية في تصنيف ASC. ورغم أن معدل ضربات القلب يوفر وسيلة غير غازية للتقييم، إلا أن دوره في ASC يظل معقداً، إذ تتأثر النتائج بسياق القياس، وتنوع منهجيات الدراسة، والاختلافات الفردية.
لمواجهة تحديات التشخيص الذاتي، وندرة مجموعات البيانات الخاصة بالبالغين، وسوء استخدام مؤشرات التفاعل الاجتماعي الرئيسية، سعينا لتحسين الكشف الحاسوبي عن التوحد من خلال تقييم المؤشرات السلوكية متعددة الوسائط باستخدام أكبر مجموعة بيانات للتفاعلات الاجتماعية للبالغين حتى الآن. تم إنشاء هذه المجموعة باستخدام مهمة التفاعل المحاكاة (SIT) التي تحفز سلوكيات اجتماعية طبيعية ومعيارية من خلال تقديم شريك محادثة مسجّل بالفيديو. وبخلاف الدراسات السابقة التي ركزت على مجموعات بيانات مخبرية للأطفال، شملت دراستنا مشاركين بالغين في بيئات كل من العيادات والمنازل، ما يوفّر مجموعة بيانات أكثر مصداقية. ووفقاً لمعرفتنا، تُعد هذه أكبر وأفضل مجموعة بيانات متوازنة متاحة.
تقدم دراستنا تحسينات في مؤشرات سلوكيات النظر إلى جانب ميزات تعابير الوجه، وحركات الرأس، والنبرة الصوتية، ومعدل ضربات القلب، لتعزيز أداء التشخيص. وقد قيّمنا بعناية كل من السمات الفردية ومتعددة الوسائط لتحديد أكثر العلامات الرقمية إفادة للكشف عن ASC باستخدام الفيديو. من خلال دمج التحليل السلوكي مع النمذجة الحسابية، تساعد دراستنا على سد الفجوة بين التقييم الحاسوبي للتوحد والممارسة السريرية، وتدعم تطوير أدوات فحص غير غازية وقابلة للتوسع لمختلف الفئات السكانية.
الطرق
شملت مجموعة البيانات التي جمعناها 325 مشاركاً، منهم 168 مصاباً بالاضطراب و157 غير مصابين، مع توازن نسبي بين الجنسين. تم تسجيل المشاركين في بيئات كل من المختبرات والبيوت باستخدام نموذج SIT. تم تحديد معايير القبول بعناية لتشمل الأعمار بين 18 و65 عاماً، ومستوى ذكاء مناسب، وطلاقة في اللغة الألمانية، وعدم وجود علاج دوائي متغير. تم استبعاد المشاركين المصابين بأمراض نفسية حادة قد تؤثر على التفاعل الاجتماعي، مثل الفصام أو الاكتئاب الشديد أو اضطرابات المزاج الحادة. تم التأكد من تشخيص ASC بواسطة أطباء مرخصين وفق معايير التصنيف الدولي للأمراض.
استخدم المشاركون التطبيق على أجهزة الكمبيوتر في المختبر أو المنزل، وشملت المحادثة ثلاث مراحل عاطفية: المحايدة، والمرحبة، والمزعجة، حيث تضمن كل منها فترات استماع ومحادثة مع شريك افتراضي يعكس الاستماع المتعاطف.
المعالجة المسبقة واستخراج السمات
تمت معالجة الفيديوهات لتوحيد معدل الإطارات عند 30 إطاراً في الثانية، مع استبعاد الفيديوهات منخفضة الجودة لتجنب الأخطاء. تم استخراج السمات غير اللفظية من تعابير الوجه، وحركات الرأس، وسلوكيات النظر، والنبرة الصوتية، ومعدل ضربات القلب باستخدام مكتبات مفتوحة المصدر. اشتملت ميزات الوجه على وحدات حركة الوجه، والزوايا الثلاثية لحركة الرأس، واتجاه النظر، مع استخدام مؤشرات إحصائية متنوعة مثل المتوسط والانحراف المعياري وعدد مرات التنشيط. حُسبت مؤشرات حركة الرأس، بما في ذلك السرعة والتسارع واستقرار الحركات، وتمت معالجة زوايا الرأس للتقليل من التحيزات المتعلقة بالجنس والطول. أما سلوكيات النظر فشملت سرعة وحركة العينين، وزوايا النظر، ومعدل التثبيت على الوجه، بالإضافة إلى قياسات لمواقع النظر على الشاشة لتفسير السلوك الاجتماعي بشكل أفضل.
الميزات الصوتية استُخرجت باستخدام مجموعة eGeMAPSv02، بما في ذلك متوسط النبرة، والشدة، وتشوهات الصوت، ونسبة التوافقيّة إلى الضوضاء، والترددات الشكلية. كما تم تقدير معدل ضربات القلب عن بعد باستخدام تقنيات rPPG خلال فترات الاستماع لتقليل التشويش الناتج عن الحركة، وتم استخراج مؤشرات مثل متوسط معدل ضربات القلب، وتقلب معدل ضربات القلب، وجذر متوسط الفروق التتابعية، ونسبة التردد المنخفض إلى التردد العالي.
التصنيف والتحليل
تم استخدام نموذج XGBoost، وهو نموذج تعزيز الأشجار، لتصنيف الأفراد المصابين وغير المصابين بناءً على السمات المستخرجة. تم تقييم النماذج أحادية ومتعددة الوسائط، مع دمج الميزات في أساليب الدمج المبكر والمتأخر لتحسين الأداء. تم استخدام تقييم يعتمد على ترك مشارك واحد خارج التدريب لضمان دقة النتائج. كما تم تطبيق تحليل SHAP لتحديد السمات الأكثر تأثيراً في تصنيف ASC، وتمت دراسة الأخطاء المحتملة بناءً على الجنس وبيئة التسجيل ودرجة مقياس طيف التوحد.
النتائج والمناقشة
أظهرت الدراسة تحسناً ملحوظاً عند تحسين ميزات النظر، إذ سجلت أعلى زيادة في الدقة بين النماذج أحادية الوسائط. كما ساهمت تحسينات ميزات الرأس بزيادة إضافية في الدقة. أفضل أداء كان للنموذج متعدد الوسائط مع الدمج المتأخر، محققاً دقة 74%، متفوقاً على الأعمال السابقة. تحليل سلوكيات النظر أكد أن المشاركين المصابين يظهرون تبايناً أكبر في توجيه النظر، خصوصاً في مرحلة الانزعاج، مما يعكس فعالية مؤشرات النظر المحسّنة في التعرف على سلوكيات تجنب النظر المرتبطة بالتوحد.
تم تحليل الأخطاء لتحديد أي تحيز محتمل، ولم تُلاحظ فروق كبيرة بناءً على الجنس أو بيئة التسجيل، مما يشير إلى إمكانية تطبيق النموذج في الواقع. كما بينت الدراسة أهمية كل وسيلة، حيث أسهمت إزالة ميزات النظر أو تعابير الوجه في أكبر انخفاض بالدقة، ما يعكس أهمية هذه السمات في التنبؤ بالاضطراب. بينما لوحظ تأثير أقل لإزالة ميزات الرأس، مما يشير إلى مساهمتها المحدودة.
الخلاصة
تُقدم هذه الدراسة إضافة مهمة لتقييم ASC باستخدام الحاسوب، من خلال توفير مجموعة بيانات كبيرة ومركزة على البالغين، وتحليل شامل للسمات السلوكية متعددة الوسائط. أبرزت النتائج أهمية تحسين ميزات النظر، إذ يسهم ذلك في رفع دقة التصنيف. كما توصي الدراسة بالتركيز على الديناميكيات الزمنية للتفاعلات الاجتماعية باستخدام نماذج الشبكات العصبية المتقدمة، وتحسين تقنيات rPPG لاستخراج معدل ضربات القلب، واستكشاف كيفية تمييز سمات ASC عن صعوبات اجتماعية مشابهة في حالات سريرية أخرى مثل القلق الاجتماعي أو اضطرابات الشخصية. تؤكد النتائج على الإمكانيات الواعدة لتحليل السلوكيات متعددة الوسائط في الكشف عن ASC ودعم أدوات الفحص غير الغازية والقابلة للتوسع.
المرجع:
Improving Autism Detection with Multimodal
Behavioral Analysis





