ذي أتلانتيك: ماذا يحدث عندما يصبح كل شيء ” تيك توك ” ؟

حتى أكثر أنظمة الذكاء الاصطناعي تقدمًا لا يمكنها التقاط كل شيء

Paul Spella / The Atlantic; Getty

كان هناك الكثير من الأحاديث ، في الأيام الأخيرة ، حول مصير نظام أساسي معين يتعامل في الغالب في مشاركات نصية لا تزيد عن 280 حرفًا. مع وجود وكيل فوضى الآن على رأس تويتر Twitter ، يشعر الكثير من الناس بالقلق حول ما إذا كان بإمكانه السيطرة على المد المتصاعد من الإساءة وخطاب الكراهية والمواد الإباحية والبريد العشوائي وغير ذلك من الرسائل غير المرغوب فيها. ولكن إلى حد ما ، فإن هذه المخاوف تخطئ الهدف: في عام 2022 ، يعد موقع Twitter صغيرًا.

تتكشف قصة أكبر بكثير وأكثر رعبًا على قنوات الفيديو التي لا نهاية لها والتي أصبحت الوضع المهيمن على وسائل التواصل الاجتماعي اليوم ، ولا تجتذب الملايين بل المليارات من المستخدمين شهريًا على تيك توك TikTok و انستغرام Instagram و فيسبوك Facebook و يوتيوب YouTube. لقد وصل عصر الفيديو بشكل نهائي ولا رجعة فيه.
قد يتطلع المشككون إلى الصدام الأخير بين ملكية وسائل التواصل الاجتماعي وقيادة إنستغرام. مرة أخرى في يوليو ، كيم كارداشيان Kim Kardashian و كيلي جينرKylie Jenner شاركتا صورة Instagram لـ تاتي برونينغ Tati Bruening تدعو إلى “التوقف عن محاولة أن تصبح منصة أنسنغرام tiktok”.
في تاريخ وسائل التواصل الاجتماعي ، كان هذا يشبه إلى حد ما ما يعادل القرن الحادي والعشرين بتثبيت كتيب على باب الكاتدرائية. وأشار الاحتجاج بعبارات لا لبس فيها إلى تحول الشركة نحو الفيديو ، وبعيدًا عن أصوله كوسيلة للصور الثابتة. إن TikTok ، بالطبع ، عبارة عن فيديو بالكامل تقريبًا – وهو عبارة عن تمرير إدماني بلا هوادة لمحتوى التشغيل التلقائي ، والذي يأتي الكثير منه من حسابات لا تتابعها.

مقاطع فيديو مضللة وبغيضة وفي بعض الحالات خطيرة للغاية

ولكن حتى بعض أكبر المؤثرين في كل العصور لم يتمكنوا من قلب المد. في اليوم التالي لظهور منشوراتهم ، ضاعف آدم موسيري الرئيس التنفيذي لشركة Instagram. قال (في مقطع فيديو): “أريد أن أكون صادقًا”. “أعتقد أن المزيد والمزيد من Instagram ستصبح مقاطع فيديو بمرور الوقت.”

بغض النظر عن المكان الذي تقوم فيه بالتمرير أو النقر ، فإن الفيديو موجود – سيل من البكسلات والغضب والصوت ، إن لم يكن بلا حدود حرفيًا ، فهو فعليًا لا نهاية له. تعتمد جودة حياتنا على الإنترنت الآن على كيفية ترتيب هذه الخلاصات والتوسط فيها ، وهي صلاحيات آلية إلى حد كبير. تماشياً مع دفعها لاحتضان الفيديو ، قالت ميتا Meta إنه بحلول نهاية عام 2023 ، ستضاعف نسبة المواد الموجودة على خلاصات مستخدمي Instagram و Facebook التي “موصى بها من قبل الذكاء الاصطناعي لدينا”. إن احتمالية أننا سنجد أنفسنا نندفع إلى أسفل أحد تلك الثقوب السوداء للمحتوى – حيث يبدو أن الوقت يتسع ويفقد كل المعنى – سيعتمد بدرجة أقل على من نتبعه وأكثر على ما تقرر الآلة تقديمه لنا بعد ذلك.
شكل سياستنا وأيديولوجيتنا وحتى فهمنا الأساسي لكيفية عمل العالم ، بطريقة جوهرية ، يصل إلى الخوارزميات. وفقًا لاستطلاع حديث أجراه مركز بيو للأبحاث ، فإن ربع الأشخاص الذين تقل أعمارهم عن 30 عامًا في الولايات المتحدة يتلقون أخبارهم بانتظام من مقاطع TikTok. هذا العدد آخذ في الازدياد. حتى أن الناس يتجهون إلى مقاطع الفيديو على مواقع التواصل الاجتماعي كبديل لبحث غوغل Google.

سواء كانت نتائج عمليات التمريرات الشديدة وعمليات البحث هذه تقودنا إلى التنوير أو جر آرائنا للعالم إلى أسفل نحو أقل تصالحها ، فإن معظم الأعماق التآمرية تعتمد جزئيًا على الذكاء الاصطناعي. في تجربة من شهر سبتمبر ، وجدت شركة NewsGuard للتحقق من الحقائق أن أفضل النتائج على TikTok لمجموعة من المصطلحات غالبًا ما تضمنت مقاطع فيديو مضللة وبغيضة وفي بعض الحالات خطيرة للغاية. ثلاثة عشر من بين أفضل 20 نتيجة تحث على الإجهاض ، على سبيل المثال ، دعا إلى إجهاض عشبي غير مثبت مثل بذور البابايا. في نفس التجربة ، أسفر البحث عن هيدروكسي كلوروكين عن برنامج تعليمي حول كيفية تصنيع عقار الملاريا – وعلاج COVID الزائف – في المنزل باستخدام الجريب فروت. وغني عن القول أن هذه ليست طريقة صنع هيدروكسي كلوروكين.

أحدث تقنيات الذكاء الاصطناعي ليست دائمًا ذكية أو شاملة الرؤية كما يجب

كل هذا يجب أن يدفع شركات وسائل التواصل الاجتماعي إلى مضاعفة جهودها لإبقاء الوحل – العنف ، والمواد الإباحية غير القانونية ، والمعلومات المضللة – بعيدًا عن منصاتها. كما هو الحال ، يتم استبعاد حوالي 40 بالمائة فقط من مقاطع الفيديو التي يسحبها TikTok بأنظمة آلية ، مما يترك ملايين مقاطع الفيديو ليتم مراجعتها كل شهر من قبل الموظفين الذين سيضطرون إلى قضاء بقية حياتهم تحت بؤرة ما لديهم.

حتى أحدث تقنيات الذكاء الاصطناعي ليست دائمًا ذكية أو شاملة الرؤية كما يجب أن تكون. يمكن أن تصبح أوجه القصور هذه أكثر إيلاما في السنوات المقبلة. وإذا كانت هناك طريقة تمكن الذكاء الاصطناعي من تنفيذ مهام الاعتدال بأمانة ودقة على الخلاصة اللانهائية ، فقد يأتي بثمن باهظ ، مستمد مباشرة من التوازن الضئيل المتبقي للخصوصية والاستقلالية.

كيف يمكن للآلة “فهم” مقطع فيديو في المقام الأول؟
بفضل التقدم في رؤية الكمبيوتر خلال السنوات الأخيرة ، أصبح من المعتاد للذكاء الاصطناعي فحص الصور الثابتة ، على سبيل المثال ، ربط سمات الوجه بهوية شخص ما ، أو استنتاج أن المسدس هو بالفعل سلاح – أو أن الجريب فروت هو حقا جريب فروت.

كل دقيقة من الفيديو هي في الحقيقة آلاف الصور الثابتة المرتبة على التوالي. ويمكن للرؤية الحاسوبية القائمة على الذكاء الاصطناعي أن تجد بالتأكيد إطارات ثابتة تحتوي على إشارات لمحتوى إشكالي مع مثابرة مثيرة للإعجاب. ولكن هذا لن يؤدي إلا إلى وصولك بعيدًا. يمكن القول إن موقع YouTube يتمتع بخبرة واسعة في الإشراف الآلي على الفيديو ، ولكن يتم مشاهدة مقاطع الفيديو المخالفة ملايين المرات كل يوم.

جزء من المشكلة هو أن الفيديو يحتوي على الكثير من البيانات. في التسلسل ، تخلق آلاف الإطارات الثابتة التي تشكل مقطع فيديو قصة. يضيف الصوت المصاحب طبقات أخرى من المعنى. قد يكون من الصعب فرز هذا المستنقع – كثافة البيانات في أي مقطع فيديو معين هي “عملة ذات وجهين” ، كما أخبرني داناراج ثاكور ، مدير الأبحاث في مركز الديمقراطية والتكنولوجيا في واشنطن العاصمة. لا يمكنك جعل النظام يحلل طبقة واحدة فقط ، لأنه سيلتقط دفعة عرضية للمحتوى الذي يبدو ، في لمحة ، أنه يخالف شروط الخدمة ، على الرغم من كونه غير ضار – مع السماح لمواد أخرى غير مشروعة عبر الثغرات.

على سبيل المثال ، النظام الذي يحدد أي مقطع فيديو بمسدس سيعلم مقطعًا من Pawn Stars مع شخصين يناقشان قيمة البندقية العتيقة. وفي الوقت نفسه ، قد يفوت مقطع فيديو لشخص يتم إطلاق النار عليه بسلاح ناري خارج الإطار. بصريًا وربما من خلال الاستماع ، قد يكون من الصعب تمييز مقطع لشخص يحاول صنع هيدروكسي كلوروكين عن مقطع شخص يصنع عصير الجريب فروت ، خاصة إذا كان هذا الشخص حريصًا على عدم قول أي شيء عن COVID.
لم تستطع شركات وسائل التواصل الاجتماعي الالتزام بمثل هذه الإجراءات الشرطية المفرطة القائمة على الذكاء الاصطناعي ، لأنها ستعترض طريق نوع المحتوى الذي غالبًا ما يكون أفضل للتفاعل وانطباعات الإعلانات – الصادم والشائن وبالطبع الصادم. قد يؤدي اكتشاف الجلد المستند إلى الذكاء الاصطناعي ، والذي لا يزال أساسًا لتصفية العُري ، إلى منع أي مقطع من مرتادي الشواطئ الذين يرتدون ملابس السباحة ، مما يؤدي إلى هلاك صناعة كاملة من مؤثري اللياقة البدنية. دفع هذا المجتمع البحثي نحو بعض الحلول غير التقليدية على مر السنين. سعى الباحثون ، على سبيل المثال ، إلى تحسين دقة هذه الأنواع من المصنفات باستخدام الذكاء الاصطناعي الذي يتعرف على أنماط الحركة الفريدة للإباحية ، بالإضافة إلى الموسيقى التصويرية الفريدة – على حد تعبير فريق واحد: “يشتكي ، التنفس العميق ، اللهاث ، الآهات ، صراخ ، وأنين ، “وكذلك” صرير الفراش ، سرقة الملاءات “. ولكن على الرغم من أن هذه الأدوات قد تعمل بشكل جيد في المختبر ، إلا أنها يمكن أن تكافح في اللانهائية من العالم الحقيقي. جهد مشابه من عام 2006 اكتشف المواد الإباحية على أساس “دورية” الصوت – أي تكراره – انتهى به الأمر إلى التقاط الكثير من لقطات مباريات التنس.

في نهاية المطاف ، قد يتم استخلاص المعنى الحقيقي للفيديو فقط عند “التقاء” طبقات البيانات المختلفة ، كما قالت لي بيكا ريكس ، باحثة أولى في مؤسسة موزيلا.
لن ترفع اللقطات التي تصور مشهدًا طبيعيًا مهجورًا مع وجود أعشاب تهب عبرها أي أعلام حمراء لأي إنسان أو آلة ، ولا مقطع صوتي لشخص يقول ، “انظر كم عدد الأشخاص الذين يحبونك”. ولكن إذا جمعت بين الاثنين وأرسلت النتيجة إلى شخص ما ، فأنت تتنمر عبر الإنترنت – لا أحد يحبك! – لن يكون الكمبيوتر هو الأكثر حكمة.

“البشر بارعون في التكيف”. “الذكاء الاصطناعي أبطأ.”

اتضح أن الكثير من خطاب الكراهية يناسب بشكل مريح هذه الفجوة في فهم الكمبيوتر. خلقت حملة “Hateful Meme Challenge” التي نظمها Facebook في عام 2020 مجموعة من المجموعات “الدقيقة” من الصور والنصوص التي يكافح الذكاء الاصطناعي لفهمها ؛ صورة لعشبة مع الصياغة الدقيقة الواردة أعلاه ، على سبيل المثال ، أو صورة تمساح مع النص “كريم التجاعيد الخاص بك يعمل بشكل رائع.” حققت نماذج الذكاء الاصطناعي المختلفة مستويات متفاوتة من النجاح ، لكن لم يقترب أي منها من الدقة البشرية. كتب الباحثون أن الاعتدال الفعال يمكن أن يتطلب “سياق الحياة الواقعية والحس السليم” – وبعبارة أخرى ، حساسيات الإنسان. يمكن أن يؤدي تحقيق نتائج أفضل في TikTok واحد ، والذي يصفه الباحث آبي ريتشاردسون بأنه “ميم ثلاثي الأبعاد يتكون من الفيديو والصوت والنص” ، إلى قفزة نوعية في التكنولوجيا.

كما أن الذكاء الاصطناعي لا يبلي بلاءً حسنًا في الأمور التي لم يسبق له مثيلها من قبل – “حالات الحافة” في شعراء الأكاديمية. هذا يمنح أولئك الذين ينشرون محتوى ضارًا اليد العليا دائمًا. أخبرني هاني فريد ، الأستاذ في جامعة كاليفورنيا في بيركلي ، والذي كان أحد مؤسسي PhotoDNA ، وهو نظام يستخدم على نطاق واسع للكشف عن المواد الإباحية للأطفال ، “البشر بارعون في التكيف”. “الذكاء الاصطناعي أبطأ.”

قال موقع YouTube إنه قبل عام 2020 ، كان الذكاء الاصطناعي الخاص به قد أصبح جيدًا بشكل معقول في الكشف عن “الروايات الرئيسية القليلة” التي سيطرت على “مشهد المعلومات المضللة عبر الإنترنت” (“حقيقة 11 سبتمبر ، ومنظرو مؤامرة الهبوط على سطح القمر ، و الأرض المسطحة”). ولكن عندما بدأت موجة من المعلومات الخاطئة والمضللة الوبائية الجديدة تغمر الويب ، استغرق الأمر وقتًا حتى تعيد الشركة تدريب خوارزمياتها واللحاق بالركب.

ربما في يوم من الأيام سوف يدرك الذكاء الاصطناعي بشكل موثوق الفرق بين فيديو التمرين والفيديو الإباحي ، أو بين المزاح وخطاب الكراهية. لكن الذكاء الاصطناعي يمكنه استباق الخدعة التالية في جعب مجتمع المعلومات المضللة؟ قد يكون هذا أبعد من الخيال العلمي.

حتى لو تمكن الذكاء الاصطناعي من تصفية مقاطع الفيديو غير المشروعة ببراعة خارقة ، فلا تزال هناك مهمة طلب التغذية اللانهائية. مع تزايد المحتوى السياسي المتطرف عبر الإنترنت ، فإن الطريقة التي تختار بها الخوارزمية ما ستظهر وتوصي هي مسألة تكنولوجية محفوفة بالمخاطر ذات مخاطر عالية للغاية. هنا أيضًا الفيديو مختلف.

عندما تتفاعل مع مقطع فيديو عبر الإنترنت ، فإنك تولد بيانات أكثر بكثير مما تتخلى عنه بمجرد التحديق في صورة ، وفقًا لسباندانا سينغ ، محللة السياسات السابقة في معهد التكنولوجيا المفتوحة بأمريكا الجديدة. يمكن للشركات تتبع أشياء مثل عدد المرات التي أعادت فيها مشاهدة مقطع فيديو أو المسافة التي قطعتها قبل أن تنتقل إلى شيء آخر. قال لي ريكس: “يجب أن أفترض أن كل بيانات التفاعل هذه تدخل في تحديد كيفية ترتيب مقاطع الفيديو”. (لم يستجب TikTok و Instagram لطلب التعليق حول كيفية استخدامهما لبيانات التفاعل لخدمة المحتوى ؛ يحتوي كلاهما على صفحات معلومات توضح أنهما يستخدمان التفاعلات لفرز المحتوى وتقديمه.)
لقد أثبت الذكاء الاصطناعي الذي يحرك هذه البيانات أنه قادر بشكل مذهل على إبقائنا على شاشاتنا لأطول فترة ممكنة – مع نتائج محفوفة بالمخاطر في بعض الأحيان.

وثيقة داخلية على فيسبوك من عام 2020 ، تم إصدارها كجزء من أوراق فيسبوك وحلّلها مؤخرًا فريق في منظمة العفو الدولية ، تصف كيف تم تداول مقطع فيديو لزعيم الجماعة المتطرفة 969 المناهضة للروهينجا على فيسبوك بعد عامين كاملين من الشركة. إدانة واسعة النطاق لدورها في الإبادة الجماعية للروهينجا. كما اتضح ، لم تكن أرقام المقطع مدفوعة بحملة منسقة. سبعون في المائة من مشاهدات الفيديو جاءت من خلال ميزة “Up Next” (التالي) في Facebook. لاحظ الفريق نفسه أيضًا أن المحتوى الموصى به خوارزميًا يمثل بالفعل ما لا يقل عن نصف إجمالي الوقت الذي يقضيه المستخدمون البورميون على النظام الأساسي.

تكمن المشكلة في أن الذكاء الاصطناعي المحسّن للتفاعل لا يمكنه التمييز بين مقطع استمتعت بمشاهدته ومقطع تكره مشاهدته أو تشاهده بشكل سلبي. إذا شاهدت مقطعًا عدة مرات ، فلن يتمكن الذكاء الاصطناعي من تمييز ما إذا كان ذلك لأنه يمنحك الفرح أو لأنه يغلي دمك. (حتى لو كان ذلك ممكنًا ، فقد ينتهي الأمر بشركة ما بالترويج لمحتوى مثير للغضب على أي حال لأنه مقنع جدًا – يُفترض أن Facebook فعل ذلك بالضبط بعد تقديم ردود الفعل القائمة على الرموز التعبيرية قبل بضع سنوات.) كما قال سينغ ، “كيف تدرب نظام التوصية لتحسين السعادة؟ مثل ، ماذا يعني ذلك؟ “

بعض الناس يحاولون معرفة ذلك. يوخن هارتمان ، الأستاذ المساعد في جامعة جرونينجن بهولندا ، هو جزء من مجتمع تقني متحمس لبناء الذكاء الاصطناعي يبحث عن البيانات “غير المنظمة” في فيديو الوسائط الاجتماعية. في العام الماضي ، أنشأ هارتمان وثلاثة باحثين آخرين أداة لتحليل الفيديو لمجموعة واسعة من الصفات المختلفة ، بما في ذلك ما إذا كان أي وجه في المقطع يعبر عن الغضب أو السعادة أو الاشمئزاز أو المفاجأة أو الحياد. إذا كان بإمكان مثل هذا النظام ، على سبيل المثال ، تصنيف مقاطع الفيديو حسب مدى سعادتها ، فقد يساعد ذلك في رفع مستوى المزيد من المحتوى الإيجابي وإخضاع الأشياء الأكثر قتامة: أقل انتقادات ، والمزيد من الفضيلة. يستكشف الباحثون أيضًا استخدام مثل هذه الأساليب للكشف عن خطاب الكراهية بشكل أكثر فعالية.

بالطبع ، هناك تحذير. أخبرني هارتمان أن “كل هذه المعلومات يمكن استخدامها للتوصية بمنتجات جديدة”. يمكن استخدامه ، فيما يتعلق ببياناتك الشخصية ، للتسويق.

“لا تضع تنبؤات حول المستقبل عندما يتعلق الأمر بالتكنولوجيا.”

وآخر: يُنظر إلى “التعرف على المشاعر” على نطاق واسع على أنه يستند إلى النظريات الفيزيولوجية التي تم الكشف عنها ، منذ عقود ، على أنها غير علمية تمامًا وعنصرية بشكل مذهل.

قال كل خبير تحدثت معه أنه من الصعب قياس ما نعرف أنه صحيح بالنسبة للذكاء الاصطناعي بشكل عام مقابل ما يحدث بالفعل داخل المعامل والخوادم المقفلة في وادي السيليكون. الخوارزميات الكامنة وراء منتجات مثل Facebook و TikTok “غامضة بشكل محبط ومستحيل” ، كما كتب الباحث في Microsoft Tarleton Gillespie.

التكنولوجيا تتطور بسرعة أيضا. قد لا يكون للقوى التي تحكم بث الفيديو اليوم الكثير من القواسم المشتركة مع أي مستخدم سيخضع لبضع سنوات من الآن. قال لي فريد: “هذا هو الشيء الوحيد الذي تعلمته في مسيرتي المهنية التي دامت 30 عامًا”. “لا تضع تنبؤات حول المستقبل عندما يتعلق الأمر بالتكنولوجيا.”

إذا كان هناك يقين واحد فقط في كل هذا ، فهو أن الفيديو يسبب إحراجًا للبيانات – وعلى الرغم من أن هذه البيانات قد تكون عقبة عنيدة أمام اعتدال الذكاء الاصطناعي وعامل تمكين شيطاني لمحركات التوصية ، فإن فريد متأكد من هذا القدر: “ستكتشف الشركات كيفية استخراج هذه الكمية الهائلة من البيانات لاستثمارها”.

على وجه الخصوص ، يمكن أن يكون الفيديو مفيدًا بشكل لا يمكن تصوره لبناء الجيل القادم من الذكاء الاصطناعي. في عام 2016 ، استحوذ على الإنترنت لفترة وجيزة تحدي Mannequin Challenge ، حيث كان الناس يمسكون بأوضاع بينما تتحرك الكاميرا في جميع أنحاء المكان. بعد ذلك بعامين ، كشفت Google أنها استخدمت 2000 مقطع فيديو لتحدي عارضة أزياء لتطوير ذكاء اصطناعي قادر على إدراك العمق ، وهي مهارة ستكون ضرورية لنوع الروبوتات المجسدة التي يأمل وادي السيليكون في طرحها في السوق في السنوات القادمة.
تجارب أخرى مماثلة هي بالتأكيد قيد العمل. كشفت كل من Meta و Google مؤخرًا عن نماذج أولية لأنظمة الذكاء الاصطناعي قادرة على تحويل أي نص موجه إلى فيديو. إنه مثل DALL-E ، ولكن بالنسبة للصورة المتحركة – وهو احتمال كارثي لإبقاء المعلومات المضللة بعيدة عن الإنترنت ، وفقًا لفريد وتاكور ، مدير أبحاث مركز الديمقراطية والتكنولوجيا.

ربما في مكان آخر في وادي السيليكون ، يستخدم فريق من المهندسين أحد مقاطع الفيديو المملة للغاية التي أنشرها عن الطعام لتدريب ذكاء اصطناعي آخر. لاجل ماذا؟ من يعرف ؟!.

سألت فريدًا عما إذا كان يعتقد أنه سيتم بناء أنظمة الذكاء الاصطناعي المستقبلية التي لم يتم الكشف عنها بعد من الألف إلى الياء مع مراعاة الأخلاق. في هذا الصدد ، كان أيضًا على استعداد لكسر حكمه ضد التنبؤات. قال “لا”. “أنا لست بهذه السذاجة.”


By Arthur Holland Michel

the atlantic


يقول محدّثي :
لمّا تخرج الكلمة للعلن …فلا سلطة لك عليها …
كل يرميها بسهم عينه ..

 

ماهر حمصي

إبداع بلا رتوش
إشترك في القائمة البريدية