أسلوب مستخدم لتعليم سيارات تيسلا، ونظام أليكسا الذي صنعته أمازون، وقد دُرب على جمع أدلة حول الأسلحة المستخدمة ضد المدنيين.
إن الباحثين في المنظمة السورية لحقوق الإنسان “مينومينك” واجهوا عقبة كأداء، فقد كان لديهم 3500000 ساعة مسجلة على الفيديو واحتوت على أدلة عن جرائم حرب، تتراوح من الهجمات الكيماوية إلى استخدام الأسلحة الممنوعة، ولم يكن باستطاعتهم البحث فيها أو تمشيطها للبحث عن الأدلة الدامغة.
وكانت منظمة “مينومينك” راغبة باستخدام الذكاء الاصطناعي للبحث في لقطات الفيديو في الأرشيف السوري، وهو مستودع لتسجيلات على منصات التواصل الاجتماعي والبحث عن أدلة بشأن استخدام قنبلة “عنقودية” يطلق عليها “أر بي كي- 250″، وهي عبارة عن قذيفة معدنية تحتوي على مئات المتفجرات، وإن تم استخدامها ضد المدنيين. وعادة ما تظل قذائف “أر بي كي-250” غير منفجرة، وقد تتسبب بمخاطر حتى بعد نهاية الحرب بعقود.
لكن برنامج الذكاء الاصطناعي يحتاج إلى مئات الصور لتلك القنابل حتى يستطيع التعرف على السلاح ومن كل زاوية وفي أي وضع، سواء دُمرت جزئيا أو ظلت تحت الأنقاض، وصور كهذه غير متوفرة. ولهذا طلبت المنظمة من آدم هارفي، عالم الكمبيوتر، والفنان في برلين، استخدام تقنية باتت شائعة مع انتشار استخدام الذكاء الاصطناعي: أي استخدام بيانات مصنعة/ مركبة وليست صورا حقيقية. وقضى هارفي والباحثون عامين لبناء 10 آلاف صورة مقلدة على الكمبيوتر لقنبلة “أر بي كي-250″، ثم استخدموا هذه الصور لتدريب برنامج ذكاء اصطناعي.
وفي تشرين الثاني/ نوفمبر، اكتشف برنامجٌ تم تدريبه على الصور المركبة، استخدام قنبلة “أر بي كي-250” أكثر من 200 مرة في مجموعة من لقطات الفيديو يصل عددها إلى 100 ألف لقطة، وبدقة 99%.
معظم لقطات الفيديو لم يراجعها أي شخص من قبل. وقال هارفي: “قدّم أدلة عن استخدام الذخيرة غير المشروع في النزاع السوري”. ووفّر هارفي الأداة للباحثين في حقوق الإنسان على المصدر المفتوح “في أف أر إي أم إي”. وقال: “كلما عثرنا، كلما أصبح النقاش القانوني دقيقا وأننا أمام عملية انتهاك واسعة لحقوق الإنسان، جريمة حرب”.
إن البيانات المركبة/ المصنعة، أصبحت وبشكل متزايد بديلا جذابا لـ”البيانات الكبيرة” وهي الكم الهائل من المدخلات المطلوبة لتعليم نماذج الذكاء الاصطناعي كيفية إدراك وفهم المعلومات. وفي الوقت الذي تحتاج فيه البيانات الحقيقية إلى تصنيف وتعليق مفصل يقوم به البشر، إلا ان البيانات المركبة تأتي بتسميات تم إنشاؤها تلقائيا، ويمكن زيادتها بسرعة.
ويعد الابتكار مفيدا بشكل محدد للشركات الصغيرة والتي لا تستطيع في العادة دفع ما بين 7- 14 دولار لكي يقوم شخص بتسميتها، وتحتاج إلى مئات الآلاف من الصور لتدريب الذكاء الاصطناعي.
وتعلق أليكسا كوينغ، المديرة التنفيذية لمركز حقوق الإنسان في جامعة كاليفورنيا- بيركلي: “إنها فكرة ذكية لمعالجة مشكلة عدم توفر بيانات مدربة، وبالتحديد في جرائم الحرب التي تظل تحديا”. وأضافت: “المحدد الرئيسي هو السرعة وحجم الصور للجرائم المرئية بشكل يجعل من المستحيل علينا البحث فيها يدويا والعثور على إشارات في الصوت”. وقالت: “سيكون رصيدا ضخما من أجل جعل مجموعات البيانات قابلة للمراجعة البشرية”.
وفي السنوات الأخيرة، طورت شركات التكنولوجيا بما فيها “نيفيديا” وتيسلا وأبل وغوغل وفيسبوك وأمازون مجموعاتها التجارية من البيانات المركبة لاستخدامها في أغراض تتراوح بين سيارة بدون سائق، إلى متحدث ذكي وحتى التشخيص الطبي.
ويقول ماكسميليان ديننجر، عالم الكبيوتر البصري في معهد الروبوت الألماني بوكالة الفضاء “دي أل أر” إن شركات مثل أبل تستخدم البيانات المركبة، رغم ما لديها من بيانات عن المستخدمين “لأنها جيدة جدا”. ويزعم أن نظام المحاكاة الرقمي لأبل “هايبريزم” لديه قدرة “تامة على التصنيفات، ويحصل على تسميات دقيقة. والجزء الأهم هو أنك تستطيع توليد بيانات لا تشبه البيانات الحقيقية”.
وفي أيلول/ سبتمبر، كشف الباحثون في أمازون عن الطريقة التي يمكن للبيانات المصنعة أن تعلّم أليكسا على التعرف على أسماء الأدوية العديدة، وهي مجموعة بيانات من الصعب الحصول عليها. وكتب جانيت سليفكا، مديرة البحث العلمي في مجموعة أليكسا للفهم الطبيعي للذكاء الاصطناعي، أن محركات البيانات المركبة قد تولد آلاف الكلمات الجديدة والمتشابهة.
وفي الوقت نفسه، قالت شركة تيسلا في آب/ أغسطس، إنها بنت أكثر 2.000 ميل من الصور المركبة للطرق، وهي بطول طريق يمتد من شرق إلى غرب الشاطئ الأمريكي تقريبا. وهذا من أجل مساعدة برنامج القيادة الآلي. وتسير سيارات تيسلا حاليا على شبكة ذكاء اصطناعي مدربة على صور مركبة من 371 مليون صورة، والتي ستزيد في الأشهر المقبلة. وتستخدم الشركة مزيجا من البيانات الحقيقية والمركبة لمعالجة حالات يفشل فيها المقود الآلي بالمحاكاة.
وتظل البيانات المركبة ليس بديلا تاما عن الواقع. ومن هنا فالتحدي أمام مطوري السيارات الآلية هي ردم الهوة بين “المركّب والحقيقي”. ويقول ديننجر: “هذه الفجوة ستظل موجودة، فلو لعبت لعبة فيديو، فستعرف أنها ليست حقيقية، ولهذا يمكننا خلق وسائل لتقليل الفجوة بحيث تظل تعمل في العالم الحقيقي”.
ويرى الباحثون أن الميزة الأكثر جدية في البيانات المركّبة هي قدرتها على حل المشاكل التي لا تزال مستعصية مثل الأرشيف السوري. كما يقول جيف دويتش، الباحث في الأرشيف السوري، وعمل على مشروع “في أف أر إي أم إي” مع هارفي: “هو مثير لأن فرقا صغيرة مثلنا وصلت نقطة تستطيع فيها استخدام الأدوات التي تستخدمها الشركات متعددة الجنسيات ولكن لأهداف مختلفة”.