التعلم العميق كأحد أهم أدوات الذكاء الاصطناعي
بقلم: د. عزت عليوة عرابي
قد تقرأ الآن هذه السطور على شاشة هاتفك، وربما إذا أغلقته وأردت فتحه مرة أخرى، وضعت وجهك نصب الكاميرا حتى يتعرف هاتفك على وجهك، أو يتعرف على بصمتك في ظهر الهاتف الذكي، فيُفتح مرة أخرى. لكن هل تساءلت كيف يتعرف عليك هاتفك؟
لا بد أنك تساءلت مرارًا عن سر تلك التطبيقات الذكية التي ترافقك منذ أن تصحو من نومك، وتركب سيارتك، وتقف بها في الإشارة الآلية، أو إذا كنت محظوظًا بامتلاكك للسيارة الذكية التي تقوم بالركن الآلي. هل تابعت عروض الشراء التي يقترحها عليك محرك البحث الشهير «جوجل» بعد متابعته الذكية لتعاملاتك، والمحال التي تتردد عليها، والمواضيع التي تكثر من قراءتها؟ ربما اتسعت عيناك من الدهشة حينما طرح عليك سؤاله المعهود: كيف وجدت محل ملابس كذا أو نادي كذا؟ بعد زيارتك له.
أود أن أبشرك يا صديقي إذا دعاك شغفك إلى البحث عن الأفكار التي بُنِيت عليها هذه التطبيقات، أنك من القلة التي تتبع شغفها المعرفي، ولا تَلزم دورَ المستهلك الذي يقتصر على الانتفاع فقط بالخدمات التقنية المتاحة -وربما إدمانها- دون التفكير في كيفية صناعتها، في الوقت الذي قد يكون شاب يافع هو من صنع هذا التطبيق، حيث اختار اكتساب المعرفة وتطبيقها.
حسنًا، أنت محظوظ إذ وصلت إلى هنا، فمرحبًا بك أولًا.
خوارزمية التعلم العميق
دعني أخبرك أن تطبيق «التعرف على الوجه» (Face Recognition)، الذي يفتح لك هاتفك، يعتمد «خوارزمية التعلم العميق» (Deep Learning Algorithm) كإحدى تقنيات الذكاء الاصطناعي، (الذي يعتمد على مبدأ محاكاة الذكاء الإنساني).
دعنا نتفق أولًا أنه كلما وجدت كلمة خوارزمية فإنها تعني ما يشبه الخارطة. نعم، خارطة مكتوبة بلغة الرياضيات تجيب عن ثلاثة أسئلة: ما هي المخرجات أو النتائج التي تود أن تصل إليها؟ ما هي المعطيات والأدوات التي تمتلكها للوصول إلى هذه النتائج؟ وما هي مجموعة الخطوات المحددة للوصول إلى هذه النتائج؟
غالبًا ما تستخدم تقنية «الشبكات العصبية» (Neural Networks) في التعرف على الوجوه، وفكرتها هي محاكاة الخلية العصبية، وتزيد دقة هذه الشبكة بزيادة عدد (أو عمق) البيانات المدخلة والمصفوفة على هيئة «طبقات» (Layers)، ومن هنا جاءت تسمية التعلم العميق.
التعرف على الوجوه
يعد تطبيق التعرف على الوجوه أقرب وأقوى مثال لمحاكاة الذكاء البشري. فعندما ترى شخصًا تظن أنك تعرفه، وتريد أن تتأكد أهو حقًا صديق قديم (دون أن تسأله) أم أنك تتخيل هذا، ماذا تفعل؟
حسنًا، ستحاول التدقيق في ملامحه، وسيبدأ عقلك تلقائيًا في إجراء مقارنةٍ بين صورة وجهه التي تراها بعينيك، ومجموعة الصور المختزنة التي استدعاها عقلك من ذاكرتك القديمة، ثم التأكد من درجة الشبه بينهما التي ستكون بين الإثبات أو النفي أو الترجيح. يسمي علماء الرياضيات هذه العملية بوضع فرضية الإثبات وتحديد درجة احتمالها، والتي قد تصل إلى نسبة 100% أو حالة اليقين المطلق: «نعم أذكره جيدًا، هذا فلان»، أو ربما تصل إلى النسبة 0% أو حالة النفي المطلق: «لا أعرفه على الإطلاق».
يعتمد عقلك العديد من المقارنات التفصيلية، حتى يصل إلى إثبات التطابق (بنسبة 100%) أو التشابه (بنسبة تقل عن 100%) أو النفي بين الشخص الذي رأيته وبين إحدى الصور المختزنة لديك.
وتشمل المقارنات كل مكونات الوجه: لون البشرة، لون وشكل العينين والشعر، الفم والأنف، وغير ذلك، وكلما رجّح العقل فرضية الإثبات في إحدى تفصيلات الوجه (أي أن هناك فعلًا توافقًا بين الصورة المرئية وبين تلك المحفوظة بالذاكرة في هذه التفصيلة)، زادت احتمالية معرفتك لهذا الشخص.
هذه كلها عمليات جزئية فقط؟ ماذا عن النتيجة الكلية؟
في النهاية بعد الجمع الجبري للنسب المئوية الخاصة بكل عمليات المقارنة الجزئية لكل تفاصيل الوجه، تُحسَب النسبة الكلية، فإذا كانت مثلًا تزيد عن 70%، تُرجّح فرضية الإثبات بنفس النسبة، ونقول حينها «نعم أعرف هذا الشخص، أُرجّح أنه فلان».
هذا هو السلوك العقلي الآلي، الذي يجريه عقلك دون أن تشعر.
كيف تعمل الآلات لتصل إلى هذه النتيجة؟
يبني مبرمج الحاسب البارع برنامجًا على خوارزمية تعرّف الوجوه، وهي تعتمد على مبدأ التعلم العميق. بدلًا من مصطلح «البرنامج» دعنا نستخدم مصطلح «النظام» بكل ما يحويه من كاميرات تصوير دقيقة وحاسبات (Hardware) وبرمجيات (Software).
يبدأ الأمر بالرؤية، حيث تُلتقط مجموعة من الصور لنفس الشخص، لكنه متخفٍ بشكل بارع يكاد يخفى على من يعرفونه جيدًا. مثلًا 50 صورة مختلفة لشخص واحد، مرة متخفيًا في هيئة رجل فقير، وأخرى في هيئة رجل ثري، مرة يرتدي قبعة ومرة لا، مرة يظهر بلحية ومرة لا.. وهكذا. ويُراعى أن تتم عملية التصوير في ظروف موحدة –قدر المستطاع- من حيث درجة الإضاءة ودقة التصوير وزاويته، وغيرها.
بعد هذا تُسجّل الصور على الحاسب، حيث يقوم النظام بتهيئة الصور وتنقيتها من أي شوائب، والعمل على ضبطها والتحقق من تقارب صفاتها. ثم نسجل على النظام أن هذه الصور تخص شخصًا اسمه «س»، ثم نعود ونكرر الأمر نفسه بعرض مجموعة صور لشخص آخر اسمه «ص» وشخص ثالث اسمه «ع» وهكذا، حتى تتم مرحلة التعلم من المدخلات ذات الأسماء المحددة. يسمى هذا النوع من تقنيات التعلم «التعلم الموجه» (Supervised Learning)، حيث يجعل المبرمج عملية التعليم موجهة وموضحة باسم محدد (Label) لكل مجموعة صور معينة.
ثم تأتي بعدها مرحلة الاختبار، وفيها نختبر جودة النظام، حيث نعرض صورًا تخص شخصيات عديدة «س» و«ص» وغيرهم، ثم نطلب من البرنامج تسمية كل صورة باسم صاحبها، فإذا نجح في تمييز الشخصيات عن بعضها وتسميتها تسمية صحيحة، يكون النظام قد نجح في هذا الاختبار.
تتم عملية تطوير النظام بتحسين طرق معالجة الصور، حيث يستطيع النظام إجراء المعالجة بعد التقاط الصور في ظروف مختلفة في الإضاءة والوضوح والزوايا، بل ومشوَّهة عمدًا، مما يدعم قدرة النظام على تنقية الصور والفصل بين المتشابهات، حيث سيثقل هذا الاختبار ميزان القبول لدى جماهير المستخدمين.
بعد ذلك يأتي دور التطبيق العملي للنظام. الأمر يشبه مهندسًا حديث التخرج، بعد مروره على عشرات الاختبارات، والتقييمات، وعليه الآن أن ينزل إلى مواقع العمل الفعلية لتنفيذ ما تعلمه، والاستفادة منه على الوجه الأكمل.
المصادر
1-“Neural Networks and Deep Learning”,2018, Charu C. Aggarwal, Springer.
https://doi.org/10.1007/978-3-319-94463-0
2-“Deep Learning-Based Face Analytics”,2021, Nalini K Ratha, Vishal M. Patel, Rama Chellappa.
3-“Machine Learning Using R”,Apress, 2019 K. Ramasubramaniam, A. Singh.
“إدمان الانترنت وعلاقته ببعض المتغيرات النفسية لدى عينة من الشباب الجامعى”
المجلة العلمية لكلية التربية النوعية.
مقال أ.د/ أمانى عبد المقصود عبد الوهاب أستاذ الصحة النفسية بجامعة المنوفية.
” الإدمان أمراض من الإنترنت” الدكتورة كلوديت بورتيلي
معالج نفسي وباحث رسمي ومحاضر في مركز العلاج الاستراتيجى