شكّل الذكاء الاصطناعي نقلة نوعية في العديد من المجالات، وخصوصًا في المجال الطبي، من خلال مساعدته في أنظمة اتخاذ القرار، والتشخيص المرضي، والبيولوجيا الجزيئية، وغيرها.
وفي سياق متصل، تلعب الصور الطبية -تحديدًا صور الرنين المغناطيسي- أحد أساسيات التخصص الطبي وتشخيص الأمراض وعلاجها، ومع ذلك واجهت جودة الصور ووضوحها تحديات عديدة، وبالطبع كان الذكاء الاصطناعي حلًا لهذه التحديات من خلال أنظمة الصور فائقة الدقة والتي سنتعرّف عليها في هذا المقال.
تصنف هذه المسألة ضمن الرؤية الحاسوبية وتعتبر من القضايا الهامّة في الذكاء الاصطناعي وتعلّم الآلة، فالفكرة هنا ببساطة هي إمكانية توليد صور فائقة الدقة من تلك منخفضة الدقة.
برزت محاولات عديدة ولسنوات عدة لبناء نموذج تعلم عميق قادر على أداء المهمة كما واجهت تحديات ضخمة من جودة الصور المولدة ووضوحها وكذلك كونها فائقة الدقة تمامًا.
فهناك أكثر من 20 نموذجًا مخصصًا لهذه المهمة منها ما يصنف ضمن التعليم تحت إشراف معلم (Supervised Learning ) ومنها ما يصنف ضمن التعليم بدون معلم (Unsupervised Learning) ابتداءً من الشبكات العصبونية الالتفافية CNNs مرورًا بالشبكات التوالدية التعاكسية GANs وغيرها.
تقوم الفكرة بشكل أساسي وعلى اختلاف الطريقة والنموذج المستخدم على إدخال صورة منخفضة الدقة بجودة سيئة ليقوم فيما بعدها النظام ببناء نفس الصورة، ولكن بدقة عالية أو فائقة تغطي كامل تفاصيل الصورة بشكل واضح وتكون خالية من أي ضجيج وتشوهات.
تبرز التحديات هنا بشكل كبير ويمكن تقسيمها لعدة أقسام:
فمثلما نجحت بعض النماذج بالمهمة فشلت بعضها فشلاً ذريعًا عند اختبارها على صور مختلفة.
لا يمكن اختصار أهمية صور ال MRI بمقال واحد، كونها تعطي تفاصيل دقيقة في مجال التشخيص الطبي، ناهيك عن دورها في مجالات أخرى مثل اتخاذ القرار، والتحليل الطبي، وبالتالي صورة واحدة بدقة سيئة ستشكل مشكلة حقيقية.
وبسبب المحدودية في الأجهزة -إن صح التعبير- فإن الحصول على صورة فائقة الدقة بشكل مباشر يشكل عائقًا في المجال، وبمقاربة بسيطة نستطيع أن نجد الإغراء الذي تقدمه أنظمة الصور فائقة الدقة فيمكن وصفها أنها الحل المباشر لهذا العائق.
فكما ذكرت سابقًا، كل ما تحتاجه هذه الأنظمة هو صورة منخفضة الدقة وستتكفل بالباقي، ولكن تكمن المشكلة في الأنظمة نفسها والعوائق التي تواجهها، ومن هنا بدأت الحلول بالظهور من خلال نماذج عديدة قامت فعلًا بالمهمة بشكل جيد.
ولكن، كيف نحدد أساسًا أن الصورة فائقة الدقة أم لا؟ يمكن في الواقع تحديد ذلك من خلال عدة بارامترات أهمها وأشهرها:
بدأت الصورة في الوضوح نوعًا ما، ويمكنني تلخيص المشكلة بأنه لدينا صور رنين مغناطيسي ونهدف إلى تحسين جودتها بشكل كبير لتكون صور فائقة الدقة وتعطي كامل التفاصيل المطلوبة، وكما قلت يوجد العديد من نماذج التعلّم العميق التي تقوم بذلك.
أحد هذه النماذج، الشبكات التوالدية التعاكسية أو GANs، والتي شكلت ومنذ أول ظهور لها نقلات هامّة في الرؤية الحاسوبية والذكاء الاصطناعي بشكل عام ناهيك عن فتحها المجال للأبحاث، واستخداماتها الكثيرة سواء في توليد بيانات جديدة أو دراسة الهجمات التعاكسية.
تشكل GANs حلًا من خلال اعتمادها كخطوة لاحقة بعد الحصول على صورة الرنين المغناطيسي، والتي سيتم اعتمادها كمُدخل للنموذج، ولفهم الدور الذي تقوم به شبكات GANs لابد من شرح بسيط لكيفية عملها.
يقسم النموذج المبني على شبكة GAN لشبكتين عصبونيتين، الأولى نطلق عليها المولد Generator والثانية نطلق عليها المُميّز Discriminator وجاءت تسمية الشبكة حقيقًة من تركيبتها هذه، حيث تتولى الشبكة الأولى أو المولد مهمة توليد الصور وتتولى الشبكة الثانية مهمة تدريب الأولى لتحسين أدائها.
يحسن المُميّز أداء المولد من خلال تحديد ما إذا كانت الصور الواردة إليه هي الصور الأصلية أم الصور الواردة من المولد، والعملية التي يتفاعل بها المولد والمميز بعضهما مع بعض ليست إلا مسألة minimax كلاسيكية بشكلها المجرد، ويستمر ذلك طوال عملية تدريب النموذج كاملًا ليستطيع المولد في النهاية توليد نفس الصورة المدخلة إليه بنفس التفاصيل، ولكن بدقة فائقة.
نصل لحل المشكلة بإسقاط آلية عمل الشبكة السابقة على صور الرنين المغناطيسي، ويوجد هنا طريقتين لتطبيق ذلك: الأول بتدريب النموذج كاملاً من الصفر باستخدام نماذج صور رنين مغناطيسي كعينات تدريب، ولكن ستأخذ العملية وقتًا.
يعتمد الطريق الثاني على مبدأ التعليم المتنقل Transfer Learning، من خلال استخدام شبكة فك ترميز مدربة مسبقا مع المولد ومن ثم تدريب المولد لوحده وبعدها تدريبه مع المميز سوية، فتكمن إيجابيات العملية السابقة بتحسين قدرة النموذج على تحديد صفات الصورة قبل عملية التدريب وكذلك زيادة سرعة وكفاءة عملية التدريب وبالتالي تحسين جودة نتائج النموذج النهائية.
وبالفعل، وصلت الأبحاث في هذا المجال لنتائج مبهرة، فكانت جودة الصور الناتجة عن النموذج ممتازة من ناحية قيم PSNR وSSIM ومن ناحية جودتها البصرية، وبالتالي بتطبيق النموذج عمليًا يمكن التغلب على مشكلة محدودية قدرات الأجهزة وكذلك جودة الصور الناتجة عنها مما يزيل عائقًا من العوائق أمام الذكاء الاصطناعي وتطبيقه في المجالات الطبية بشكل عام.
شكّل الذكاء الاصطناعي نقلة نوعية في العديد من المجالات، وخصوصًا في المجال الطبي، من خلال مساعدته في أنظمة اتخاذ القرار، والتشخيص المرضي، والبيولوجيا الجزيئية، وغيرها.
وفي سياق متصل، تلعب الصور الطبية -تحديدًا صور الرنين المغناطيسي- أحد أساسيات التخصص الطبي وتشخيص الأمراض وعلاجها، ومع ذلك واجهت جودة الصور ووضوحها تحديات عديدة، وبالطبع كان الذكاء الاصطناعي حلًا لهذه التحديات من خلال أنظمة الصور فائقة الدقة والتي سنتعرّف عليها في هذا المقال.
تصنف هذه المسألة ضمن الرؤية الحاسوبية وتعتبر من القضايا الهامّة في الذكاء الاصطناعي وتعلّم الآلة، فالفكرة هنا ببساطة هي إمكانية توليد صور فائقة الدقة من تلك منخفضة الدقة.
برزت محاولات عديدة ولسنوات عدة لبناء نموذج تعلم عميق قادر على أداء المهمة كما واجهت تحديات ضخمة من جودة الصور المولدة ووضوحها وكذلك كونها فائقة الدقة تمامًا.
فهناك أكثر من 20 نموذجًا مخصصًا لهذه المهمة منها ما يصنف ضمن التعليم تحت إشراف معلم (Supervised Learning ) ومنها ما يصنف ضمن التعليم بدون معلم (Unsupervised Learning) ابتداءً من الشبكات العصبونية الالتفافية CNNs مرورًا بالشبكات التوالدية التعاكسية GANs وغيرها.
تقوم الفكرة بشكل أساسي وعلى اختلاف الطريقة والنموذج المستخدم على إدخال صورة منخفضة الدقة بجودة سيئة ليقوم فيما بعدها النظام ببناء نفس الصورة، ولكن بدقة عالية أو فائقة تغطي كامل تفاصيل الصورة بشكل واضح وتكون خالية من أي ضجيج وتشوهات.
تبرز التحديات هنا بشكل كبير ويمكن تقسيمها لعدة أقسام:
فمثلما نجحت بعض النماذج بالمهمة فشلت بعضها فشلاً ذريعًا عند اختبارها على صور مختلفة.
لا يمكن اختصار أهمية صور ال MRI بمقال واحد، كونها تعطي تفاصيل دقيقة في مجال التشخيص الطبي، ناهيك عن دورها في مجالات أخرى مثل اتخاذ القرار، والتحليل الطبي، وبالتالي صورة واحدة بدقة سيئة ستشكل مشكلة حقيقية.
وبسبب المحدودية في الأجهزة -إن صح التعبير- فإن الحصول على صورة فائقة الدقة بشكل مباشر يشكل عائقًا في المجال، وبمقاربة بسيطة نستطيع أن نجد الإغراء الذي تقدمه أنظمة الصور فائقة الدقة فيمكن وصفها أنها الحل المباشر لهذا العائق.
فكما ذكرت سابقًا، كل ما تحتاجه هذه الأنظمة هو صورة منخفضة الدقة وستتكفل بالباقي، ولكن تكمن المشكلة في الأنظمة نفسها والعوائق التي تواجهها، ومن هنا بدأت الحلول بالظهور من خلال نماذج عديدة قامت فعلًا بالمهمة بشكل جيد.
ولكن، كيف نحدد أساسًا أن الصورة فائقة الدقة أم لا؟ يمكن في الواقع تحديد ذلك من خلال عدة بارامترات أهمها وأشهرها:
بدأت الصورة في الوضوح نوعًا ما، ويمكنني تلخيص المشكلة بأنه لدينا صور رنين مغناطيسي ونهدف إلى تحسين جودتها بشكل كبير لتكون صور فائقة الدقة وتعطي كامل التفاصيل المطلوبة، وكما قلت يوجد العديد من نماذج التعلّم العميق التي تقوم بذلك.
أحد هذه النماذج، الشبكات التوالدية التعاكسية أو GANs، والتي شكلت ومنذ أول ظهور لها نقلات هامّة في الرؤية الحاسوبية والذكاء الاصطناعي بشكل عام ناهيك عن فتحها المجال للأبحاث، واستخداماتها الكثيرة سواء في توليد بيانات جديدة أو دراسة الهجمات التعاكسية.
تشكل GANs حلًا من خلال اعتمادها كخطوة لاحقة بعد الحصول على صورة الرنين المغناطيسي، والتي سيتم اعتمادها كمُدخل للنموذج، ولفهم الدور الذي تقوم به شبكات GANs لابد من شرح بسيط لكيفية عملها.
يقسم النموذج المبني على شبكة GAN لشبكتين عصبونيتين، الأولى نطلق عليها المولد Generator والثانية نطلق عليها المُميّز Discriminator وجاءت تسمية الشبكة حقيقًة من تركيبتها هذه، حيث تتولى الشبكة الأولى أو المولد مهمة توليد الصور وتتولى الشبكة الثانية مهمة تدريب الأولى لتحسين أدائها.
يحسن المُميّز أداء المولد من خلال تحديد ما إذا كانت الصور الواردة إليه هي الصور الأصلية أم الصور الواردة من المولد، والعملية التي يتفاعل بها المولد والمميز بعضهما مع بعض ليست إلا مسألة minimax كلاسيكية بشكلها المجرد، ويستمر ذلك طوال عملية تدريب النموذج كاملًا ليستطيع المولد في النهاية توليد نفس الصورة المدخلة إليه بنفس التفاصيل، ولكن بدقة فائقة.
نصل لحل المشكلة بإسقاط آلية عمل الشبكة السابقة على صور الرنين المغناطيسي، ويوجد هنا طريقتين لتطبيق ذلك: الأول بتدريب النموذج كاملاً من الصفر باستخدام نماذج صور رنين مغناطيسي كعينات تدريب، ولكن ستأخذ العملية وقتًا.
يعتمد الطريق الثاني على مبدأ التعليم المتنقل Transfer Learning، من خلال استخدام شبكة فك ترميز مدربة مسبقا مع المولد ومن ثم تدريب المولد لوحده وبعدها تدريبه مع المميز سوية، فتكمن إيجابيات العملية السابقة بتحسين قدرة النموذج على تحديد صفات الصورة قبل عملية التدريب وكذلك زيادة سرعة وكفاءة عملية التدريب وبالتالي تحسين جودة نتائج النموذج النهائية.
وبالفعل، وصلت الأبحاث في هذا المجال لنتائج مبهرة، فكانت جودة الصور الناتجة عن النموذج ممتازة من ناحية قيم PSNR وSSIM ومن ناحية جودتها البصرية، وبالتالي بتطبيق النموذج عمليًا يمكن التغلب على مشكلة محدودية قدرات الأجهزة وكذلك جودة الصور الناتجة عنها مما يزيل عائقًا من العوائق أمام الذكاء الاصطناعي وتطبيقه في المجالات الطبية بشكل عام.