في عالم يتجه نحو العولمة بشكل مطرد والذي يدور بسرعة أكبر كل يوم ، ليس هناك شك في أن الترجمة الآلية موجودة لتبقى. على الرغم من كل السخرية من الترجمات الآلية ، فإن التطبيقات اللغوية القائمة على الشبكات العصبية (أنظمة الكمبيوتر المترابطة التي تحاكي عمليات التفكير البشري) تظل لا تقبل المنافسة من حيث السرعة (الفورية) والتكلفة (المجانية).
ومع ذلك ، لا يوجد عدد من الخوارزميات يمكنها حتى الآن أن تحل محل العقل البشري ، ناهيك عن حساسية السياق والتعابير (إنها تمطر بشدة ) للمترجمين المحترفين .
سريع ومجاني ومعيب ― ولكنه ينضج
بفضل تأثير المنظمات الدولية (مثل الأمم المتحدة) والمؤسسات متعددة اللغات (مثل البرلمان الأوروبي) ، كانت قواعد البيانات الضخمة تبني كميات هائلة من البيانات الموازية لأكثر من خمسين عامًا. ومع ذلك ، فقط خلال العقد الثاني من القرن الحادي والعشرين – مع ظهور الشبكات العصبية العميقة (DNNs) – يمكن استخدام كل هذه الوثائق المترجمة من قبل الإنسان للاستخدام العملي.
باستخدام هذه الكنوز اللغوية الدفينة ، طور عدد من اللاعبين التكنولوجيين الرئيسيين منصات ترجمة مجانية ، مثل:
- Google Translate: (133 لغة) يتم الوصول إليها من قبل أكثر من 500 مليون مستخدم يوميًا ، مع استخدام الإنجليزية والإسبانية والعربية والروسية والبرتغالية والإندونيسية بشكل متكرر ، بينما لا تزال البنغالية والكريولية الهايتية والطاجيكية في الخلف ؛
- Microsoft’s Bing Translator: (103 لغة) خدمة سحابية تعد جزءًا من خدمات Microsoft Cognitive Services ، ومتكاملة عبر منتجات متعددة تشمل Bing و MS Office و Edge و Skype و Windows ، بالإضافة إلى أجهزة Apple و Android ؛
- DeepL: (28 لغة) يتوسع هذا المحرك الآن من قاعدته الأوروبية ليشمل لغات من جميع أنحاء العالم ؛ وهو يرتكز على مجموعة ضخمة من الجمل والمصطلحات والمقتطفات المترجمة بشريًا والموجودة في قاموس Linguee على الإنترنت.
Broadening the Focus
ربما يفسر هذا الاعتماد الأولي على مناجم الذهب الرقمية للبيانات الموازية سبب تضمين الترجمة الآلية حاليًا لغات أوروبية مثل الفنلندية (خمسة ملايين متحدث) بينما تتجاهل 48 مليون إثيوبي يتحدثون لغة الأورومو. اللغات الأم الأخرى التي لا تزال تعاني من النسيان التكنولوجي تشمل Bhojpuri (51 مليون) ، Fula (24 مليون) ، Sylheti (11 مليون) ، و Kirundi (9 مليون).
ومع ذلك ، فإن هذا الوضع آخذ في التغير ، مع إضافة لغات الترجمة لتوسيع نطاق الترجمة الآلية. كما أشار كارل روبينو ، مدير البرامج في IARPA (مركز أبحاث خدمات الاستخبارات الأمريكية) ، “العديد من التحديات التي نواجهها اليوم ، مثل عدم الاستقرار الاقتصادي والسياسي ، ووباء Covid-19 ، وتغير المناخ ، تتجاوز كوكبنا” وبالتالي فهي متعددة اللغات بطبيعتها. ”
إنقاذ الأرواح من خلال اللغات
نظرًا لأن هذه التحديات غالبًا ما تكون ثقيلة على المجتمعات المحرومة الأقل استعدادًا للتعامل معها ، فإن الاتصالات الفورية ولكن الدقيقة أصبحت بسرعة مسألة حياة أو موت. في حين أن مخرجات المترجمين البشريين محدودة بسبب القيود المادية ، يمكن لأجهزة الكمبيوتر أن تعمل على مدار الساعة طوال أيام الأسبوع بسرعات تفوق قدرة البشر. يمكنهم إصدار تدفقات مستمرة من التحليلات والتقارير والإرشادات التي قد تكون غير كاملة نحويًا ، ولكنها مناسبة للغرض في الأطر الزمنية الطارئة الضيقة.
هذه هي القيمة الحقيقية لتوسيع نطاق الترجمة الآلية. من خلال تسهيل الاتصال الفوري عبر الحواجز اللغوية والثقافية عندما تكون الحياة وسبل العيش على المحك ، فإن هذه الخوارزميات المجهولة الهوية ترمي شريان الحياة للمجتمعات منخفضة التقنية التي تكافح من أجل البقاء في الظروف المعاكسة.
لغات منخفضة الموارد
على الرغم من أن ملايين الأشخاص يتحدثون بها ، إلا أن العديد من اللغات تقدم موارد كتابية محدودة (وأحادية اللغة غالبًا) ، على الرغم من تقاليدها الشفوية الغنية. بالنسبة للشبكات العصبية العميقة ، كان من الصعب معالجة هذه اللغات منخفضة الموارد – كما هو معروف في الصناعة -. في غضون ذلك ، ينشغل المتحدثون بهذه الألسنة بتحميل المنشورات والمدونات التي قد تضمن بقاء مجتمعاتهم ، على الرغم من افتقارهم التقليدي إلى السجلات والكتب.
من الناحية التاريخية ، غالبًا ما كانت المصادر متعددة اللغات بين بعض هذه الثقافات مقتصرة على مجموعات البيانات الضيقة التي يوفرها الأدب القائم على الإيمان ، وخاصة الكتب المقدسة التي تُرجمت على نطاق واسع ، مثل القرآن والكتاب المقدس. في الأزمنة الحديثة ، تعمل الوسائط المطبوعة والمسموعة والمرئية والشبكات الاجتماعية على تكوين قوائم جرد قوية للبيانات أحادية اللغة التي يمكن تحليلها وترجمتها بواسطة الشبكات العصبية العميقة.
الشبكات الاجتماعية بناء شبكات أمان مجتمعية
يمكن الآن تدريب نماذج الشبكة العصبية الحديثة مسبقًا بمصادر أحادية اللغة منطوقة ومكتوبة. النظرية هي أن النماذج العصبية قد تعلمت سمات وتركيبات معينة للغة البشرية ، تم إنشاؤها من خلال المعلمات التي يتم تطبيقها الآن على مهام الترجمة.
مع قيام المستخدمين في جميع أنحاء العالم بنشر محتوى غالبًا ما يكون متكررًا إلى حد ما عبر الحدود الثقافية وبلغاتهم الأم ، يمكن للنماذج العصبية الآن تلخيص النصوص للمستخدمين. للقيام بذلك ، يبدو أن هذه التطبيقات تحتاج إلى القليل جدًا من التدريب ثنائي اللغة من البيانات المتوازية ، حيث يكفي بضع مئات الآلاف من الكلمات (ربما نصف دزينة من الروايات).
المهم: مع وجود حوالي 7000 لغة يتم التحدث بها في جميع أنحاء العالم (ولكن حوالي 4000 منها فقط مكتوبة) ، فإن تطبيقات الترجمة الافتراضية لديها مجالات واسعة مفتوحة للتوسع. من الرعاية الصحية إلى الزراعة ، من الواضح أن سد الفجوات اللغوية والثقافية من خلال الترجمة الآلية هو الطريق إلى مستقبل أفضل للبشرية – ولكن دائمًا بمساعدة المترجمين المحترفين ، الذين ليسوا على دراية بأكثر من لغة واحدة فقط ولكن أيضًا بأكثر من ثقافة واحدة.
الصورة تخص ياثيش جودا من Pixabay