للحفاظ على الإرث اللغويّ وتسهيل تطوير تقنيات الكلام، تعمل الحكومة الإستونية على إنشاء أكبر قاعدة بياناتٍ للّغة المنطوقة بمشاركة متطوعين من مختلف الفئات المجتمعية.
ربما تروّج الاتجاهات الحديثة إلى أنّ التكنولوجيا تعرّض الموروثات الشعبية للخطر، لكنّ الواقع أنّ التقدّم التكنولوجيّ والحفاظ على الإرث الثقافيّ ليسا خطّين متوازيين، وأنّهما– حتماً– سيلتقيان عند نقطة معينة، فالاستخدام الاستراتيجيّ للتقانة لن يحافظ على الثقافات الأقلّ تمثيلاً فحسب، بل وسيساعد في ترويجها.
منذ أن ظهرت تقنية تحليل الكلام المنطوق في الأجهزة الذكية، وفّرت الكثير من الوقت والجهد ولاقت رواجاً واستُخدمت لتقديم الخدمات في القطاعَين الحكومي والخاص. لكنّ إنشاءَها وتشغيلَها بفعالية يتطلب مجموعة هائلة من بيانات التدريب لتطوير الخوارزميات. وحين نتحدث عن اللغة المحكية، فإنّ هذه البيانات عبارةٌ عن ساعات وساعات من الكلام المسجّل. لكن، كيف يمكن الحصول عليها؟ ذلك هو السؤال الذي واجه المؤسسات الراغبة في إنشاء حلول رقمية لتحسين تجربة عملائها، ففي حين تقدّم هذه التقنيات أداءً أفضل حين تُدرّب على التعامل مع أصوات المستخدمين، تأتي اعتبارات الحماية والخصوصية لتقيِّدَ تحقيقَ هذا الهدف، خاصةً حين تكون الجهة المنفِّذة مطوِّرَ برمجيات يحاول إنشاء نموذج تدريبي قابلٍ للتعميم، كما أن العديد من تطبيقات المساعِد الصوتي الرائجة قد سجّلت حالاتٍ من التحيُّز الجنساني والعرقي.
في حالاتٍ أخرى، كان مردُّ المشكلة انخفاضَ معدّلات استخدام اللغات الأصلية، كما في حالة إستونيا، ففي قطاعات الخدمات وتكنولوجيا المعلومات والتعليم العالي، ساهم الاعتماد على اللغات الأجنبية وتنامي حضور القوى العاملة الدولية في تراجع حضور اللغة الأصلية، ما دفع الحكومة لإطلاق "استراتيجية اللغة الإستونية 2021- 2035"، للحفاظ على مكانتها في ظلّ التنامي السريع للمجتمع الرقمي.
ولأن إستونيا رائدة في مجال الرقمنة، فقد تعاونت وزارتُها للشؤون الاقتصادية والاتصالات مع هيئة نظام المعلومات لإطلاق مشروع "تبرّع بحديثك" للتعهيد الجماعيّ للغة المحلية.
في هذه الحملة، تتوجّه الدولة إلى جميع الراشدين الذين يتحدّثون لغتها، سواءٌ أكانت لغتَهم الأم أو لغةً مكتسبة، وتدعوهم للتبرّع- حرفياً- بكلامهم بغية بناءِ قاعدة بيانات واسعة وإتاحتِها للكيانات الحكومية والخاصة والمؤسسات البحثية الراغبة في تطوير خدمات تعتمد على تكنولوجيا الكلام.
من حيث المفهوم، التعهيد الجماعي للصوت يعني جمع كميةٍ كبيرة من الأصوات من مجموعات متنوّعة من السكان أو من أنماط مختلفة من الكلام. والأنماط هنا تشير الى اللّغات أو اللّهجات أو حتى مشكلات النطق التي قد تكون شائعةً لدى فئات اجتماعية معينة. كما يمكن استخدام التقنية لتسجيل الاجتماعات وتحويل المقابلات إلى نصوص مكتوبة وإنشاء ترجمات تلقائية للوسائط.
وقد استفادت هذه الحملة من أداة التعهيد الجماعيّ التي طرحتها شركة "موزيلا". ومن خلالها، تسعى لتأسيس قاعدة بياناتٍ مفتوحة تضم 4 آلاف ساعة عالية الجودة من الكلام المنطوق والنصوص المترجمة ومجموعات بيانات لغة الإشارة. وقد وقع الخيار على البيانات المفتوحة لإلغاء الحاجة إلى إنشاء مجموعات بياناتٍ منفصلةٍ لكلّ مشروع على حدة.
لجمع هذه البيانات، تجهّز الوزارة حملةً إعلانية واسعة ستُبثّ عبر مختلف وسائل الإعلام والتواصل الاجتماعي للتوعية بأهمية التقنيات اللغوية والحفاظ على اللغة المحلية. وقد صمّم الفريق التقنيّ موقعاً إلكترونياً خاصاً يمكن للمشاركين دخولُه من أيّ جهاز مزوَّدٍ بمدخل للصوت كالحاسوب الشخصيّ أو اللوحيّ أو الهاتف الذكي، والتحدّث في أي موضوع يختارونه.
وكانت الحكومة قد أطلقت مطلعَ العام تطبيقاً حمل اسم "بوروكرات" وهو برنامج مدعوم بالذكاء الاصطناعي يتيح للناس استخدامَ المساعد الصوتي للحصول على الخدمات العامة. كما استطاعت وكالة الإذاعة العامة تطوير نظام ذكي يحمل اسم "هانز"، ويحل محلّ كتّاب الاختزال، حيث يقوم بتحويل محتوى البرامج المُذاعة مباشرةً على التلفاز إلى نصوص مكتوبة مختصرة يشاهدها عشرات الآلاف ممن يعانون صعوبات سمعية، كما يقوم بتسجيل المحادثات البرلمانية بصيغة ملفات صوتية وتحويلِها إلى نصوص مكتوبة، ليقوم المحرّرون بمراجعتها قبل نشرها على الموقع الرسمي للبرلمان.
لكنّ مشاريع التعهيد الجماعيّ عادةً ما تواجه عدّة تحديات، أولُها جودة البيانات ودقّتها، فنَسخُ التسجيلات الصوتية قد يسبب مشكلات تقنية ويؤثّر على وضوح الكلام. أما التحدي الثاني فهو يكمن في خصوصية البيانات، خاصةً وأنّ التسجيلات ستُتاح على بوابة مفتوحة. لذا، بعد جمع التسجيلات، سيتم حذف معلومات التعريف التي قد تشير إلى أصحابها، وسيظلّ بمقدور هؤلاء حذف تسجيلاتهم متى أرادوا.
أما التحدي الأكبر، فهو تحيّز البيانات، فبعض الفئات المجتمعية ستسجّل – بطبيعة الحال – مشاركةً أقل، وهذا يشمل الأقليات والمسنّين وأصحاب الهمم. بالتالي، ليصلَ المشروع إلى قاعدة بيانات شاملة لجميع الإستونيين، لا بدّ من بذل جهود إضافية للوصول إلى مختلف المجموعات السكانية والتوجّه إليها بالخطاب التوعويّ الأنسب.
يساهم التعهيد الجماعي للأصوات في جمع بياناتٍ أكثر تنوعاً، وبالتالي، تطوير خوارزميات أشدّ ذكاء. كما ستساعد الحملة في ترسيخ تقنيات اللغة في نظم المعلومات المستخدمة في القطاعين الحكومي والخاص، وتحسين الوصول إلى الخدمات.
وتفيد برمجيات التعرّف على الكلام في تسهيل عمل الأجهزة الأمنية والجنائية والقضائية والصحية والبحثية والإعلامية، حيث يُعدّ التدوين وإعداد التقارير المفصّلة ضرورتَين حيويتَين.
على المدى البعيد، تهدف هذه الجهود الى جعل التعرف الصوتي تجربة ايجابية للجميع أياً كانت لغاتُهم أو أجناسُهم أو أعمارُهم أو انتماءاتُهم.
المراجع:
https://www.hm.ee/sites/default/files/htm_eesti_keele_arengukava_2020_a4_web_en.pdf
https://annetakonet.ee/projekti-kirjeldus/
https://thenextweb.com/news/how-mozilla-is-crowdsourcing-speech-to-diversify-voice-recognition