Milind Agarwal bio photo

Milind Agarwal

पाली: फ़ारसी-अरबी लिपियों के लिए भाषाई पहचान बेंचमार्क

(PALI: A Language Identification Benchmark for Perso-Arabic Scripts)

लेखक: सीना अहमदी, मिलिंद अगर्वाल , अंतोनिओस अनस्तासोपोलोस
मूल अंग्रेज़ी से हिन्दी अनुवाद: मिलिंद अगर्वाल
AmericasNLP @ NAACL 2024

सारांश

फ़ारसी-अरबी लिपियाँ लिपियों का एक परिवार है जिसे दुनिया भर के विभिन्न भाषाई समुदायों द्वारा व्यापक रूप से अपनाया और इस्तेमाल किया जाता है। ऐसी लिपियों को इस्तेमाल करने वाली विभिन्न भाषाओं की पहचान करना भाषा टेक्नोलॉजी (प्रौद्योगिकी) के लिए बहुत ज़रूरी है और लो-रिसोर्स सेटिंग्स (ऐसी भाषाएँ जिनकी इंटरनेट पर मौजूदगी अभी अंग्रेजी, फ्रेंच, अरबी की तरह व्यापक नहीं है) में चुनौतीपूर्ण है। यह पेपर फ़ारसी-अरबी लिपियों का इस्तेमाल करने वाली भाषाओं की सटीक पहचान करने के रास्ते में चुनौतियों पर प्रकाश डालता है, विशेष रूप से द्विभाषी समुदायों में जहां भाषाओं को "अपरंपरागत" रूप से लिखा जाता है (यानी भाषा की खुद की लिपि के बजाये प्रभुत्वशाली भाषा की लिपि में लेखन)। इस समस्या के समाधान के रूप में, वाक्यों को भाषाओं में वर्गीकृत (क्लास्सिफ़ाई) करने के लिए हम पर्यवेक्षित तकनीकों (सुपरवाइज़्ड लर्निंग) का इस्तेमाल करते हैं। इसके आधार पर, हम एक ऐसे पदानुक्रम मॉडल (पदानुक्रम/हाइरार्किकल मॉडल कंप्यूटर विज्ञान की ऐसी तकनीक है जो किसी भी फ़ैसले को छोटे छोटे चरणों में तोड़ देती है और एक एक कर फ़ैसले लेती है) का प्रस्ताव रखते है जो उन भाषाओं के कलस्टर/समूह को निशाना बनाती है जो अक्सर मॉडल को उलझा देता है (ऐसी भाषाएं जिनमें मॉडल के लिए अंतर करना मुश्किल हो)। हमारे प्रयोग के नतीजे हमारे प्रस्ताव की प्रभावशीलता की ओर इशारा करते हैं।1

1 डेटा और मॉडल https://github.com/sinaahmadi/PersoArabicLID पर उपलब्ध हैं|

भूमिका

ऐतिहासिक रूप से, अरब फ़तह के क्षेत्रीय विस्तार के कारण दुनिया में कई दीर्घकालिक बदलाव हुए, विशेष रूप से नस्ली-भाषाई (एथ्नो-लिंगविस्टिक) दृष्टिकोण से, जहां उस समय की स्थानीय भाषाओं को अपने अस्तित्व को बनाये रखने के लिए चुनौतियों का सामना करना पड़ा। अरबी के प्रशासनिक भाषा - राइख़स्पराख़ यानी शाही भाषा- होने की वजह से कई स्थानीय भाषाएँ अपनी शब्दावली और लेखन में प्रभावित हुईं। कई सदियों तक, फ़ारसी ने अपनी ख़ास ध्वनियों के लिए नए ग्राफ़ीम (अक्षर) जोड़कर अरबी लिपि का विस्तार किया। जैसे <پ> (<प>, U+067E) और <گ> (<ग>, U+06AF). इसलिए, शास्त्रीय अरबी लिपि के मुख्य विस्तारित रूपों में से एक फ़ारसी-अरबी लिपि है जिसे धीरे-धीरे कई अन्य भाषाओं द्वारा अपनाया गया है, मुख्य रूप से पश्चिम, मध्य और दक्षिण एशिया में। फ़ारसी-अरबी लिपि का इस्तेमाल करने वाली कुछ भाषाएँ उर्दू, कुर्दी, पश्तो, अज़ेरी तुर्की, सिंधी और उइघुर हैं। इन आधुनिक भाषाओं के अलावा ओटोमन तुर्की जैसी कई भाषाएँ हैं जिन्होंने ऐतिहासिक रूप से इस लिपि का इस्तेमाल किया है। हालाँकि ऐसी अन्य लिपियाँ भी हैं जिन्हे फ़ारसी-अरबी लिपि से प्रभावित हुए बिना सीधे अरबी लिपि से बनाया गया था जैसे कि कुछ अफ़्रीकी भाषाओं में इस्तेमाल की जाने वाली अजामी लिपि (जैसे स्वाहिली और वोलोफ़), दक्षिणी एशिया में इस्तेमाल की जाने वाली पेगॉन और जावी लिपियाँ, और ऐतिहासिक रूप से कुछ यूरोपीय भाषाओं के लिए इस्तेमाल की जाने वाली अल्जामियादो लिपि।

'भाषा पहचान' दस्तावेज़, वाक्य और उप-वाक्य जैसे विभिन्न स्तरों पर किसी पाठ/टेक्स्ट की भाषा का पता लगाने का कार्य है। मशीन अनुवाद और सूचना पुनर्प्राप्ति (इनफ़ॉर्मेशन रिट्रीवल) की तरह प्राकृतिक भाषा प्रसंस्करण (एनएलपी - नेचुरल लैंग्वेज प्रोसेसिंग) में इस कार्य के महत्व को देखते हुए, इसका बड़े पैमाने पर अध्ययन किया गया है और इसे भावना विश्लेषण (सेंटीमेंट एनालिसिस) और मशीन अनुवाद जैसे विभिन्न ऍप्लिकेशन्स के लिए फायदेमंद दिखाया गया है। यह कार्य सभी सेटपों और भाषाओं के लिए समान रूप से चुनौतीपूर्ण नहीं है, क्योंकि यह दिखाया जा चूका है कि छोटे पाठों की या अतिसम्बंधित भाषाओं की पहचान (भाषाई तौर पर और लेखन में भी) बहुत मुश्किल है । मिसाल के तौर पर: फ़ारसी बनाम दारी, या कुर्दी के विभिन्न प्रकारों की पहचान।

इसके अलावा, द्विभाषी समुदायों में बोली जाने वाली कुछ लो-रिसोर्स भाषाओं को अपनी मातृभाषा के लिए प्रशासनिक या शैक्षिक समर्थन की कमी या सीमित प्रोद्योगिकी के कारण लेखन में विभिन्न चुनौतियों का सामना करना पड़ता है। परिणामस्वरूप, पाठ अपरंपरागत रूप से लिखा जाने लगता है - यानी भाषा की पारंपरिक लिपि या वर्तनी के अनुसार नहीं, बल्कि प्रशासनिक रूप से "प्रमुख'' या "प्रभुत्वशील" भाषा की लिपि पर निर्भर होकर। मिसाल के तौर पर, कश्मीरी या कुर्दी को कभी-कभी उनकी ख़ुद की विस्तृत फ़ारसी-अरबी लेखनविधि (ऑर्थोग्राफ़ी) के बजाय, क्रमशः उर्दू या फ़ारसी लिपियों में लिखा जाता है। इससे उन भाषाओं की पहचान करना और भी जटिल हो जाता है, जिससे लिपियों की समानता के कारण भ्रम पैदा होते हैं और डेटा की कमी के कारण डेटा-आधारित तकनीकें बाधित होती है। इसलिए, फ़ारसी-अरबी लिपियों का उपयोग करने वाली भाषाओं की विश्वसनीय भाषा पहचान आज भी एक चुनौती बनी हुई है, ख़ास तौर से कम प्रतिनिधित्व/संसाधनों वाली भाषाओं में।

इस प्रकार, हम कुछ ऐसी भाषाओं का चयन करते हैं जो फ़ारसी-अरबी लिपियों का उपयोग करती हैं, जिनका सारांश टेबल १ में दिया गया है । इनमें से अधिकांश न केवल डेटा की कमी बल्कि अपरंपरागत लेखन से संबंधित चुनौतियों का सामना कर रहीं हैं। इसलिए, हम इन भाषाओं के लिए भाषा पहचान कार्य को दो सेटपों में परिभाषित करते हैं - (क) पाठ अपनी भाषा की लिपि/वर्तनी के अनुसार लिखा जाता है, जिसे पारंपरिक लेखन कहा जाता है, या (ख) पाठ में प्रशासनिक रूप से प्रभावी भाषा की लिपि या शब्दावली के उपयोग के कारण कुछ हद तक विसंगतियाँ हैं, जिसे अपरंपरागत लेखन कहा जाता है। यह ध्यान में रखते हुए कि फ़ारसी-अरबी लिपियाँ ज़्यादातर पाकिस्तान, ईरान, अफ़ग़ानिस्तान और इराक़ की मूल भाषाओं को लिखने में इस्तेमाल की जाती हैं, हम उर्दू, फ़ारसी और अरबी को अपने शोध में शामिल करते हैं क्योंकि वे अपने क्षेत्रों की प्रशासनिक रूप से प्रभुत्वशाली भाषाएँ हैं। इसके अलावा, भाषाओं का एक विविध सेट होने से यह भी पता चल सकता है कि कौन सी भाषाएँ अक्सर एक-दूसरे के रूप में भ्रमित होती हैं। बेशक़ हम उइघुर को भी शामिल करते हैं, यह ध्यान दिया जाना चाहिए कि यह मुख्य रूप से एक द्विभाषी समुदाय में बोली जाती है, यानी चीन के सिनच्यांग में, जहां अपरंपरागत लेखन फ़ारसी-अरबी लिपि नहीं है; इसलिए, हम उइघुर के लिए केवल पारंपरिक लेखन पर विचार करते हैं।

योगदान यह पेपर फ़ारसी-अरबी लिपि या इसकी विभिन्न विस्तारित लिपियों में लिखी गई भाषाओं की भाषा पहचान पर प्रकाश डालता है। हम स्क्रिप्ट मैपिंग (प्रतिचित्रण या लिप्यांतरण) का इस्तेमाल करके डेटा एकत्र करने और कृत्रिम-शोरगुल (सिंथेटिक-नॉइज़) वाक्य बनाने का वर्णन करते हैं। हम कुछ वर्गीकरण तकनीकों को लागू/इम्प्लीमेंट करते हैं और अतिसम्बंधित भाषाओं के बीच भ्रम को हल करने के लिए एक हाइरार्किकल मॉडल तरीक़े का प्रस्ताव करते हैं। प्रस्तावित तकनीक अन्य तकनीकों से बेहतर प्रदर्शन करती है और शोरगुल सेटिंग्स में 0.88-0.95 के बीच मैक्रो-औसत F1 प्राप्त करती है ।

1 ZWNJ - ज़ीरो-विड्थ नॉन-जॉइनर एक वर्चुअल ग़ैर-मुद्रण वर्ण है जिसका उपयोग डिजिटलीकृत लेखनविधियों में किया जाता है जिनमें संयुक्ताक्षरों का इस्तेमाल होता है। कुछ लिपियों में वर्ण शब्द में उनके स्थान के आधार पर रूप बदलते हैं, और कुछ वर्णों के मिश्रण पर एक संयुक्ताक्षर बनता है। यदि किसी भाषा की लिपि में यह मिलन न हो और वर्णों को क्रमशः उनके अंतिम और प्रारंभिक रूपों में ही मुद्रित किया जाये, तो ज़ीरो-विड्थ नॉन-जॉइनर का प्रयोग किया जाता है। यह डिजिटल रूप में दिखाई नहीं देता पर इसका असर वर्णों के आकार पर होता है।
1 ISO 639-3 भाषाओं के नामों के प्रतिनिधित्व के लिए तीन-अक्षरीय कोड हैं। इसका उद्देश्य सभी ज्ञात प्राकृतिक भाषाओं (जीवित एवं विलुप्त) को व्यापक रूप से कवर करना है।

टेबल १

भाषा 639-3 विपि लिपि प्रकार विशेषक ZWNJ प्रभुत्व
अज़ेरि तुर्की azb azb अब्जद फ़ारसी
गिलाकि glk glk अब्जद फ़ारसी
मज़ांदेरानी mzn mzn अब्जद फ़ारसी
पश्तो pus ps अब्जद फ़ारसी
गोरानी hac - वर्णमाला फ़ारसी, अरबी, सोरानी
उत्तरी कुर्दी (कुरमानजी) kmr - वर्णमाला फ़ारसी, अरबी
मध्य कुर्दी (सोरानी) ckb ckb वर्णमाला फ़ारसी, अरबी
दक्षिणी कुर्दी sdh - वर्णमाला फ़ारसी, अरबी
बलोची bal - अब्जद फ़ारसी, उर्दू
ब्राहुई brh - अब्जद उर्दू
कश्मीरी kas ks वर्णमाला उर्दू
सिंधी snd sd अब्जद उर्दू
सरैकी skr skr अब्जद उर्दू
तोरवाली trw - अब्जद उर्दू
पंजाबी pnb pnb अब्जद उर्दू
फ़ारसी fas fa अब्जद -
अरबी arb ar अब्जद -
उर्दू urd ur अब्जद -
उइघुर uig ug वर्णमाला -