पाली: फ़ारसी-अरबी लिपियों के लिए भाषाई पहचान बेंचमार्क
(PALI: A Language Identification Benchmark for Perso-Arabic Scripts)
लेखक: सीना अहमदी, मिलिंद अगर्वाल , अंतोनिओस अनस्तासोपोलोसमूल अंग्रेज़ी से हिन्दी अनुवाद: मिलिंद अगर्वाल
AmericasNLP @ NAACL 2024
सारांश
फ़ारसी-अरबी लिपियाँ लिपियों का एक परिवार है जिसे दुनिया भर के विभिन्न भाषाई समुदायों द्वारा व्यापक रूप से अपनाया और इस्तेमाल किया जाता है। ऐसी लिपियों को इस्तेमाल करने वाली विभिन्न भाषाओं की पहचान करना भाषा टेक्नोलॉजी (प्रौद्योगिकी) के लिए बहुत ज़रूरी है और लो-रिसोर्स सेटिंग्स (ऐसी भाषाएँ जिनकी इंटरनेट पर मौजूदगी अभी अंग्रेजी, फ्रेंच, अरबी की तरह व्यापक नहीं है) में चुनौतीपूर्ण है। यह पेपर फ़ारसी-अरबी लिपियों का इस्तेमाल करने वाली भाषाओं की सटीक पहचान करने के रास्ते में चुनौतियों पर प्रकाश डालता है, विशेष रूप से द्विभाषी समुदायों में जहां भाषाओं को "अपरंपरागत" रूप से लिखा जाता है (यानी भाषा की खुद की लिपि के बजाये प्रभुत्वशाली भाषा की लिपि में लेखन)। इस समस्या के समाधान के रूप में, वाक्यों को भाषाओं में वर्गीकृत (क्लास्सिफ़ाई) करने के लिए हम पर्यवेक्षित तकनीकों (सुपरवाइज़्ड लर्निंग) का इस्तेमाल करते हैं। इसके आधार पर, हम एक ऐसे पदानुक्रम मॉडल (पदानुक्रम/हाइरार्किकल मॉडल कंप्यूटर विज्ञान की ऐसी तकनीक है जो किसी भी फ़ैसले को छोटे छोटे चरणों में तोड़ देती है और एक एक कर फ़ैसले लेती है) का प्रस्ताव रखते है जो उन भाषाओं के कलस्टर/समूह को निशाना बनाती है जो अक्सर मॉडल को उलझा देता है (ऐसी भाषाएं जिनमें मॉडल के लिए अंतर करना मुश्किल हो)। हमारे प्रयोग के नतीजे हमारे प्रस्ताव की प्रभावशीलता की ओर इशारा करते हैं।1
1 डेटा और मॉडल https://github.com/sinaahmadi/PersoArabicLID पर उपलब्ध हैं|भूमिका
ऐतिहासिक रूप से, अरब फ़तह के क्षेत्रीय विस्तार के कारण दुनिया में कई दीर्घकालिक बदलाव हुए, विशेष रूप से नस्ली-भाषाई (एथ्नो-लिंगविस्टिक) दृष्टिकोण से, जहां उस समय की स्थानीय भाषाओं को अपने अस्तित्व को बनाये रखने के लिए चुनौतियों का सामना करना पड़ा। अरबी के प्रशासनिक भाषा - राइख़स्पराख़ यानी शाही भाषा- होने की वजह से कई स्थानीय भाषाएँ अपनी शब्दावली और लेखन में प्रभावित हुईं। कई सदियों तक, फ़ारसी ने अपनी ख़ास ध्वनियों के लिए नए ग्राफ़ीम (अक्षर) जोड़कर अरबी लिपि का विस्तार किया। जैसे <پ> (<प>, U+067E) और <گ> (<ग>, U+06AF). इसलिए, शास्त्रीय अरबी लिपि के मुख्य विस्तारित रूपों में से एक फ़ारसी-अरबी लिपि है जिसे धीरे-धीरे कई अन्य भाषाओं द्वारा अपनाया गया है, मुख्य रूप से पश्चिम, मध्य और दक्षिण एशिया में। फ़ारसी-अरबी लिपि का इस्तेमाल करने वाली कुछ भाषाएँ उर्दू, कुर्दी, पश्तो, अज़ेरी तुर्की, सिंधी और उइघुर हैं। इन आधुनिक भाषाओं के अलावा ओटोमन तुर्की जैसी कई भाषाएँ हैं जिन्होंने ऐतिहासिक रूप से इस लिपि का इस्तेमाल किया है। हालाँकि ऐसी अन्य लिपियाँ भी हैं जिन्हे फ़ारसी-अरबी लिपि से प्रभावित हुए बिना सीधे अरबी लिपि से बनाया गया था जैसे कि कुछ अफ़्रीकी भाषाओं में इस्तेमाल की जाने वाली अजामी लिपि (जैसे स्वाहिली और वोलोफ़), दक्षिणी एशिया में इस्तेमाल की जाने वाली पेगॉन और जावी लिपियाँ, और ऐतिहासिक रूप से कुछ यूरोपीय भाषाओं के लिए इस्तेमाल की जाने वाली अल्जामियादो लिपि।
'भाषा पहचान' दस्तावेज़, वाक्य और उप-वाक्य जैसे विभिन्न स्तरों पर किसी पाठ/टेक्स्ट की भाषा का पता लगाने का कार्य है। मशीन अनुवाद और सूचना पुनर्प्राप्ति (इनफ़ॉर्मेशन रिट्रीवल) की तरह प्राकृतिक भाषा प्रसंस्करण (एनएलपी - नेचुरल लैंग्वेज प्रोसेसिंग) में इस कार्य के महत्व को देखते हुए, इसका बड़े पैमाने पर अध्ययन किया गया है और इसे भावना विश्लेषण (सेंटीमेंट एनालिसिस) और मशीन अनुवाद जैसे विभिन्न ऍप्लिकेशन्स के लिए फायदेमंद दिखाया गया है। यह कार्य सभी सेटपों और भाषाओं के लिए समान रूप से चुनौतीपूर्ण नहीं है, क्योंकि यह दिखाया जा चूका है कि छोटे पाठों की या अतिसम्बंधित भाषाओं की पहचान (भाषाई तौर पर और लेखन में भी) बहुत मुश्किल है । मिसाल के तौर पर: फ़ारसी बनाम दारी, या कुर्दी के विभिन्न प्रकारों की पहचान।
इसके अलावा, द्विभाषी समुदायों में बोली जाने वाली कुछ लो-रिसोर्स भाषाओं को अपनी मातृभाषा के लिए प्रशासनिक या शैक्षिक समर्थन की कमी या सीमित प्रोद्योगिकी के कारण लेखन में विभिन्न चुनौतियों का सामना करना पड़ता है। परिणामस्वरूप, पाठ अपरंपरागत रूप से लिखा जाने लगता है - यानी भाषा की पारंपरिक लिपि या वर्तनी के अनुसार नहीं, बल्कि प्रशासनिक रूप से "प्रमुख'' या "प्रभुत्वशील" भाषा की लिपि पर निर्भर होकर। मिसाल के तौर पर, कश्मीरी या कुर्दी को कभी-कभी उनकी ख़ुद की विस्तृत फ़ारसी-अरबी लेखनविधि (ऑर्थोग्राफ़ी) के बजाय, क्रमशः उर्दू या फ़ारसी लिपियों में लिखा जाता है। इससे उन भाषाओं की पहचान करना और भी जटिल हो जाता है, जिससे लिपियों की समानता के कारण भ्रम पैदा होते हैं और डेटा की कमी के कारण डेटा-आधारित तकनीकें बाधित होती है। इसलिए, फ़ारसी-अरबी लिपियों का उपयोग करने वाली भाषाओं की विश्वसनीय भाषा पहचान आज भी एक चुनौती बनी हुई है, ख़ास तौर से कम प्रतिनिधित्व/संसाधनों वाली भाषाओं में।
इस प्रकार, हम कुछ ऐसी भाषाओं का चयन करते हैं जो फ़ारसी-अरबी लिपियों का उपयोग करती हैं, जिनका सारांश टेबल १ में दिया गया है । इनमें से अधिकांश न केवल डेटा की कमी बल्कि अपरंपरागत लेखन से संबंधित चुनौतियों का सामना कर रहीं हैं। इसलिए, हम इन भाषाओं के लिए भाषा पहचान कार्य को दो सेटपों में परिभाषित करते हैं - (क) पाठ अपनी भाषा की लिपि/वर्तनी के अनुसार लिखा जाता है, जिसे पारंपरिक लेखन कहा जाता है, या (ख) पाठ में प्रशासनिक रूप से प्रभावी भाषा की लिपि या शब्दावली के उपयोग के कारण कुछ हद तक विसंगतियाँ हैं, जिसे अपरंपरागत लेखन कहा जाता है। यह ध्यान में रखते हुए कि फ़ारसी-अरबी लिपियाँ ज़्यादातर पाकिस्तान, ईरान, अफ़ग़ानिस्तान और इराक़ की मूल भाषाओं को लिखने में इस्तेमाल की जाती हैं, हम उर्दू, फ़ारसी और अरबी को अपने शोध में शामिल करते हैं क्योंकि वे अपने क्षेत्रों की प्रशासनिक रूप से प्रभुत्वशाली भाषाएँ हैं। इसके अलावा, भाषाओं का एक विविध सेट होने से यह भी पता चल सकता है कि कौन सी भाषाएँ अक्सर एक-दूसरे के रूप में भ्रमित होती हैं। बेशक़ हम उइघुर को भी शामिल करते हैं, यह ध्यान दिया जाना चाहिए कि यह मुख्य रूप से एक द्विभाषी समुदाय में बोली जाती है, यानी चीन के सिनच्यांग में, जहां अपरंपरागत लेखन फ़ारसी-अरबी लिपि नहीं है; इसलिए, हम उइघुर के लिए केवल पारंपरिक लेखन पर विचार करते हैं।
योगदान यह पेपर फ़ारसी-अरबी लिपि या इसकी विभिन्न विस्तारित लिपियों में लिखी गई भाषाओं की भाषा पहचान पर प्रकाश डालता है। हम स्क्रिप्ट मैपिंग (प्रतिचित्रण या लिप्यांतरण) का इस्तेमाल करके डेटा एकत्र करने और कृत्रिम-शोरगुल (सिंथेटिक-नॉइज़) वाक्य बनाने का वर्णन करते हैं। हम कुछ वर्गीकरण तकनीकों को लागू/इम्प्लीमेंट करते हैं और अतिसम्बंधित भाषाओं के बीच भ्रम को हल करने के लिए एक हाइरार्किकल मॉडल तरीक़े का प्रस्ताव करते हैं। प्रस्तावित तकनीक अन्य तकनीकों से बेहतर प्रदर्शन करती है और शोरगुल सेटिंग्स में 0.88-0.95 के बीच मैक्रो-औसत F1 प्राप्त करती है ।
1 ZWNJ - ज़ीरो-विड्थ नॉन-जॉइनर एक वर्चुअल ग़ैर-मुद्रण वर्ण है जिसका उपयोग डिजिटलीकृत लेखनविधियों में किया जाता है जिनमें संयुक्ताक्षरों का इस्तेमाल होता है। कुछ लिपियों में वर्ण शब्द में उनके स्थान के आधार पर रूप बदलते हैं, और कुछ वर्णों के मिश्रण पर एक संयुक्ताक्षर बनता है। यदि किसी भाषा की लिपि में यह मिलन न हो और वर्णों को क्रमशः उनके अंतिम और प्रारंभिक रूपों में ही मुद्रित किया जाये, तो ज़ीरो-विड्थ नॉन-जॉइनर का प्रयोग किया जाता है। यह डिजिटल रूप में दिखाई नहीं देता पर इसका असर वर्णों के आकार पर होता है।1 ISO 639-3 भाषाओं के नामों के प्रतिनिधित्व के लिए तीन-अक्षरीय कोड हैं। इसका उद्देश्य सभी ज्ञात प्राकृतिक भाषाओं (जीवित एवं विलुप्त) को व्यापक रूप से कवर करना है।
टेबल १
भाषा | 639-3 | विपि | लिपि प्रकार | विशेषक | ZWNJ | प्रभुत्व |
---|---|---|---|---|---|---|
अज़ेरि तुर्की | azb |
azb |
अब्जद | ✓ | ✓ | फ़ारसी |
गिलाकि | glk |
glk |
अब्जद | ✓ | ✓ | फ़ारसी |
मज़ांदेरानी | mzn |
mzn |
अब्जद | ✓ | ✓ | फ़ारसी |
पश्तो | pus |
ps |
अब्जद | ✓ | ✗ | फ़ारसी |
गोरानी | hac |
- | वर्णमाला | ✗ | ✗ | फ़ारसी, अरबी, सोरानी |
उत्तरी कुर्दी (कुरमानजी) | kmr |
- | वर्णमाला | ✗ | ✗ | फ़ारसी, अरबी |
मध्य कुर्दी (सोरानी) | ckb |
ckb |
वर्णमाला | ✗ | ✗ | फ़ारसी, अरबी |
दक्षिणी कुर्दी | sdh |
- | वर्णमाला | ✗ | ✗ | फ़ारसी, अरबी |
बलोची | bal |
- | अब्जद | ✓ | ✗ | फ़ारसी, उर्दू |
ब्राहुई | brh |
- | अब्जद | ✓ | ✗ | उर्दू |
कश्मीरी | kas |
ks |
वर्णमाला | ✓ | ✗ | उर्दू |
सिंधी | snd |
sd |
अब्जद | ✓ | ✗ | उर्दू |
सरैकी | skr |
skr |
अब्जद | ✓ | ✗ | उर्दू |
तोरवाली | trw |
- | अब्जद | ✓ | ✗ | उर्दू |
पंजाबी | pnb |
pnb |
अब्जद | ✓ | ✗ | उर्दू |
फ़ारसी | fas |
fa |
अब्जद | ✓ | ✓ | - |
अरबी | arb |
ar |
अब्जद | ✓ | ✗ | - |
उर्दू | urd |
ur |
अब्जद | ✓ | ✓ | - |
उइघुर | uig |
ug |
वर्णमाला | ✗ | ✗ | - |