Milind Agarwal bio photo

Milind Agarwal

कम-संसाधनीय भाषाओं के ओसीआर का एक संक्षिप्त सर्वेक्षण

(A Concise Survey of OCR for Low-Resource Languages)

लेखक: मिलिंद अगर्वाल , अंतोनिओस अनस्तासोपोलोस
मूल अंग्रेज़ी से हिन्दी अनुवाद: मिलिंद अगर्वाल
AmericasNLP @ NAACL 2024

सारांश

आधुनिक प्राकृतिक भाषा प्रसंस्करण (एनएलपी) तकनीकों को समय के साथ ठोस कलनविधि (एल्गोरिदम) प्रशिक्षित करने में सारवान मात्रा में डेटा की आवश्यकता पड़ती जा रही है। कम संसाधनों वाली भाषाओं में ऐसी प्रोद्योगिकियों का निर्माण करना तभी मुमकिन है जब डेटा सृजन प्रयास और डेटा-दक्ष कलनविधियों पर ध्यान केंद्रित किया जाये। बहुत सी कम संसाधनों वाली भाषाओं के लिये, ख़ास तौर से महाअमेरिका की देशी भाष्यों के लिए, यह डेटा प्रतिबिंब-आधारित मशीन-अपठनीय दस्तावेज़ों में मौजूद है। उधारणतः, व्यापक शब्दकोशों की क्रमवीक्षित (स्कैन) प्रतियाँ, भाषाशास्त्रीय फील्ड नोट्स, बालकथाएँ, और अन्य पाठ्य सामग्री। इन संसाधनों (डेटा) को डिजिटलीकृत करने के लिए, प्रकाशिक सम्प्रतीक अभिज्ञान (ओसीआर) ने एक मुख्य भूमिका निभाई है पर कम संसाधन विन्यासों में इसके साथ कई मुश्किलें भी साथ आती हैं। इस पेपर में, हम कम-संसाधनीय डेटा सृजन विन्यासों के लिए विशिष्ट ओसीआर तकनीकों के पहला सर्वेक्षण को साझा करते हैं और, महामेरिका की देशी भाषाओं पर विशिष्ट बल केंद्रित कर, कई खुली चुनौतियों की रूपरेखा बनाते हैं। हमारे पूर्व अनुसंधानों और नतीजों के आधार पर, हम अभिकलनात्मक शोधकर्ताओं, भाषावैज्ञानिकों, और भाषाई समुदायों के फ़ायदे के लिए ओसीआर के उपयोग और उसके सुधार के लिए कुछ सिफ़ारिशों के साथ, इस पेपर को निष्कर्षित करते हैं।

भूमिका

लातिनी अमेरिका सैकड़ों देशी भाषाओं के एक भाषाई रूप से विविध समुच्चय का गढ़ है। इनमें से कई पाठ और ऑडियो संसाधन की दृष्टि से कम संसाधनीय हैं, और इनमें प्रायः प्राकृतिक भाषा अनुप्रयोगों जैसे वर्तनी सुधारक, शब्दभेद (पार्ट ऑफ़ स्पीच) टैगर आदि का अभाव रहता है। परंतु, ऑडियो रिकॉर्डिंग, नाटक, कहानियाँ और शब्दकोशों के रूप में, इन भाषाओं में बड़ी संख्या में डिजिटल संसाधन हैं (मशीन-अपठनीय)। ऐसी सामग्रियों का एक प्रमुख भण्डार है 'लैटिन अमेरिका की देशी भाषाओं का अभिलेखागार' (आईला, AILLA)1 । आईला के संग्रह में मौजूद दस्तावेजों में से एनएलपी शोधकर्ताओं के लिए विशेष रूप से दिलचस्प भाषाई सामग्रियां हैं - व्याकरण, शब्दकोश, नृवंशविज्ञान (एथनोग्राफी) और फील्ड नोट्स, जो एनएलपी अनुप्रयोगों और प्रकाशिक संप्रतीक अभिज्ञान (ओसीआर) के लिए प्रशिक्षण डेटा के रूप में काम कर सकते हैं। सैकड़ों डेटासेटों के ऐसे निक्षेपागार के डिजिटल संस्करण प्रकाशित करने से अमूल्य भाषाई सामग्रियों को संरक्षित किया जा सकता है और एनएलपी में अनुसंधान को गति दी जा सकती है। आधुनिक ओसीआर ऐसे दस्तावेजों से पाठ निकाल सकता है, लेकिन इसके लिए सटीक खाका संसूचन और पश्चात-प्रसंस्करण की ज़रूरत होती है ताकि निकाले गए पाठ को अनुप्रवाह (डाउनस्ट्रीम) एनएलपी कार्यों के लिए इस्तेमाल योग्य बनाया जा सके (Bustamente et al. 2020) ओसीआर एक सुस्थापित क्षेत्र है, जिसकी प्रगति मुख्यतः कंप्यूटर दृष्टि (विज़न) में हुए नवाचारों से प्रेरित है। हाल ही में, एनएलपी संबंधित शोधों और परियोजनाओं में कम संसाधनीय भाषाओं के लिए संसाधन-निर्माण हेतु ओसीआर के उपयोग में बढ़ौतरी हुई है (Ignat et al. 2022a) । व्यापक अनुप्रयोगों के लिए ओसीआर के निर्माण और उपयोग पर कई बढ़िया सर्वेक्षण और ट्यूटोरियल उपलब्ध हैं (Nguyen et al. 2021; Neudecker et al. 2021; Memon et al. 2020) , लेकिन कम संसाधनीय भाषाओं के ओसीआर के लिये एक विशिष्ट सर्वेक्षण की सख़्त कमी है। इसलिए, इस पेपर का उद्देश्य इस अंतर को मिटाना है और शोधकर्ताओं और भाषा समुदायों को कम संसाधनीय विन्यासों में उच्च गुणवत्तापूर्ण डिजिटलीकरण के लिए आवश्यक तकनीकों और अनुकूलनों से परिचित कराना है। संक्षेप में, यह आलेख निम्नलिखित योगदान देता है:
  1. १० अमेरिकी देशी भाषाओं में अडिजिटलीकृत संसाधनों पर प्रकाश डालता है (Section 2)
  2. कम संसाधन विन्यासों और भाषाओं के लिए ओसीआर का पहला संक्षिप्त सर्वेक्षण (Section 3)
  3. कम संसाधनीय भाषाओं के डिजिटलीकरण के पैमानीकरण (स्केलिंग) से जुड़ी मुख्य खुली चुनौतियों पर चर्चा (Section 4)
  4. संपूर्ण संसाधन क्यूरेशन और डिजिटलीकरण पाइपलाइन पर शोधकर्ताओं, भाषावैज्ञानिकों और भाषा समुदायों के लिए सिफारिशें (Section 5)

1 LLILAS बेनसन लैटिन अमेरिकन स्टडीज़ एंड कलेक्शन एंड टेक्सस विश्वविद्यालय (ऑस्टिन) द्वारा एक संयुक्त प्रयास