9/2/14

The use of Hindi in technology

पिछले कुछ साल में हिंदी ने तकनीक के नए मोर्चे फतह किए हैं। अब हिंदी ऑफिस ऐप्लिकेशन और इंटरनेट (ई-मेल, ब्लॉग, सोशल नेटवर्किंग) तक सीमित नहीं रही। उसने कुछ ऐसे क्षेत्रों में भी उपलब्धियां हासिल की हैं, जिन्हें आधुनिक और चुनौती से भरा माना जाता है

आज हिंदी कंप्यूटर के साथ-साथ टैबलेट, स्मार्टफोन और दूसरे गैजट्स में भी मौजूद है। दूरसंचार, इंटरनेट, बैंकिंग, ई-कॉमर्स, ई-प्रशासन, ई-शिक्षा, गेमिंग तक में मजबूत उपस्थिति दर्ज करा चुकी है। नए-नए क्षेत्रों में हिंदी की तरक्की की निशानदेही करते कुछ उदाहरणों पर नजर:

Handwriting recognition- हैंडराइटिंग रिकग्निशन
गूगल ने एक अनूठा ऐप्लिकेशन लाकर हिंदी यूजर्स का ध्यान खींचा है। यह अनूठा ऐप्लिकेशन है हिंदी हैंडराइटिंग रिकग्निशन। अगर आपके ऐंड्रॉयड और आईओएस गैजट में यह ऐप्लिकेशन इंस्टॉल्ड है तो उसकी टचस्क्रीन पर उंगली या स्टाइलस (छड़ी) की मदद से हिंदी में जो कुछ लिखेंगे, उसे यह टाइप किए हुए अक्षरों में बदल देगा। सीडैक ने भी इस तरह का सॉफ्टवेयर बनाया है।
क्या है खास
- हाथ से लिखकर टेक्स्ट इनपुट
- कीबोर्ड के बटन याद करने का झंझट नहीं
- तेज रफ्तार टाइपिंग
- फ्री

कैसे करें इस्तेमाल
- अपने स्मार्टफोन या टैबलेट के ब्राउजर में google.co.in खोल लीजिए।
- settings पर क्लिक करके search settings पर जाइए और handwrite विकल्प को टैप कीजिए।
- यहीं languages विकल्प में गूगल की भाषा भी बदलकर हिंदी कर लीजिए और नई सेटिंग्स सेव कर लीजिए। अब गूगल सर्च के लिए इस सुविधा को आजमाकर देखिए।

Speech to Text - स्पीच टु टेक्स्ट
ड्रैगन नैचरली स्पीकिंग और आईबीएम वाया वॉइस की कामयाबी से उत्साहित होकर भारत में भी ऐसे सॉफ्टवेयर की दिशा में काम शुरू हुआ था, जो बोले हुए शब्दों को कंप्यूटर स्क्रीन पर टाइप कर दे। भारत सरकार के तकनीकी संस्थान सीडैक ने आईबीएम के लाइसेंस के तहत यह काम हाथ में लिया। राजभाषा विभाग के सहयोग से इस सॉफ्टवेयर पर काम काफी आगे बढ़ चुका है और अब यह बिक्री के लिए भी उपलब्ध है।
-हिंदी में डिक्टेशन की देवनागरी में ऑटोमैटिक टाइपिंग
-85-90 फीसदी शुद्धता से काम संभव
-हाथों से टाइपिंग की जरूरत लगभग खत्म
-यूनिकोड सपोर्ट
-अंग्रेजी शब्दों को पहचानने में कुछ दिक्कत
-अनडू, रीडू, एडिटिंग, कट, कॉपी, पेस्ट, सिलेक्ट ऑल, फाइंड एंड रिप्लेस की सुविधा
-देवनागरी आउटपुट की संख्याओं (अंक, दशमलव), तारीख और करंसी में कनवर्जन
-टाइपिंग के लिए इंस्क्रिप्ट, रेमिंग्टन, और फोनेटिक कीबोर्ड की सुविधा

कैसे करें इस्तेमाल
इसे सीडैक, पुणे से लगभग छह हजार रुपये में मंगवाया जा सकता है। विंडोज 2000 से ऊपर के सभी ऑपरेटिंग सिस्ट?स में चलेगा। साउंड इनपुट के लिए कुछ खास सेटिंग्स की जरूरत है, जिनके बारे में सीडैक की मदद ली जा सकती है।

Text to Speech - टेक्स्ट टु स्पीच
स्पीच टु टेक्स्ट की तुलना में टेक्स्ट टु स्पीच थोड़ा कम चुनौतीपूर्ण है। भारत में कई संस्थानों ने इस कैटिगरी के सॉफ्टवेयर विकसित किए हैं जो कंप्यूटर में टाइप किए हुए टेक्स्ट को पढ़कर सुनाते हैं। ऐसे प्रोग्राम बुजुगोंर्, यात्रा पर रहने वाले लोगों, व्यस्त लोगों, हिंदी सीखने वालों और नेत्रहीनों के लिए उपयोगी हैं।
इनमें खास है :
1. सीडैक, पुणे का लीला हिंदी शिक्षण सॉफ्टवेयर हरीश भीमानी की आवाज में बोलता है। यह सॉफ्टवेयर विंडोज के साथ-साथ मोबाइल प्लैटफॉर्म पर भी उपलब्ध है।
2. गूगल ट्रांसलेट पर मौजूद टेक्स्ट टु स्पीच सुविधा इंटरनेट के जरिये सबको उपलब्ध है। हालांकि यहां आने वाली आवाज हिंदुस्तानी महसूस नहीं होती, लेकिन कामचलाऊ सुविधा के तौर पर बुरी नहीं है।
3. तीन आईआईटी और सीडैक के दो केंदों की तरफ से विकसित टेक्स्ट टु स्पीच सिस्टम (टीटीएस) हिंदी के साथ-साथ बांग्ला, मराठी, तमिल, तेलुगू और मलयालम में भी बोलकर सुनाता है। यह कंप्यूटर के साथ-साथ मोबाइल फोन पर भी काम कर सकता है। इसे 350 रुपये में सीडैक पुणे से मंगवाया जा सकता है।
4. मुंबई की डॉल्फिन कंप्यूटर एक्सेस ने बैरियर ब्रेक टेक्नॉलजी के साथ मिलकर 'सुपरनोवा' स्क्रीन रीडर बनाया है, जिसे कंप्यूटर प्रोग्राम के रूप में तो चला ही सकते हैं, सीडी और यूएसबी ड्राइव के जरिये भी इस्तेमाल कर सकते हैं। तीस दिन का फ्री ट्रायल yourdolphin.com पर मिल सकता है।
5.ब्लिस कंपनी ने हिंदी टीटीएस सॉफ्टवेयर के कई रूप जारी किए हैं, जैसे बहुरूपिया, बोलती पाटी, सावित्री, सारिका आदि।
6.Nuance नाम की कंपनी के Realspeak प्रॉडक्ट में, जो कि बुनियादी रूप से अंग्रेजी टेक्स्ट टु स्पीच सॉफ्टवेयर है जिसमें 'लेखा' नामक भारतीय आवाज भी मौजूद है।

Translation between English-Hindi - अंग्रेजी हिन्दी के बीच अनुवाद
कंप्यूटर की दुनिया में मशीन अनुवाद को बहुत दिलचस्पी के साथ देखा जाता है। भारत में आंग्लभारती, मंत्र, मात्रा, बिंग और गूगल ट्रांसलेट के रूप में अंग्रेजी से हिंदी अनुवाद की दिशा में काफी काम हुआ है। बहरहाल जिस सॉफ्टवेयर ने सबसे ज्यादा उम्मीदें जगाई हैं, वह है मंत्र राजभाषा, जिसका विकास सीडैक ने राजभाषा विभाग के सहयोग से किया है।
अनुवाद से जुड़े कुछ सॉप्टवेयर :
मंत्र राजभाषा
यह सरकारी कामकाज में इस्तेमाल होने वाली भाषा का अनुवाद करने के लिए बनाया गया है। राज्यसभा में अनुवाद के लिए इस तकनीक का कई साल से इस्तेमाल हो रहा है। गैजट नोटिफिकेशन, ऑफिस मेमोरेंडम, सर्कुलर, ऑफिस ऑर्डर वगैरह का ट्रांसलेशन ठीकठाक है। बहरहाल सरकार और प्रशासन के अलावा दूसरे क्षेत्रों की भाषा के ट्रांसलेशन में यह कमजोर पड़ जाता है। इसे अंग्रेजी से कुछ और भाषाओं में भी ट्रांसलेशन की सुविधा से लैस बनाने की कोशिश जारी है।
- अलग-अलग क्षेत्रों, जैसे एडमिनिस्ट्रेशन, फाइनेंस, कृषि, स्मॉल इंडस्ट्री, इन्फॉमेर्शन टेक्नॉलजी, हेल्थ, डिफेंस, एजुकेशन और बैंकिंग डोमेंस के लिए अलग-अलग सिस्टम।
- लिखे जा रहे वाक्यों के साथ-साथ पहले से तैयार फाइलों का भी ट्रांसलेशन मुमकिन।
- कंप्यूटर, इंटरनेट और इंट्रानेट (लोकल नेटवर्क) वर्जन उपलब्ध।
- मूल फाइल के फॉरमैट (फॉन्ट साइज, अलाइनमेंट, रंग आदि) को बिना बदले ट्रांसलेशन मुमकिन।
- डिक्शनरी, थिसॉरस, स्पेल चेकर, ग्रामर चेकर शामिल।

गूगल ट्रांसलेट
गूगल ने दुनिया भर की भाषाओं के बीच आपस में ट्रांसलेशन के लिए विशाल ऑनलाइन सिस्टम विकसित किया है। हिंदी भी इसका हिस्सा है। गूगल का सिस्टम छोटे वाक्यों के लिए ठीकठाक काम करता है।
क्या है खास
- अंग्रेजी से हिंदी और हिंदी से अंग्रेजी में ट्रांसलेशन की क्षमता।
- ट्रांसलेशन की गति काफी तेज है।
- छोटे वाक्यों के ट्रांसलेशन की शुद्धता 80 फीसदी तक, बड़ों की 55 से 60 फीसदी।
- ट्रांसलेशन किए हुए टेक्स्ट के उच्चारण की सुविधा।
- ट्रांसलेशन के लिए फाइलों को अपलोड करने की सुविधा नहीं।

बिंग ट्रांसलेटर
गूगल की ही तर्ज पर माइक्रोसॉफ्ट ने भी ट्रांसलेशन की तकनीक पर काफी काम किया है। उसके सर्च इंजन में ऑनलाइन ट्रांसलेशन की सुविधा है जो कंप्यूटर के साथ-साथ फोन पर भी उपलब्ध है। इसे bing.com पर जाकर कर सकते हैं।
- ट्रांसलेशन की शुद्धता गूगल से थोड़ी कम।
- हिंदी से अंग्रेजी और अंग्रेजी से हिंदी ट्रांसलेशन मुमकिन।
- वेब पेजों का ट्रांसलेशन भी मुमकिन।
- विंडोज 8 पर ऑफलाइन इस्तेमाल मुमकिन।

कुछ और ट्रांसलेशन सिस्टम
आंग्लभारती
आईआईटी कोलकाता ने अंग्रेजी और हिंदी के बीच दोतरफा ट्रांसलेशन के लिए यह सॉफ्टवेयर विकसित किया है। इसके ऑनलाइन और ऑफलाइन वर्जन मौजूद हैं। हालांकि ट्रांसलेशन की शुद्धता, मंत्र राजभाषा से कम है।
मात्रा 2
आम इस्तेमाल की भाषा का ट्रांसलेशन करने के लिए एनसीएसटी, सीडैक मुंबई आदि के सहयोग से विकसित मात्रा2 प्रॉजेक्ट छोटे वाक्यों के ट्रांसलेशन में बेहतर रिजल्ट देता है। दावा किया जाता है कि यह मेडिकल फील्ड और खबरों के ट्रांसलेशन में काफी अच्छा काम करता है।
बेबीलोन
यह एक अंतरराष्ट्रीय ऑनलाइन परियोजना है, जिसकी कई भाषाओं में हिंदी भी शामिल है। ट्रांसलेशन के नतीजे औसत दजेर् के हैं, लेकिन खास बात यह है कि यहां फीस लेकर इंसानी मदद से भी ट्रांसलेशन किया जाता है।

वॉयल ट्रांसलेशन और टेक्सट ट्रांसलेशन साथ-साथ
सीडैक, पुणे की दो परियोजनाओं श्रुतलेखन राजभाषा और मंत्र राजभाषा को एक सिस्टम में जोड़कर बनाया गया है वाचांतर राजभाषा नामक सॉफ्टवेयर, जो अंग्रेजी में बोली हुई बातों को हिंदी में टाइप कर देता है। हालांकि इसमें दो अलग-अलग प्रोसेस शामिल होने के कारण जटिलता बढ़ जाती है और उसी के लिहाज से नतीजे उन्नीस-बीस हो सकते हैं।

खास बातें
- आवाज को टेक्स्ट इनपुट में बदलना।
- टेक्स्ट का अंग्रेजी से हिंदी में ट्रांसलेशन।
- ट्रांसलेटेड टेक्स्ट की एडिटिंग की सुविधा।
- भाषा संबंधी गलतियों को ठीक करने की सुविधा।

भारतीय भाषाओं के बीच ट्रांसलेशन
अंग्रेजी और भारतीय भाषाओं के बीच आपसी ट्रांसलेशन की तुलना में भारतीय भाषाओं के बीच ट्रांसलेशन कम चुनौतीपूर्ण है, जैसे हिंदी से पंजाबी या हिंदी से गुजराती। इस क्षेत्र में सरकारी और गैर-सरकारी दोनों ही तरफ से काम हुआ है।
संपर्क
इंडियन लैंग्वेज टेक्नॉलजी प्रोलिफरेशन एंड डेप्लॉयमेंट सेंटर के इस प्रॉजेक्ट में कई भारतीय भाषाओं के बीच ट्रांसलेशन की व्यवस्था है। ये भाषाएं हैं - हिंदी, उर्दू, पंजाबी, तेलुगू और तमिल।
-हिंदी-पंजाबी, पंजाबी-हिंदी, तमिल-तेलुगू, तेलुगू-तमिल, उर्दू-हिंदी, तमिल-हिंदी, तेलुगू-हिंदी और मराठी-हिंदी ट्रांसलेशन मुमकिन।
-एक बार में सिर्फ 180 शब्दों का ट्रांसलेशन करने की सीमा। इसे बार-बार रिपीट करना मुमकिन।
-इनस्क्रिप्ट सहित दो तरह के कीबोर्ड में टाइपिंग की सुविधा।

अनुसारक
इंडियन इंस्टिट्यूट ऑफ टेक्नॉलजी (कानपुर और हैदराबाद) ने कुछ भारतीय भाषाओं के बीच आपसी ट्रांसलेशन के लिए इसका विकास किया है। इनके जरिये कन्नड़, तेलुगू, बंगाली, पंजाबी और मराठी का हिंदी में ट्रांसलेशन संभव है। पाणिनी के सूत्रों पर आधारित यह परियोजना करीब दो दशकों से चली आ रही है, हालांकि यह ऑनलाइन उपलब्ध नहीं है। इसी परियोजना के एक हिस्से का फोकस अंग्रेजी-हिंदी ट्रांसलेशन पर भी है। अगर यूजर तकनीकी लिहाज से जानकार है तो ट्रांसलेशन को सटीक बनाने के लिए इस सिस्टम में अपने नियम भी जोड़कर नतीजे देख सकता है।
हिंदी-पंजाबी ट्रांसलेशन
पंजाबी विश्वविद्यालय पटियाला की तरफ से इन दोनों भाषाओं के बीच आपस में ट्रांसलेशन के लिए बनाया गया सिस्टम ऑनलाइन भी उपलब्ध है।
-ट्रांसलेशन के साथ-साथ लिपि-परिवर्तन की भी सुविधा (जिसमें शब्द वही रहते हैं, स्क्रिप्ट बदलती है)।
-फाइलों का ट्रांसलेशन मुमकिन।
-दो कीबोर्ड और तीन फॉन्ट्स का इस्तेमाल मुमकिन। ऑनलाइन कीबोर्ड भी मौजूद।

लिपि-परिवर्तन
कुछ परिस्थितियों में आप यह चाहते हैं कि अगर किन्हीं दो भाषाओं के बीच ट्रांसलेशन संभव न हो तो कम से कम दूसरी भाषा में लिखी टिप्पणियों को हिंदी लिपि में ही बदला जा सके तो काम चल सकता है। इसे लिपि-परिवर्तन कहते हैं। भारत के भीतर और बाहर बहुत से लोग हिंदी बोल तो सकते हैं लेकिन लिख या पढ़ नहीं पाते। ऐसे लोगों के सामने अगर हिंदी टेक्स्ट आ जाए तो वे उलझन में पड़ जाते हैं।
अगर उसी टेक्स्ट को रोमन या उनकी समझ आने वाली किसी भारतीय लिपि में बदल दिया जाए तो उनके लिए स्थिति आसान हो सकती है। बॉलिवुड के गानों को ही लीजिए। अगर आप हिंदी फिल्मों के गानों के बोल याद करना चाहते हैं लेकिन देवनागरी पढ़ना नहीं जानते, तो क्या करेंगे? तब आप चाहेंगे कि कम से कम ये बोल आपकी लिपि में पढ़ने को मिल जाएं, तो काम बन जाए।
लिपि परिवर्तन इस तरह काम करता है : मूल देवनागरी टेक्स्ट- इश्क दी गली विच नो एंट्री। रोमन में लिपि परिवर्तन-Ishqa dee galee wich no entree
इस तरह का कनवर्जन करने वाले कुछ ऑनलाइन ठिकाने हैं :
-गिरगिट(devanaagarii.net/hi/girgit)
-सनस्क्रिप्ट(learnsanskrit.org/tools/sanscript)
-अक्षरमुख(virtualvinodh.com/aksharamukha)

Optical character recognition (OCR) ऑप्टिकल कैरेक्टर रिकग्निशन
पहले छपी हुई किताबों, टाइप की जा चुकी फाइलों, पुराने लेखों, पीडीएफ दस्तावेजों वगैरह की सामग्री को दोबारा इस्तेमाल करने के लिए ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) सॉफ्टवेयर की जरूरत पड़ती है। अंग्रेजी में ऐसे कई सॉफ्टवेयर हैं जो 95 फीसदी से अधिक शुद्धता के साथ छपे टेक्स्ट को टाइप किए हुए टेक्स्ट के रूप में कंप्यूटर में सेव कर लेते हैं। हिंदी में भी इस दिशा में काम हुआ है। भारत में भाषा तकनीक के क्षेत्र में आगे रहने वाले सीडैक ने चित्रांकन नाम का एक ओसीआर सॉफ्टवेयर बनाया था। इन दिनों एक विदेशी डिवेलपर ओलिवर हेलविग की तरफ से विकसित किया गया इन्ड-सेन्ज हिंदी ओसीआर भी चर्चा में है, जो काफी अच्छे नतीजे देता है।
चित्रांकन
चित्रांकन को सीडैक के जिस्ट ग्रुप और भारतीय सांख्यकी संस्थान कोलकाता ने मिलकर विकसित किया है। यह देवनागरी में छपे दस्तावेजों को स्कैन करने के बाद उनमें मौजूद टेक्स्ट और चित्रों को पहचान कर डिजिटल फॉरमेट में स्टोर कर लेता है। सेव की गई फाइलों की एडिटिंग और स्पेल चेकिंग मुमकिन है।
- फोनेटिक और इनस्क्रिप्ट कीबोर्ड के जरिए एडिटिंग मुमकिन।
- हिंदी और मराठी के लिए स्पेल चेकर मौजूद।
- इमेज एडिटिंग की बेसिक सुविधा।
- वर्ड प्रॉसेसर के बुनियादी फीचर, जैसे कट, कॉपी, पेस्ट, फाइंड, रिप्लेस आदि।

इन्ड-सेन्ज हिंदी ओसीआर
यह देवनागरी में छपे दस्तावेजों (हिंदी, संस्कृत, मराठी वगैरह) को ठीकठाक ढंग से प्रोसेस कर लेता है। इसे सबसे पहले संस्कृत के लिए बनाया गया था और बाद में हिंदी और मराठी वर्जन तैयार किए गए। इसके डिवेलपर ओलिवर हेलविग इसे एक कंप्यूटर टाइपिस्ट के रूप में संबोधित करते हैं। इसकी रफ्तार भी अच्छी है। इससे तैयार की गई टेक्स्ट फाइल्स को किसी भी दूसरे वर्ड प्रोसेसर में एडिट कर आगे इस्तेमाल किया जा सकता है। इसके दो वर्जन हिंदी ओसीआर (13 हजार रुपये) और हिंदी ओसीआर प्रो (17,500 रुपये) में indsenz.com से मंगवाए जा सकते हैं।
वेब ओसीआर
इंडियन लैंग्वेज टेक्नॉलजी प्रोलिफरेशन एंड डेप्लॉयमेंट सेंटर ने वेब आधारित ओसीआर का विकास किया है, जो देवनागरी के साथ-साथ बांग्ला, गुरमुखी, तमिल, तेलुगू, कन्नड़ और मलयालम में छपी सामग्री को प्रॉसेस कर सकता है। इसे इस्तेमाल करने के लिए टीडीआईएल की वेबसाइट पर रजिस्ट्रेशन करना होगा।

आकाश टैबलेट
भारत के आकाश टैबलेट का चौथा वर्जन अपने विकास के आखिरी दौर में है। यह देवनागरी को सपोर्ट करने वाला टैब है। आकाश के पिछले एडिशन ऐंड्रॉयड के शुरुआती वर्जन पर आधारित थे जो हिंदी लैंग्वेज सपोर्ट नहीं करते थे। नए एडिशन में ऐंड्रॉयड 4.2 (जेली बीन) मौजूद होगा, जिसमें नेटिव हिंदी सपोर्ट उपलब्ध है।
हिंदी ई-बुक्स
हिंदी में ई-बुक्स ने धीरे-धीरे मजबूती के साथ जड़ें जमाना शुरू कर दिया है। पहले से छपी हुई किताबों के ई-बुक संस्करण भी सामने आ रहे हैं और कुछ लेखक सीधे ई-बुक प्लैटफॉर्म को ही अपने कामकाज का केंद बना रहे हैं। हिंदी की ई-बुक्स लगभग सभी खास ऑनलाइन बुक स्टोर्स पर उपलब्ध हैं, जिनमें अमेजॉन, ?लपकार्ट, इन्फीबीम वगैरह शामिल हैं। इन किताबों को डेस्कटॉप कंप्यूटर, लैपटॉप, ऐंड्रॉयड टैबलेट, आईपैड, स्मार्टफोन और ई-बुक रीडर्स में पढ़ा जाता है।
रॉक स्टैंड नामक कंपनी ने मोबाइल प्लैटफॉर्म के लिए ई-बुक्स का कलेक्शन उपलब्ध कराया है, जिसमें हिंदी की सैकड़ों किताबें डिजिटल फॉरमैट में हैं। इस संस्था ने करीब सौ प्रकाशकों के साथ करार किया है, जिनकी पत्रिकाएं और किताबें मोबाइल फोन तथा टैबलेट्स पर मुहैया कराई जा रही हैं। कंपनी का दावा है कि उसने भारतीय भाषाओं की बीस लाख किताबों का डिजिटाइजेशन किया है। ईप्रकाशक.कॉम और पोथी.कॉम जैसे ऑर्गनाइजेशन लेखकों को सीधे ई-बुक प्रकाशन की सुविधा दे रहे हैं।
सीडैक ने भी बड़ी संख्या में पहले से छपी किताबों को ई-बुक्स के रूप में पेश किया है। अनेक संस्थान ऐसी अहम किताबों के ई-बुक एडिशन तैयार करने में जुटे हैं, जिनके कॉपीराइट खत्म हो चुके हैं। हार्पर कॉलिन्स, पेंग्विन, डायमंड, पुस्तक महल, हिंद पॉकेट बुक्स आदि प्रकाशक भी अपनी किताबों को ई-बुक्स फॉरमैट में उपलब्ध करा रहे हैं, जो छपी किताबों की तुलना में सस्ती मिलती हैं।

हिंदी डोमेन नेम
किसी भी वेबसाइट के रजिस्टर्ड नाम को तकनीकी भाषा में डोमेन नेम कहा जाता है। इंटरनेट ब्राउजर के एड्रेस बार में यह नाम लिखने पर हम उस वेबसाइट तक पहुंचते हैं। अच्छी खबर है कि पिछले कुछ साल की कोशिशों के बाद अब हिंदी में डोमेन नामों का रजिस्ट्रेशन शुरू होने जा रहा है। ऐसे डोमेन नामों का रजिस्ट्रेशन तो पिछले सात-आठ साल से हो रहा है, जिनमें नाम के अंतिम हिस्से को अंग्रेजी में लिखा जाता है और शुरुआती हिस्से को हिंदी में, जैसे इंटरनेट.com। लेकिन अब ऐसे डोमेन नामों का रजिस्ट्रेशन शुरू होने जा रहा है, जिनमें पूरा का पूरा नाम हिंदी में होगा, जैसे इंटरनेट.भारत।

मीडिया-ग्राफिक्स सॉफ्टवेयर
मीडिया और पब्लिशिंग से जुड़े सॉफ्टवेयर जैसे इन-डिजाइन, क्वार्क एक्सप्रेस और कोरल ड्रॉ के पुराने एडिशंस हिंदी यूनिकोड को सपोर्ट नहीं करते थे। लेकिन उन सभी के नए एडिशंस में यूनिकोड के जरिए हिंदी में टेक्स्ट इनपुट करना, पेज डिजाइन करना, ग्राफिक्स और एनिमेशन आदि में यूनिकोड फॉन्ट्स का इस्तेमाल करना मुमकिन हो गया है। एडोब इन डिजाइन सीएस 6, फोटोशॉप सीएस 6, क्वॉर्क एक्सप्रेस 9 और कोरल ड्रॉ ग्राफिक्स सुइट एक्स 6 में हिंदी में यूनिकोड टेक्स्ट टाइप का समर्थन उपलब्ध हो गया है। हां, इसके लिए कुछ खास सेटिंग्स या फ्री प्लग-इन के इस्तेमाल की जरूरत पड़ सकती है।


ऐसे सॉफ्टवेयर में इस्तेमाल करने के लिए अब हिंदी यूनिकोड फॉन्ट्स भी बड़ी संख्या में उपलब्ध हैं। माइक्रोसॉफ्ट ने मंगल के अलावा तीन और हिंदी समथिर्त यूनिकोड फॉन्ट (एरियल यूनिकोड एमएस, अपराजिता और उत्साह) उपलब्ध कराए हैं तो निजी क्षेत्र की कई कंपनियों की तरफ से भी नए यूनिकोड फॉन्ट आ गए हैं। इसी तरह भारत सरकार की संस्था टीडीआईएल की वेबसाइट से करीब 50 यूनिकोड हिंदी फॉन्ट फ्री डाउनलोड किए जा सकते हैं।



Hindi – OCR
हिंदी में छपे पेजों की खुद होगी टाइपिंग यानी हार्ड कॉपी से सॉफ्ट कॉपी

स्कैन किए गए दस्तावेजों को टेक्स्ट फॉर्मैट में बदलने की गूगल की सुविधा सिर्फ अंग्रेजी तक सीमित नहीं है। यह करीब तीन दर्जन भाषाओं में उपलब्ध है, जिनमें हिंदी भी शामिल है। हालांकि हिंदी के इमेज-आधारित दस्तावेजों को कन्वर्ट करने पर हासिल होने वाले टेक्स्ट में बहुत गलतियां होती हैं। इसकी भारी प्रूफ रीडिंग करनी होगी। ऐसे में हिंदी में गूगल ड्राइव की ओसीआर सुविधा ज्यादा व्यावहारिक महसूस नहीं होती।
गूगल ड्राइव के अलावा कुछ और ओसीआर सॉफ्टवेयर हैं, जो हिंदी को ठीक-ठाक सपोर्ट करते हैं। इनमें वेब आधारित ओसीआर सर्विसेज भी शामिल हैं और कंप्यूटर में इन्स्टॉल होने वाले सॉफ्टवेयर भी।
www.i2ocr.com वेबसाइट दूसरी भाषाओं के साथ-साथ हिंदी टेक्स्ट रिकॉग्निशन की सुविधा भी देती है। यह पीडीएफ दस्तावेजों को नहीं पहचानती, इसलिए अपने दस्तावेज को स्कैन करने के बाद इमेज फाइल फॉर्मैट में सेव करें, जैसे jpg, bmp, png वगैरह। यह सुविधा फ्री में उपलब्ध है। IndSenz नाम की विदेशी कंपनी के डिवेलपर ओलिवर हेलविग की तरफ से विकसित IndSenz Hindi OCR सॉफ्टवेयर साधारण फॉर्मैटिंग वाले हिंदी टेक्स्ट के रिकॉग्निशन का काम बखूबी करता है, लेकिन यह फ्री नहीं है। आइए, देखते हैं ये दोनों सर्विसेज कैसे काम करती हैं :
वेब आधारित OCR
1. सबसे पहले www.i2ocr.com/free-online-hindi-ocr पर जाएं।
2. नीचे की तरफ, जहां Let's OCR लिखा है, वहां Step 1 के तहत आपकी स्कैन फाइल को अपलोड करने की सुविधा मौजूद है। अपलोड करने के लिए कंप्यूटर में मौजूद स्कैन इमेज फाइल को चुन लें।
3. अब वेबसाइट पर Step 2 पर नजर डालें। यहां Hindi भाषा चुनी हुई होनी चाहिए। नहीं है, तो हिंदी को सिलेक्ट कर लें।
4. अब Step 3 पर मौजूद Extract Text बटन दबाएं, जिससे आपकी फाइल के अपलोड होने और उसके भीतर मौजूद टेक्स्ट को पहचानने की प्रक्रिया शुरू हो जाएगी।
5. इसी वेब पेज पर दो बॉक्स खुल जाएंगे। इनमें से लेफ्ट वाले बॉक्स में टेक्स्ट दिखाई देगा। इस टेक्स्ट को कॉपी कर अपने कंप्यूटर में खुली हुई वर्ड फाइल में पेस्ट कर लें। अब जरूरत के लिहाज से एडिट कर लें।
6. आप देख सकते हैं कि सामान्य फॉर्मैटिंग वाले हिंदी टेक्स्ट का 90 फीसदी शुद्धता के साथ कन्वर्जन हो जाता है। अगर संबंधित इमेज फाइल आपके कंप्यूटर में नहीं बल्कि किसी वेबसाइट पर है तो यहां उसका वेब अड्रेस देकर सीधे टेक्स्ट कन्वर्जन मुमकिन है।
सॉफ्टवेयर के जरिए कन्वर्जन              
इंडसेन्ज़ कंपनी की तरफ से विकसित हिंदी ओसीआर सॉफ्टवेयर को www.indsenz.com वेबसाइट से डाउनलोड किया जा सकता है। इसे आजमाने के लिए फ्री वर्जन डाउनलोड किया जा सकता है, हालांकि वह सिर्फ सॉफ्टवेयर की क्षमताओं का प्रदर्शन भर करता है। फ्री वर्जन के जरिए इमेज फाइल से निकाला गया टेक्स्ट इस्तेमाल करना संभव नहीं है, क्योंकि इसे न तो फाइल की शक्ल में सेव किया जा सकता है और न ही कट-कॉपी-पेस्ट के जरिए ही सॉफ्टवेयर से बाहर ले जाया जा सकता है। बहरहाल, ट्रायल वर्जन अपनी क्षमताओं का बखूबी प्रदर्शन कर देता है। अगर आप इसका दफ्तर के काम-काज में नियमित रूप से इस्तेमाल करने के इच्छुक हैं तो आपको पेड वर्जन खरीदना होगा। इसके दो पेड वर्जन हैं। सामान्य वर्जन की कीमत करीब 12 हजार रुपए है, जबकि प्रफेशनल वर्जन करीब 16 हजार रुपए का पड़ेगा।
कैसे काम करता है
1. सबसे पहले indsenz.com से हिंदी ओसीआर सॉफ्टवेयर डाउनलोड कर कंप्यूटर में इन्स्टॉल करें। अब सॉफ्टवेयर को लॉन्च करें।
2. इसके फाइल मेनू में Open Images पर क्लिक करें।
4. अब खुलने वाले डायलॉग बॉक्स में अपनी स्कैन फाइल को चुन लें। यहां इमेज के साथ-साथ पीडीएफ फाइल को भी इस्तेमाल किया जा सकता है।
5. सॉफ्टवेयर के ऊपरी हिस्से में टूलबार में बने बटनों पर नजर डालें। यहां लेंस के आइकन वाले बटन पर माउस ले जाने पर Start the text recognition दिखाई देगा। इस बटन को क्लिक करे।
6. इससे इमेज फाइल में मौजूद टेक्स्ट को पहचानने की प्रक्रिया शुरू हो जाएगी। पहचाने गए टेक्स्ट को नीचे की ओर मौजूद बॉक्स में दिखाया जाएगा।
7. आप देख सकते हैं कि इस बॉक्स में माउस का कर्सर दिखाई दे रहा है और इस टेक्स्ट को सिलेक्ट करना मुमकिन है। जाहिर है, यह इमेज नहीं बल्कि टाइप किए हुए मैटर जैसा है।

No comments:

Post a Comment