पिछले कुछ साल में हिंदी ने तकनीक के नए मोर्चे
फतह किए हैं। अब हिंदी ऑफिस ऐप्लिकेशन और इंटरनेट (ई-मेल, ब्लॉग, सोशल
नेटवर्किंग) तक सीमित नहीं रही। उसने कुछ ऐसे क्षेत्रों में भी उपलब्धियां हासिल
की हैं, जिन्हें आधुनिक और चुनौती से भरा माना जाता है
आज हिंदी कंप्यूटर के साथ-साथ टैबलेट, स्मार्टफोन
और दूसरे गैजट्स में भी मौजूद है। दूरसंचार, इंटरनेट,
बैंकिंग,
ई-कॉमर्स,
ई-प्रशासन,
ई-शिक्षा,
गेमिंग
तक में मजबूत उपस्थिति दर्ज करा चुकी है। नए-नए क्षेत्रों में हिंदी की तरक्की की
निशानदेही करते कुछ उदाहरणों पर नजर:
Handwriting
recognition- हैंडराइटिंग रिकग्निशन
गूगल ने एक अनूठा ऐप्लिकेशन लाकर हिंदी यूजर्स
का ध्यान खींचा है। यह अनूठा ऐप्लिकेशन है हिंदी हैंडराइटिंग रिकग्निशन। अगर आपके
ऐंड्रॉयड और आईओएस गैजट में यह ऐप्लिकेशन इंस्टॉल्ड है तो उसकी टचस्क्रीन पर उंगली
या स्टाइलस (छड़ी) की मदद से हिंदी में जो कुछ लिखेंगे, उसे यह टाइप किए
हुए अक्षरों में बदल देगा। सीडैक ने भी इस तरह का सॉफ्टवेयर बनाया है।
क्या है खास
- हाथ से लिखकर
टेक्स्ट इनपुट
- कीबोर्ड के बटन याद
करने का झंझट नहीं
- तेज रफ्तार टाइपिंग
- फ्री
कैसे करें इस्तेमाल
- अपने स्मार्टफोन या
टैबलेट के ब्राउजर में google.co.in खोल लीजिए।
- settings पर क्लिक करके search settings पर जाइए और handwrite विकल्प को टैप कीजिए।
- यहीं languages
विकल्प में गूगल की भाषा भी बदलकर हिंदी
कर लीजिए और नई सेटिंग्स सेव कर लीजिए। अब गूगल सर्च के लिए इस सुविधा को आजमाकर
देखिए।
Speech
to Text - स्पीच टु टेक्स्ट
ड्रैगन नैचरली स्पीकिंग और आईबीएम वाया वॉइस की
कामयाबी से उत्साहित होकर भारत में भी ऐसे सॉफ्टवेयर की दिशा में काम शुरू हुआ था,
जो
बोले हुए शब्दों को कंप्यूटर स्क्रीन पर टाइप कर दे। भारत सरकार के तकनीकी संस्थान
सीडैक ने आईबीएम के लाइसेंस के तहत यह काम हाथ में लिया। राजभाषा विभाग के सहयोग
से इस सॉफ्टवेयर पर काम काफी आगे बढ़ चुका है और अब यह बिक्री के लिए भी उपलब्ध
है।
-हिंदी
में डिक्टेशन की देवनागरी में ऑटोमैटिक टाइपिंग
-85-90
फीसदी शुद्धता से काम संभव
-हाथों
से टाइपिंग की जरूरत लगभग खत्म
-यूनिकोड
सपोर्ट
-अंग्रेजी
शब्दों को पहचानने में कुछ दिक्कत
-अनडू,
रीडू, एडिटिंग, कट, कॉपी, पेस्ट, सिलेक्ट ऑल, फाइंड एंड रिप्लेस की सुविधा
-देवनागरी
आउटपुट की संख्याओं (अंक, दशमलव), तारीख और करंसी में कनवर्जन
-टाइपिंग
के लिए इंस्क्रिप्ट, रेमिंग्टन,
और फोनेटिक
कीबोर्ड की सुविधा
कैसे करें इस्तेमाल
इसे सीडैक, पुणे से लगभग छह
हजार रुपये में मंगवाया जा सकता है। विंडोज 2000 से ऊपर के सभी
ऑपरेटिंग सिस्ट?स में चलेगा। साउंड इनपुट के लिए कुछ खास
सेटिंग्स की जरूरत है, जिनके बारे में सीडैक की मदद ली जा सकती है।
Text
to Speech - टेक्स्ट टु स्पीच
स्पीच टु टेक्स्ट की तुलना में टेक्स्ट टु
स्पीच थोड़ा कम चुनौतीपूर्ण है। भारत में कई संस्थानों ने इस कैटिगरी के सॉफ्टवेयर
विकसित किए हैं जो कंप्यूटर में टाइप किए हुए टेक्स्ट को पढ़कर सुनाते हैं। ऐसे
प्रोग्राम बुजुगोंर्, यात्रा पर रहने वाले लोगों, व्यस्त
लोगों, हिंदी सीखने वालों और नेत्रहीनों के लिए उपयोगी हैं।
इनमें खास है :
1. सीडैक, पुणे का लीला हिंदी शिक्षण सॉफ्टवेयर
हरीश भीमानी की आवाज में बोलता है। यह सॉफ्टवेयर विंडोज के साथ-साथ मोबाइल
प्लैटफॉर्म पर भी उपलब्ध है।
2. गूगल ट्रांसलेट पर मौजूद टेक्स्ट टु स्पीच
सुविधा इंटरनेट के जरिये सबको उपलब्ध है। हालांकि यहां आने वाली आवाज हिंदुस्तानी
महसूस नहीं होती, लेकिन कामचलाऊ सुविधा के तौर पर बुरी नहीं है।
3. तीन आईआईटी और सीडैक के दो केंदों की तरफ से
विकसित टेक्स्ट टु स्पीच सिस्टम (टीटीएस) हिंदी के साथ-साथ बांग्ला, मराठी,
तमिल,
तेलुगू
और मलयालम में भी बोलकर सुनाता है। यह कंप्यूटर के साथ-साथ मोबाइल फोन पर भी काम
कर सकता है। इसे 350 रुपये में सीडैक पुणे से मंगवाया जा सकता है।
4. मुंबई की डॉल्फिन कंप्यूटर एक्सेस ने बैरियर
ब्रेक टेक्नॉलजी के साथ मिलकर 'सुपरनोवा' स्क्रीन रीडर
बनाया है, जिसे कंप्यूटर प्रोग्राम के रूप में तो चला ही सकते हैं, सीडी
और यूएसबी ड्राइव के जरिये भी इस्तेमाल कर सकते हैं। तीस दिन का फ्री ट्रायल yourdolphin.com
पर
मिल सकता है।
5.ब्लिस कंपनी ने हिंदी टीटीएस सॉफ्टवेयर के कई
रूप जारी किए हैं, जैसे बहुरूपिया, बोलती पाटी,
सावित्री,
सारिका
आदि।
6.Nuance नाम की कंपनी के Realspeak प्रॉडक्ट
में, जो कि बुनियादी रूप से अंग्रेजी टेक्स्ट टु स्पीच सॉफ्टवेयर है
जिसमें 'लेखा' नामक भारतीय आवाज भी मौजूद है।
Translation
between English-Hindi - अंग्रेजी हिन्दी के बीच
अनुवाद
कंप्यूटर की दुनिया में मशीन अनुवाद को बहुत
दिलचस्पी के साथ देखा जाता है। भारत में आंग्लभारती, मंत्र, मात्रा,
बिंग
और गूगल ट्रांसलेट के रूप में अंग्रेजी से हिंदी अनुवाद की दिशा में काफी काम हुआ
है। बहरहाल जिस सॉफ्टवेयर ने सबसे ज्यादा उम्मीदें जगाई हैं, वह
है मंत्र राजभाषा, जिसका विकास सीडैक ने राजभाषा विभाग के सहयोग
से किया है।
अनुवाद से जुड़े कुछ सॉप्टवेयर :
मंत्र राजभाषा
यह सरकारी कामकाज में इस्तेमाल होने वाली भाषा
का अनुवाद करने के लिए बनाया गया है। राज्यसभा में अनुवाद के लिए इस तकनीक का कई साल
से इस्तेमाल हो रहा है। गैजट नोटिफिकेशन, ऑफिस मेमोरेंडम, सर्कुलर,
ऑफिस
ऑर्डर वगैरह का ट्रांसलेशन ठीकठाक है। बहरहाल सरकार और प्रशासन के अलावा दूसरे
क्षेत्रों की भाषा के ट्रांसलेशन में यह कमजोर पड़ जाता है। इसे अंग्रेजी से कुछ
और भाषाओं में भी ट्रांसलेशन की सुविधा से लैस बनाने की कोशिश जारी है।
- अलग-अलग क्षेत्रों,
जैसे एडमिनिस्ट्रेशन, फाइनेंस, कृषि, स्मॉल इंडस्ट्री,
इन्फॉमेर्शन टेक्नॉलजी, हेल्थ, डिफेंस, एजुकेशन और बैंकिंग
डोमेंस के लिए अलग-अलग सिस्टम।
- लिखे जा रहे वाक्यों
के साथ-साथ पहले से तैयार फाइलों का भी ट्रांसलेशन मुमकिन।
- कंप्यूटर, इंटरनेट और इंट्रानेट (लोकल नेटवर्क) वर्जन
उपलब्ध।
- मूल फाइल के फॉरमैट
(फॉन्ट साइज, अलाइनमेंट, रंग आदि) को बिना बदले ट्रांसलेशन मुमकिन।
- डिक्शनरी, थिसॉरस, स्पेल चेकर, ग्रामर चेकर शामिल।
गूगल ट्रांसलेट
गूगल ने दुनिया भर की भाषाओं के बीच आपस में
ट्रांसलेशन के लिए विशाल ऑनलाइन सिस्टम विकसित किया है। हिंदी भी इसका हिस्सा है।
गूगल का सिस्टम छोटे वाक्यों के लिए ठीकठाक काम करता है।
क्या है खास
- अंग्रेजी से हिंदी
और हिंदी से अंग्रेजी में ट्रांसलेशन की क्षमता।
- ट्रांसलेशन की गति
काफी तेज है।
- छोटे वाक्यों के
ट्रांसलेशन की शुद्धता 80 फीसदी तक, बड़ों की 55 से 60 फीसदी।
- ट्रांसलेशन किए हुए
टेक्स्ट के उच्चारण की सुविधा।
- ट्रांसलेशन के लिए
फाइलों को अपलोड करने की सुविधा नहीं।
बिंग ट्रांसलेटर
गूगल की ही तर्ज पर माइक्रोसॉफ्ट ने भी
ट्रांसलेशन की तकनीक पर काफी काम किया है। उसके सर्च इंजन में ऑनलाइन ट्रांसलेशन
की सुविधा है जो कंप्यूटर के साथ-साथ फोन पर भी उपलब्ध है। इसे bing.com पर
जाकर कर सकते हैं।
- ट्रांसलेशन की
शुद्धता गूगल से थोड़ी कम।
- हिंदी से अंग्रेजी
और अंग्रेजी से हिंदी ट्रांसलेशन मुमकिन।
- वेब पेजों का
ट्रांसलेशन भी मुमकिन।
- विंडोज 8 पर ऑफलाइन इस्तेमाल मुमकिन।
कुछ और ट्रांसलेशन सिस्टम
आंग्लभारती
आईआईटी कोलकाता ने अंग्रेजी और हिंदी के बीच
दोतरफा ट्रांसलेशन के लिए यह सॉफ्टवेयर विकसित किया है। इसके ऑनलाइन और ऑफलाइन
वर्जन मौजूद हैं। हालांकि ट्रांसलेशन की शुद्धता, मंत्र राजभाषा
से कम है।
मात्रा 2
आम इस्तेमाल की भाषा का ट्रांसलेशन करने के लिए
एनसीएसटी, सीडैक मुंबई आदि के सहयोग से विकसित मात्रा2 प्रॉजेक्ट छोटे
वाक्यों के ट्रांसलेशन में बेहतर रिजल्ट देता है। दावा किया जाता है कि यह मेडिकल
फील्ड और खबरों के ट्रांसलेशन में काफी अच्छा काम करता है।
बेबीलोन
यह एक अंतरराष्ट्रीय ऑनलाइन परियोजना है,
जिसकी
कई भाषाओं में हिंदी भी शामिल है। ट्रांसलेशन के नतीजे औसत दजेर् के हैं, लेकिन
खास बात यह है कि यहां फीस लेकर इंसानी मदद से भी ट्रांसलेशन किया जाता है।
वॉयल ट्रांसलेशन और टेक्सट
ट्रांसलेशन साथ-साथ
सीडैक, पुणे की दो परियोजनाओं श्रुतलेखन
राजभाषा और मंत्र राजभाषा को एक सिस्टम में जोड़कर बनाया गया है वाचांतर राजभाषा
नामक सॉफ्टवेयर, जो अंग्रेजी में बोली हुई बातों को हिंदी में
टाइप कर देता है। हालांकि इसमें दो अलग-अलग प्रोसेस शामिल होने के कारण जटिलता बढ़
जाती है और उसी के लिहाज से नतीजे उन्नीस-बीस हो सकते हैं।
खास बातें
- आवाज को टेक्स्ट
इनपुट में बदलना।
- टेक्स्ट का अंग्रेजी
से हिंदी में ट्रांसलेशन।
- ट्रांसलेटेड टेक्स्ट
की एडिटिंग की सुविधा।
- भाषा संबंधी गलतियों
को ठीक करने की सुविधा।
भारतीय भाषाओं के बीच ट्रांसलेशन
अंग्रेजी और भारतीय भाषाओं के बीच आपसी
ट्रांसलेशन की तुलना में भारतीय भाषाओं के बीच ट्रांसलेशन कम चुनौतीपूर्ण है,
जैसे
हिंदी से पंजाबी या हिंदी से गुजराती। इस क्षेत्र में सरकारी और गैर-सरकारी दोनों
ही तरफ से काम हुआ है।
संपर्क
इंडियन लैंग्वेज
टेक्नॉलजी प्रोलिफरेशन एंड डेप्लॉयमेंट सेंटर के इस प्रॉजेक्ट में कई भारतीय
भाषाओं के बीच ट्रांसलेशन की व्यवस्था है। ये भाषाएं हैं - हिंदी, उर्दू, पंजाबी, तेलुगू और तमिल।
-हिंदी-पंजाबी,
पंजाबी-हिंदी, तमिल-तेलुगू, तेलुगू-तमिल, उर्दू-हिंदी, तमिल-हिंदी, तेलुगू-हिंदी और मराठी-हिंदी ट्रांसलेशन मुमकिन।
-एक बार में सिर्फ 180 शब्दों का ट्रांसलेशन करने की सीमा। इसे बार-बार
रिपीट करना मुमकिन।
-इनस्क्रिप्ट सहित दो
तरह के कीबोर्ड में टाइपिंग की सुविधा।
अनुसारक
इंडियन इंस्टिट्यूट ऑफ टेक्नॉलजी (कानपुर और
हैदराबाद) ने कुछ भारतीय भाषाओं के बीच आपसी ट्रांसलेशन के लिए इसका विकास किया
है। इनके जरिये कन्नड़, तेलुगू, बंगाली, पंजाबी
और मराठी का हिंदी में ट्रांसलेशन संभव है। पाणिनी के सूत्रों पर आधारित यह
परियोजना करीब दो दशकों से चली आ रही है, हालांकि यह ऑनलाइन उपलब्ध नहीं है। इसी
परियोजना के एक हिस्से का फोकस अंग्रेजी-हिंदी ट्रांसलेशन पर भी है। अगर यूजर
तकनीकी लिहाज से जानकार है तो ट्रांसलेशन को सटीक बनाने के लिए इस सिस्टम में अपने
नियम भी जोड़कर नतीजे देख सकता है।
हिंदी-पंजाबी ट्रांसलेशन
पंजाबी विश्वविद्यालय पटियाला की तरफ से इन
दोनों भाषाओं के बीच आपस में ट्रांसलेशन के लिए बनाया गया सिस्टम ऑनलाइन भी उपलब्ध
है।
-ट्रांसलेशन के
साथ-साथ लिपि-परिवर्तन की भी सुविधा (जिसमें शब्द वही रहते हैं, स्क्रिप्ट बदलती है)।
-फाइलों का
ट्रांसलेशन मुमकिन।
-दो कीबोर्ड और तीन
फॉन्ट्स का इस्तेमाल मुमकिन। ऑनलाइन कीबोर्ड भी मौजूद।
लिपि-परिवर्तन
कुछ परिस्थितियों में आप यह चाहते हैं कि अगर
किन्हीं दो भाषाओं के बीच ट्रांसलेशन संभव न हो तो कम से कम दूसरी भाषा में लिखी
टिप्पणियों को हिंदी लिपि में ही बदला जा सके तो काम चल सकता है। इसे
लिपि-परिवर्तन कहते हैं। भारत के भीतर और बाहर बहुत से लोग हिंदी बोल तो सकते हैं
लेकिन लिख या पढ़ नहीं पाते। ऐसे लोगों के सामने अगर हिंदी टेक्स्ट आ जाए तो वे
उलझन में पड़ जाते हैं।
अगर उसी टेक्स्ट को रोमन या उनकी समझ आने वाली
किसी भारतीय लिपि में बदल दिया जाए तो उनके लिए स्थिति आसान हो सकती है। बॉलिवुड
के गानों को ही लीजिए। अगर आप हिंदी फिल्मों के गानों के बोल याद करना चाहते हैं
लेकिन देवनागरी पढ़ना नहीं जानते, तो क्या करेंगे? तब आप चाहेंगे
कि कम से कम ये बोल आपकी लिपि में पढ़ने को मिल जाएं, तो काम बन जाए।
लिपि परिवर्तन इस तरह काम करता है : मूल
देवनागरी टेक्स्ट- इश्क दी गली विच नो एंट्री। रोमन में लिपि परिवर्तन-Ishqa
dee galee wich no entree।
इस तरह का कनवर्जन करने वाले कुछ ऑनलाइन ठिकाने
हैं :
-गिरगिट(devanaagarii.net/hi/girgit)
-सनस्क्रिप्ट(learnsanskrit.org/tools/sanscript)
-अक्षरमुख(virtualvinodh.com/aksharamukha)
Optical
character recognition (OCR) ऑप्टिकल कैरेक्टर रिकग्निशन
पहले छपी हुई किताबों, टाइप की जा चुकी
फाइलों, पुराने लेखों, पीडीएफ दस्तावेजों वगैरह की सामग्री को
दोबारा इस्तेमाल करने के लिए ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) सॉफ्टवेयर की
जरूरत पड़ती है। अंग्रेजी में ऐसे कई सॉफ्टवेयर हैं जो 95 फीसदी से अधिक
शुद्धता के साथ छपे टेक्स्ट को टाइप किए हुए टेक्स्ट के रूप में कंप्यूटर में सेव
कर लेते हैं। हिंदी में भी इस दिशा में काम हुआ है। भारत में भाषा तकनीक के
क्षेत्र में आगे रहने वाले सीडैक ने चित्रांकन नाम का एक ओसीआर सॉफ्टवेयर बनाया
था। इन दिनों एक विदेशी डिवेलपर ओलिवर हेलविग की तरफ से विकसित किया गया
इन्ड-सेन्ज हिंदी ओसीआर भी चर्चा में है, जो काफी अच्छे नतीजे देता है।
चित्रांकन
चित्रांकन को सीडैक के जिस्ट ग्रुप और भारतीय
सांख्यकी संस्थान कोलकाता ने मिलकर विकसित किया है। यह देवनागरी में छपे
दस्तावेजों को स्कैन करने के बाद उनमें मौजूद टेक्स्ट और चित्रों को पहचान कर
डिजिटल फॉरमेट में स्टोर कर लेता है। सेव की गई फाइलों की एडिटिंग और स्पेल चेकिंग
मुमकिन है।
- फोनेटिक और
इनस्क्रिप्ट कीबोर्ड के जरिए एडिटिंग मुमकिन।
- हिंदी और मराठी के
लिए स्पेल चेकर मौजूद।
- इमेज एडिटिंग की
बेसिक सुविधा।
- वर्ड प्रॉसेसर के
बुनियादी फीचर, जैसे कट, कॉपी, पेस्ट, फाइंड, रिप्लेस आदि।
इन्ड-सेन्ज हिंदी ओसीआर
यह देवनागरी में छपे दस्तावेजों (हिंदी,
संस्कृत,
मराठी
वगैरह) को ठीकठाक ढंग से प्रोसेस कर लेता है। इसे सबसे पहले संस्कृत के लिए बनाया
गया था और बाद में हिंदी और मराठी वर्जन तैयार किए गए। इसके डिवेलपर ओलिवर हेलविग
इसे एक कंप्यूटर टाइपिस्ट के रूप में संबोधित करते हैं। इसकी रफ्तार भी अच्छी है।
इससे तैयार की गई टेक्स्ट फाइल्स को किसी भी दूसरे वर्ड प्रोसेसर में एडिट कर आगे
इस्तेमाल किया जा सकता है। इसके दो वर्जन हिंदी ओसीआर (13 हजार रुपये) और
हिंदी ओसीआर प्रो (17,500 रुपये) में indsenz.com से
मंगवाए जा सकते हैं।
वेब ओसीआर
इंडियन लैंग्वेज टेक्नॉलजी प्रोलिफरेशन एंड
डेप्लॉयमेंट सेंटर ने वेब आधारित ओसीआर का विकास किया है, जो देवनागरी के
साथ-साथ बांग्ला, गुरमुखी, तमिल, तेलुगू,
कन्नड़
और मलयालम में छपी सामग्री को प्रॉसेस कर सकता है। इसे इस्तेमाल करने के लिए
टीडीआईएल की वेबसाइट पर रजिस्ट्रेशन करना होगा।
आकाश टैबलेट
भारत के आकाश टैबलेट का चौथा वर्जन अपने विकास
के आखिरी दौर में है। यह देवनागरी को सपोर्ट करने वाला टैब है। आकाश के पिछले
एडिशन ऐंड्रॉयड के शुरुआती वर्जन पर आधारित थे जो हिंदी लैंग्वेज सपोर्ट नहीं करते
थे। नए एडिशन में ऐंड्रॉयड 4.2 (जेली बीन) मौजूद होगा, जिसमें
नेटिव हिंदी सपोर्ट उपलब्ध है।
हिंदी ई-बुक्स
हिंदी में ई-बुक्स ने धीरे-धीरे मजबूती के साथ
जड़ें जमाना शुरू कर दिया है। पहले से छपी हुई किताबों के ई-बुक संस्करण भी सामने
आ रहे हैं और कुछ लेखक सीधे ई-बुक प्लैटफॉर्म को ही अपने कामकाज का केंद बना रहे
हैं। हिंदी की ई-बुक्स लगभग सभी खास ऑनलाइन बुक स्टोर्स पर उपलब्ध हैं, जिनमें
अमेजॉन, ?लपकार्ट, इन्फीबीम वगैरह शामिल हैं। इन किताबों को
डेस्कटॉप कंप्यूटर, लैपटॉप, ऐंड्रॉयड टैबलेट,
आईपैड,
स्मार्टफोन
और ई-बुक रीडर्स में पढ़ा जाता है।
रॉक स्टैंड नामक कंपनी ने मोबाइल प्लैटफॉर्म के
लिए ई-बुक्स का कलेक्शन उपलब्ध कराया है, जिसमें हिंदी की सैकड़ों किताबें
डिजिटल फॉरमैट में हैं। इस संस्था ने करीब सौ प्रकाशकों के साथ करार किया है,
जिनकी
पत्रिकाएं और किताबें मोबाइल फोन तथा टैबलेट्स पर मुहैया कराई जा रही हैं। कंपनी
का दावा है कि उसने भारतीय भाषाओं की बीस लाख किताबों का डिजिटाइजेशन किया है।
ईप्रकाशक.कॉम और पोथी.कॉम जैसे ऑर्गनाइजेशन लेखकों को सीधे ई-बुक प्रकाशन की
सुविधा दे रहे हैं।
सीडैक ने भी बड़ी संख्या में पहले से छपी
किताबों को ई-बुक्स के रूप में पेश किया है। अनेक संस्थान ऐसी अहम किताबों के
ई-बुक एडिशन तैयार करने में जुटे हैं, जिनके कॉपीराइट खत्म हो चुके हैं।
हार्पर कॉलिन्स, पेंग्विन, डायमंड, पुस्तक
महल, हिंद पॉकेट बुक्स आदि प्रकाशक भी अपनी किताबों को ई-बुक्स फॉरमैट में
उपलब्ध करा रहे हैं, जो छपी किताबों की तुलना में सस्ती मिलती हैं।
हिंदी डोमेन नेम
किसी भी वेबसाइट के रजिस्टर्ड नाम को तकनीकी
भाषा में डोमेन नेम कहा जाता है। इंटरनेट ब्राउजर के एड्रेस बार में यह नाम लिखने
पर हम उस वेबसाइट तक पहुंचते हैं। अच्छी खबर है कि पिछले कुछ साल की कोशिशों के
बाद अब हिंदी में डोमेन नामों का रजिस्ट्रेशन शुरू होने जा रहा है। ऐसे डोमेन
नामों का रजिस्ट्रेशन तो पिछले सात-आठ साल से हो रहा है, जिनमें नाम के
अंतिम हिस्से को अंग्रेजी में लिखा जाता है और शुरुआती हिस्से को हिंदी में,
जैसे
इंटरनेट.com। लेकिन अब ऐसे डोमेन नामों का रजिस्ट्रेशन
शुरू होने जा रहा है, जिनमें पूरा का पूरा नाम हिंदी में होगा,
जैसे
इंटरनेट.भारत।
मीडिया-ग्राफिक्स सॉफ्टवेयर
मीडिया और पब्लिशिंग से जुड़े सॉफ्टवेयर जैसे
इन-डिजाइन, क्वार्क एक्सप्रेस और कोरल ड्रॉ के पुराने
एडिशंस हिंदी यूनिकोड को सपोर्ट नहीं करते थे। लेकिन उन सभी के नए एडिशंस में
यूनिकोड के जरिए हिंदी में टेक्स्ट इनपुट करना, पेज डिजाइन करना,
ग्राफिक्स
और एनिमेशन आदि में यूनिकोड फॉन्ट्स का इस्तेमाल करना मुमकिन हो गया है। एडोब इन
डिजाइन सीएस 6, फोटोशॉप सीएस 6, क्वॉर्क
एक्सप्रेस 9 और कोरल ड्रॉ ग्राफिक्स सुइट एक्स 6
में हिंदी में यूनिकोड टेक्स्ट टाइप का समर्थन उपलब्ध हो गया है। हां, इसके
लिए कुछ खास सेटिंग्स या फ्री प्लग-इन के इस्तेमाल की जरूरत पड़ सकती है।
ऐसे सॉफ्टवेयर में इस्तेमाल करने के लिए अब
हिंदी यूनिकोड फॉन्ट्स भी बड़ी संख्या में उपलब्ध हैं। माइक्रोसॉफ्ट ने मंगल के
अलावा तीन और हिंदी समथिर्त यूनिकोड फॉन्ट (एरियल यूनिकोड एमएस, अपराजिता
और उत्साह) उपलब्ध कराए हैं तो निजी क्षेत्र की कई कंपनियों की तरफ से भी नए
यूनिकोड फॉन्ट आ गए हैं। इसी तरह भारत सरकार की संस्था टीडीआईएल की वेबसाइट से
करीब 50 यूनिकोड हिंदी फॉन्ट फ्री डाउनलोड किए जा सकते हैं।
Hindi – OCR
हिंदी में छपे पेजों की खुद होगी टाइपिंग यानी
हार्ड कॉपी से सॉफ्ट कॉपी
स्कैन किए गए दस्तावेजों को टेक्स्ट फॉर्मैट
में बदलने की गूगल की सुविधा सिर्फ अंग्रेजी तक सीमित नहीं है। यह करीब तीन दर्जन
भाषाओं में उपलब्ध है, जिनमें हिंदी भी शामिल है। हालांकि हिंदी के
इमेज-आधारित दस्तावेजों को कन्वर्ट करने पर हासिल होने वाले टेक्स्ट में बहुत
गलतियां होती हैं। इसकी भारी प्रूफ रीडिंग करनी होगी। ऐसे में हिंदी में गूगल
ड्राइव की ओसीआर सुविधा ज्यादा व्यावहारिक महसूस नहीं होती।
गूगल ड्राइव के अलावा कुछ और ओसीआर सॉफ्टवेयर
हैं, जो हिंदी को ठीक-ठाक सपोर्ट करते हैं। इनमें वेब आधारित ओसीआर
सर्विसेज भी शामिल हैं और कंप्यूटर में इन्स्टॉल होने वाले सॉफ्टवेयर भी।
www.i2ocr.com वेबसाइट दूसरी भाषाओं के साथ-साथ हिंदी
टेक्स्ट रिकॉग्निशन की सुविधा भी देती है। यह पीडीएफ दस्तावेजों को नहीं पहचानती,
इसलिए
अपने दस्तावेज को स्कैन करने के बाद इमेज फाइल फॉर्मैट में सेव करें, जैसे
jpg, bmp, png वगैरह। यह सुविधा फ्री में उपलब्ध है। IndSenz
नाम
की विदेशी कंपनी के डिवेलपर ओलिवर हेलविग की तरफ से विकसित IndSenz Hindi
OCR सॉफ्टवेयर
साधारण फॉर्मैटिंग वाले हिंदी टेक्स्ट के रिकॉग्निशन का काम बखूबी करता है,
लेकिन
यह फ्री नहीं है। आइए, देखते हैं ये दोनों सर्विसेज कैसे काम करती हैं
:
वेब आधारित OCR
1. सबसे पहले www.i2ocr.com/free-online-hindi-ocr
पर
जाएं।
2. नीचे की तरफ, जहां Let's
OCR लिखा
है, वहां Step 1 के तहत आपकी स्कैन फाइल को अपलोड करने
की सुविधा मौजूद है। अपलोड करने के लिए कंप्यूटर में मौजूद स्कैन इमेज फाइल को चुन
लें।
3. अब वेबसाइट पर Step 2 पर नजर डालें।
यहां Hindi भाषा चुनी हुई होनी चाहिए। नहीं है, तो
हिंदी को सिलेक्ट कर लें।
4. अब Step 3 पर मौजूद Extract
Text बटन दबाएं, जिससे आपकी फाइल के अपलोड होने और उसके
भीतर मौजूद टेक्स्ट को पहचानने की प्रक्रिया शुरू हो जाएगी।
5. इसी वेब पेज पर दो बॉक्स खुल जाएंगे। इनमें से
लेफ्ट वाले बॉक्स में टेक्स्ट दिखाई देगा। इस टेक्स्ट को कॉपी कर अपने कंप्यूटर
में खुली हुई वर्ड फाइल में पेस्ट कर लें। अब जरूरत के लिहाज से एडिट कर लें।
6. आप देख सकते हैं कि सामान्य फॉर्मैटिंग वाले
हिंदी टेक्स्ट का 90 फीसदी शुद्धता के साथ कन्वर्जन हो जाता है।
अगर संबंधित इमेज फाइल आपके कंप्यूटर में नहीं बल्कि किसी वेबसाइट पर है तो यहां
उसका वेब अड्रेस देकर सीधे टेक्स्ट कन्वर्जन मुमकिन है।
सॉफ्टवेयर के जरिए कन्वर्जन
इंडसेन्ज़ कंपनी की तरफ से विकसित हिंदी ओसीआर
सॉफ्टवेयर को www.indsenz.com वेबसाइट से डाउनलोड किया जा सकता है।
इसे आजमाने के लिए फ्री वर्जन डाउनलोड किया जा सकता है, हालांकि वह
सिर्फ सॉफ्टवेयर की क्षमताओं का प्रदर्शन भर करता है। फ्री वर्जन के जरिए इमेज
फाइल से निकाला गया टेक्स्ट इस्तेमाल करना संभव नहीं है, क्योंकि इसे न
तो फाइल की शक्ल में सेव किया जा सकता है और न ही कट-कॉपी-पेस्ट के जरिए ही
सॉफ्टवेयर से बाहर ले जाया जा सकता है। बहरहाल, ट्रायल वर्जन
अपनी क्षमताओं का बखूबी प्रदर्शन कर देता है। अगर आप इसका दफ्तर के काम-काज में
नियमित रूप से इस्तेमाल करने के इच्छुक हैं तो आपको पेड वर्जन खरीदना होगा। इसके
दो पेड वर्जन हैं। सामान्य वर्जन की कीमत करीब 12 हजार रुपए है,
जबकि
प्रफेशनल वर्जन करीब 16 हजार रुपए का पड़ेगा।
कैसे काम करता है
1. सबसे पहले indsenz.com से हिंदी ओसीआर
सॉफ्टवेयर डाउनलोड कर कंप्यूटर में इन्स्टॉल करें। अब सॉफ्टवेयर को लॉन्च करें।
2. इसके फाइल मेनू में Open Images पर
क्लिक करें।
4. अब खुलने वाले डायलॉग बॉक्स में अपनी स्कैन
फाइल को चुन लें। यहां इमेज के साथ-साथ पीडीएफ फाइल को भी इस्तेमाल किया जा सकता
है।
5. सॉफ्टवेयर के ऊपरी हिस्से में टूलबार में बने
बटनों पर नजर डालें। यहां लेंस के आइकन वाले बटन पर माउस ले जाने पर Start
the text recognition दिखाई देगा। इस बटन को क्लिक करे।
6. इससे इमेज फाइल में मौजूद टेक्स्ट को पहचानने
की प्रक्रिया शुरू हो जाएगी। पहचाने गए टेक्स्ट को नीचे की ओर मौजूद बॉक्स में
दिखाया जाएगा।
7. आप देख सकते हैं कि इस बॉक्स में माउस का कर्सर
दिखाई दे रहा है और इस टेक्स्ट को सिलेक्ट करना मुमकिन है। जाहिर है, यह
इमेज नहीं बल्कि टाइप किए हुए मैटर जैसा है।
No comments:
Post a Comment