हिन्दी यूनीकोड रिपेयर टूल
कई बार जीमेल द्वारा प्राप्त संदेश में हिन्दी का कचरा बन जाता है जिससे वो न तो पढ़ी जा सकती है और न ही संपादन योग्य रहती है। मेरे साथ ऐसा कई बार हुआ है उदाहरण के लिए एकबार रविरतलामी जी ने मुझे हिन्दी तकनीकी शब्द-संग्रह भेजा था जो कि कचरा बन गया था। इसी प्रकार परसों रजनीश मंगला जी का एक मेल आया उसमें भी हिन्दी का कचरा बन गया था।
परिचर्चा से जो मेल आती है उसमें तो हमेशा ही ऐसा होता है। इसके अतिरिक्त कई बार अक्सर चिट्ठों की फीड में भी हिन्दी की जगह कचरा दिखाई देता है। वर्डप्रैस.कॉम के हिन्दी होमपेज पर भी कभी-कभी Blog of the Minute में ऐसा होता है।
इस का कारण अक्सर बताया जाता है कि ब्राउजर की एन्कोडिंग सही नहीं है तथा सलाह दी जाती है कि ब्राउजर की एन्कोडिंग यूनीकोड (UTF-8) कर दी जाए लेकिन इसके बावजूद भी कोई फर्क नहीं पड़ता।
हाल ही में मुझे इसके लिए एक हल मिल गया – हिन्दी यूनीकोड रिपेयर टूल।
(बड़ी तथा स्पष्ट इमेज देखने के लिए स्क्रीनशॉट पर क्लिक कीजिए)
यह एक ऑनलाइन टूल है जो कि खासकर जीमेल वाली समस्या को ध्यान में रखकर बनाया गया है। इसमें दिए गए खाने में करप्ट हुए हिन्दी टेक्स्ट को चिपका कर ‘Fix It’ बटन दबाइए और यह तत्काल ही हिन्दी टेक्स्ट रिपेयर करके दिखा देगा। यहाँ से आप इसे कॉपी कर कहीं भी काम में ले सकते हैं।
वैसे इस एन्कोडिंग के करप्ट होने का मूल कारण क्या होता है कोई बता सकता है ?























मैं भी एक जमाने से इसका इस्तेमाल कर रहा हूँ, कभी अनूप भार्गव जी सुझाया था:
http://lang.ojnk.net/hindi/unifix.html
आपने फिर से याद दिलाया, साधुवाद.
कविश्रेष्ठ समीरानन्द जी, लगता है संजय भाई ने पहली टिप्पणी करने वाला काम आप को सौंप दिया है। आपके दिमाग में पोस्ट नोटिफायर तो नहीं लगा हुआ। अभी तो पोस्ट लिखकर हटा और आप की टिप्पणी आ गई।
यह साधन बहुत पहले से उपयोग में लाते रहें है, लेकिन बहुत से चिट्ठाकारों को पता भी नहीं होगा, सब तक इस साधन के बारे में जानकारी पहुंचाने के लिए साधूवाद.
थोड़ा अलग एक और टूल यहां है:
http://www.mandarintools.com/email.html
हिन्दी कम्प्यूटिंग के औजारों की विस्तृत सूची विकिपेडिया पर यहां है:
http://hi.wikipedia.org/wiki/Hindi_Computing_Resources_on_the_Internet#Hindi_Text_Analysis.2C_Text_Processing_and_Concordance
अन्तरजाल पर हिन्दी के प्रमुख संसाधनों की सूची यहां देखी जा सकती हैं:
http://hi.wikipedia.org/wiki/Web_Hindi_Resources#.E0.A4.B9.E0.A4.BF.E0.A4.A8.E0.A5.8D.E0.A4.A6.E0.A5.80_.E0.A4.B8.E0.A4.AE.E0.A4.BE.E0.A4.9A.E0.A4.BE.E0.A4.B0
मुझे इस यंत्र के विषय में नहीं पता था. श्रीश जी, आपको बहुत धन्यवाद बहुत सारी ‘उलझने’ अब आसान हो जायेंगी सुलझाने में.
में भी बहुत पहले से इस का उपयोग कर रहा हूँ इस का एक उपयोग और भी है। इसमें आप किसी इमेज का HTML कोड लिख कर Fix it पर क्लिक करने से पूरी इमेज दिखने लगेगी।
लो जी और हमने सोचा कि हमने बहुत काम की बात पता लगा ली। कुछ हिन्दी संबंधी साइटों के भ्रमण के दौरान इसका पता लगा था। चलो जिनको नहीं पता होगा उनको लाभ होगा।
युनिकोड पाठ (हिन्दी सहित विभिन्न अंग्रेजीतर लिपियों) के इण्टरनेट ब्राउजर तथा ई-मेल पर बिगड़ने के कारण हैं–
(1) कम्प्यूटर का मूल संसाधन ASCII (8 bit= 2**8) में होता है, जबकि युनिकोड 16 bit (2**16) अर्थात् 2-Byte कूट हैं। सरल भाषा में ASCII में अधिकतम 256 कूट-स्थान होते हैं, जिनमें control commands के बाद 188 लिपि चिह्न या अक्षर आ पाते हैं। अंग्रेजीतर विभिन्न भाषाओं के लिए अलग-अलग कोडपेज बनाए गए थे। जबकि युनिकोड में 65536 तक लिपि चिह्न समेकित किए जा सकते हैं। संसार की समस्त लिपि-चिह्नों का कूट-निर्धारण इसमें किया गया है तथा आगे किया जा रहा है। इण्टरनेट/ईमेल कई सर्वरों कई प्रोग्रामों के मार्गों से गुजर कर पहुँचता है, जिसमें यदि कोई एक पुराना 8 बिट (1-Byte) वाला हो तो वह 2-byte प्रणाली को समझने/संसाधित कर पाने की शक्ति नहीं रखता और कभी इसे ???? में, तो कभी-कभी utf8 के ASCII format में, तो कभी इसे html Decimal कूट में (यथा Ӓ) में तो कभी अन्य… कूटों में बदल देता है।
आपके द्वारा सुझाया गया unifix tool सभी प्रकार के विकृत युनिकोड पाठ को सुधार नहीं पाता है। सबसे बड़ी खराबी है इसकी CR-LF को छोड़ देता है, जिससे दो सारे पैराग्राफ मिलकर एक हो जाते हैं।