- आईआईटी मद्रास के शोधकर्त्ताओं की एक टीम ने यूरोपीय भाषाओं से प्रेरणा लेते हुए जिनम समान (रोमन अक्षर आधारित) लिपि हैं, नौ भारतीय भाषाओं के लिए एक आम लिपि का विकास किया है और इसे ‘भारती’ नाम दिया गया है। इसका विकास विगत एक दशक में किया गया है।
- यही नहीं शोधकर्त्ताओं ने बहु-भाषी ऑप्टिकल अक्षर पहचान (ओसीआर) का उपयोग करते हुए भारतीय लिपि में दस्तावेजों को पढ़ने के लिए एक तरीका भी विकसित किया है।
- भारती नामक लिपि में जिन लिपियों को एकीकृत किया गया है, वे हैंः देवनागरी, बंगाली, गुरुमुखी, गुजराती, ओडि़या, तेलुगु, कन्नड़, मलयालम और तमिल। अंग्रेजी एवं उर्दू को इसमें शामिल नहीं किया गया है।
- शोध टीम के नेतृत्वकत्ता वैज्ञानिक श्रीनिवास चक्रवर्ती के अनुसार उर्दू एवं अंग्रेजी की ध्वनियां अलग हैं। हालांकि इसके बावजूद इनका मानचित्रण संभव है।
- ओसीआर में दस्तावेज को पहले टैक्स्ट और गैर-टैक्स्ट में विभाजित किया जाता है। फिर टैक्स्ट को पैराग्राफ, वाक्य, शब्दों एवं अक्षरों में विभाजित किया जाता है। प्रत्येक अक्षर को पहचाने जाने लायक प्रारूप में पहचान की जाती है। भारतीय भाषाओं में अक्षरों की पहचान में ओसीआर संबंधी समस्या रही है क्योंकि स्वर एवं व्यंजन, मूल व्यंजन भाग से जुड़े हुए हैं। भारतीय लिपि में इस समस्या को दूर किया गया है।