Post - 27
எழுத்துணரி(தமிழ் அல்லது ஆங்கிலம்) கோப்புக்களை உருவாக்குதல் நோக்கம் (Purpose of the Document) நூலக நிறுவனத்தில் மின்வருடப்பட்ட ஆவணங்களின் ஒவ்வொரு தனிப்பட்ட TIF ஆவணங்களையும் text file ஆக மாற்றி வலைத்தளத்தில் பதிவேற்றம் செய்வதற்கும், மின்னூல் உருவாக்கத்திற்கு அடிப்படையாகத் தேவைப்படும் Text (எழுத்துருக்களை) பெற்றுக்கொள்வதற்கு Tesseract4 திறந்த வெளி (Open Source) மென்பொருட்களைப் பயன்படுத்தி உருவாக்கப்பட்ட தானியக்க script இதுவாகும். Script - https://github.com/geethasingam/digitization-pipeline/tree/master/tesseractOCR பிரச்சினைகள் (Problems) மின்வருடப்படும் ஆவணங்கள்மின்னூலாகவும், எழுத்துணரியாக்க கோப்பாக நூலக வலைத்தளத்தில் பதிவேற்றப்படுவதற்கும் தேவை உள்ளது. இதுவரை காலமும் Google OCR பயன்படுத்தப்பட்டது. Google OCR தனிநபர் சேவையாகவும், திறந்த கட்டற்ற மென்பொருளாகவும் அல்லாத காரணத்தால் பிற சேவைகளை நாட வேண்டிய தேவை ஏற்பட்டது அல்லது பணம் செலுத்த வேண்டிய தேவை ஏற்படும். நன்மைகள் (Benefits) Tesseract4 திறந்த மூல கட்டற்ற ...