Post - 27

எழுத்துணரி(தமிழ் அல்லது ஆங்கிலம்) கோப்புக்களை உருவாக்குதல்

 

நோக்கம் (Purpose of the Document)

 நூலக நிறுவனத்தில் மின்வருடப்பட்ட ஆவணங்களின் ஒவ்வொரு தனிப்பட்ட TIF

ஆவணங்களையும் text file ஆக மாற்றி வலைத்தளத்தில் பதிவேற்றம் செய்வதற்கும்,

மின்னூல் உருவாக்கத்திற்கு அடிப்படையாகத் தேவைப்படும் Text (எழுத்துருக்களை)

பெற்றுக்கொள்வதற்கு Tesseract4 திறந்த வெளி (Open Source)  மென்பொருட்களைப் பயன்படுத்தி 

உருவாக்கப்பட்ட தானியக்க script இதுவாகும்.

 

Script - https://github.com/geethasingam/digitization-pipeline/tree/master/tesseractOCR 


பிரச்சினைகள் (Problems)


மின்வருடப்படும் ஆவணங்கள்மின்னூலாகவும், எழுத்துணரியாக்க கோப்பாக நூலக

வலைத்தளத்தில் பதிவேற்றப்படுவதற்கும் தேவை உள்ளது. இதுவரை காலமும் Google OCR

பயன்படுத்தப்பட்டது. Google OCR தனிநபர் சேவையாகவும், 

திறந்த கட்டற்ற மென்பொருளாகவும் அல்லாத காரணத்தால் பிற சேவைகளை நாட

வேண்டிய தேவை ஏற்பட்டது அல்லது பணம் செலுத்த வேண்டிய தேவை ஏற்படும். 


நன்மைகள் (Benefits)


Tesseract4 திறந்த மூல கட்டற்ற மென்பொருளாக உள்ள காரணத்தால் இதன் பயன்பாடு

நூலகத்திற்கு மிக அவசிய தேவையாகக் கருதப்படுகிறது. ஆரம்பகட்ட நிலையிலேயே இப்போது இதன்

சேவை காணப்பட்டாலும் விரைவில் இது ஒரு சிறந்த சேவையாக உருவாக்கம் பெறும். இதன் மூலம்

நூலகத்திற்கு தேவையான எழுத்துணரி சார்ந்த தேவைகளை பூர்த்தி 

செய்துகொள்ள முடியும். 


Prerequisites

  • Python 3

  • Tesseract OCR 

  • Text Cleaner

Script ஐ கையாளும் முறை

  1. Step 1:

எழுத்துணரியாக்கம் செய்யப்பட வேண்டிய ஆவணத்தின் TIF கோப்புக்கள் அடங்கிய Folder ன் path ஐ 

script ல் குறிப்பிடல்

        

  1. Step2:

script ஐ run செய்தல்

 

Reference:

Comments

Popular posts from this blog

01.10.2018 To 22.10.2018

Post -30