အွန်လိုင်းတစ်ဦးကို PDF-ဖိုင်ထဲမှာစာသားကိုအသိအမှတ်ပြုရန်


အမြဲတမ်းသမားရိုးကျ backup လုပ်ထားအားဖြင့်တစ်ဦးကို PDF-File ကနေစာသားမမနိုင် Extract လုပ်ပါ။ ထိုကဲ့သို့သောစာရွက်စာတမ်းများမကြာခဏစာမျက်နှာများကိုသူတို့ရဲ့စက္ကူဗားရှင်း၏ contents တွေကို scan ဖတ်နေကြသည်။ ဤဖိုင်များကို Optical Character အသိအမှတ်ပြု (OCR) လုပ်ဆောင်နိုင်ရန်အထူးဆော့ဖ်ဝဲကိုသုံးပြီးအပြည့်အဝပြုပြင်နိုင်သည့်စာသားကိုဒေတာသို့ပြောင်းစေရန်။

ထိုသို့သောဆုံးဖြတ်ချက်များကိုအကောင်အထည်ဖော်ထို့ကြောင့်ပိုက်ဆံကုန်ကျရန်အလွန်ခက်ခဲသည်။ သင်မှန်မှန်တွေ့ကြုံခံစားနေတဲ့ PDF ကို OCR ဖို့လိုအပ်ပါကသင့်လျော်သော program တစ်ခုရရှိရန်အကြံပြုလိုတယ်လိမ့်မည်။ ရှားပါးရောဂါဖြစ်ပွားမှုများအတွက်, သို့သော်, ကအလားတူလုပ်ငန်းဆောင်တာနှင့်အတူရရှိနိုင်ပါသည်အွန်လိုင်းဝန်ဆောင်မှုများ၏တဦးတည်းကိုအသုံးပြုဖို့ပိုပြီးယုတ္တိလိမ့်မည်။

PDF ကိုအွန်လိုင်းကနေစာသားအားအသိအမှတ်ပြုရန်လုပ်နည်း

ဟုတ်ပါတယ်, Full-စုံတဲ့ desktop ကိုဖြေရှင်းချက်နဲ့နှိုင်းယှဉ်အွန်လိုင်းဝန်ဆောင်မှုများ OCR စွမ်းရည်အစုတခု, ပိုပြီးကန့်သတ်သည်။ သို့သော်လည်းဤကဲ့သို့သောအရင်းအမြစ်များကိုအတူလုပ်ကိုင်ဖို့အတူတူပင်လုံးဝတာဝန်ခံအခမဲ့တစ်ခုသို့မဟုတ်အမည်ခံအခကြေးငွေအဘို့ဖွစျနိုငျပါတယျဖြစ်စေ။ အဓိကအရာသည်၎င်း၏အဓိကတာဝန်, အမည်ရ OCR ရန်, သက်ဆိုင်ရာ web application အဖြစ်ကောင်းစွာကြောင့်စီမံခန့်ခွဲတာဖြစ်ပါတယ်။

Method ကို 1: ABBYY FineReader အွန်လိုင်း

ဝန်ဆောင်မှုကုမ္ပဏီ-developer - OCR software ကိုအတွက်ခေါငျးဆောငျမြား၏တဦးတည်း။ Windows နဲ့ Mac အတွက် ABBYY FineReader စာသားနဲ့သူ့ကိုနှင့်အတူနောက်ထပ်အလုပ် PDF ကိုပြောင်းတဲ့အစွမ်းထက်ဖြေရှင်းချက်ဖြစ်ပါသည်။

လုပ်ဆောင်နိုင်စွမ်းကိုသူမ၏ယုတ်ညံ့သင်တန်း၏အစီအစဉ်၏ Web ကို analogue, ။ သို့သော်ဝန်ဆောင်မှု Scan ဖတ်ကျော် 190 ဘာသာစကားများဓါတ်ပုံများထံမှစာသားကိုအသိအမှတ်မပြုနိုင်ပါ။ စသည်တို့ကို Word, Excel, အတွက် PDF ကို-file တွေကိုပြောင်းလဲဒါဟာထောက်ခံပါသည်

အွန်လိုင်းဝန်ဆောင်မှု ABBYY FineReader အွန်လိုင်း

  1. သငျသညျ, ထို tool ကိုအတူလုပ်ကိုင် start ဝက်ဘ်ဆိုက်ပေါ်တွင် account တစ်ခုဖန်တီးသို့မဟုတ်သင့်ရဲ့ Facebook အကောင့်ကို အသုံးပြု. log, Google နှင့် Microsoft ခြင်းမပြုမီ။

    ရဲ့ login ဝင်းဒိုးကိုသှားဖို့, ကိုကလစ်နှိပ်ပါ "ဝင်မည်" ထိပ်ပိုင်းက menu bar မှာ။
  2. အောင်မြင်သောရဲ့ login အပေါ်သို့, သင် button ကိုသုံးပြီး FineReader အတွက်သင့်လျော်တဲ့ PDF ကို-စာရွက်စာတမ်းတင်သွင်းနိုင်သည် "လွှတ်တင်ခြင်းဖိုင်တွေ".

    ထို့နောက်ကိုကလစ်နှိပ်ပါ "စာမကျြနှာနံပါတ်တစ်ခုကိုရွေးချယ်ပါ" နှင့် OCR များအတွက်ဆန္ဒရှိကြားကာလကိုသတ်မှတ်။
  3. ထို့နောက်စာရွက်စာတမ်းအတွက်ပစ္စုပ္ပန်သောဘာသာစကားများ, က output file ၏ပုံစံကိုရွေးပါနှင့် button ကို click "အသိအမှတ်ပြု".
  4. ကုသမှုပြီးနောက်, document ရဲ့အသံအတိုးအကျယ်ပေါ်လုံးဝမူတည်ထားတဲ့များ၏ကြာချိန်ကိုသင်ရိုးရှင်းစွာ၎င်း၏အမည်ကိုကလစ်နှိပ်ခြင်းအားဖြင့်စာသားကိုဒေတာနှင့်အတူချောဖိုင်ကိုဒေါင်းလုဒ်ဆွဲနိုင်ပါသည်။

    သို့မဟုတ်ပါကရရှိနိုင်ပါသည်မိုဃ်းတိမ်န်ဆောင်မှုတွေထဲကမှတင်ပို့လျက်ရှိပါသည်။

ဝန်ဆောင်မှု, ရုပ်ပုံများနှင့် PDF ဖိုင်များအတွက်စာသားမအသိအမှတ်ပြုမှုများအတွက်ဖြစ်ကောင်းအရှိဆုံးတိကျ algorithms ကွဲပြားခြားနားသည်။ ဒါပေမယ့်ကံမကောင်းစွာ, သူ့အခမဲ့အသုံးပြုမှုကိုတစ်လလျှင်လုပ်ငန်းများ၌ငါးစာမကျြနှာမှကန့်သတ်သည်။ ကြာကြာစာရွက်စာတမ်းများနှင့်အတူအလုပ်လုပ်ရန်, နှစ်စဉ်ကြေးပေးသွင်းကိုဝယ်ဖို့ရှိသည်လိမ့်မယ်။

အဆိုပါ OCR function ကိုအလွန်ခဲလိုအပ်လျှင်မည်သို့ပင်ဆို, ABBYY FineReader အွန်လိုင်း - သေးငယ်တဲ့ PDF ကို-ဖိုင်တွေထဲကစာသားကို extract ဖို့အလွန်ကြီးစွာသော option တစ်ခုဖြစ်သည်။

Method ကို 2: အခမဲ့အွန်လိုင်း OCR

စာသားမ digitizing များအတွက်ရိုးရှင်းပြီးအဆင်ပြေဝန်ဆောင်မှု။ သယံဇာတမှတ်ပုံတင်ရန်ရန်လိုအပ်ကြောင်းမရှိရင်တစ်နာရီလျှင် 15 အပြည့်အဝ PDF ကို-စာမကျြနှာကိုအသိအမှတ်မပြုနိုင်ပါ။ အခမဲ့အွန်လိုင်း OCR 46 ဘာသာစကားများအတွက်စာရွက်စာတမ်းများနှင့်အတူအလုပ်လုပ်ခြင်းနှင့်ခွင့်ပြုချက်ပို့ကုန် text format အမပါဘဲသုံးထောကျပံ့ဖို့ - DOCX, XLSX, နှင့် TXT ။

မှတ်ပုံတင်မှာအသုံးပြုသူသို့သော် 50 ယူနစ်မှအများဆုံးကန့်သတ်အခမဲ့စာမျက်နှာများ၏နံပါတ် Multi-စာမျက်နှာစာရွက်စာတမ်းများကိုကိုင်တွယ်နိုင်ခဲ့သည်။

အွန်လိုင်းဝန်ဆောင်မှုအခမဲ့အွန်လိုင်း OCR

  1. သယံဇာတများ၏ခွင့်ပြုချက်မပါဘဲတစ်ဦး "ဧည့်သည်" အဖြစ် PDF ကိုခြင်းမှစာသားကိုအသိအမှတ်မပြုဖို့, အိမ်ကစာမျက်နှာပေါ်တွင်သင့်လျော်သောပုံစံကိုအသုံးပြုပါ။

    ခလုတ်ကိုနှင့်အတူစာရွက်စာတမ်းကို Select လုပ်ပါ "File"စာသား output ကို format ရဲ့အဓိကဘာသာစကား Specify, ပြီးတော့ဒေါင်းလုဒ်လုပ်ပြီးကိုနှိပ်ပါဖိုင်ဘို့စောင့်ဆိုင်း "ပြောင်း".
  2. ဒစ်ဂျစ်တယ်လုပ်ငန်းစဉ်၏အဆုံးမှာစာနယ်ဇင်း "က output file ကို Download လုပ်ပါ" ကွန်ပျူတာပေါ်မှာစာသားတွေနဲ့စာရွက်စာတမ်းကယ်ဖို့အဆင်သင့်။

လုပ်ဆောင်ချက်၏ခွင့်အသုံးပြုသူများအတွက်အနည်းငယ်ကွဲပြားခြားနားသော sequence ကိုဖြစ်ပါတယ်။

  1. ခလုတ်ကိုသုံးပါ "မှတ်ပုံတင်" သို့မဟုတ် "ဝင်မည်" အကောင့်တစ်ခုအခမဲ့အွန်လိုင်း OCR ဖန်တီးဒါမှမဟုတ်သို့ဝငျအသီးသီးမှထိပ်ပိုင်းက menu bar ကို, ၌တည်၏။
  2. အသိအမှတ်ပြုမှု panel ကိုအတွက် logging ပြီးနောက်ဆင်းကိုင် « CTRL »စာရင်းထဲကမူရင်းစာရွက်စာတမ်းနှစ်ခုဘာသာစကားများအထိရွေးချယ်ပါ။
  3. PDF ကိုခြင်းနှင့်စာနယ်ဇင်းကနေစာသားအလုပ်ပြီး Extract နောက်ထပ် parameters တွေကို Specify "File ကိုရွေးချယ်ပါ" အဆိုပါဝန်ဆောင်မှုစာရွက်စာတမ်းကို download လုပ်ပါရန်။

    ထိုအခါကိုကလစ်နှိပ်ပါ, ထိုအသိအမှတ်ပြုမှုမှဆက်လက်ဆောင်ရွက်ရန် "ပြောင်း".
  4. ဖြစ်စဉ်ပြီးနောက်စာရွက်စာတမ်း, က output file ၏သင့်လျော်သောကော်လံအတွက်နာမည် link ကို click လုပ်ပါ။

    အသိအမှတ်ပြုမှုရလဒ်ချက်ချင်းသင်၏ကွန်ပျူတာ၏မှတ်ဉာဏ်ထဲမှာသိမ်းထားတဲ့လိမ့်မည်။

လိုအပ်မယ်ဆိုရင်သေးငယ်တဲ့များ၏ PDF ကို-စာရွက်စာတမ်းထဲကနေထုတ်ယူစာသားကိုလုံခြုံစွာအထက်ပါ tools များအသုံးပြုခြင်းနှုနျးနိုငျသညျ။ ကြီးမားတဲ့ file တွေကိုနှင့်အတူကောင်းစွာအလုပ်လုပ်နိုင်ရန်တစ်ဦးကွဲပြားခြားနားဖြေရှင်းချက်မှအခမဲ့အွန်လိုင်း OCR သို့မဟုတ်အခြားအပန်းဖြေစခန်းအတွက်နောက်ထပ်ဇာတ်ကောင်ဝယ်ယူရန်ရှိသည်။

Method ကို 3: NewOCR

သငျသညျထိုကဲ့သို့သော DjVu နှင့် PDF အဖြစ်လုံးဝနီးပါးမဆိုဂရပ်ဖစ်များနှင့်အီလက်ထရောနစ်စာရွက်စာတမ်းများမှစာသားကို extract ကူညီပေးသည်ကြောင်းလုံးဝအခမဲ့ OCR-service ကို။ အဆိုပါအရင်းအမြစ်မှတ်မိဖိုင်ရဲ့အရွယ်အစားနဲ့အရေအတွက်ကန့်သတ်ချက်များချမှတ်ပါဘူးမှတ်ပုံတင်လိုအပ်နှင့်ဆက်စပ်အင်္ဂါရပ်များကျယ်ပြန့်ကမ်းလှမ်းမထားဘူး။

NewOCR 106 ဘာသာစကားများကိုထောက်ပံ့ခြင်းနှင့်မှန်မှန်ကန်ကန်စာရွက်စာတမ်းများပင်နိမ့်ရညျအသှေး Scan ဖတ်ကိုင်တွယ်နိုင်ခဲ့သည်။ ဒါဟာကိုယ်တိုင်စာသားဖိုင်စာမျက်နှာကိုအသိအမှတ်မပြုဖို့နေရာကိုရွေးရန်ဖြစ်နိုင်သည်။

အွန်လိုင်းဝန်ဆောင်မှု NewOCR

  1. ဒါကြောင့်မလိုအပ်တဲ့လုပ်ရပ်များလုပ်ဆောင်ရန်မလိုဘဲချက်ချင်းသင်သည်တတ်နိုင်သယံဇာတနှင့်အတူအလုပ်လုပ်ရ။

    ညာဘက်အဓိကစာမျက်နှာပေါ်တွင်ဆိုက်ဖို့စာရွက်စာတမ်းတင်သွင်းဖို့ပုံစံပါရှိသည်။ NewOCR မှဖိုင်တစ်ဖိုင် upload တင်ပေးရန်, ခလုတ်ကိုကိုသုံးပါ "ဖိုင်တစ်ဖိုင်ကို Select လုပ်ပါ" အပိုင်း «သင်၏ဖိုင်ကို Select လုပ်ပါ»။ ထို့နောက်ထိုလယ်၌ «အသိအမှတ်ပြုဘာသာစကား (s) ကို» စာနယ်ဇင်းဖြစ်လျှင်, မူရင်းစာရွက်စာတမ်းတစ်ခုသို့မဟုတ်တစ်ခုထက်ပိုသောဘာသာစကားများကိုရွေးပါ «လွှတ်တင်ခြင်း + OCR ».
  2. သင်နှစ်သက်တဲ့ OCR settings ကိုမေးပါ, စာသားနဲ့ကလစ်နှိပ်ဖြည်ဖို့ဆန္ဒရှိစာမျက်နှာကိုရွေးချယ်ပါ « OCR ».
  3. ငယ် button ကိုရှာတွေ့မှအောက်ကိုဆင်း «ဒေါင်းလုပ်».

    ပေါ်မှာနှိပ်ပြီး drop-down list ကို, ဒေါင်းလုတ်ဆွဲများအတွက်ဆန္ဒရှိစာရွက်စာတမ်းပုံစံကိုရွေးပါ။ အဆိုပါထုတ်ယူစာသားကိုနှင့်အတူချော file ကိုသင်၏ကွန်ပျူတာမှဒေါင်းလုပ်လုပ်ပါလိမ့်မယ်။

နေရာလေးကိုနှင့်အတော်လေးတစ်သှေးအပေါငျးတို့သဇာတ်ကောင်အသိအမှတ်ပြုရန်ကိရိယာတခုဖြစ်တယ်။ သို့သော် PDF ကို-စာရွက်စာတမ်းတစ်ခုချင်းစီစာမျက်နှာ၏အပြောင်းအလဲနဲ့လွတ်လပ်စွာ run ဖို့တင်သွင်းခြင်းနှင့်သီးခြားဖိုင်ထဲမှာကဖော်ပြပေးမှာဖြစ်ပါတယ်။ သင်, သင်တန်း၏, ရုံ clipboard ထံမှရလဒ်ကူးယူနှင့်အခြားသူတို့နှင့်အတူပေါင်းစပ်နိုင်ပါတယ်။

သို့သော် extract ရန်အလွန်ခက်ခဲ NewOCR သုံးပြီးစာသားပမာဏ, အထက်ပါအသိပေးချက်ပေးတော်မူ၏။ "တစ်ဦးပေါက်ကွဲသံကြီးနှင့်အတူ" ဝန်ဆောင်မှုရင်ဆိုင်ဖြေရှင်းနိုင်အဖြစ်သေးငယ်တဲ့ဖိုင်တွေအတူ။

Method ကို 4: OCR.Space

စာသားမ digitizing များအတွက်ရိုးရှင်းပြီးအလိုလိုသိအရင်းအမြစ်, PDF ကို-စာရွက်စာတမ်းများအသိအမှတ်ပြုရန်နှင့် TXT-ဖိုင်ထဲမှာရလဒ်ကိုပြသနိုင်ပါတယ်။ ပေးမစာမျက်နှာများ၏အရေအတွက်ကိုမကန့်သတ်ရှိပါတယ်။ အဆိုပါသာကန့်သတ် - ထို input ကိုစာရွက်စာတမ်း၏အရွယ်အစား 5 MB အထိထက်မပိုသင့်ပါတယ်။

အွန်လိုင်းဝန်ဆောင်မှု OCR.Space

  1. ဒီ tool နှင့်အတူအလုပျအတှကျမှတျပုံတငျဖို့မလိုအပ်ပါဘူး။

    အပေါ်က link ကိုဖွင့် click နဲ့ခလုတ်ကိုသုံးပြီးကွန်ပျူတာတစ်လုံးကနေ site ကိုမှ PDF ကို-စာရွက်စာတမ်းကို download လုပ်ပါ "ဖိုင်တစ်ဖိုင်ကို Select လုပ်ပါ" သို့မဟုတ်ကွန်ယက်ကနေ - က link ။
  2. drop-down list ထဲမှာ «ကို Select လုပ်ပါ OCR ဘာသာစကား» တင်သွင်းသည့်စာရွက်စာတမ်းဘာသာစကားကိုရွေးချယ်ပါ။

    ထို့နောက်ခလုတ်ကိုနှိပ်ခြင်းအားဖြင့် OCR ဖြစ်စဉ်ကို run « Start ကို OCR! ».
  3. ဖိုင်ကိုအပြောင်းအလဲနဲ့ပြည့်စုံသောအခါလယ်ပြင်၌ရှိသောရလဒ်စစ်ဆေး « OCR'ed ရလဒ်» နှင့်စာနယ်ဇင်း «ဒေါင်းလုပ်»တစ်ဦးအဆင်သင့်-TXT စာရွက်စာတမ်းကို download လုပ်ပါရန်။

သင်ရုံနောက်ဆုံးပုံစံစဉ် PDF ဖိုင်ရယူရန်ကနေစာသားမဖြည်ဖို့လိုအပ်လျှင်, OCR.Space အရေးမပါဘူး - ကောင်းတစ်ဦးရွေးချယ်မှု။ တစ်ချိန်တည်းမှာနှစ်ခုသို့မဟုတ်နှစ်ခုထက်ပိုသောဘာသာစကားများအသိအမှတ်ပြုမှုအဖြစ် "monolingual" ဖြစ်ဖို့သာစာရွက်စာတမ်းဝန်ဆောင်မှုပေးမထားဘူး။

ကိုလည်းကြည့်ပါ: အခမဲ့ Analogues FineReader

ဆောင်းပါးထဲမှာတင်ပြအွန်လိုင်း tools တွေကိုသုံးသပ်စိစစ်ပါကအများဆုံးတိကျစွာနှင့်ထိထိရောက်ရောက်အဆိုပါ OCR function ကိုအတူ ABBYY ထံမှ FineReader အွန်လိုင်းကိုင်တွယ်သတိပြုသင့်ပါတယ်။ ဒါကြောင့်သင်တို့အဘို့စာသားကိုအသိအမှတ်ပြုမှုအများဆုံးတိကျမှန်ကန်မှုကိုအရေးပါသည်ဆိုပါကဒီအထူးသဖြင့် option ကိုစဉ်းစားရန်အကောင်းဆုံးဖြစ်ပါတယ်။ ဒါပေမယ့်လည်းရှိသည်ဖို့များပါတယ်များအတွက်ပေးဆောင်။

သေးငယ်တဲ့စာရွက်စာတမ်းများ၏လိုအပ်သော digital အကယ်. သင်ဝန်ဆောင်မှုများအတွက် Self-မှန်ကန်သောအမှားများမှအဆင်သင့်ဖြစ်နေပါပြီ, က NewOCR, OCR.Space သို့မဟုတ်အခမဲ့အွန်လိုင်း OCR သုံးစွဲဖို့အကြံပြုလိုတယ်။