ABBYY Finereader Express 8.4: gjenkjenne tekst fra enhver kilde på fly (fordeling kode fullført)
Makradar Av Teknologi / / December 19, 2019
Digitalt innhold, og elektroniske versjoner av dokumenter omgir oss på alle kanter. Papir i våre liv er nesten ingen plass igjen. Aviser og magasiner har flyttet inn i elektronisk format av boken vi leser på e-ink-leser eller tablet, har vanlige bokstaver erstattet e-post og sms. Likevel, noen ganger må vi tinker med de første papirene for å få dem en elektronisk kopi. Her kommer vi til unnsetning spesielle programmer som bruker OCR-teknologi til OCR tekst (Optical Character Recognition). Den mest kjente av disse er utvilsomt ABBYYFineReader. Du kan bruke den til å konvertere papirdokumenter til redigerbare formater, og lagre PDF til søkbar tekst. Og i dag har vi en stor mulighet til å lære mer om det.
* * *
For Mac, ABBYY tilbud bare Reader Express, har det likevel nødvendig funksjonalitet. De viktigste funksjonene i ABBYY Finereader Express er en anerkjennelse nøyaktighet og layout oppbevaring, støtte for mange språk (171 språket til de tre språkene i en dokument), transformasjon og etableringen av PDF (PDF konvertering til redigerbare formater), redaktør for manuell merking områder (tekst, tabell, bilde) og et enkelt, brukervennlig grensesnitt program.
første titt
Reader Express opererer vinduet er ganske minimalistisk, det finnes bare de mest nødvendige elementene. Sidepanelet inneholder skisser tilføyde sider og på isntrumentov knappene med nedtrekkslistene for å velge språk og output file. Likevel er det konvertering og zoomknappen. Ellers grensesnittet tilsvarer en rask Express versjon, som bet på den automatiske gjennomføring av operasjoner med et minimum av konfigurasjon og brukermedvirkning.
Bestå tester
Etter å ha startet Reader møter oss en kompakt vindu med et utvalg av scenario. Her blir vi bedt om å velge opptaks kilde: skanner, faks, eller lese fra en fil. Det er også lurt å spesifisere et dokument språket (eller språkene, hvis mer enn én) - det vil bidra til å forbedre gjenkjenningsnøyaktigheten på originaldokumentet. Vel, faktisk output file format, er alt enkelt - velg basert på hvilken type papirdokument.
Scanner for hånden jeg ikke har, men det er enda bedre - ved hjelp som kilde på bildet Laget med hjelp av iPhone, komplisert jeg oppgaven å gjenkjenne teksten. Som et eksempel på teksten, jeg tok en av bøkene hans kone, samt et eksempel på bordet - noen gamle arbeids film forsendelse av iPhone. Vel, la oss komme i gang.
Hver side med tekst
I mangel av en skanner jeg bare gjorde en bok sving bilder - photo normal rombelysning, ingen stativ, og andre tweaks. Her er originalen:
La oss se hva den kan gjøre med Reader. Vi spesifiserer at vi ønsker å trekke ut bilder teksten, definere språket som russisk, og starte prosessen.
Til kreditt, må søknaden sies at hele teksten ble definert, herunder uhell kom til å bøye den tilstøtende side. Et stykke av det bord, som jeg spesielt igjen i rammen, er definert som det forventede bildet. Men det er ikke skummelt, fordi vi kan manuelt endre domene, oppgir sitt slag (hvis programmet ikke er riktig innstilt) og fjern feltet, anerkjennelsen som er nødvendig. Alle manipulasjoner tok meg mindre enn et minutt, men til slutt fikk jeg her er et helt akseptabelt resultat:
Etter en kort korrekturlesing og redigering dokumentet er klar. Jeg tror dette er et godt resultat for en så rask, nesten automatisk gjenkjenningsprosessen.
gjenkjenne tabellen
Som en eksperimentell bord serverer upretensiøs regningen, som også ble filmet på iPhone. Det er allerede i bruk ukrainsk (sammen med sjekken språkstøtte), som også er bra for vår erfaring. Velge en ny script (⌘N) Angi kilden - lese fra en fil, språket - ukrainsk, og fil utgang - tabellen.
Programmet tenker i noen sekunder, og her har vi resultatet:
Med bordet programmet ikke er håndtert så godt, men det er mer eller mindre akseptabelt i prinsippet til teksten i definisjonen, med mindre årsaken er ferdig cellene som ikke var i det opprinnelige dokumentet. Det er nødt til å tinker litt lengre tid å få den endelige formen på kartet dokumentet, men det er enklere enn å skrive et tegn med hånden fra bunnen av.
Lagre til PDF
Når du lagrer til PDF, programmet dessverre ikke forbedrer det opprinnelige bildet (kontrast, lysstyrke), og det er plassert i PDF-dokumentet som er. Men mindre, søketeksten er til stede, og det er bra.
resultere
Som et verktøy, har Reader sine fordeler og ulemper. De sterke punktene, i tillegg til de angitte karakteristika for produsenten, er det OCR tabeller og fungerer ganske bra, og konvertere til PDF, som lovet, støtter søk tekst. Ulempen er mangelen på muligheter og meget magre midler for manuell styring av prosessen. Men dette er delvis berettiget, det faktum at det er en uttalt versjon og det fungerer automatisk.
Koder for Reader Express program won Gregory Ushar og Nikolai Blinov. Gratulerer! Sjekk private meldinger, sendte koder.