ingeniørdebat.dk
Velkommen,
Gæst
. Venligst
log ind
eller
registér
dig. Modtog du ikke en
aktiverings-e-mail?
1 Time
1 dag
1 uge
1 måned
Altid
Log ind med brugernavn, kodeord og sessionslængde
Nyheder:
efter 5 år får Ingeniørdebat.dk
nu en ansigtsløftning
Hjem
FORUM
Hjælp
TinyPortal
Søg
Kalender
Log ind
Registrér
ingeniørdebat.dk
»
Ingeniørdebat
»
Computer
(Moderator:
Mikael Boldt
) »
OCR-scanning af gotiske bogstaver
Statistik
Medlemmer
Total antal medlemmer: 663
Sidste:
andrey3@divis.pro
Statistik
Total antal indlæg: 16012
Total antal emner: 1397
Flest online idag: 59
Flest på samme tid: 479
(21, September 2024 - 03:32)
Brugere online
Besøgende: 0
Gæster: 27
I alt: 27
« forrige
næste »
Udskriv
Sider: [
1
]
Forfatter
Emne: OCR-scanning af gotiske bogstaver (Læst 22323 gange)
Morten Jødal
Senior
Indlæg: 4.596
OCR-scanning af gotiske bogstaver
«
Dato:
27, Juli 2012 - 02:30 »
Jeg har en ret stor ældre tekst (udsnit af en bog), som jeg gerne ville have OCR-scannet.
Desværre er bogen så gammel, at den er trykt med fraktur (gotiske bogstaver).
Jeg har gjort et umiddelbart forsøg med min HP F2100 multiprinter, og det blev selvfølgelig langtfra brugbart. Lidt over halvdelen af bogstaverne blev genkendt korrekt, nogle blev konsekvent misforstået (v blev til b, s blev til f), og resten kunne slet ikke læses.
Dette - ikke uventede - resultat afføder flere spørgsmål:
1. Hvordan bærer OCR-programmet sig ad med at finde den rette font? Ligger det i selve programmet, eller har det på en eller anden måde adgang til de installerede fonte i min computer?
2. Hvis det sidste er tilfældet, kan man da finde en brugbar frakturfont på nettet? Jeg har to: Old English MT og Old Christmas - men ingen af dem er "rigtig" fraktur, bl. a. bruger de begge det "normale" s, ikke det "f uden tværstreg", som den originale fraktur anvender undtagen ved dobbelt-s, hvor så nr. 2 bliver "normalt".
Det skal lige siges, at jeg anvender den software, der blev leveret med printeren/scanneren. Men jeg har også mulighed for at komme til en dedikeret scanner, der nok vil kunne fungere med et fremmed OCR-program - hvis dette så er mere fleksibelt.
Dette leder mig til spørgsmål
3: Findes der OCR-programmer, der enten kan anvende en fremmed skrifttype, eller som man kan lære tegngenkendelse?
Det OCR-program, jeg bruger til den dedikerede scanner, kan også læse og fortolke visse typer billedfiler, bl.a. TIFF - et tredjepartsprogram, der kan dette, kan naturligvis også bruges, hvis de øvrige krav er opfyldt.
Jeg skal tilføje, at mit behov er meget sporadisk - så det kan let ende med, at jeg simpelthen tyr til en afskrift i stedet, selv om det er mange sider. Og jeg vil på ingen måde betale mange penge for et professionelt program.
Jeg tænker i freeware/shareware.
Logget
Mvh. Morten Jødal
Morten Jødal
Senior
Indlæg: 4.596
Sv: OCR-scanning af gotiske bogstaver
«
Svar #1 Dato:
01, August 2012 - 17:48 »
Det lader ikke til at nogen i dette forum har dybdekendskab til OCR-teknologi.
Jeg har nu selv prøvet med min anden scanner og dens medleverede OCR-program ABBYY Fine Reader. Resultatet var bedre, men på ingen måde godt. Specielt de store bogstaver genkendes dårligt, og da jo navneord blev skrevet med stort dengang, var der mange af dem!
Alt i alt er det ikke godt nok til at være nogen reel hjælp. "Det høje s" bliver naturligvis også til f.
Så jeg prøver et nyt spørgsmål:
Har nogen af jer kendskab til et mere nørdet softwareforum, hvor der er mulighed for at få svar på spørgsmål, der går bag programmet?
Logget
Mvh. Morten Jødal
efry
Senior
Indlæg: 278
Sv: OCR-scanning af gotiske bogstaver
«
Svar #2 Dato:
01, August 2012 - 22:33 »
Jeg har for mange år siden arbejdet lidt med OCR. Her opdelte vi hvert tegn i relativt få felter, hvor vi i hvert felt angav såkaldte kontrastgrænser, dvs om man gik fra sort til hvid eller hvid til sort i feltet og ligeledes retningen af grænsen, defineret som lodret, vandret eller skrå (højre og venstre). F. eks blev et 1-tal og et 7-tal adskildt fra hinanden ved at 7-tallet havde vandrette kontrastgrænser for oven og flere skrå end lodrette kontrastgrænser til højre, hvorimod 1-tallet havde lodrette kontrastgrænser til højre og ingen eller højst en enkelt vandret kontrastgrænse for oven. Det kom aldrig til at fungere perfekt, især fordi farvebåndet i skrivemaskiner, der anvendtes den gang, ofte var meget slidt og typearmene kunne være ret beskidte. Dette gav anledning til en del støj, men trods dette kom vi da op på ganske acceptable genkendelsesrater for især tal.
Jeg ved ikke hvordan de nuværende OCR-programmer virker, men jeg tvivler på, at de foretager genkendelsen udelukkende ved at sammenligne bitmønsteret af det læste bogstav med det idelle bitmønster for de kendte bogstaver. Der må være andre teknikker, der anvendes. Genkendelsen kan jo ikke foretages på basis af de fonte, der tilfældigt er installeret på computeren, da det skannede dokument næppe er udskrevet med computeren, for var det tilfældet, ville det ikke være nødvendigt med OCR.
Min ganske vist sparsomme erfaring med OCR og skanner siger mig, at skannerens opløsning på standard 300 dpi giver mange fejllæste bogstaver, hvorimod 600 dpi eller 1200 dpi giver et væsentligt bedre resultat. Min erfaring gælder kun ved normale latinske bogstaver.
Mit OCR-program viser i redigeringsmode den skannede tekst ved siden af den genkendte tekst, og genkendelsen fejler næsten udelukkende der, hvor der er fejl i skanningen forårsaget af dårligt farvebånd eller urenheder på papiret. Det ser imidlertid ikke ud til at det afhænger af den anvendte font.
Du skal nok have fat i et OCR-program, som er designet til at genkende gotisk skrift, men så kommer vi nok over i noget professionelt software, som sikkert er ganske dyrt.
Logget
Bent Andersen
Gæst
Sv: OCR-scanning af gotiske bogstaver
«
Svar #3 Dato:
02, August 2012 - 09:05 »
En søgning på "ocr fraktur" giver en henvisning til programmet "Tesseract". Måske det kan bruges?
http://de.wikipedia.org/wiki/Tesseract_%28Software%29
MvH,
Bent.
Logget
Morten Jødal
Senior
Indlæg: 4.596
Sv: OCR-scanning af gotiske bogstaver
«
Svar #4 Dato:
02, August 2012 - 13:19 »
Tak til både efry og Bent for brugbare svar.
Jeg kan kun undre mig over, at jeg ikke selv havde fundet på at google OCR fraktur
Jeg har nu gjort det, og kan se at Tesseract 3 specifikt angives at kunne læse dansk fraktur.
Mange tak!
Også firmaet ABBYY, som har lavet mit ene OCR-program, har et specialudviklet produkt til fraktur, men jeg vil prøve Tesseract først, da det er freeware - det andet program kan man tilsyneladende få på prøve, men ellers koster det penge (jeg har ikke set på priser).
Efry, ved du hvordan OCR-programmer behandler tekst, hvor linierne ikke er scannet helt lige?
Begge mine programmer genkendte mange af tegnene (omend ikke mange nok), selv når bogen lå lidt skævt på scanneren.
Min dedikerede scanner går forøvrigt op til 3200 dpi i opløsning, og det kan godt vælges i OCR-programmet. Men det har jeg ikke eksperimenteret med.
Logget
Mvh. Morten Jødal
efry
Senior
Indlæg: 278
Sv: OCR-scanning af gotiske bogstaver
«
Svar #5 Dato:
02, August 2012 - 21:42 »
Nej, det ved jeg ikke meget om, men rent logisk må programmet starte med at finde de områder, hvor der findes tekst, og derefter identificere de enkelte tegn, dvs. at finde de enkelte linier og dernæst mellemrummet mellem de enkelte tegn. At identificer de enkelte linier må være ret simpelt selv om de ikke er vandrette. Lidt sværere må det være at identificere de enkelte tegn, da de ikke med moderne skrifttyper er adskilte med lodrette hvide linier. Med skrivemaskinskrift og sandsynligvis også med dine skrifter, der sikkert er sat med enkelte typer af bly, vil det være ret simpelt at identificere mellemrummene mellem de enkelte bogstaver også selv om disse mellemrum vil være en anelse skrå (jeg går ud fra, at der ikke er tale om noget, der nærmer sig 45 grader).
Nu har man så en repræsentation af hver enkelt tegn og skal herefter blot bestemme, hvilket tegn, det drejer sig om, og her vil en vinkeldrejning på nogle få grader ikke have nogen betydning. Tænk på, at også kursivskrift skal kunne genkendes.
Jeg har dog ingen som helst viden om de algoritmer, der anvendes ved konverteringen fra glyf til tegn, og jeg vil derfor ikke kloge mig på det område.
Logget
John Larsson
Senior
Indlæg: 979
Sv: OCR-scanning af gotiske bogstaver
«
Svar #6 Dato:
23, August 2012 - 08:10 »
Jeg havde en gang et ret dyrt DOS-program, som kunne fortolke stort set hvad som helst bare selve trykket ikke varierede, altså at et "W" altid så ens ud! Man fortalte blot programmet hvad det enkelte bogstavsbillede forestillede og så fortolkede den videre indtil der kom et ukendt bogstavsbillede. Den klarede fint forskellige skriftstørrelser inden for visse grænser, men fx kursiv, fed og understreget måtte den have som regel have som særskilte fonts.
Logget
Alex
Debattør
Indlæg: 51
Sv: OCR-scanning af gotiske bogstaver
«
Svar #7 Dato:
01, September 2012 - 11:53 »
1) Programmet benytter de fonte du har på din PC. Men det er lidt afhængig af hvilken software du benytter.
2) Du kan helt sikkert finde en font på nettet, men du skal oftest betale for den. Der findes hjemmesider der hjælper dig med at finde den rigtige font, enten ved at du skal vedhæfte et billede med lidt tekst skrevet af fonten (f.eks en scanning af din bog), eller du skal afkrydse forskellige måder dine bogstaver er formet på.
3) De dyrere OCR programmer er meget gode til at genkende fonte og specifikke bogstaver. Første gang programmet støder på et ukendt tegn, angiver du så hvad tegn det er og (i den perfekte verden) genkender programmet så alle lignende symboler. Det kræver dog at dine scanninger er perfekte og f.eks ikke bøjede i bogens margen ind mod samlingen af siderne. En rimelig besværlig opgave! Især hvis du skal passe på bogen og ikke vil mase den for meget.
De dyre scannerprogrammer er desværre meget dyre!
Alternativt, kan du benytte Adobe Acrobats indbyggede OCR genkendelse, men den beholder de scannede sider som billeder og gemmer blot informationer om hvad der står i bogen, så teksten er søgbar.
Jeg vil dog tro du derefter kan eksportere teksten til Word, men jeg er ikke sikker på at formateringen af dokumentet følger med!
Omnipage Pro har rigtig mange år på bagen som OCR software.
http://shop.nuance.com/DRHM/store?Action=DisplayCategoryProductListPage&SiteID=nuanceeu&Locale=en_GB&categoryID=14130500
http://ocr-software-review.toptenreviews.com/
Logget
Udskriv
Sider: [
1
]
« forrige
næste »
ingeniørdebat.dk
»
Ingeniørdebat
»
Computer
(Moderator:
Mikael Boldt
) »
OCR-scanning af gotiske bogstaver
Seneste Debatindlæg
Gæld for 114 milliarder.
af
jj-
[20, August 2025 - 19:53]
P&U Tykke & Tynde
af
jj-
[16, August 2025 - 19:22]
Hovedpine.
af
jj-
[28, Juli 2025 - 20:10]
Kvantecomputer
af
jj-
[18, Juli 2025 - 20:12]
Carbon Capture fejlslutni...
af
jj-
[15, Juli 2025 - 19:59]
Skat på Guldrankevej.
af
jj-
[06, Maj 2025 - 19:42]
Nye regler for dyrkning a...
af
jj-
[30, April 2025 - 20:28]
Dansk Braklægning
af
jj-
[26, April 2025 - 10:10]
STORE og små tal.
af
jj-
[21, April 2025 - 20:03]
8000 grise dør hvert år..
af
jj-
[17, April 2025 - 07:31]
Norsk igeniørkunst og hår...
af
jj-
[04, April 2025 - 19:41]
P&U-Musk om døden på Mars
af
jj-
[16, Marts 2025 - 20:03]
Skattevæsnets robot.
af
jj-
[08, Marts 2025 - 20:16]
Arbejdsulykker på Fyn.
af
jj-
[27, Januar 2025 - 20:10]
Novo Nordisk
af
B Mønnike
[26, Januar 2025 - 14:10]
Google ads:
DR-Nyheder
Trump vil personligt patruljere Washingtons gader med politiet
22 lande: Israel underminerer idéen om tostatsløsning ved at godkende nye bosættelser
Kinesisk leder besøger Tibet midt i strid om Dalai Lamas efterfølger
Netanyahu beordrer igangsættelse af forhandlinger om gidsler
Her er danskernes lodtrækning til US Open
Domstol dropper milliardbøde til Trump
To personer ramt af stikvåben ved Horsens Banegård
Ny arkæologisk skattejagt i Lejre
Person sigtet for brand på efterskole
Ukrainsk militær hævder at have generobret landsby i Donetsk
Teenager, der planlagde terrorangreb mod moské i Skotland, får ti års fængsel
Efter seks dage er brand ved affaldsanlæg slukket
Flere lande kræver nu adgang for internationale journalister i Gaza
Politi og ambulancer rykker ud til Horsens Banegård til 'større hændelse'
Beredskab talstærkt til stede ved efterskolebrand
Ombudsmanden vil lade journalist afprøve sag om aktindsigt i anklageskrift mod tidligere FE-chef ved domstole
Rekordmange danskere klar til Vueltaen - se dem her
Ukrainer anholdt i Italien for mistanke om sabotage mod Nord Stream-rørledningerne
Tarmbakterie fundet i drikkevand i Langeland Kommune
Dømt for vanrøgt af dyr: Ledende medarbejder i Naturstyrelsen fyret
Nyt fra ing.dk
Dansk-spanske droner klar til at gå på vingerne over brændende Sydeuropa
Bekymret professor slår alarm: Regeringens nye udspil kan koste solceller på tagene
Ukrainer anholdt for sabotage på Nord Stream: Mistænkt for at placere sprængstof
Teknologibeviser forandrer spektakulær retssag: Sass Larsen har ikke søgt på ‘grøn sofa’
Professor og ny centerleder: »AI har brug for filosofi« - Men hvorfor egentlig?
Niels Bohr Instituttet skal producere kvantechips: Sådan foregår det
Politiet efterforsker svindelnummeret SpaceAI: Ekspert tvivler på, at bagmændene bliver fanget
Ny elafgift kan give »kæmpe ryk« i markedet for elbilopladning
95 procent af virksomheder får ikke noget ud af generativ AI
Video afslører signalfejl: Advarselssystem tænder af sig selv - men der kommer ikke noget tog
Regeringen vil sænke elafgiften i to år - besparelser på op til 4000 kr. om året: »Det her er et afgørende gennembrud«
Usikkerhed om EU-krav volder problemer for dansk smykkegigant: »Klart en af de største udfordringer«
Dansk aldersverifikations-app bliver svært afhængig af amerikanske techgiganter: »De kan slukke for den«
Banedanmark vil ikke sætte bomme op, før signalsystem er klart: Men på Sjælland ku' de godt
Jysk robot-direktør har fundet bolværk mod Trumps kaos: »Min arbejdsdag kan være afhængig af, hvad der står i nyhederne«
Se PFAS-danmarkskort: Rigsrevisionen kritiserer ministerie for at afsætte for få penge til oprensning
Video og billeder: Her flytter de 600 ton kirke på 224 hjul i Kiruna
Ny model peger på fysisk grænse for store havvindmølleparker
SpaceAI snød tusindvis af danskere: Nu vokser nye pyramidespil frem
I år eller næste år sker det: VE bliver den største kilde til el i verden
Køge Havn, Aalborg og Københavns Lufthavn plaget af droner: Nu er dansk løsning klar
Musk kunne slippe afsted med skattefrihed for SpaceX i DOGE-tiden: Men han slipper ikke for en tur i retten
It-koks: Staten må opgive at inddrive gæld for 114 milliarder
Kamp om kontrakterne: Våbenleverandører fra 27 lande stiller skarpt på Danmark
Derfor eksploderede kæmperaket: Nu er SpaceX klar til at skyde igen
Rosenkrantz-Theil vil finansiere gratis børnehaver med AI: Løsningen sparer kun fem medarbejdere
Forsinket milliardprojekt spænder ben for nye jernbanebomme: Nu stiger regningen igen
Vi smider en hel kommunes bygninger på lossepladsen årligt: Nu skal riv-ned-kultur stoppes
Her er ministers alternativer til Tiktok og Instagram: Ét sted kan du selv tjene penge
London styrer mod vandkrise: Millioner af liter vand går tabt i lækager og overforbrug
Ukraine serieproducerer nu krydsermissil med rækkevidde på 3.000 kilometer
Chatkontrol kan blive it-mareridt for danske virksomheder: Ekspert foreslår alternativ løsning
Må leve med farlige jernbaneoverkørsler: Ingen bomme før signalsystem er klar ... heller ikke midlertidige
Leder: Kort over Europas våbenfabrikker udstiller Danmarks nøleri
Allergivenlige tomater og skimmelsvamp der producerer mælk - Her er fremtidens mad
De spiste kød fyldt med PFAS: Kommune erkender ansvar, men giver ikke erstatning
Derfor skal du undgå særlige hovedpinepiller i starten af din graviditet
Patriot i problemer: Russiske missiler snyder Ukraines top-luftforsvar
Blogindlæg: Nye byggeklodser til fremtidens energisektor
Snyd med AI stiger på universiteter: Studerende bliver bortvist og får annulleret karakterer
1912: Efter Titanic: Hvordan skal man forbedre sikkerheden til søs?
Spørg Læserne: Inden for skiven
Hvad skal Danmark med en 1000 kvantebit computer? Vi dykker ned i svaret her
Ny dansk forskning skal sikre lynopladning af el-lastbiler
USA planlægger at bygge atomkraftværk på Månen: Et nyt rumkapløb er skudt i gang
Nudging ændrer adfærd: Giv autopiloten et venligt puf
Voldsom togulykke i Sønderjylland: En person død og flere tilskadekomne
Synspunkt: Kina angriber os hurtigt og langsomt – og vi sakker bagud på begge fronter
Svensk vandproduktion i knæ: De kommende uger skal kommuner spare på vandet
Hør hele historien om pyramidespillet Space AI, der ruinerede tusindvis af danskere