Etiquetas

jueves, 17 de octubre de 2013

UF2

Digitalització de textos
Els alphabets del món
Tipologia
Necessitat de comunicació :
La comunicación, segons Berelson, és:
La transmisssió d'informació, idees, emocions, habilitats, etcètera, a treves de símbols, paraules, imatges, figures, gràfics, etcètera.

Comunicació:

donar a conèixer a uns altres
les meves:
emocions, sentiments, Formes de pensar, situació en la qual em trobo, etc.
a través de certs símbols, signes i paraules que permetin donar-me a entendre amb les altres persones que m'envolten.

Principis

comunicació gestual:
gestos o símbols fets amb el mateix cos.

Després:

comunicación gestual:


mes endêvant:

comunicación gestual:
gestos o símbols fets amb el mateix cos + sons (+complexos)

una mica mes endêvant

comunicació gestual:
gestos o símbols fets amb el mateix cos + sons(+complexos)
(+informació)
(+coneixements)

plasmació de senyals, símbols, signes usats en la comunicació oral en parts o pedres.


per què?
com ho fan?

rescursos gràfics a mà:
un pal, una pedra, les dita, les unges, un tros d'ós de l'últim animal caçat…

mes endêvant

lent refinament de les femandes i necessitats:
el mon està explicat per la MÀGIA.

una mica més endevant

necessitar i magia:
ART RUPESTRE

una mica mes endêvant

necessitat i comuniació:
PRIMERS SIGNES

Escriptura

forma de donar-li un signe o símbol al llenguatge parlat
paraules: imiten son de la naturalesa, expressions d'aquesta
llenguatges: a partir dels sons que acompanyaven els gestos fets per comunicar-se.
establiment de codis consensuats per poder completar el procès comunictatiu:
emisor-canal-codi-missatge-receptor
canal-codi
mitjà físic-llenguatge

Alfabet

Agrupació de símbols amb un ordre determinat utilitzat en el llenf¡gatfe escrit que serveix com sistema de comunicació
dériva del nom alfa i betta.

Els alfabets del món(tipologia)


podem classificarlos en dos grans apartats:

a) escritura conceptual: a trevés d'icones o representacions gràfiques expressa idees o paraules.

b) escriptura llingüística: a trevés de signes expressa


pictograma: representació icònica d'aquestes gràfiques que pot ser realista o bé una idealizació

jeroglífic egipci, hitita jeroglífic.
 escriptura cuneiforme:
aquesta escriptura deforma progressivament els pictogrames inicials amb una mena de punxó (en llatí cuneus"tascó, cuny")
exemple: sumeri.

Ideogrames: elemento gràfic que representa parrales generalmente, abans era un pictograma, exeple:  escritura finesa ideogramas moderns: esriptura xinesa.


escriptura sil·làbica:

cada signe representa un grup fonètic (sil·làba).
exeples: lineal B (grec micènic)sil·labari hitita, sil·labari xipriota; entre les llengües actuals el japonès.

escriptura alfabètica:

-cada signe representa un fonema.
exxeples: fenici, grec, llatí , Alfabet Fonètic Internacional (AFI).

- no son escriptures perfectes exeple en català:

ss.sc.ç represcenten /s/
h no representa cap so
qu representa /k/ o /kw/

Origen de l'escriptura:

l'escriptura neix independenement en diferets llocs a parti de pictogrames.
té com a primer ús la comptabilitat.
Els testimoniatges més anics són les tauletes mesopotàmiques (uruk,3300 ae)
Hi ha investigadors que defensen la influencia mesopotàmica.

mesopotàmica: escriptura sumèria

a partir del 3300ae a sumer s'escriuen tauletes d'agila amb un sistema semipictogràfic 20.00 ideogrames) que, cap al 2500 ae, esdevé escriptura cuneïforme.

-la llengua sumèria, poc coneguda, és de tipus aglutinat.


-orientació de l'escriptura per columnes d'esquerra a dreta  i de dalt a baix.


Orient mitjà i Àsia menor:

Adaptran la tècnica cuneiforme els pobles de l'Orientmitja i l'Àsia  menor: acadis, elamites, assiris, babilònics...

Cap 500 ae, els perses empren un nou sistema cuneiforme, de tipus sil·làbic.



Egipte: sistema jerolífic

Des del 3000 ae fins al 400 de, a Egipte s'empra el sistema jeroglífic(6.000 pictogrames) a partir del qual es desenvolupen dues escriptures cursives:

demòtica o corrent cap al 650 ae, més simplificada i per a usos administratius i economics (sil·laari de 24 ignes monoconsonàntics i 80 bioconsonàntic)



hieràtica o sagrada, gairebé tan antiga com la jeroglífica, reservada des de l'aparició de la demòtica a la religió.


Orientació de l'escriptura: dreta/ esquerra, esquerra/dreta (bustrofedó)


Xina: escriptura logogràfia

Els primers caràcters de l'escriptura xinesa (4,500 signes) ja apreixen a la dinastia shang (1.400 ae). des de la reforma de la dinastía Quin (s.III ae.)
fins als s XX, quan hi ha una darrera simplificació i s'introdueix l'alfabet llatí (anys 1950),
els caràcters xinesos augmenten fins 50.000, 1.500 dels quals són apresos a l'escola bàsica.

L'origen pictogràfic d'alguns signes és evident, però l'escriptura xinesa ha esdevingut sobretot semanticofonèticamnt (logogrames).


es del s,V, existeixen casos d'escriptura sil·làbica, el més reeicit dels quals va ser el fan-chi'eh (62 signes), a començaments del segle XX.


Japó 

a partir dels henzi o caràcters xinesos, els japonesos comencen a adaptar (s.V de), poc sistemàticament i amb valor fonétic, els seus knaji (5.000 signes, dels quals s'aprenen uns 1.800 a l'escola).
fins al segle IX no es desenvolupavben els dos horaris principals:

 per a la llengua oficial, el katakana o kana( 47 signes derivats del k'ai-shu o escritura xinesa, que ajuden a pronunciar els kanji);


per a l'escriptura corrent , el hirgana (més de 300 signes, derivats del ts'aoshu o cursiva xinesa). Actualment, al Japó s'empra una escriptura mmixta i sovint complicada.



Amèrica central 

Els sistemes d'escriptura més complets del'ameria precolombina (els indis americans feien pictogrames i els inques "quipus" o nusos) son:
l'astaca mexic central

El maia (mexic meridional, guatemala, hondures, el salvador)


Tots dos sistemes combinen elements fonogràfics i logogràfics, després del dexiframenr gairebé total (85%) dels signes maies.


els primers testimoniatges d'escriptura centroamericans són del 600 ae.


Creta 

escriptura jeroglífica i sil·làbica 
 a creta s'empra una escriptura jeroglìfica (1900-1700) que evoluciona cap a dues cursives:
lineal A fins a 1450 ae 80 signes correspondeixa la llengua minioica.

lineal B fins a 1200 ac 88 signes derivada de la lineal a correson ja a una llengua grega (indoeuropea)

les dos són sl·làbiques fan servir logogrames, s'escriuen sobre tauletes d'argila.

Escriptures alfabétiques

les primeres escriptures alabètiques registren llengues semítiques:
a) evolucionen a partir de els jeroglífics egipcis, com les
incripcions
protosinaítiques: (uns 31 signes)
 protopalestines: a partir de 1500 ae)
 b) o ve evolucionen de l'escriptura cuneïforme, com els 30 signes de l'alfaber d'Ugrait

Alfabet fenici

l'alifat fenici també registra una llengua semítica.
 

 Inscripcions més antigues: daten del 1200 ae ( sarcògfag del rei Ahitam de biblos)
22 signes consonàntic, orientals de dreta a esquerra.

origen: els vincles culturals i comercials de Francia amb egipte, van permetre que l'alfabt fenici fos adaptat problablement de l'escriptura egípcia.


Derivacions de l'alfabet finici

Després del seu estabilment, l'escriptura fenícia, es va difondre pel Mediterrani ,per l'Orient Pròxim i Mitjà i va arribar fins a l'Índia, de manera que presenta les seguents subdivisions:
-banca fenícia
-banca palestina 
-banca aramea
-àrab meridional ( d'on deriva l'escriptra etiòpica,500 ae)

 Alfabet grec 

l'origen semític de l'alfabet grec és indubtable
la primera incripció coneguda és del segle VII ae, però hio ha especialistas que vancen l'adopció cap al 1000 ae.

el prèstec s'hauria fet diversos llocs:

-en grec arcaic: es variable i l'orientació e forma de brustofedó.
-en grec classic: en canvi, trobem un alfabet (oriental de Milet o jònic) amb 24 lletres i una orientació esquerra/dreta.

innovacions del grec:

-l'anotació de vocals( irregulars i esporàdiques a les llengües semítiques)

-l'afegiment d'algunes consonant.



destacar: 

aportació de vocals fonamental:
fa posibe transcripció fonètica satisfactória.alfa, epsilón, lota...
l'afegiment de consonants.

periode classic:

lletres Digramma San qoppa sampi desapareixen.
 
derivacions de l'alfabet grec:
participa en el procés de diverses escriptures:

a l'epoca antiga:

-llengües no hel·leniques d'Àsia Menor (cari.lici,lidi)
-escriptures itàliques erusc)
-el copte (egipci i nubi)

a l'epoca medieval: 

-el gòtic
-l'eslau (ciríl·lic)


Alfabet llatí 

-és una més de les nombroses escriptures loclas que en el estruscs i els itàlics prenen, alfabets grecs occidentals.

-en el cas de roma es tracta d'una adaptació estrusca de l'escriptura d'eubea


-els primers testimonis llatins daten del segle VI ae.


alfabet classic 23 lletres orientacií bustrofèdica i posteriorment, d'esquerra a dreta.


desprès d'una llarga evolució (capital>semiuncial + uncial> carolina> humanítica),ha sigut una de les més univesals.


destacar:

pricipi:21 lletres
a)g,j,n,o,i = afegides als nostres alfabets)
b)nous sons = noves combinacions ch,ph,rh,th

Alfabet arameu

-són un poble semític establer a Síria
-adoptada per la fenícia, va ser oficial durant més d'un mil·leni a diveros imperis i la seva llengua és tambe bíblica.
-té 22 consonants i orientaió dreta/esquerra.
 Alfabet hebreu
dues formes:
la més antiga: l'alfabet arameu s'anomena hebreu qudrat i ha quedat reduït a l'ús religiós
la mes moderna:és emprada actualment a israel: té 22 consonants i alguns signes complementaris per les vocals. l'orientació es dreta/esquerra.


Alifat àrab

Es constitueixen com a poble però no tenen un regne fins el segle I ae (nebateus)
-l'escriptura àrab deriva problablement de l'alfabet arameu-nabateu (500 ae.)evolucionarà cap als dos tipus principals del peride islamic:
  • cúfic
  • naskhi
-té 28 consonants, signes vocàlics i orientació dreta/esquerra.
-adoptat a Àsia, Àfrica i europa per pobles semítics(persa, afganès, malasi, bantús).

 a destacar: 

-vocals curtes
-no minuscules
--no permet divisió  a final de línia
-consonants dobles
-cal·liraia àrab


Índia:

Existeix una esciptura protoíndica /2500ae), corresponent a la civilització de Harappa i Mohenjodaro (vall de l'Indo).
  • Té uns 250 signes sense desxifrar encara (podria registrar una llengua dravíica).

Les escriptures modernes deriven de l'alfabet arameu:

  • La kharosti (250 ae. segle V de);
  • I la brahmi (anterior al segle III) té 32 signes dels consonants de 4 vocals, d'esquerra a dreta i una gran varietat d'escriptures locals a l'índia i Àsia central i Tíbet, sobresurt la devanagari (sànscrit, hindi). 

Alfabets esclaus 

El primer alfabet esclau va ser una creació original de Ciril·li (segle IX), com a eina per a l'evangelització dels pobles esclaus:


  • Son els 40 signes glagolitics 
  • Mes recent es l'alfabet ciríl·lic (segle X)
  • Té 43 signes que deriven de le lletres gregues (24), glagolítiques i d'altres signes.
(Separació de l'esglesia romana i ortodoxa) els pobles eslaus han de triar entre l'alfabet ciríl·lic i el llatí.
Abans d'arribar als 30 signes actuals, l'alfabet rus va simplificar dos cops( segle XVIII i segle XX) l'alfabet ciríl·lic.


Escriptura germànica 

  • El futhak o alfabet rúnic (s.II - s SVIII) és una creació pròpia dels pobles germànics, amb aportacions de l'alfabet llatí.
  • Tenia entre 16 i 24 signes amb forma lineal , orientats de manera variable (dreta, esquerra, capgirats).
L'etapa més rica és la de les runes escandinaves (segles VII-XI).

  Caràcters rúnics: 

  • associats a qüestions màgiques i místiques.
  • les runes transmeten un missatge secret.
  • cada signe té la seva qualitat.
  • els 'mestres de les runes' gaudeixen de prestigi (saben gravar-les).
Alfabet Ibèric

A partir dels segles VI-V a la peninsula iberica es feien servir diverosos alfabets:

  • el fenici
  • el grec jònic
  • l'escritura tartesso-Ibèrica segle VI ae; sistema mixt, sil·làbic i alfabètic, de 27 signes.
  • orientació dual (dreta/esquerra al sud, esquerra/dreta al nord-est).
  • petites variants fonètiques (diferencies entre oclusives sordes i sonores al nord-est )
Les inscripcions ibèriques actualment es poden llegir, malgrat que no coneixem totalment el significat dels mots ni l'origen de la llengua ibèrica.

Nous alfabets 

  • Amb el pas dels segles no han deixat d'aparèixer nous alfabets, codis de signes i sistemes d'expressió escrits o visuals:
  • la taquigrafia (pepys, segle XVII:300 símbols; Pitman, segle XIX:65 lletres).
  • el telègraf(Morse: aparell, 1832; codi;1838).
  • l'escriptura per a cecs (Braille, 1809-1852).
  • L'IPA o Alfabet Fonètic Internacional (Passy, 1886).
  • el llenguatge de concordança mundial, l'Esperanto (llengua auxiliar planificada) (Zamennhof, 1887).
  • el codi de signes per a sords.
  • es senyals de trànsit, etc...
Els elements amb els quals produïm o fixem l'escriptura també han evolucionat radicalment:
  • la impremta (Xina,segle VIII; Gütenberg, 1440).
  • la màquina d'escriure (1867).
  • o el processador elctrónic de textos (anys 1940).

ESQUEMA DE ELS ALFABETS DEL MÓN






        ,



Fases del procés de tractament de textes

  • idea
  • redactor
  • transcripció a paper o digital
  • correcció
  • correcció d'estil
  • fotocomposició /autoedició/ maquetació
  • pdf baixa resolució
  • correcció ortogràfica
  • correcció de maquetació
  • pdf alta resolució
  • filmació fotolits/plaxes
  • impressió
a)composició manual
b)metall fos
c)fotocomposició
d)tipografia digital/ autoedició
poscript-true type-



Originals de textes

  • Manucrits
  • Parlats
  • Analògics (maecanografiats) ens porta a OCR o picat de textes
  • Impressos (diaris, revistes)
  • Digitals (formats gigitals) ens porta a diferents formats digitals segons el programari utilitzat
Manuscrits
  •  Són els originals escrits a mà.
  • No són molt usuals en la actualitat i moltes empreses els rebutjen ateses les dificultats  els costos que implica el canvi de format.
  • Tot això alguns autors, fonamentalment del camp de literatura, tenen el 'mal' costum d'entregar els seus originals en aquest format.

Parlats/Audio

  • Una altra opció més extranya que la anterior.
  • En aquet cas, el texte es presenta en format audio, be sigui analògic o digital il'empresa de preimpressió s'ha de fer a conversió de format a mesura que s'escolta.
  • Per les mateixes raons que en les de tipus manuscrit, aquests originals poden ser motiu de rebig a la seva recepció.

Mecanografiats

  • En desús. En aquet cas, l'original es presenta mecanografiat.
  • Presentació habitual d'originals de text fins fa pocs anys; en la actualitat s'ha vist relegat per la irrupció de la informàtica i les seves múltiples avantatges
  • Amb tot, encara hi ha autors afferrats a aquesta forma de treball, però cada cop són menys.
  • El canvi de format mo presenta grans problemes, però si pèrdues de temps i, per això, encariment del procés. 
Impressos
  • Aquells originals que ja han etat impressos en una anterior ocasió però dels qu no es disposa de còpia digital.
Aquest és el cas habitual en obres de domini públic o en obres publicades en altres països de la mateixa àrea lingüística.

Digitalitzats

  • Aquells originals elaborats amb un equip informàtic.
  •  Ofereixen múltiples avantatges sobre la resta d'originals i en la actualitat són els preferits doncs, en general, estalvien costos.
  • Els problemes amb aquestes originals venen dels arxius de fonts utilitzades i dels formats.
  • Es fan necesàries unes bones especificaions en la recepció d'aquets tipus d'originals.
Els originals digitalizats es poden presentar amb un grau diferent d'acabat:
-originals sense composar
-originals digitalitzats mig composats
-originals digitalitzats compos

Originals digitalitzats sense composar

  • En aquest cas l'autor s'ha limitat a picar el text sense fer distincions enntre els diferents rangs que regeixe la composició
  • El que pretèn l'autor és que les seves idees flueixin lliurement sense veure's frnede per accions que en tot cas faram millor els professionals.
Originals digitalitzats mig composats

L'autor entrega el text digitalitzat establint una proposta de composició pero sense que sigui la proposta final.


són idees exposades per l'autor amb ajuda de la tecnologia informàtica i que necessita tractament posterior


 Originals digitalitzats composats



  • En  aquet cas l'original ha estat ja tractat convenientment per l'autor i presenta totes les característiques que ha de presentar un cop imprès.
  • L'autor, que ha de tenir conexements de composició, entèn que la seva obra no és només el contingut sino la forma en que aquest es presenta.
  • Estalvia molta feina en la fase de preimpressió sempre que le treball estigui ben realitzat.
Especificaccions d'entrega d'originals no digitalitzats


  • Les espicificacions són un conjunt de normes bàsiquess que serveixen de guia a l'autor per entregar el seu treball amb unesmínimes garanties i que permet a l'empresa partir d'una base sólida per el seu posterios tractament.
  • L'us ha propiciat una unificació d'aquestes normes, de tl manera que moltes d'elles són comunes per a totetes les empreses del sector.
  • Malgrat parlar d'originals i que en la empresa es realitzarà còpia del treball, es molt recomenable, sempre que sigui posible, que l''autor entregui còpia de l'original i mai l'original, quedant aquest en mans del'autor i guarnit de posibles incidències.
Preparació d'originals
Especificacions d'entrega d'originals no digitalitzats
a)Especificacions d'entrea d'originals manuscrits.


  • Presentar-los escrits per una sola cara.
  • És fonamental presentar una escritura neta, sense ratlles ni esmenes, amb amplis marges i generosa interlínia, fàcilment entnedor pel treballador encarregat de la digitalització
  • Fer servir formats de paper normalitzats, molt recomenable el format notmalitzat DIN A4.
  • Utilitzar papers lancs o d'un color clar que afavoreix el contrast amb tinta empleada que en tot cas haurà de ser negra o d'un color fosc.
  • Presentar cada una de les pàgines numerades sobre tot si l'orighinal presenta els fulls solts.
  • Si l'autor vol assenyalar alguna correcció en aquest ooriginal ha de fer-ho amb un altre color de tinta.
b) especificacions d'entrega d'roghinals parlats 
  • Presentar-los en un sistema d'arxiu normalitzat (analògic:cinta,k7,digital: mp3,flv...)reproduible en els equips normals de reproducció.


  • Dicció clara i audible, fàcilment entenedora pel treballador encarregat de la digitalització.
  • Exposició continuada de les idees, sensee dubtes, acotacions o salts.
c) especificacions d'enntrega d'rogiginals mecanografiats.
  • han d'estar escrits per una sola cara.
  • fer servir un format de paper entàndard/ el format din a4 (21x 29,7cm) és el més recomanat mantenit aquest format en tot el treball)
  • el blanc dels marges ha dee ser ampli almenys dos cm i han de ser més grans els marges de cap i peu.
  • el blanc ha de presentar-se sense ratlles ni esmentes i amb 
  •  numero de pàg al cap i marginat a a dreta.
  • aplicar una sangria d'un tabulador a la 1ra linea de cada pargraf
  • text sense justificar, marginat a l'esquerre
  • no correcions dificultria mitjançant OCR.
  • l'original sense ratlles ni esmenes i amb els grafismes be contrastats per facilitar la digitalització.

d)impressos

  • Ha d'existir bon contrast entre el color del text i el fons.
  • Determinades fonr poden donar problemes en la digitalització; ha de fer-se una prova prèvia abans d'estblir les coondicions del treball.
  • Ha de comprobar-se que l'original s'adapti a l'escànner, que el llibre s'obri completament i que le format sigui més petit que l'àrea d'escannejat.
digitalitzats

les specificacions són un conjunt de normes bàsiques que serveixen de guia, permet a l'empresa partir d'una sólida per al posterior trctament.


moltes d'elles soón comunes per a totes les emprees impliacades.

-si els textes van sagnats...
-en negreta, en cursiva... 

Especificacions d'entrega d'originals digitalitzats.

a) especificacions relatives a aplicacions i formats. 
junt ambb arx digitals , s'ha d'entregar sempre:
  • una copia impressa escrita peruna sola cara amb:
  • num de pàgina de l'ultima versió entregada
  • llistat d'arxius amb l'extenció corresponent
  • L'aplicacó o aplicacions amb que s'han  creat
  • la seva versió
  • i entorn operatiu
Les aplicaccions han de ser les més común mes acceptades:
  • Editors de textes per defecte : simple text. text edit
  • Editors de textes professionals: word, wordperfect
  • Per a la utilitzaci´d'aplicacions de maquetació (quarkxpres, pagemaker, ventura publisher, indesign)l'autor ha de consultar amb el preimpressor.
Es recomanable que cada part dela feina es guardi com arxiu independent.

A de tenir-se en compte que perquè es arxius es dispossin en  ordre, han de numerar-se aquests amb zeros en les desenes (i en centenes si el  treball així ho requereix)


 b)Especificacions relatives al text

  • Fer servir una configuració de pàgina estàndard
  •  El blanc dels marges ha de ser ampli (2cm) més grans els marges de cap i peu.
  • Elblanc de l'interlína també ha de ser ampli
  • Num de pag al cap i marginat a la dreta.
  • Són preferibles originals snse composar.
  • El text alineat a l'esquerra.
  • No forçar en canvi de línia ni el canvi de pàgina.
  • Un sol tipus de lletra, el més estàndard posible, un sol cos i un sol estil. 
  • Les notes s'han d'incloure en el lloc que aniran ubicades.
  • Cuadres i taules en documents apart.
  • Aplicar un sagnat d'un tabulador la primera línia de cada paràgraf.
  • Els paràgrafs no s'han de separar entre sí per ser línies en blanc.
Equips i apliacions informàtiqes empleats en el procés 

Perifèrics d'entrada



  • Els equips informàtics han d'estar connectats a escànners i disposar d'almenys una aplicació de reconeixements òptic de caràcters (OCR) que permeti la digitalització dels originals mecanogrfiats o d'aquells originals que estan impressos però dels que no es disposa de l'arxiu digital.
  • A més, han de disposar de connexió externa i interna per mitjà de xarxes de comunicació i serveis de correu electrònicx per a la recepció i enviament d'originals digitalitzats.
  • Un fax pot complementar l'enviament dels originals a través de les xarxes telemàtiques.
  • En cas de que l'empresa accepti originals parlats, haurà de disposar d'equips de reprodució d'audio
Ordinadors
  • Dos entorns principals:compatibles IRM (PC) y machintosh (Mac).
  • Els dos entorns són necessaaris en l'actualitat en una empresa de preimpressió i també en el procés de recepció d'orighinals, atès  que les arxius digitals poden provindre dels dos entorns.
  • En la actualitat són compatibles i, per aixó, és posible compatir arxius entre ells; tot i que això pot ser font de problemes, pel que és aconsellable tratar-los en l'entorn corresponent.

Fonts 
  • La informació sobre les descripcions de fonts es recullen en petits arxius que s'emmagatzemen en el sistema operatiu de l'ordinador (tots els ordinadors incorporen una selecció per defecte de les principals fonts) i que es poden adquirir o llogar externament.
Aplicacions
  • Les aplicacions d'edició bàsica pròpias de cada sistema operatiu són suficients per a preparar originals digitals i els formats en que permeten guardar els documents són els més usuals.
  • Entre aquests programes trobem Word Pad(PC Windows) i Simple Text o Text edit (Mac OSX)
  • Les aplicacions d'edició profesional es troben disponibles en els dos entorns (destaquen Microsoft Word y Word Perfect).

 Formats oberts:
ASCII
(American Standard Code for Information Interchange)
no conté informació dee tipografia o disseny.

RTF

(Rich Text Format)
conté informació de tipologia o disseny molt bàsica.

Formats específics:

Processadors de textes 
(el de InDesign, per exeple)


  • Contenen tota la informació de tipografia o disseny.
  • Cermeten exportar en EPS poscript.
Tipografia:
  • Postcript
  • TrueType
  • OpenType


L’OCR





Reconeixement òptic de caracters

LʼOCR: introducció
• Es tracta dʼuna de les aplicacions més comunes dels escàners.


• OCR són les sigles dʼOptical Character Recognition, reconeixement òptic de caracters, o amb una descripció més senzilla: cóm fer per a ensenyar a llegir a lʼordinador.


El que desitjariem en definitiva seria que lʼordinador sapiguès llegir com nosaltres.

Doncs bé, això ho fa lʼOCR: és un programa que llegeix aquestes imatges digitals i busca conjunts de punts que sʼassemblin a lletres, a caracters.

Depenén de la complexitat dʼaquest programa, entendrà més o menys tipus de lletres, arrivant en alguns casos a interpretar lʼescritura manual, mantenir el format original (columnes, fotos entre el text...) o a aplicar regles gramaticals per a augmentar la exactitud del procés de reconeixement.

Perquè el programa pugui realitzar aquestes tasques amb una certa fiabilitat, sense confondre «t» amb «1»,

per exemple, la imatge que li proporcionem ha de complir unes certes característiques.
Fonamentalment ha de tenir una gran resolució, uns 300 ppp per a textes amb tipus de lletra clars o 600 ppp si es tracta de tipus de lletra petits u originals de poca qualitat com els diaris.

Per contra, podem estalviar en lʼaspecte del color: gairebé sempre serà suficient amb blanc i negre (1 bit de color), o com a màxim una escala de 256 grisos (8 bits).
Per aquest motiu a alguns escàners de corró (molt apropiats per a aquest tipus de tasques) els hi manca suport per al color.

Si pensem una mica en el procés de escanejat que hem descrit anteriorment, ens nʼadonarem de que a lʼescanejar un texte no sʼescanejen lletres, paraules i frases, sinó senzillament els punts que les formen, una mena de fotografia del texte.

Evidentement, això pot ser útil per a arxivar textes, però seria desitjable que poguessim agafar totes aquestes referències tan interesants però tan feixugues i incorporar-les al nostre processador de texte no com una imatge, sinó com texte editable.

LʼOCR: optimització dels recursos

En els últims anys la digitalització de la informació (textes, imatges, so, etc.) s’ha convertit en un punt d’interès per la societat.

En el cas concret dels textes, existeixen i es generen contínuament grans quantitats d’informació escrita, tipogràfica o manuscrita en tot tipus de suport.
 En aquest context, poder automatitzar la introducció de caràcters evitant l’entrada per teclat, implica un important estalvi de recursos humans i un augment de la productivitat al mateix temps que es manté o fins i tot es millora la qualitat de molts serveis.

El Reconeixement Òptic de Caràcters (OCR), així com el reconeixement de text, en general són aplicacions dirigides a la digitalització de textes.
Identifiquen automàticament símbols o caràcters, que pertanyen a un determinat alfabet, a partir d’una imatge per emmagatzemar-ho en forma de dades amb les que podrem interactuar amb un programa d’edició de text o similars.

LʼOCR: problemes en el reconeixement òptic de caracters

El procés bàsic que es du a terme en el Reconeixement Òptic de Caràcters és convertir el text que apareix en una imatge en dades que podran ser editades i utilitzades com a tal per qualsevol programa o aplicació que les necessiti.

Partint d’una imatge perfecta, es a dir, una imatge de dos nivells de gris, el reconeixement d’aquests caràcters es realitzara bàsicament comparant-los amb uns patrons o plantilles que contenen tots els possibles caràcters.

Ara be, les imatges reals no són perfectes, per tant el Reconeixement Òptic Caràcters es troba amb diversos problemes:
El dispositiu que obté la imatge pot introduir nivells de grisos en el fons que no pertanyen a la imatge original.
 La resolució d’aquest dispositius pot introduir soroll a la imatge, afectant als píxels que han de ser processats.
La separació dels caràcters. Al no existir un espai fix entre ells, pot produir errors a la hora del reconeixement.
La connexió de dos o mes caràcters per píxels comuns també pot produir errors.


Esquema bàsic dʼun algorisme de Reconeixement Òptic de Caràcters

Tots els algorismes de Reconeixement Òptic de Caràcters tenen la finalitat de poder reconèixer un text d’una imatge qualsevol per poder-lo tractar posteriorment.
Per tal de fer-ho es basen en 4 passos:

1. Binarització

La major part d’algorismes d’OCR parteixen de la base d’una imatge binaria (dos colors) per tant és convenient convertir una imatge amb escala de grisos, o color, en una en blanc i negre, de tal manera que es preservin les propietats essencials de la imatge.

Una forma de fer-ho es mitjançant l’histograma de la imatge on es mostra el nombre de píxels per cada nivell de gris que apareix a la imatge.
Per binaritzar-la haurem de triar un llindar adequat, a partir del qual tots els píxels que no el superin es convertiran en negre i la resta en blanc.
Mitjançant aquest procés obtenim una imatge en blanc i negre on queden clarament marcats els contorns dels caràcters i símbols que conté la imatge.

A partir d’aquí podem aïllar les parts de la imatge que contenen text (més transicions entre blanc i negre).

2. Fragmentació o segmentació de la imatge

Aquest és el procés més costós i necessari pel posterior reconeixement de caràcters.

La segmentació d’una imatge implica la detecció mitjançant procediments d’etiquetat determinista o estocàstic, dels contorns o regions de la imatge, basant-se en la informació d’intensitat o informació espacial.
Permet la descomposició d’un text en diferents entitats lògiques, que han de ser suficientment invariables, per ser independents del escriptor, i suficientment significatives pel seu reconeixement.

No existeix un mètode genèric per du a terme aquesta segmentació de la imatge que sigui suficientment eficaç per l’anàlisi d’un text.

Tot i això les tècniques més utilitzades són variacions dels mètodes basats en projeccions lineals.
Una de les tècniques més clàssiques i simples per imatges de nivell de gris consisteix en la determinació dels modes o agrupaments (‘clusters’) a partir de l’histograma, de tal manera que permet una classificació o llindarització dels píxels en regions homogènies.

• Existeixen altres mètodes com per exemple:
– el detector de contorns de Sobel – l’operador de Kirsch – el detector de contorn de Marr-Hildert – el detector de contorns de Canny...

3. Simplificació de les components

Un cop aïllades les components connexes de la imatge s’haurà d’aplicar un procés de simplificació per a cada una d’elles.
Aquest procediment consisteix en anar esborrant successivament els punts dels contorns de cada component, de forma que es preservi la seva tipologia.
L’eliminació dels punts ha de seguir un esquema d’escombrats successius per tal que la imatge continuï tenin les mateixes proporcions que l’original i aconseguir que no quedi deformada.

S’ha de fer un escombrat en paral·lel, es a dir, assenyalar els píxels borrables per eliminar-los tots a la vegada.

Aquest procés es du a terme per fer possible la classificació i reconeixement simplificant la forma de les components.

4. Comparació amb patrons

En aquesta etapa es comparen els caràcters obtinguts anteriorment amb uns caràcters teòrics (patrons) emmagatzemats en una base de dades.

El bon funcionament de l’OCR es basa en gran mesura en una bona definició d’aquesta etapa.
Per dur a terme la comparació amb els diferents patrons existeixen diferents mètodes, un d’ells és el Métode de projecció, en el qual s’obtenen les projeccions verticals i horitzontals del caràcter a reconèixer i es comparen amb l’alfabet de caràcters possibles fins a trobar la màxima correspondència.

• Existeixen altres mètodes com per exemple:

– Mètodes geomètrics o estadístics – Mètodes estructurals – Mètodes Neuro-mimètics – Mètodes Markovians
– Mètodes de Zadeh.

LʼOCR: aplicacions

Des de l’aparició dels algorismes de Reconeixement Òptic de Caràcters han sigut molts els àmbits que han introduït aquests processos per augmentar el rendiment dels seus i serveis i d’altres que es basen completament en aquestes tecnologies.
A continuació es mostren tres de les moltes aplicacions més destacades que utilitzen l’OCR.

Reconeixement de textes manuscrits

Tot i les dificultats que podem trobar a l’hora de reconèixer un text tipografiat no es poden comparar amb les que apareixen a l’hora de reconèixer un text manuscrit.
El reconeixement d’un text manuscrit continua sent un desafiament.
Tot i que el text es compon bàsicament de caràcters individuals, la majoria d’algorismes OCR no aconsegueixen bons resultats ja que la segmentació de text continu és un procediment complexe.

Tot i això es pot arribar a comprendre una frase quan l’hem acabat de llegir.
Això implica una operació dels nivells morfològic, lèxic i sintàctic que s’aconsegueix mitjançant el reconeixement de la parla continua.

Per aconseguir aquesta metodologia s’utilitzen algorismes robustos que no utilitzen segmentació prèvia ja que s’obté automàticament amb la descodificació.

Reconeixement de matrícules

• Una de les aplicacions més clares en les que es pot trobar l’OCR és el reconeixement de matrícules utilitzat en els radars.

Aquests han de ser capaços de localitzar la matrícula d’un vehicle amb condicions d’il·luminació, perspectiva i entorn variables.

En l’etapa de segmentació es busquen textures similars a la de una matrícula i s’aïlla l’àrea rectangular que la forma.

Finalment, s’aplica un procés de classificació múltiple sobre el conjunt de píxels pertanyents a la matrícula proporcionant una cadena de caràcters que s’ha d’ajustar a un model conegut, el format de les matrícules.
Si apareix algun error, es corregit.

Indexació en bases de dades

Amb el gran augment d’informació publicada que ha tingut lloc en els últims anys cada vegada són més els mètodes que s’utilitzen per organitzar tot aquest material emmagatzemat en bases de dades.

 Un d’aquests continguts són les imatges.

Una de les formes més corrents de buscar imatges és a partir de les metadades introduïdes manualment pels usuaris.

 Actualment han aparegut cercadors que proporcionen la possibilitat de buscar imatges mitjançant el text que apareix en elles, com el cercador DIRS (Document Image Retrieval System): mitjançant un algorisme de Reconeixement Òptic de Caràcters extreu el text que apareix en les imatges i l’utilitza com a metadada que podrà ser utilitzada en les cerques.

Aquesta tecnologia proporciona una nova possibilitat en les cerques d’imatges i demostra que l’OCR encara pot donar molt de si.

Digitalització dels originals:

  • Un cop s'ha rebut l'original
  • S'ha comprovat que compleix les especificacions d'ntrega.
  • Que és adequat en relació amb les pautes marcades a l'ordre de treball.
  • S'ha fet una còpia de treball.
  • S'ha recollit l'operativa d'aquesta procés en les fitxes corresponents...

Es procedeix a la digitalizació de la còpia de l'original, ajustant aquesta al format o format especificats i en el temps previst.

Originals no digitals
Manuscrits 

  • Es necessària una lectura atenta per evitar errors
  • Es recomanable que el teclista que està dighitalitzant el tex tingui la possibilitat d'accedir directament a l'autor, per aclarir els dubtes que puguin sorgir.
  • A de ser l'autor qui llegeixi l'original perquè el teclista teclegi el text amb mer garanties.
Parlats
Es necessária una audició atenta.
Es recomanable l'accés directe del teclista amb l'autor.
"Pica" el text sense realitzar la interpretació de l'original a fi de no distreure's de l'operació principal.

Originals en format digital 
-En la recepció de l'original ja s'ha determinat que es compatible amb els equips disponibles a l'empresa i si es requereix converció de format.

Originals digitalitzats sense composar 
-Es canvia el format si procedeix.

Originals digitalitzats mig composats
-S'aprofita el format si procedeix.

Establiment dels paràmetres tipogràfics.
-Consisteix en determinar i marcar sobre la còpia de treball o millorar en una fitxa d'especificacions tipogràfiques la orma en que han de disposar-se els textes i altres elements complementaris (quadres taules) de l'obra de tal manera de que la senyalització serveixi de referència per conformar el text en les següents frases.

-Aquest procés es realitza un cop que s'ha digitalitzat l'original.
prèviament o al mateix temps que se estableixen els paràmetres tipogràfics es realitza la correció de galerades, on s'introdueixen les modificacions que s'estimen oportunes en relació amb els continguts.

-Aquestes especificcions han d'aparèixer en un lloc visible i lògic.

-Es presentaran a la primera pàgina de la còpia de treball en el cap, sent eficaç en la presentació.

1.Text general

-Predomina en el text, exposa idees pricipals, per tant es el cos de l'obra.

-La seva característica principal es la llegibilitat.

-Ha de facilitar la lectura perquè al lector aquesta li sigui inteligible.

-Ha de prevaldre sobre altres ,és la consecusió del plaer.

2.Textes indicatius

-Apareixen en la pàgina i associats o no al text general i tenen una funció clarament informativa.

-Pertanyen a la categoria els titols, subtitols i folis.

-S'han de destacar la resta de text pero no en excés; es tracta de proporcionar informació sense estridències, evitant les distraccions.

3. Textes secundaris

-Apareix en l'obra sense ser el text general, complementant l'exposició desenvolupada al text general.

-Textes secundaris: les notes, cites, indexs, peus d'il·lustracions, quadres i taules.

-Els pròlegs, inrtroduccions, epílogs i textes similars poden ser tractats com a textes secundaris o coma part del text general i, per tant, d'haurà d'indicar convenienment.

Calibrat de l'original

-Calcular el nombre de caracters d'un original.

-Especificacions del disseny de l'obra (caixa de composició, disposició dels blancs, pagines en blanc,...) permetrà calcular el bombre de pàgines que tindrà l'obra d'un modus molt aproximat.
Procediments de calibrat convencional
original mecanografiat 

-Un cop l'original s'ha presentat en la forma adient i s'han realitzat les còpies petinents es procedeix al càlcul.

-Un tipometre o un linòmtre o en la seva mencança, un regle corrent i un llapis.


Procediments de calibrat convencional

Primer mètode: 
a)Delimiten les diferents parts en que es divideix l'obra i a les que s'han d'aplicar els càlculs: pròlegs,introduccions, prefacis, capítols, epílogs, bibliografies, indexs...

b) es realitzen sobre cadascuna d'aquetes parts diferenciades i tenint en present que si apareixen taules, quadres o il·lustracions s'ha de descomptar l'espai que ocupen.

c)Un cop establertes les parts, s'analitzen una a una comptant els caràcters i els espais...


Original imprès 

-S'ha composat amb caràcters d'espaiat proporcional i els blancs entre caràcters, entre lletres i paraules varien per a conseguir el jutificat amb el que normalment es presenten.

-Presenten taules, quadres i il·lustracions, tot integrat en la caixa de composició.

Procediment:
Es divideix en diferents parts i s'han d'aplicar els càlculs.

Descomptes

-D'il·lustracions, quadres o taules
per descomptar les dimensions d'un gravat o quadre s'han de calcular les línies que aquest  ocupa i els blancs preceptius.

-Pàgines d'arrancada s'inicia una part de l'obra.

-D'il·lustracions, quadres o taules
El mateix succeix amb les pàgines dinals de les parts; el blanc te la dificultat de què ajusti el text a tota la pàgina sense forzar-lo.

-Procediment:
Es realitza una pàgina plena de mostres amb les especificacions donades per a l'obra.


Tipografia digital

Creació tipogràfica
a.professional

Fundicions digitals
b. autor

Aplicación especializada

Aplicacions de creació
-fontlab




-font creator









Tipografia digital  

 Fonts bitmap  
(herencia matrius fotocomposició)  (inicis)

Fonts vectorials
(arquitectura genuinament digital) (actualment)
formes definides amb linies i corves:

-Impressió independent de la resolució del dispositiu de sortida- fonts estables

-Representació en pantalla (bitmap de pixels) mitjançant la tècnica antialiasing
(suavitzar límits, inclús atorgant grisos
a. extenció ATM
b. sistema operatiu

Antialiasing: ampliacions de text a partir de cert cos

  • Postcrip 1, Adobe: definides per corbes Bèzier (nodus i punts de control)
Primera tecnologia de font vectorial
No portable completament ---> versions diferents per Mac i Win 
Composada per dos fitxers:

1. fitxer vectorial --> impressió
2. Maleta de fitxers bitmap --> pantalla
font de pantalla
a.MAC --> maleta de fonts amb dos o més tamanys (innecessària amb ATM)
b.Win --> sense maleta

MAC 
1. font de pantalla= .bmap
(implementa les dades mètriques = amplada de caràcters i parells  de Kern)
2. Fonts d'impressió= sense extenció (en tipus professionals Adobe, AGFA...)
definició del contorneig de la font per impressora

Windows
1.font d'impressió = .pfb
definició del contorneig de la font per impressora
2. arxiu d'informació mètrica = .afm/.pfm
informació utilitzada per a composar la font, incloent dimensions de caràcter i espaiat entre caràcters
ocasionalment =.inf --> arxiu de text amb nom de font i altres dades

Font de pantalla

  • joc de caràcters bitmap

(10,12,14,16,18 y 24 pt)
--> amplicació= font escalonada (llevat amb ATM)

  • diferents sèries per font (bold...)
  • vinculació font de pantalla amb outline font(garantitza que sèrie triada serà la impressa)

  • True type (TT)
Definides per "splins"
(funcions de programació)

desenvolupament d'Apple (finals 80s) per a competir amb PS1
portable completament (multiplataforma)

composada per fitxer únic (vectorial)
extenció ,suit o .tt
anteriorment) s'acompanyava de maleta de tipus per accelerar visualització en pantalla = desfasat per ATM i potència de CPUs

PS1

  • rasteritzat óptim --> mateix LDP (Ps)
  • acceptada per tots dispositius Ps
  • font de treball per totes factories

TT

  • major versatilitat multiplataforma (PC)
  • fitxer únic
  • rasteritzat més lent --> conversió a PS 
  • no  acceptada per tots dispositius PS
  • millor hiting --> major pes en memòria
  • (2048x2048 vs. 1000x1000)

  • Multiple Master (MM)
desenvolupament de PS1 realitzat per Adobe.
Actualment abandonada per Adobe pel desenvolupament d'OTF.

Basat en Unicode --> doble byte (65.000 caràcters)
cada font adopta forma diferent sense distorsió

  • només funciona amb utilitat ATM

  • Open type (OT)
Desenvolupament d'Adobe i MS, i adoptada per Apple
basat en Unicode --> doble bye (65.00 caràcters)

  • conjunt de caràcters expandit i popcions tipogràfiques avançades

Arxiu únic --> font autocontenida 
Total compatibilitat amb fonts TTf i PS1

compatibilitat cross-plataform real


  • versalitat de recursos
  • versaletes reals (no modificacions deformades per aplicació)
  • xifres clàssiques desalineades (vs. modernes alineades)
  • fraccions i ordinals 
  • lligadures(especialment important per a les fonts cal·ligràfiques)
  • caràcters decoratius= generalment integrats dins la versió curiva 
--> editables desde paleta de caràcteres MAC) o paleta glifos (indesign)

  • caràcters diferents= ideals per a capitulars 
  • caràcters no llatins

tipos de open type:
  • standard
387 caràcters 
21 idiomes  

  •  pro
21 idiomes 
idiomes centroeuropeus 
caracters opcionals 

  •  com
48 idiomes

-des de intoducció CS= recursos OTF

-des de versió 7.0 suporta Unicode i Open Type, sense limitacions, mitjançant la paleta dimensiones 


  







No hay comentarios:

Publicar un comentario