1. REPUBLICA BOLIVARIANA DE VENEZUELA
MINISTERIO DE EDUCACIÓN PARA EL PODER POPULAR
UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA DE LA
FUERZA ARMADA NACIONAL
BARQUISIMETO – ESTADO LARA
Integrantes
RICHARD ROJAS
LUIS MENDOZA
ALEXANDER LOPEZ
RAMON PULIDO
RONMER REINOSO
ALEXANDER RODRIGUEZ
SECCIÓN: 7N1IS
BARQUISIMETO, MAYO DE 2010
2. CAPTURA DE DATOS Y TECNICAS
IMPORTANCIA DE LAS ENTRADAS Y
SALIDAS
Introducción
2
3. Las entradas/salidas han sido los elementos mas despreciados por los
diseñadores de hardware y por los mejoradores del rendimiento de los
computadores, quienes no hacen sino concentrarse en volver mas eficiente
el procesamiento de la información (acrecentar el rendimiento de la CPU), sin
tener en cuenta el rendimiento de los sistemas de entradas/salidas; tanto así
que una de las medidas más utilizadas para determinar que tan poderoso,
bueno o malo es algún sistema de cómputo, es el tiempo de CPU, el cual
ignora completamente el tiempo de entradas/salidas; algo irónico puesto que
finalmente, la productividad de las entradas/salidas puede limitar la
productividad del sistema al igual que el tiempo de respuesta de las
entradas/salidas limita el tiempo de respuesta del sistema.
Índice
3
4. Contenido Pagina
Captura de datos…………….……………………………………………………...3
Diseño de formulario de captura…………………………………………………..4
Métodos de entradas de datos………………………………………………….....5
Procesamiento y elementos de Datos…………………………………………….7
Necesidades de las entradas y salidas…………………………………………...9
Desempeño de entradas y salidas………………………………………………10
Soluciones de entradas y salidas………………………………………………..11
Conclusión………………………………………………………………………….18
Bibliografía………………………………………………………………………….19
Captura de Datos y métodos de entrada
4
5. Captura de Datos:
• La captura de datos mediante la obtención de datos de un ordenador.
• Automatizado de captura de datos mediante la obtención de datos
directamente por un dispositivo de entrada sin usar un teclado. Uso de
lectores de documentos (OMR, MICR, OCR). Lectores de códigos de
barra, Escaneo fotos .Usando sensores para el registro de datos.
• formas de captura de datos están diseñados para tener la entrada
de datos de computadora escrito en ellos.
o Un formulario de suscripción de miembros
o Un cuestionario
o Un documento de respuesta
Documentos Turnaround: Un documento de respuesta se produce por un
ordenador, ha añadido más datos a la misma, y es entonces de entrada en el
ordenador. Ejemplo: La lectura del contador Junta
• Ventajas:
o Los datos que ya se sabe que el equipo no necesita ser escrito
o introducido de nuevo.
o El ordenador puede reconocer cada documento usando la
información que ya ha impreso en él.
Diseño de formularios de captura de datos
• Formas de captura de datos debe ser de fácil utilización:
o Simple
Pregunte por el mínimo de información
Mantener el texto impreso al mínimo
5
6. o Claro
Dar instrucciones claras
Mantenga los campos cercanos a los espacios de
información y respuestas
o Interesante
Si parece atractivo es menos esfuerzo para completar
Cuestionarios: son un conjunto de preguntas para una encuesta para
recoger información de las personas. Los datos recogidos deben ser
fácilmente analizados.
Análisis de Datos: Los datos de los cuestionarios deben ser fácilmente
analizados y pueden ser de varios tipos diferentes de preguntas cerradas:
• Preguntas que requieren respuestas afirmativas o
negativas.
• Preguntas con varias respuestas posibles dando una simple
elección.
• Las preguntas donde la respuesta es un número que mide
una cantidad.
Métodos de entrada:
• Un dispositivo de entrada es un periférico que acepta datos y los envía
a la CPU:
• Teclado, Ratón, Documento lector (OMR, OCR, MICR), Luz plumas y
pantallas táctiles, Sensores, Escáner, Joystick y juegos, Micrófono.
6
7. La captura de datos a partir de documentos impresos : Una de las tareas
de la aplicación más útil de la captura de datos está recopilando información
de documentos en papel y guardarlo en bases de datos (CMS, ECM y otros
sistemas).
Existen varios tipos de tecnologías básicas utilizadas para la captura de
datos en función del tipo de datos:
• OCR: para reconocimiento de texto impreso
• ICR: para impresos a mano de reconocimiento de texto
• OMR : para las marcas de reconocimiento
• OBR : para el reconocimiento de códigos de barras
• BCR : para tarjetas de visita de reconocimiento
Los documentos para la captura de datos se puede dividir en 3 grupos:
Documentos estructurados: (cuestionarios, tests, formularios de seguros,
declaraciones de impuestos, boletas, etc) por completo la misma estructura y
la apariencia. Es el tipo más fácil la captura de datos, ya que cada campo de
datos se encuentra en el mismo lugar para todos los documentos.
Documentos Semi-estructurados: (facturas, órdenes de compra, cartas de
porte) tienen la misma estructura pero su apariencia depende del número de
artículos y otros parámetros. La captura de los datos de estos documentos
es un complejo, pero solucionable tarea.
Documentos no estructurados: (cartas, contratos, artículos) puede ser
flexible con la estructura y la apariencia.
Proceso de Captura de Datos Alfanuméricos: La alternativa más utilizada
es la introducción de los datos directamente en la base de datos (producto de
la fase de diseño de la Base de Datos), mediante un Sistema de Gestión de
7
8. Bases de Datos. De esta manera se realiza en forma inmediata control de
calidad de los datos, mediante sistemas de validación de los mismos,
evitando que el operador introduzca datos erróneos y sin relación con las
demás tablas de la base de datos. Es importante definir el procedimiento
para la introducción de datos a las tablas de dominio, que serán claves en la
estandarizaron de los datos alfanuméricos (Moldes, 1995).
Tratamiento informático de datos: es cualquier proceso que utiliza un
programa informático para introducir datos y resumir, analizar o convertir los
datos en útil información . El proceso puede ser automatizado y se ejecutan
en un ordenador . Se trata de registrar, analizar, clasificar, resumir, el
cálculo, la difusión y almacenamiento de datos.
El análisis de datos : Cuando el dominio desde el que se recogen los datos
es una ciencia o un campo de la ingeniería, procesamiento de datos y
sistemas de información son considerados como términos que son muy
amplias y el término más especializados de análisis de datos se suele
utilizar.
Procesamiento: Prácticamente todos los procesos naturales pueden ser
vistos como ejemplos de sistemas de procesamiento de datos en la que
"observa" la información en cualquiera de sus formas. El uso convencional
de los datos y términos del sistema de información s restringe su uso para
referirse a las derivaciones algorítmica, deducciones lógicas y cálculos
estadísticos que se repiten permanentemente en ambientes de negocios en
general, y no en el sentido más amplio de todas las conversiones de medidas
reales del mundo en información del mundo real, digamos, en un sistema
biológico orgánico o incluso un sistema de ingeniería o científicos.
8
9. Elementos del tratamiento de datos: Con el fin de ser procesados por un
ordenador, los datos necesitan primero ser convertidos en un formato legible
por máquina. Una vez que los datos están en formato digital, los distintos
procedimientos pueden aplicarse a los datos para obtener información útil.
El procesamiento de datos puede incluir varios procesos, incluyendo:
• Adquisición de datos • Validación de datos
• La entrada de datos • Tabulación de Datos
• Limpieza de datos • Análisis estadístico
• Codificación de datos • La infografía
• Transformación de datos • Almacenamiento de datos
• Los datos de traducción • La minería de datos
• Los datos de resumen
• Fusión de datos
• Agregación de datos
La adquisición de datos (DAQ abreviada) es el proceso de toma de
muestras del mundo físico y las condiciones reales de conversión de las
muestras resultantes en los valores numéricos digitales que pueden ser
manipulados por un ordenador. Adquisición de datos y la adquisición de
sistemas de datos (abreviado con las siglas DAS) implica la conversión de
formas de onda analógica en valores digitales para su procesamiento. Los
componentes de los sistemas de adquisición de datos incluyen:
• Los sensores que convierten los parámetros físicos en señales
eléctricas.
• circuitos de acondicionamiento de señal para convertir las señales del
sensor en una forma que se puede convertir en valores digitales.
9
10. • convertidores analógico-digital, que convierten las señales del sensor
condicionada a valores digitales.
adquisición de aplicaciones de datos son controlados por programas de
software desarrollado usando una serie de propósito general los lenguajes de
programación tales como BASIC , C , Fortran , Java , Lisp , Pascal . COMEDI
es un código abierto del API (Application Program Interface) que utilizan las
aplicaciones para acceder y controlar la adquisición de datos hardware. .
. Validación de datos: es el proceso de garantizar que un programa
funciona en limpio, y útil los datos correctos. Utiliza rutinas, a menudo
llamado " reglas de validación "o" rutinas de verificación ", que verifican la
exactitud, la pertinencia, y la seguridad de los datos que se introducen en el
sistema. Las reglas pueden ser aplicadas a través de las instalaciones
automatizadas de un diccionario de datos , o mediante la inclusión explícita
de los programas de aplicación lógica de validación.
Fusión de datos, se define generalmente como el uso de técnicas que
combinan datos de varias fuentes y recopilar esa información a fin de lograr
conclusiones, que serán más eficientes y potencialmente más exactos que si
se consigue por medio de una sola fuente.
Necesidad de las entradas/salidas
En teoría, la velocidad de un sistema multiprocesador debe incrementar en
proporción directa con el incremento del número de nodos de procesamiento;
esto no ocurre en todos los casos, pero se ha observado que lo que si ocurre
en la práctica es que a medida que la velocidad de procesamiento
incrementa, los programas que ejecutan entradas/salidas, requieren mayor
cantidad de ellas.
10
11. Por otro lado, es usual que las aplicaciones que corren en los poderosos
supercomputadores requieran de operaciones de entradas/salidas de
grandes volúmenes. Esto sucede así por diferentes razones:
• Muchas veces los datos requeridos por un programa no se pueden
colocar en memoria principal y por eso deben ser colocados en
archivos en discos. Un ejemplo de este caso puede ser una aplicación
que deba hacer operaciones con una matriz muy grande (de 1000 x
1000 ó más grande).
• Otros casos son aquellos en los cuales los datos si pueden ser
almacenados en memoria, pero se requieren operaciones de
entradas/salidas, por ejemplo, para leer datos de entrada de archivos
al principio del proceso y para escribir los resultados al final;
eventualmente se puede necesitar escribir o leer datos durante el
proceso.
• Hay aplicaciones que corren por largo tiempo, que requieren de
puntos de chequeo, en los cuales se detiene el procesamiento para
reiniciar mas tarde; en este momento es necesario almacenar el
contenido de las estructuras de datos en archivos.
• Las entradas/salidas pueden ser requeridas para la depuración de un
programa paralelo.
Elementos que determinan el desempeño de las E/S
• La congestión en la red que ocasiona el aspecto anterior.
• El ancho de banda requerido por las aplicaciones.
• Los diferentes patrones de acceso de las aplicaciones.
11
12. • El tiempo de acceso a un disco que está compuesto de :
• El tiempo de posicionamiento en los discos, que es también llamado
tiempo de búsqueda porque se refiere al tiempo gastado en desplazar
el brazo móvil, que contiene la cabeza de lectura/escritura, a la pista
deseada.
• La latencia de rotación o retardo rotacional en los discos, que es el
tiempo para que el sector requerido gire bajo la cabeza
lectora/escritora.
• El tiempo de transferencia, que es el tiempo empleado en transferir un
bloque de bits bajo la cabeza de lectura/escritura hasta el buffer del
controlador. Normalmente es función del tamaño del bloque, la
velocidad de rotación, la densidad de grabación de una pista y la
velocidad de los componentes electrónicos que conectan el disco al
computador.
Soluciones en Entradas/Salidas
El paralelismo busca maximizar el rendimiento de un sistema,
especialmente cuando se ejecutan aplicaciones de gran escala que por lo
general requieren altas velocidades y cortos tiempos de respuesta.
Desafortunadamente pocos programas son escritos para explotar la
concurrencia, debido a muchas razones; entre ellas se encuentra el hecho de
que los programadores aún piensan en forma secuencial; por otro lado,
encontramos que es mas difícil la depuración y la corrección de programas
paralelos que la de programas secuenciales.
1. Mejoras en los buses: Los buses han transferido bits en paralelo por
muchos años. Se han hecho muchos intentos por tratar de aprovechar al
máximo el acceso a los buses; por ejemplo, existen buses que proveen
12
13. segmentación (pipeline), que consiste en aprovechar el tiempo en que un
procesador está accediendo el bus para hacer el arbitraje, esto es, para
decidir cuál es el próximo dispositivo que va a acceder al bus; con esto, se
trata de no tener el bus inactivo los n ciclos de reloj que dura el arbitraje.
2. Mejoras en el acceso a los discos
El DMA (Acceso Directo a Memoria):
Es una técnica muy empleada para evitar que las entradas/salidas
pasen necesariamente del almacenamiento a la CPU, sino que pasen
directamente del almacenamiento a memoria. ; Éste comienza la lectura bit
por bit desde el disco hasta su buffer interno y cuando logra cargar todos los
datos produce una interrupción que es atendida por la CPU, quien comienza
la transferencia desde el buffer hacia la memoria; como se puede ver, esta
operación hace que se desaproveche ese tiempo de CPU (que es
significativo, teniendo en cuenta que el acceso a memoria cuesta). El DMA
se inventó para liberar a la CPU de hacer este trabajo. El camino ahora es
mas corto puesto que cuando la CPU hace el requerimiento al subsistema de
entradas/salidas, proporciona una información adicional que incluye la
dirección de memoria principal en la que debe quedar el bloque y el número
de bytes a transferir; el controlador empieza a transferir datos desde el disco
hasta su buffer y cuando finaliza empieza a copiarlos a memoria principal
comenzando en la dirección que antes le habían suministrado; cuando
finaliza la copia produce una interrupción.
Discos de cabeza fija: Tratan de disminuir el tiempo de posicionamiento
pues, como su nombre lo indica, tiene varias cabezas, cada una sobre cada
pista del disco. Lógicamente, la aparición de discos con gran cantidad de
13
14. pistas hizo que esta no fuera una buena solución desde el punto de vista
económico.
Discos de mayor densidad de almacenamiento: Se trata de almacenar
mas bits por pulgada en una pista, tratando de mejorar con esto los tiempos
de transferencia debido a que en cada unidad de tiempo se pueden leer o
escribir mas datos; y tratan de mejorar, un poco, la velocidad de búsqueda
porque generalmente estos discos son de diámetro mas pequeño, lo que
hace tengan menos cilindros y que las distancias de búsqueda sean más
cortas.
Los cachés: Su objetivo principal es reducir el tráfico a los discos para
obtener buenos tiempos de respuesta y rendimiento. Cuando hay una
operación de lectura (se desea llevar datos desde los discos hasta la
memoria principal), el bloque es buscado en el caché; si se encuentra allí, el
sistema operativo procede a retornarlo inmediatamente sin necesidad de
leerlo físicamente de los discos; de no encontrarlo en el caché el sistema
operativo notifica al controlador del disco que necesita un bloque y éste
procede a transmitir los datos al caché; finalmente, el controlador interrumpe
la CPU cuando la entrada/salida está completa Sin embargo se pueden
presentar algunos problemas relacionados al uso de cachés como la
inconsistencia entre los datos que están en memoria o en los discos y los
que están en el caché.
Arreglos de Discos: No es una tecnología diferente sino una forma distinta
de organizar los discos pequeños. El argumento justificador de dichos
arreglos es que, como el precio por megabyte es independiente del tamaño
del disco, la productividad potencial se puede incrementar teniendo muchas
unidades de discos y, por consiguiente, muchos brazos de discos. La
14
15. necesidad de almacenar datos redundantes para la recuperación de las fallas
de los discos, produjo la aparición de los RAIDs (arreglos de discos
económicos redundantes), que mejoran la confiabilidad del sistema en
cuanto a las fallas, y tienen alta capacidad de entradas/salidas.
Desafortunadamente, al igual que los arreglos convencionales, también
tienen la tendencia de maximizar la latencia rotacional pues cada operación
debe esperar por el caso mas malo de posicionamiento de un disco; además,
a medida que se incrementa el tamaño del arreglo (incrementa el ancho de
banda) se puede crear un cuello de botella en el controlador o nodo de
entradas/salidas.
Striping de discos: Como una alternativa a los arreglos de discos, apareció
la noción del striping de discos, en el cual los dispositivos convencionales
son unidos lógicamente al nivel del software de los sistemas de archivos, de
tal manera que los bloques consecutivos de un archivo son localizados en
discos diferentes, permitiendo así, que el sistema de archivos pueda iniciar
operaciones de entradas/salidas en varios bloques en paralelo.
Sistemas de Archivos: Un sistema de archivos es responsable del manejo
de los archivos en almacenamiento secundario. Es responsable de
proporcionar los medios para almacenamiento privado de información y para
que los usuarios puedan compartir información entre ellos de forma
controlada. Lo mas importante, quizás, es que el sistema de archivos debe
brindar estos servicios haciendo que ciertos aspectos (tales como la
ubicación física de los archivos, la forma que toman dichos archivos en los
dispositivos en los que están almacenados o el medio físico utilizado para
transferir datos desde y hasta esos dispositivos) sean transparentes al
usuario.
15
16. Como no se espera que la tecnología de hardware de entradas/salidas
mejore dramáticamente, por lo menos en un futuro cercano, muchos
investigadores se han dedicado a desarrollar sistemas de archivos que
combinen y aprovechen las ventajas del inherente paralelismo provisto por
los componentes individuales de los sistemas distribuidos y los sistemas
masivamente paralelos con técnicas que pretendan agilizar los accesos,
dando como resultado los sistemas de archivos paralelos. Además han
aprovechado la arquitectura de las máquinas multiprocesador dividiendo la
jerarquía de entradas/salidas en cuatro niveles:
• Los nodos de procesamiento, que son nodos del sistema dedicados
únicamente al procesamiento de los datos.
• Los nodos de entradas/salidas, que son nodos del sistema dedicados
únicamente a las entradas/salidas.
• Los controladores
• Los dispositivos de E/S.
Se pueden enumerar varias características que se esperaría que un sistema
de archivos paralelo, ideal y de propósito general, tuviera:
• Alto rendimiento, es decir, ejecutar los accesos a los datos de
manera eficiente.
• Alta confiabilidad, para soportar dispositivos de almacenamiento
secundario de gran capacidad y libres de errores.
• Portabilidad, para ser integrado en sistemas heterogéneos fácil y
rápidamente.
• Escalabilidad, para garantizar a los diseñadores la posibilidad de
adicionar nodos de entradas/salidas extra, controladores y dispositivos
de almacenamiento secundario, sin limitación.
16
17. • Transparencia, es decir, que el sistema de archivos preste sus
servicios sin que el usuario se entere de la ubicación física de los
archivos, de los dispositivos que usa para transferirlos, etc.
• Flexibilidad, para soportar una amplia variedad de interfaces y
políticas implementadas a través de librerías.
• Permitir implementaciones de librerías de manera fácil y eficiente.
• Contar con técnicas para clasificar dinámicamente los patrones de
acceso de las aplicaciones y automáticamente adaptar los algoritmos
de manejo de datos a minimizar las latencias de acceso para esos
patrones.
De acuerdo a la forma en que acceden a los archivos y a la frecuencia de
acceso, las aplicaciones se pueden agrupar en:
• Lecturas y escrituras de gran tamaño ejecutadas secuencialmente en
un archivo (o lo que comúnmente es llamado acceso secuencial).
• Procesamiento de transacciones, las cuales típicamente manejan un
gran número de requerimientos concurrentes cuyo tamaño es
usualmente pequeño, involucrando varios dispositivos
simultáneamente (accesos aleatorios concurrentes).
• Accesos a un gran número de archivos pequeños con muy pocos
accesos concurrentes. Los archivos son usualmente cortos (accesos
aleatorios no concurrentes).
También se pueden agrupar teniendo en cuenta la operación que realizan
durante el acceso en:
• De solo lectura
• De solo escritura
• De lectura y escritura
17
18. Caching de Datos: se basa en el principio de que una porción del actual
conjunto de datos cargados en memoria principal es también necesitada para
la computación del próximo conjunto de datos, por tanto pueden ser
reusados en lugar de leerlos de nuevo del disco.
Se ha desarrollado además, un esquema que pretende disminuir la latencia
de transferencia de datos en sistemas de archivos paralelos con archivos de
solo escritura, manejando entradas/salidas colectivas. A diferencia de los
otros esquemas, en éste el caché no se encuentra en los nodos de entradas/
salidas sino en los nodos de procesamiento
18
19. Conclusión
El trabajo desarrollado hasta el momento plantea soluciones a
algunos de los factores ya mencionados como determinantes del desempeño
de las entradas/salidas y otros se enfocan en la consecución de algunas de
las características deseables en ellos, también mencionadas. El problema del
ancho de banda es solucionado en gran medida por los sistemas RAID y
depende del número de discos que conformen el arreglo. El striping también
busca solucionar este problema, indirectamente, pues su finalidad es
aprovechar al máximo el paralelismo y poder acceder a varios dispositivos de
entrada/salida al mismo tiempo. La baja latencia de posicionamiento en los
discos la consiguen también los sistemas RAID, así como la deseada
característica de confiabilidad.
El número de accesos físicos de entradas/salidas se reduce con la
implementación de las entradas/salidas colectivas; esto, por supuesto,
disminuye la congestión en la red ya que varios requerimientos son reunidos
para hacer un solo acceso a los dispositivos.
19