EL ARTE DEL ANÁLISIS DE DATOS: DE LAS HOJAS DE CÁLCULO A R
Curso de extensión en:
Instituto de Humanidades, Artes & Ciências Professor Milton Santos (IHAC)
Universidade Federal da Bahía (UFBA)
Abril 2010
1. El “arte”del análisis de
datos:
De las hojas de cálculo a R
Juan Freire
Universidade da Coruña
http://juanfreire.net/
Instituto de Humanidades, Artes & Ciências Professor Milton Santos (IHAC)
Universidade Federal da Bahía (UFBA)
Abril 2010
2. ¿Para qué el análisis de datos?
• Fuentes de información disponibles
• Hipótesis a priori
• Patrones posibles
3. http://en.wikipedia.org/wiki/Data_analysis
Analysis of data is a process of inspecting, cleaning,
transforming, and modeling data with the goal of
highlighting useful information, suggesting conclusions,
and supporting decision making. Data analysis has
multiple facets and approaches, encompassing diverse
techniques under a variety of names, in different
business, science, and social science domains.
4.
5. Texto
Cultural analytics
(Lev Manovich)
Visualization shows 1048576 Manga pages
Each point represents one page
grey points - all pages in the set
red points - all pages corresponding to a single title: Anatolia Story
(artist: Chie Shinohara)
X axis - brightness mean
Y axis - entropy
6.
7.
8. Antes de iniciar el diseño
del análisis de datos
Análisis cuantitativos ... a veces de
información cualitativa
• Hipótesis
• Exploración de patrones
9. Fuentes de información
- Unidades de información (casos)
- Contenido (variables)
- Tipos de contenido (codificación):
cuantitativo
semi-cuantitativo (ordenado)
categórico
1/0
10. Fases del análisis de datos
a) Diseño de bases de datos: variables
(codificación); casos
b) Exploración de datos - Visualización
c) Depuración de datos: errores, outliers,
redefinición de variables
d) Análisis estadísticos - Visualización
11. Análisis exploratorio
Métodos gráficos
• Depuración de datos
• Visualización de patrones: sugerir hipótesis
• Planificar la obtención de nueva información
12. Gráficos estadísticos
Visualización de datos cuantitativos
• Box-plots
• Histogramas
• Scatter plots
• ...
20. A visualization of thousands of Wikipedia edits that were
made by a single software bot. Each color corresponds to
a different page.
21. Detección de outliers
An outlier is an observation that lies an abnormal
distance from other values in a random sample
from a population. In a sense, this definition leaves
it up to the analyst (or a consensus process) to
decide what will be considered abnormal. Before
abnormal observations can be singled out, it is
necessary to characterize normal observations.
Engeneering Statistics Handbook
40. Software para análisis de
datos y visualización
• Bases de datos
• Hojas de cálculo
• Paquetes de gráficos (+ estadística básica)
• Paquetes estadísticos (+visualización +
lenguaje de programación)
50. Algunos usos de hojas de
cálculo
• Gestión e importación de datos
• Tablas de dinámicas
• Correlación y regresión
51. Sofware estadítico
• SAS: Business Analytics and Business Intelligence
Software. Windows. $$$$$$$. GUI
• IBM SPSS Statistics (antes: Statistical Package for
the Social Sciences). Windows, Mac, Linux. $$$.
GUI
• Statistica. Windows, Mac. $$$. GUI
• R. Software libre. Linux, Mac, Windows. Línea de
comandos
54. ¿Qué es R?
• Lenguaje de programación
• Software libre, gratuito y multiplataforma
• Línea de comandos
• Extensible
• Área de trabajo
55. Paquetes en R
• Colecciones de funciones, datos y código
• compilado
• formato estandarizado
56.
57.
58. Extensiones de la interfaz
• Windows, Mac: Tienen una GUI que te deja hacer
bastantes cosas con menús
• Edición de Scripts:
• Interno a la GUI
• Externo: Tinn-R, R-WinEdt, o mediante
plugins
http://www.wired.com/science/discoveries/magazine/16-07/pb_visualizing
A visualization of thousands of Wikipedia edits that were made by a single software bot. Each color corresponds to a different page. Image: Fernanda B. Viégas, Martin Wattenberg, and Kate Hollenbach