BASES DE DATOS

Para abordar las primeras etapas se plantea la actividad 101, donde se plantea la necesidad de definir un problema, definir unos objetivos y determinar las variables que serán empleadas para poder cumplir con los objetivos planteados.


Continuaremos con una parte importante de esta metodología que está relacionada con la obtención de la información y la construcción de la base de datos.


Una base de datos es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso. Wikipedia



Una base de datos en estadística es un conjunto de información relacionada con una población organizada en filas y columnas. Las columnas corresponden a las variables y las filas están relacionadas con los individuos u objetos de estudio.


Es importante indicar que variables como: número de la encuesta, número de identificación, teléfono, dirección, entre otros, no constituyen variables estadística, aun que pueden ser utilizadas para la identificación de la persona u objeto de donde proviene la información.


Existen repositorio de bases de datos para uso general como:




Base datos iris (dataset R)


data(iris)
head(iris)
##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa



Datos de iris (de Fisher o Anderson) + longitud y ancho del sépalo + largo y ancho de pétalos + especies: setosa, versicolor y virginica.



Base de datos estadísticos se estructura mediante arreglo de filas y columnas (matriz) donde por lo general las columnas representan las variables y las filas los registros de los objetos de estudio

Una base de datos es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso.


Wikipedia

Una base de datos en estadística es un conjunto de información relacionada con una población organizada en filas y columnas. Las columnas corresponden a las variables y las filas están relacionadas con los individuos u objetos de estudio.



Existen repositorio de bases de datos para uso general


Repositorios



data(iris)
library(DT)
DT::datatable(head(iris, 150),fillContainer = FALSE, options = list(pageLength = 8))



Etapas del proceso de datos


Las siguientes etapas comprenden el ciclo de los datos desde la importación hasta la comunicación. Estas etapas suceden al interior de la Metodología Estadística antes mencionada y constituyen una parte muy importante del proceso, pues de la calidad de los datos, depende la calidad de los resultados.





Imagen tomada de : https://bitsandbricks.github.io/ciencia_de_datos_gente_sociable/



Utilizaremos para este proceso el lenguaje estadístico R , bajo RStudio



Importar datos



Origen de los datos


Los datos pueden proceder de diferentes fuentes (tanto primarias como secundarias), dentro de las cuales pueden ser:


  • Encuesta personal (datos primarios)

  • Online ( utilizando sistemas como REDCap, Office 365 - forms)

  • Entrevista cara a cara

  • Entrevista telefónica

  • Investigación propia ( observaciones en laboratorios)

  • Sistema automático de recolección de datos ( webscraping)

  • Fuente externa (datos secundarios : bases de datos abiertos)

  • DANE (o entidades gubernamentales)

  • Cámara de Comercio

  • Agremiaciones (observatorios de gremios)

  • Bancos de datos abiertos



Herramientas computacionales

Algunas de las herramientas utiliziadas en el manejo de información son :

  • Excel

  • SQL

  • Oracle

  • SAS

  • Julia

  • R, RStudio

  • Python

En nuestro caso haremos uso del lenguaje estadístico **R*



Limpieza de datos


Es importante después de haber importado la base de datos, hacer una revisión de cada una de las variables con el fin de poder detectar:

  • Datos faltantes (NA)

  • Datos anómalos o raros

  • Etiquetas mal colocadas ( minúsculas, MAYÚSCULAS, Titulo…)

Existen metodologías para corregir estos problemas sin afectar la información contenida en la data, para lo cual debemos realizar una verificación inicial mediante la construcción de tablas y resumen de datos.



Ficha técnica


Las bases de datos debe estar acompañadas de una ficha técnica donde si indican sus principales características :




Importar bases de datos


Los datos se pueden importar de diferentes formas :



Ayudas:



Importar datos desde la dataset de R


data("mtcars")
head(mtcars, n=3)
##                mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4     21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag 21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710    22.8   4  108  93 3.85 2.320 18.61  1  1    4    1



Importar los datos en formato xlsx


  • RStudio usando ventanas : File/ Import Dataset / From Excel…

  • RStudio usando comandos :



Importar datos en formato csv


El formato csv es uno de los mas utilizados para el almacenamiento de datos estructurados (agrupados en filas y columnas) . El termino csv significa “valores separados por comas”

  • RStudio usando ventanas : File/ Import Dataset / From Text (base)…

  • RStudio usando comandos :


Código R
library(readr)
casas <- read_delim("data/casas.csv", delim = ";", escape_double = FALSE, trim_ws = TRUE)
library(readr)
casas <- read_delim("data/casas.csv", delim = ";", escape_double = FALSE, trim_ws = TRUE)

Otro ejemplo para importar una base de datos en formato csv :

  • Selecciono una base de datos de mi interés (portal FiveThirtyEight: https://data.fivethirtyeight.com/ - base de datos Predicción de clubes de fútbol)

  • Descargo la base de datos y la guardo en la carpeta de trabajo

  • Importo la base a RStudio


Código R
library(DT)
clasificacion=read.csv("data/spi_global_rankings_intl.csv")
datatable(head(clasificacion, 218),fillContainer = FALSE, options = list(pageLength = 3))
library(DT)
clasificacion=read.csv("data/spi_global_rankings_intl.csv")
datatable(head(clasificacion, 218),fillContainer = FALSE, options = list(pageLength = 3))



Importar datos de manera automática


La API de datos abiertos de Socrata le permite acceder mediante programación a una gran cantidad de recursos de datos abiertos de gobiernos, organizaciones sin fines de lucro y ONG de todo el mundo. Haga clic en el enlace de abajo y pruebe un ejemplo en vivo ahora mismo.

https://dev.socrata.com/

Cargar la base de datos de COVID-19 Colombia


Código R
# install.packages("RSocrata")
 library(RSocrata)
 token ="ew2rEMuESuzWPqMkyPfOSGJgE"
 Colombia= read.socrata("https://www.datos.gov.co/resource/gt2j-8ykr.json", app_token = token)
 saveRDS(Colombia,"data/Colombia.RDS")
# install.packages("RSocrata")
 library(RSocrata)
 token ="ew2rEMuESuzWPqMkyPfOSGJgE"
 Colombia= read.socrata("https://www.datos.gov.co/resource/gt2j-8ykr.json", app_token = token)
 saveRDS(Colombia,"data/Colombia.RDS")


Nota

Se requiere solicitar token en la pagina de los datos