Lectura de una base de datos en formato “.csv”

Mediante la función read.csv2() se puede leer una base de datos que se ha guardado de Excel en formato “.csv”.

Se utiliza read.csv2() cuando el separador de campos es punto y coma (;) y el símbolo para decimales es la coma (,). Este formato suele ser el formato latinoamericano.

Para bases de datos con el formato aglosajón se utiliza la función read.csv() en donde el separador es coma (,) y el símbolo para decimales es el punto (.).

En el siguiente ejemplo el formato es latinoamericano.

encuestaHabitos <- read.csv2("HabitosEstudio.csv", enc = "utf8")

Mostrar las dimensiones de la base de datos

dim(encuestaHabitos)
## [1] 67 25

Esto indica que se tienen 67 observaciones y 25 variables, o también que la tabla de datos tiene 67 filas y 25 columnas.

Trabajo con la base de datos

Mostrar los nombres de las columnas de la base de datos.

names(encuestaHabitos)
##  [1] "NroEnc"           "Género"           "Edad"             "Carrera"          "Semestre"        
##  [6] "Estrato"          "PromAcad"         "Tmpo_U"           "Hora_U"           "H01_Casa"        
## [11] "H02_Notas_lin"    "H03_Horario"      "H04_Musica"       "H05_Lugar_Fijo"   "H06_Lee"         
## [16] "H07_TemasDif"     "H08_Amigos"       "H09_Pausas"       "H10_Trasnocha"    "H11_Subraya"     
## [21] "H12_Duerma_bien"  "H13_Margen"       "H14_Memoriza"     "H15_Solucionario" "H16_ResuelveSolo"

Muestra los primeros registros de la base de datos

head(encuestaHabitos)
##   NroEnc    Género Edad     Carrera Semestre Estrato PromAcad Tmpo_U   Hora_U H01_Casa
## 1      1 Masculino   19 Estadística        2       4      4.0     40 07:40:00        1
## 2      2  Femenino   21 Estadística        2       4      3.9     30 05:50:00        1
## 3      3  Femenino   21 Estadística        2       2      3.8     15 08:00:00        1
## 4      4 Masculino   19 Estadística        2       4      3.6     15 06:10:00        1
## 5      5 Masculino   19 Estadística        2       1      4.0     15 07:35:00        1
## 6      6 Masculino   20 Estadística        3       2      3.4     20 08:05:00        1
##   H02_Notas_lin H03_Horario H04_Musica H05_Lugar_Fijo H06_Lee H07_TemasDif H08_Amigos H09_Pausas
## 1             0           1          0              1       0            0          1          0
## 2             1           0          0              0       0            0          1          1
## 3             0           1          1              1       0            1          1          0
## 4             1           0          1              1       0            0          1          1
## 5             1           0          1              0       1            1          1          1
## 6             1           0          1              0       1            0          0          1
##   H10_Trasnocha H11_Subraya H12_Duerma_bien H13_Margen H14_Memoriza H15_Solucionario
## 1             0           1               0          0            1                1
## 2             0           1               0          1            0                1
## 3             0           1               1          0            0                0
## 4             0           0               1          0            0                1
## 5             0           1               1          1            1                0
## 6             1           0               0          0            0                1
##   H16_ResuelveSolo
## 1                1
## 2                0
## 3                1
## 4                1
## 5                1
## 6                0

Muestra los último regístros de la base de datos.

tail(encuestaHabitos)
##    NroEnc    Género Edad        Carrera Semestre Estrato PromAcad Tmpo_U   Hora_U H01_Casa
## 62     63 Masculino   17 Ing. Sistemas         3       3      4.1     25 07:51:00        1
## 63     64 Masculino   21 Ing. Sistemas         9       2      3.2     25 07:55:00        1
## 64     65 Masculino   19 Ing. Sistemas         2       3      3.5     25 08:06:00        1
## 65     66 Masculino   19 Ing. Sistemas         6       1      4.1     NA 08:10:00        1
## 66     67 Masculino   18 Ing. Sistemas         3       3      3.0     15 07:45:00        1
## 67     68  Femenino   23 Ing. Sistemas         3       2      3.9     20 08:25:00        1
##    H02_Notas_lin H03_Horario H04_Musica H05_Lugar_Fijo H06_Lee H07_TemasDif H08_Amigos H09_Pausas
## 62             1           0          1              1       0            1          1          1
## 63             1           0          0              0       0            1          0          1
## 64             1           0          0              1       1            0          0          1
## 65             1           0          1              0       1            0          1          1
## 66             0           1          0              0       1            0          1          1
## 67             1           0          1              1       1            0          1          1
##    H10_Trasnocha H11_Subraya H12_Duerma_bien H13_Margen H14_Memoriza H15_Solucionario
## 62             0           0               0          0            0                1
## 63             1           0               0          0            0                1
## 64             1           0               1          1            1                1
## 65             1           0               0          0            0                1
## 66             1           0               0          1            1                1
## 67             0           0               1          0            1                0
##    H16_ResuelveSolo
## 62                1
## 63                1
## 64                1
## 65                1
## 66                0
## 67                1

Muestra sólo algunas columnas seleccionadas

subset(encuestaHabitos, select = c(NroEnc,Estrato,PromAcad))
##    NroEnc Estrato PromAcad
## 1       1       4      4.0
## 2       2       4      3.9
## 3       3       2      3.8
## 4       4       4      3.6
## 5       5       1      4.0
## 6       6       2      3.4
## 7       7       3      3.6
## 8       8       3      3.8
## 9       9       3      3.1
## 10     10       4      3.3
## 11     11       4      3.6
## 12     12       3      3.8
## 13     13       3      3.9
## 14     14       2      3.1
## 15     15       3      3.3
## 16     16       2      3.6
## 17     17       2      4.0
## 18     18       2      3.9
## 19     19       3      3.4
## 20     20       4      3.6
## 21     21       3      4.5
## 22     22       3      4.1
## 23     23       3      3.5
## 24     24       3      4.3
## 25     25       1      3.2
## 26     26       2      4.0
## 27     27       3      3.6
## 28     28       1      3.9
## 29     29       2      4.2
## 30     30       2      3.3
## 31     31       3      4.0
## 32     32       2      3.4
## 33     33       3      3.7
## 34     34       3      3.9
## 35     35       4      3.4
## 36     36       3      4.0
## 37     37       1      4.3
## 38     38       4      2.7
## 39     39       4      4.4
## 40     40       3      4.0
## 41     41       4      4.0
## 42     42       4      4.1
## 43     43       2      4.1
## 44     44       4      3.5
## 45     45       3      3.4
## 46     46       4      4.0
## 47     47       1      4.0
## 48     48       3      3.2
## 49     49       2      3.6
## 50     50       4      4.2
## 51     51       3      4.7
## 52     52       3      3.5
## 53     53       3      3.4
## 54     54       2      4.5
## 55     55       4      3.7
## 56     56       3      3.8
## 57     57       2      3.6
## 58     59       3      4.3
## 59     60       3      3.3
## 60     61       3      3.8
## 61     62       1      3.6
## 62     63       3      4.1
## 63     64       2      3.2
## 64     65       3      3.5
## 65     66       1      4.1
## 66     67       3      3.0
## 67     68       2      3.9

Muestra sólo algunos renglones de acuerdo a algun criterio.

subset(encuestaHabitos, PromAcad < 3.5)
##    NroEnc    Género Edad        Carrera Semestre Estrato PromAcad Tmpo_U   Hora_U H01_Casa
## 6       6 Masculino   20    Estadística        3       2      3.4     20 08:05:00        1
## 9       9 Masculino   18    Estadística        2       3      3.1     30 08:15:00        1
## 10     10 Masculino   20 Ing. Sistemas         3       4      3.3     20 07:43:00        1
## 14     14 Masculino   20 Ing. Sistemas         5       2      3.1     40 07:55:00        1
## 15     15 Masculino   19 Ing. Sistemas         5       3      3.3     55 08:10:00        1
## 19     19 Masculino   19 Ing. Sistemas         4       3      3.4     35 05:50:00        1
## 25     25 Masculino   26 Ing. Sistemas         4       1      3.2     35 08:10:00        1
## 30     30 Masculino   22 Ing. Sistemas         2       2      3.3     15 07:55:00        1
## 32     32 Masculino   18 Ing. Sistemas         2       2      3.4     30 07:50:00        1
## 35     35 Masculino   17    Estadística        2       4      3.4     15 05:44:00        1
## 38     38 Masculino   20    Estadística        3       4      2.7     40 05:55:00        1
## 45     45 Masculino   21    Estadística        2       3      3.4      3 05:55:00        1
## 48     48 Masculino   17    Estadística        2       3      3.2     15 05:40:00        1
## 53     53 Masculino   19 Ing. Sistemas         3       3      3.4     20 05:50:00        1
## 59     60 Masculino   24 Ing. Sistemas         3       3      3.3     35 07:45:00        1
## 63     64 Masculino   21 Ing. Sistemas         9       2      3.2     25 07:55:00        1
## 66     67 Masculino   18 Ing. Sistemas         3       3      3.0     15 07:45:00        1
##    H02_Notas_lin H03_Horario H04_Musica H05_Lugar_Fijo H06_Lee H07_TemasDif H08_Amigos H09_Pausas
## 6              1           0          1              0       1            0          0          1
## 9              1           0          0              0       1            0          0          0
## 10             1           0          0              1       1            1          0          1
## 14             1           1          1              1       1            0          1          1
## 15             1           0          0              0       1            0          1          1
## 19             0           0          0              0       0            1          1          1
## 25             0           0          0              0       0            0          1          1
## 30             1           0          0              1       1            0          1          1
## 32             1           0          0              0       1            1          0          1
## 35             1           0          0              1       1            0          0          1
## 38             1           0          1              0       1            1          1          1
## 45             1           0          0              0       1            0          1          1
## 48             0           0          0              1       1            0          0          1
## 53             0           0          0              1       1            1          1          0
## 59             0           0          1              0       1            1          1          1
## 63             1           0          0              0       0            1          0          1
## 66             0           1          0              0       1            0          1          1
##    H10_Trasnocha H11_Subraya H12_Duerma_bien H13_Margen H14_Memoriza H15_Solucionario
## 6              1           0               0          0            0                1
## 9              0           0               1          0            0                0
## 10             0           0               0          0            0                1
## 14             1           0               1          0            0                1
## 15             1           0               0          1            0                1
## 19             1           0               1          0            0                1
## 25             1           0               0          0            1                1
## 30             0           0               1          0            0                1
## 32             0           0               1          0            1                1
## 35             0           0               1          1            1                1
## 38             0           0               1          1            1                0
## 45             0           1               1          1            1                1
## 48             0           1               1          1            1                1
## 53             0           0               1          0            0                0
## 59             0           0               1          0            1                1
## 63             1           0               0          0            0                1
## 66             1           0               0          1            1                1
##    H16_ResuelveSolo
## 6                 0
## 9                 1
## 10                1
## 14                0
## 15                1
## 19                1
## 25                1
## 30                1
## 32                0
## 35                1
## 38                1
## 45                1
## 48                0
## 53                1
## 59                1
## 63                1
## 66                0

Combinación de criterios de una base de datos.

subset(encuestaHabitos, select = c(NroEnc,Estrato,PromAcad), PromAcad < 3.5)
##    NroEnc Estrato PromAcad
## 6       6       2      3.4
## 9       9       3      3.1
## 10     10       4      3.3
## 14     14       2      3.1
## 15     15       3      3.3
## 19     19       3      3.4
## 25     25       1      3.2
## 30     30       2      3.3
## 32     32       2      3.4
## 35     35       4      3.4
## 38     38       4      2.7
## 45     45       3      3.4
## 48     48       3      3.2
## 53     53       3      3.4
## 59     60       3      3.3
## 63     64       2      3.2
## 66     67       3      3.0

Guardar una subbase con algún criterio

# Guarda en alguna subbase las mujeres de estrato mayor o igual a 3.
encuestaHabitos2 <- subset(encuestaHabitos, Género == "Femenino" & Estrato >= 3)
# Ver las dimensiones de la nueva base de datos
dim(encuestaHabitos2)
## [1] 14 25

Hallar estadísticos resumen de la subbase

# Muestra los estadísticos resumen de la subbase calculada.
summary(encuestaHabitos2)
##      NroEnc            Género        Edad                 Carrera      Semestre     
##  Min.   : 2.00   Femenino :14   Min.   :16.00   Estadística   :11   Min.   : 2.000  
##  1st Qu.:21.25   Masculino: 0   1st Qu.:18.00   Ing. Sistemas : 3   1st Qu.: 2.000  
##  Median :29.00                  Median :18.00                       Median : 2.000  
##  Mean   :28.50                  Mean   :18.64                       Mean   : 2.857  
##  3rd Qu.:37.75                  3rd Qu.:19.75                       3rd Qu.: 2.000  
##  Max.   :59.00                  Max.   :22.00                       Max.   :10.000  
##                                                                                     
##     Estrato         PromAcad         Tmpo_U           Hora_U     H01_Casa H02_Notas_lin   
##  Min.   :3.000   Min.   :3.600   Min.   :10.00   06:00:00:4   Min.   :1   Min.   :0.0000  
##  1st Qu.:3.000   1st Qu.:3.900   1st Qu.:16.25   05:45:00:2   1st Qu.:1   1st Qu.:0.0000  
##  Median :3.000   Median :4.000   Median :30.00   05:50:00:2   Median :1   Median :1.0000  
##  Mean   :3.357   Mean   :4.021   Mean   :29.64   05:57:00:1   Mean   :1   Mean   :0.6429  
##  3rd Qu.:4.000   3rd Qu.:4.250   3rd Qu.:33.75   06:05:00:1   3rd Qu.:1   3rd Qu.:1.0000  
##  Max.   :4.000   Max.   :4.500   Max.   :60.00   07:50:00:1   Max.   :1   Max.   :1.0000  
##                                                  (Other) :3                               
##   H03_Horario       H04_Musica     H05_Lugar_Fijo      H06_Lee        H07_TemasDif   H08_Amigos    
##  Min.   :0.0000   Min.   :0.0000   Min.   :0.0000   Min.   :0.0000   Min.   :0.0   Min.   :0.0000  
##  1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.0   1st Qu.:0.0000  
##  Median :0.0000   Median :0.0000   Median :0.0000   Median :1.0000   Median :0.5   Median :1.0000  
##  Mean   :0.3571   Mean   :0.2143   Mean   :0.4286   Mean   :0.5714   Mean   :0.5   Mean   :0.6429  
##  3rd Qu.:1.0000   3rd Qu.:0.0000   3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:1.0   3rd Qu.:1.0000  
##  Max.   :1.0000   Max.   :1.0000   Max.   :1.0000   Max.   :1.0000   Max.   :1.0   Max.   :1.0000  
##                                                                                                    
##    H09_Pausas     H10_Trasnocha     H11_Subraya     H12_Duerma_bien    H13_Margen   H14_Memoriza   
##  Min.   :0.0000   Min.   :0.0000   Min.   :0.0000   Min.   :0.0000   Min.   :0.0   Min.   :0.0000  
##  1st Qu.:0.2500   1st Qu.:0.0000   1st Qu.:1.0000   1st Qu.:0.0000   1st Qu.:0.0   1st Qu.:0.0000  
##  Median :1.0000   Median :0.0000   Median :1.0000   Median :1.0000   Median :0.5   Median :0.0000  
##  Mean   :0.7143   Mean   :0.1429   Mean   :0.7857   Mean   :0.6429   Mean   :0.5   Mean   :0.1429  
##  3rd Qu.:1.0000   3rd Qu.:0.0000   3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:1.0   3rd Qu.:0.0000  
##  Max.   :1.0000   Max.   :1.0000   Max.   :1.0000   Max.   :1.0000   Max.   :1.0   Max.   :1.0000  
##                                                                                                    
##  H15_Solucionario H16_ResuelveSolo
##  Min.   :0.0000   Min.   :0.0000  
##  1st Qu.:0.0000   1st Qu.:1.0000  
##  Median :0.0000   Median :1.0000  
##  Mean   :0.4286   Mean   :0.9286  
##  3rd Qu.:1.0000   3rd Qu.:1.0000  
##  Max.   :1.0000   Max.   :1.0000  
## 

Seleccionar un hábito de estudio y variables de análisis de la subbase.

# Selección del hábito de estudio Trasnocha.
encuestaHabitos3 <- subset(encuestaHabitos2, 
                  select = c(Edad, Carrera, Estrato, PromAcad, H10_Trasnocha))

Hallar los estadísticos de la base seleccionada.

# Resumen de valores estadísticos del promedio académico para toda la base
# de datos seleccionada.
summary(encuestaHabitos3$PromAcad)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.600   3.900   4.000   4.021   4.250   4.500
# Hallar una tabla de frecuencia de los que trasnochan o no de
# la subbase hallada
with(encuestaHabitos3, table(H10_Trasnocha))
## H10_Trasnocha
##  0  1 
## 12  2
# Hallar estadísticos básicos para los que NO tranochan.
# Estadísticos básicos.
with(subset(encuestaHabitos3, H10_Trasnocha == 0), summary(PromAcad))
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.60    3.90    4.00    4.05    4.30    4.50
# Desviación estándar
with(subset(encuestaHabitos3, H10_Trasnocha == 0), sd(PromAcad))
## [1] 0.2779797
# Hallar estadísticos básicos para los que SI tranochan.
# Estadísticos básicos.
with(subset(encuestaHabitos3, H10_Trasnocha == 1), summary(PromAcad))
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.600   3.725   3.850   3.850   3.975   4.100
# Desviación estándar
with(subset(encuestaHabitos3, H10_Trasnocha == 1), sd(PromAcad))
## [1] 0.3535534

Gráfica sencilla sin “pulir”

# Gráfica sencilla sin ser mejorada
with(encuestaHabitos3, plot(H10_Trasnocha, PromAcad))