Naturaleza de los caracteres: Atributos y Variables
Índice de contenido
Resumen:
En este tutorial aprenderá cómo añadir una leyenda en R y cómo personalizarla.
¿Cómo citar el presente artículo?
Romero, J. (Enero 1, 2019). Añadir leyendas a un gráfico en R. R.JeshuaRomeroGuadarrama. https://www.r.jeshuaromeroguadarrama.com/es/blog/r/graficos/leyendas/.
Añadir leyendas a un gráfico en R by Jeshua Romero Guadarrama, available under Attribution 4.0 International (CC BY 4.0) at https://www.r.jeshuaromeroguadarrama.com/es/blog/r/graficos/leyendas/.
Naturaleza de los caracteres: Atributos y Variables
Respecto a la cantidad de información que porta cada tipo de carácter, se puede considerar que los caracteres nominales son los más “pobres”, puesto que ni siquiera poseen orden.
En contraste, los caracteres más ricos son los cuantitativos, como son las escalas de intervalo y razones (los cuales tienen orden). En el caso de las razones, el cero lo es en términos absolutos; es decir, el 0 representa la ausencia de la característica.
Cuadro 1.1: Tipos de variables
Nivel | Resumen | Ejemplo | Interpretación |
---|---|---|---|
Nominal | Categorías nombradas (sin orden): Los datos no pueden acomodarse en un esquema de orden. | Origen de estudiantes: CDMX, Guanajuato, Puebla y Oaxaca. | Categorías mencionadas. |
Ordinal | Categorías nombradas (con orden): Los datos no presentan diferencias (pueden carecen de significado). | Grado escolar: Primaria, secundaria y preparatoria. | Categorías ordenadas. |
Intervalo | No existe un punto de partida cero natural: Las diferencias tienen un significado, aunque los cocientes no tienen significado. | Temperaturas: $5^{\circ} F$, \(20^{\circ} F\) y \(40^{\circ} F\) | En este caso, \(0^{\circ} F\) no significa “sin calor”.Por tanto, \(40^{\circ} F\) no es dos veces más caliente que \(20^{\circ} F\) . |
Razón | Existe un punto de partida cero natural: Las diferencias tienen un significado y los cocientes tienen significado. | Distancia: $5 km$, \(20 km\) y \(40 km\) | En este caso, \(0 km\) significa “sin distancia”.Por tanto, \(40 km\) es dos veces más lejano que \(20 km\) . |
Ejemplo 1.1:
El caso más evidente para apreciar las diferencias entre las escalas de intervalo y las razones o escalas de cociente, lo ofrece el termómetro.
Un termómetro genera una variable de escala de intervalo, porque la diferencia real entre 2 y 3 grados es la misma que entre 40 y 41 grados, pero no se puede decir que cuando el termómetro marca 30 grados hace el doble de calor que cuando marca 15.
Por otra parte, muchas magnitudes físicas (como el peso, la longitud o la intensidad de corriente), son razones porque, tomando de ejemplo el caso del peso, un objeto de 20 kilogramos pesa el doble que otro de 10 kilogramos.
En otras palabras, existe el cero absoluto.
Como ya se ha comentado, la naturaleza del carácter condicionará su tratamiento, aunque en ningún caso hay que confundir la cantidad de información que porta con su valor intrínseco para analizar a los individuos del colectivo.
En una primera instancia, se distinguirá entre los caracteres que no están ordenados y los que sí lo están, los primeros jugarán en general un rol de atributos, mientras que los segundos habitualmente actuarán como variables.
Los atributos tendrán la misión de establecer clases, dividiendo el colectivo global en subgrupos o categorías; por su parte, las variables caracterizarán a dichos subgrupos e intentarán establecer diferencias entre unos y otros, para lo que necesariamente se debe considerar algun tipo de métrica.
Sin embargo, la regla anterior tiene muchas excepciones. En ocasiones, un carácter llamado a adoptar el papel de variable podría, mediante una operación de punto de corte, actuar como atributo.
De igual forma, es factible definir una medida de asociación sobre caracteres intrínsecamente de clase que permita caracterizar a los individuos del colectivo con base en una serie de atributos.
Ejemplo 1.2:
Es habitual que la edad, que es intrínsecamente una variable (medida en un soporte temporal), se emplee para dividir la población en clases dando cortes en el intervalo de tiempo.
En consecuencia, se pueden obtener grupos de alevines, por ejemplo, adultos y maduros de una comunidad de peces y adoptando por tanto la variable un rol de atributo.
En el extremo opuesto, hay investigaciones médicas que relacionan el tipo de patología con el sexo del paciente y con el desenlace de la enfermedad, caracteres todos ellos intrínsecamente atributos.
Las variables pueden clasificarse según su conjunto soporte. El soporte de una variable es el conjunto de todos los posibles valores que toma:
- Cuando el conjunto soporte es finito o numerable se habla de variable discreta (solo toma valores enteros como
\(1\)
,\(2\)
,\(3\)
y\(4\)
). - Por el contrario, cuando el conjunto soporte es no numerable, se habla de variable continua (toma valores decimales como
\(1.5\)
,\(2\)
,\(3.5\)
y\(4\)
). - Si la variable continua no toma valores en puntos aislados se dice absolutamente continua.
Esta diferencia tendrá relevancia cuando se planteen estructuras de probabilidad para modelizar la población bajo estudio.
Ejemplo 1.3:
El número de lunares en la piel de pacientes aquejados de una cierta patología, el número de hijos de las familias de una comunidad o el número de meteoritos que surcan una cierta región estelar en periodos de tiempo determinados son variables discretas.
La distancia por carretera entre las capitales de provincia mexicanas, el tiempo de reacción de los corredores de una carrera de 100 metros o las longitudes de los cabellos de una persona son variables continuas.
Una vez identificadas, recolectadas y organizadas, las variables serán tratadas estadísticamente combinando un análisis numérico, a través de una serie de medidas estadísticas, con representaciones gráficas.
El software estadístico R ofrece una amplia gama de ambos elementos: Análisis numéricos y gráficos, aunque conviene ser selectivos y tomar aquellos que verdaderamente aportan información relevante.
A tal efecto, se proponen las siguientes opciones:
Cuadro 1.2: Medidas y gráficos según tipo de variable
Escala de medida | Medidas centrales | Medidas de dispersión | Representaciones gráficas |
---|---|---|---|
Atributo | Moda Porcentajes | Diagrama de sectores | |
Ordenación | Mediana Percentiles | Recorrido Intercuartílico | Diagrama de barras |
Recuento | Media | Desviación típica | Diagrama de barras |
Intervalo | Media | Desviación típica | Histograma |
Razón | Media geométrica | Coeficiente de variación | Histograma Diagrama de dispersión Diagrama de cajas |
En última instancia, corresponde al investigador el tomar las decisiones correctas en cada momento; de tal forma que, sin transgredir los principios básicos, den como resultado un análisis eficiente de los datos.
Referencias
- Romero, G. J. (2022) Estadística avanzada con R. JeshuaNomics
popular post
Problemas de transporte y asignación
Resumen: Existen dos tipos de problemas especiales en la investigación de operaciones, los problemas de transporte y de asignación.
Leer másProgramación lineal
Resumen: Utilizar R para resolver problemas de programación lineal vinculados a la investigación de operaciones.
Leer másProgramación lineal entera
Resumen: Utilizar R para resolver problemas de programación lineal entera vinculados a la investigación de operaciones.
Leer más