preloader

Naturaleza de los caracteres: Atributos y Variables

4 de enero de 2018 | 5 minutos de lectura
Índice de contenido

Resumen:
En este tutorial aprenderá cómo añadir una leyenda en R y cómo personalizarla.
¿Cómo citar el presente artículo?
Romero, J. (Enero 1, 2019). Añadir leyendas a un gráfico en R. R.JeshuaRomeroGuadarrama. https://www.r.jeshuaromeroguadarrama.com/es/blog/r/graficos/leyendas/.
Añadir leyendas a un gráfico en R by Jeshua Romero Guadarrama, available under Attribution 4.0 International (CC BY 4.0) at https://www.r.jeshuaromeroguadarrama.com/es/blog/r/graficos/leyendas/.

Naturaleza de los caracteres: Atributos y Variables

Respecto a la cantidad de información que porta cada tipo de carácter, se puede considerar que los caracteres nominales son los más “pobres”, puesto que ni siquiera poseen orden.

En contraste, los caracteres más ricos son los cuantitativos, como son las escalas de intervalo y razones (los cuales tienen orden). En el caso de las razones, el cero lo es en términos absolutos; es decir, el 0 representa la ausencia de la característica.

Cuadro 1.1: Tipos de variables

NivelResumenEjemploInterpretación
NominalCategorías nombradas (sin orden):
Los datos no pueden acomodarse en un esquema de orden.
Origen de estudiantes:
CDMX, Guanajuato, Puebla y Oaxaca.
Categorías mencionadas.
OrdinalCategorías nombradas (con orden):
Los datos no presentan diferencias (pueden carecen de significado).
Grado escolar:
Primaria, secundaria y preparatoria.
Categorías ordenadas.
IntervaloNo existe un punto de partida cero natural:
Las diferencias tienen un significado, aunque los cocientes no tienen significado.
Temperaturas:
$5^{\circ} F$, \(20^{\circ} F\) y \(40^{\circ} F\)
En este caso, \(0^{\circ} F\) no significa “sin calor”.
Por tanto, \(40^{\circ} F\) no es dos veces más caliente que \(20^{\circ} F\).
RazónExiste un punto de partida cero natural:
Las diferencias tienen un significado y los cocientes tienen significado.
Distancia:
$5 km$, \(20 km\) y \(40 km\)
En este caso, \(0 km\) significa “sin distancia”.
Por tanto, \(40 km\) es dos veces más lejano que \(20 km\).

Ejemplo 1.1:
El caso más evidente para apreciar las diferencias entre las escalas de intervalo y las razones o escalas de cociente, lo ofrece el termómetro.
Un termómetro genera una variable de escala de intervalo, porque la diferencia real entre 2 y 3 grados es la misma que entre 40 y 41 grados, pero no se puede decir que cuando el termómetro marca 30 grados hace el doble de calor que cuando marca 15.
Por otra parte, muchas magnitudes físicas (como el peso, la longitud o la intensidad de corriente), son razones porque, tomando de ejemplo el caso del peso, un objeto de 20 kilogramos pesa el doble que otro de 10 kilogramos.
En otras palabras, existe el cero absoluto.

Como ya se ha comentado, la naturaleza del carácter condicionará su tratamiento, aunque en ningún caso hay que confundir la cantidad de información que porta con su valor intrínseco para analizar a los individuos del colectivo.

En una primera instancia, se distinguirá entre los caracteres que no están ordenados y los que sí lo están, los primeros jugarán en general un rol de atributos, mientras que los segundos habitualmente actuarán como variables.

Los atributos tendrán la misión de establecer clases, dividiendo el colectivo global en subgrupos o categorías; por su parte, las variables caracterizarán a dichos subgrupos e intentarán establecer diferencias entre unos y otros, para lo que necesariamente se debe considerar algun tipo de métrica.

Sin embargo, la regla anterior tiene muchas excepciones. En ocasiones, un carácter llamado a adoptar el papel de variable podría, mediante una operación de punto de corte, actuar como atributo.

De igual forma, es factible definir una medida de asociación sobre caracteres intrínsecamente de clase que permita caracterizar a los individuos del colectivo con base en una serie de atributos.

Ejemplo 1.2:
Es habitual que la edad, que es intrínsecamente una variable (medida en un soporte temporal), se emplee para dividir la población en clases dando cortes en el intervalo de tiempo.
En consecuencia, se pueden obtener grupos de alevines, por ejemplo, adultos y maduros de una comunidad de peces y adoptando por tanto la variable un rol de atributo.
En el extremo opuesto, hay investigaciones médicas que relacionan el tipo de patología con el sexo del paciente y con el desenlace de la enfermedad, caracteres todos ellos intrínsecamente atributos.

Las variables pueden clasificarse según su conjunto soporte. El soporte de una variable es el conjunto de todos los posibles valores que toma:

  • Cuando el conjunto soporte es finito o numerable se habla de variable discreta (solo toma valores enteros como \(1\), \(2\), \(3\) y \(4\)).
  • Por el contrario, cuando el conjunto soporte es no numerable, se habla de variable continua (toma valores decimales como \(1.5\), \(2\), \(3.5\) y \(4\)).
  • Si la variable continua no toma valores en puntos aislados se dice absolutamente continua.

Esta diferencia tendrá relevancia cuando se planteen estructuras de probabilidad para modelizar la población bajo estudio.

Ejemplo 1.3:
El número de lunares en la piel de pacientes aquejados de una cierta patología, el número de hijos de las familias de una comunidad o el número de meteoritos que surcan una cierta región estelar en periodos de tiempo determinados son variables discretas.
La distancia por carretera entre las capitales de provincia mexicanas, el tiempo de reacción de los corredores de una carrera de 100 metros o las longitudes de los cabellos de una persona son variables continuas.

Una vez identificadas, recolectadas y organizadas, las variables serán tratadas estadísticamente combinando un análisis numérico, a través de una serie de medidas estadísticas, con representaciones gráficas.

El software estadístico R ofrece una amplia gama de ambos elementos: Análisis numéricos y gráficos, aunque conviene ser selectivos y tomar aquellos que verdaderamente aportan información relevante.

A tal efecto, se proponen las siguientes opciones:

Cuadro 1.2: Medidas y gráficos según tipo de variable

Escala de medidaMedidas centralesMedidas de dispersiónRepresentaciones gráficas
AtributoModa
Porcentajes
Diagrama de sectores
OrdenaciónMediana
Percentiles
Recorrido
Intercuartílico
Diagrama de barras
RecuentoMediaDesviación típicaDiagrama de barras
IntervaloMediaDesviación típicaHistograma
RazónMedia geométricaCoeficiente de variaciónHistograma
Diagrama de dispersión
Diagrama de cajas

En última instancia, corresponde al investigador el tomar las decisiones correctas en cada momento; de tal forma que, sin transgredir los principios básicos, den como resultado un análisis eficiente de los datos.

Referencias


  • Romero, G. J. (2022) Estadística avanzada con R. JeshuaNomics
comments powered by Disqus

popular post

Problemas de transporte y asignación

Resumen: Existen dos tipos de problemas especiales en la investigación de operaciones, los problemas de transporte y de asignación.

Leer más

Programación lineal

Resumen: Utilizar R para resolver problemas de programación lineal vinculados a la investigación de operaciones.

Leer más

Programación lineal entera

Resumen: Utilizar R para resolver problemas de programación lineal entera vinculados a la investigación de operaciones.

Leer más