La organización de la información

3 de enero de 2018 | 4 minutos de lectura

categories : Basic Statistics

Índice de contenido

Resumen:
En este tutorial aprenderá cómo añadir una leyenda en R y cómo personalizarla.
¿Cómo citar el presente artículo?
Romero, J. (Enero 1, 2019). Añadir leyendas a un gráfico en R. R.JeshuaRomeroGuadarrama. https://www.r.jeshuaromeroguadarrama.com/es/blog/r/graficos/leyendas/.
Añadir leyendas a un gráfico en R by Jeshua Romero Guadarrama, available under Attribution 4.0 International (CC BY 4.0) at https://www.r.jeshuaromeroguadarrama.com/es/blog/r/graficos/leyendas/.

La organización de la información

Al conjunto de individuos físicos considerados en un análisis se le denominará Colectivo o Población, aunque también se utilizarán esos mismos términos para referirse a la(s) característica(s) de esos individuos que son objeto de estudio.

De hecho, desde un punto de vista estadístico, los individuos sólo interesan como portadores de rasgos que son susceptibles de marcar diferencias entre ellos. La obtención y materialización en formato analógico o digital de las características consideradas constituirá el conjunto de datos que será estadísticamente analizado.

Los datos constituyen pues la materia prima de la Estadística, pudiéndose establecer distintas clasificaciones en función de la forma en que vengan los dados. Se obtienen datos al realizar cualquier tipo de prueba, experimento, valoración, medición, observación, …, dependiendo de la naturaleza de los mismos y del método empleado para su obtención.

Una vez obtenidos los datos por los procedimientos que se consideren pertinentes, pueden generarse nuevos datos mediante transformación y/o combinación de las variables originales. Al conjunto de datos convenientemente organizados se le llamará modelo de datos.

Definición de una matriz de datos

En una primera instancia se supondrá que, sobre un conjunto de \(n\) individuos físicos, se obtienen una serie de \(k\) caracteres u observaciones de igual o distinta naturaleza.

Se debe tener en cuenta, desde este momento, que la calidad del análisis que se realice, va a depender de la habilidad que se tenga a la hora de seleccionar los caracteres que se obtendrán del conjunto de individuos seleccionados.

Los datos obtenidos se organizarán en una matriz \(n \times k\), donde cada fila representa a un individuo o registro y las columnas a las características observadas.

Resulta importante mencionar que las columnas tendrán naturaleza homogénea, pudiendo tratarse de caracteres nominales, dicotómicos o politómicos, presencias-ausencias, ordenaciones, conteos, escalas de intervalo, razones,…; también se podrían tener variables compuestas como ratios, densidades,…En ocasiones se añade una columna que se suele colocar en primer lugar y que asigna un nombre a cada individuo; dicha columna recibe el nombre de variable etiqueta.

Estructura de una matriz de datos

Físicamente, la estructura de una matriz de datos se corresponde con el esquema de una base de datos o una hoja de cálculo. Al igual que pasa con los editores de los programas de tratamiento de datos, las dos dimensiones de una pantalla se acomodan perfectamente al patrón individuo-variable.

Si se consideran los individuos identificados por los términos \(I_{1}\), \(I_{2}\), \(\ldots\), \(I_{n}\) y los caracteres por \(C_{1}\), \(C_{2}\), \(\ldots\), \(C_{k}\), la casilla \(x_{i j}\) representa el comportamiento del individuo \(I_{i}\) respecto al carácter \(C_{j}\).

La estructura data.frame en R
R se refiere a este tipo de estructura de datos como data.frame. Este es el formato que requiere el programa para aplicar la mayoría de los procedimientos estadísticos.

Anomalías de una matriz de datos

Hay veces en que por distintos motivos la matriz de datos presenta casillas vacías, ello se debe a que no se ha podido medir un dato o a que se ha perdido la observación.

En otras ocasiones un dato presente en la matriz ha sido depurado por presentar algún tipo de anomalía, como haber sido mal medido, mal transcrito a la matriz de datos, pertenecer a un colectivo distinto del que se está analizando, etc.

La identificación de estos elementos anómalos se realiza mediante un proceso de detección de inconsistencias o de evaluación de valores extremos, muy grandes o muy pequeños, que determinará si razonablemente pueden pertenecer al colectivo bajo estudio.

A veces se sustituye el valor depurado de un individuo por uno que sea congruente con el resto de caracteres del mismo, mediante técnicas que se conocen como de imputación. Los huecos que definitivamente queden en la matriz se referirán como valores omitidos o, más comunmente, como missing values.

En R estos valores se representan con NA (Not Available). En función del tipo de análisis que se esté realizando, el procedimiento desestimará sólo el dato o todo el registro completo.

Se analizarán -salvo excepciones que se indicarán con antelación- de forma independiente cada uno de los caracteres de la matriz de datos, de forma que cada carácter describirá parcialmente al conjunto de individuos. La integración de todos los análisis deberá dar una cierta visión general de la población.

En cualquier caso, este enfoque está muy lejos de ser eficiente, entre otras cosas porque habitualmente las variables individuales comparten información y dicha redundancia distorsionaría las conclusiones del estudio, siendo en general preferible decantarse por un análisis global en vez del secuencial.

Por lo tanto, se necesitan dominar los conceptos básicos y adquirir destreza en el manejo de medidas estadísticas que serán empleadas masivamente cuando se aborden, más adelante, modelos más sofisticados.

Referencias

Romero, G. J. (2022) Estadística avanzada con R. JeshuaNomics

comments powered by Disqus

Problemas de transporte y asignación

Resumen: Existen dos tipos de problemas especiales en la investigación de operaciones, los problemas de transporte y de asignación.

1 de enero de 2020

Linear programming

Programación lineal

Resumen: Utilizar R para resolver problemas de programación lineal vinculados a la investigación de operaciones.

1 de enero de 2020

Integer linear programming

Programación lineal entera

Resumen: Utilizar R para resolver problemas de programación lineal entera vinculados a la investigación de operaciones.

La organización de la información

La organización de la información

Definición de una matriz de datos

Estructura de una matriz de datos

Anomalías de una matriz de datos

Referencias

popular post

Problemas de transporte y asignación

Programación lineal

Programación lineal entera