Bases de datos, información, conocimiento.

(Para Giorgio giacinto)
04/07/24

Desde que el hombre comenzó a sistematizar el conocimiento ha tenido la necesidad de clasificar y definir la realidad circundante. Para ello introdujo métodos cuantitativos para describir todo lo que le rodeaba.

Una base de datos es una herramienta informática que tiene como objetivo hacer fácil y eficiente no sólo almacenar descripciones de realidades de interés, sino sobre todo recuperar datos de forma correlacionada para extraer información.

Tomemos un ejemplo sencillo. Los productos a la venta en un supermercado podrían describirse por marca, nombre comercial, descripción y precio. Un cliente habitual puede disponer de una "tarjeta de fidelización" a la que se asocian algunos datos personales, la composición de la unidad familiar y las titulaciones educativas. Cada ticket de supermercado conecta al cliente con los productos adquiridos en una fecha y hora determinada. Estos son los datos.

¿Pero qué información podemos extraer? Por ejemplo, cuál es el día de la semana en el que se vende mayor cantidad de cerveza, o el tipo de comida que compran las familias en las que al menos un miembro tiene título universitario.

Cuantos más detalles almacenemos de una realidad determinada, mayor será la posibilidad de interrogar al sistema para extraer información valiosa. En inglés el verbo utilizado para expresar el concepto de cuestionar el sistema es pregunta que en realidad tiene una raíz latina, el verbo quaero (pedir algo). El secreto para crear una base de datos que potencialmente pueda usarse para una amplia gama de consultas es representar los datos descriptivos de una realidad en forma atómica y no agregada.

En el ejemplo anterior la descripción del producto no es un buen método si insertamos detalles como por ejemplo. el peso de un producto o el número de paquetes empaquetados juntos. Los datos que no están catalogados explícitamente hacen que su procesamiento sea muy complejo porque requieren una interpretación del contenido.

Para que la catalogación de datos sea intuitiva, se utiliza la estructura de tabla, en la que una entidad de interés está representada por filas (por ejemplo, un producto en oferta, un paciente, etc.) y sus características por columnas (por ejemplo, marca, nombre del producto, precio). , etc.). Una tabla también puede representar relaciones entre diferentes entidades. Por ejemplo, si necesito representar la relación de propiedad de un vehículo, lo único que necesito es una tabla en la que cada fila muestre el código fiscal del propietario y la matrícula del vehículo, es decir, las dos características que me permiten identificar de forma única al propietario y al vehículo. .

El descrito hasta ahora es el modelo de datos relacionales propuesto por Edgar Codd (IBM1) que sigue representando el estándar para la representación de datos, también gracias a la simplicidad del lenguaje desarrollado para consultar el sistema (SQL, a veces denominado acrónimo de Structured Query Language, aunque en realidad este es el nombre dado al estándar del lenguaje para diferenciarlo del nombre comercial utilizado por IBM, SEQUEL).

La disponibilidad de una gran cantidad de información detallada almacenada en una base de datos relacional permite extraer información útil para el seguimiento, gestión y planificación estratégica de una organización. Por ejemplo, la agregación de los ingresos individuales de un establecimiento comercial, o de las valoraciones de beneficios de un estudiante, permiten estudiar la tendencia global de las ventas respectivamente (por franjas horarias del día, por tipo de cliente, etc.) o de carreras de los estudiantes (resultados de exámenes universitarios por semestre, por carrera, etc.). Estas operaciones se llevan a cabo en Almacenamiento de Datos, archivos donde se almacenan datos de forma agregada. Las herramientas de análisis de datos utilizadas en un almacén de datos se llaman Inteligencia empresarial e incluyen varias técnicas estadísticas y estadísticas. máquina de aprendizaje. El término se ha utilizado en el pasado. Extracción de Información indicando que los datos son una mina de la que extraer valor.

El modelo relacional permite almacenar datos de manera eficiente y poder realizar diferentes tipos de correlaciones, pero con una lentitud de procesamiento intrínseca debido a la separación de la información en tablas distintas que requiere varias operaciones de lectura del sistema de almacenamiento para producir el resultado. Los modelos NoSQL se han ido extendiendo en los últimos 20 años2 (No solo SQL) especializado en almacenar agregados. Un ejemplo del sector del comercio electrónico puede aclarar el concepto. Cuando buscamos un producto, y comparamos diferentes alternativas, tenemos la posibilidad de seleccionar las características deseadas. Esta es una funcionalidad típica de los modelos relacionales que almacenan las características del producto de forma estructurada. Por ejemplo, para un televisor podemos seleccionar el tamaño de la pantalla, la resolución, la presencia o ausencia de determinados puertos de conexión, etc. Cuando procedamos con la compra podremos utilizar un código de descuento o una oferta del día. Todos estos detalles se almacenan en un único elemento de una base de datos NoSQL que representa el equivalente al recibo o factura. De hecho, sería oneroso memorizar el historial de las distintas versiones de los productos vendidos, campañas promocionales y códigos de descuento a través del modelo relacional.

Por tanto, en una organización moderna encontramos diferentes bases de datos, cada una especializada para un propósito específico: bases de datos relacionales para almacenar todos los detalles de una realidad específica, y bases de datos NoSQL para representar agregados fáciles de recuperar sin necesidad de correlacionar cada vez la información. Por eso hablamos a menudo de memorización persistente políglota.3.

La necesidad de almacenar datos y luego procesarlos ha aumentado dramáticamente hoy en día gracias al desarrollo de diferentes tipos de sensores a los que frecuentemente nos referimos con el término genérico. Internet de las Cosas. En nuestra vida diaria probablemente utilicemos algún dispositivo portátil para controlar algunos parámetros de nuestra actividad. Muchos vehículos (coches, scooters, bicicletas, etc.) permiten memorizar el recorrido realizado y el desgaste de algunos componentes. En nuestros hogares existen contadores de servicios domésticos. inteligente porque comunican, a intervalos de tiempo constantes, información sobre el consumo de electricidad, gas o agua. Estos datos son relevantes tanto para identificar instantáneamente situaciones anómalas o peligrosas, pero sobre todo son útiles cuando se agregan para identificar tendencias y hábitos.

Esta abundancia de datos, estructurados y no estructurados, gestionados con diferentes modelos y tecnologías (a menudo denominados datos), ha dado origen en los últimos años a la figura profesional de científico de datos, es decir, el especialista en la cadena de datos desde su producción, hasta su filtrado, limpieza y agregación para llegar a las técnicas de consulta que permitan extraer la información.

Vivimos en la llamada sociedad de la información.4, donde el almacenamiento, la representación y la correlación entre datos constituyen la verdadera riqueza. No es casualidad que en 2006 el dicho que se hizo famoso “Los datos son el nuevo petróleo”5, y más recientemente que “La inteligencia artificial es la nueva electricidad”6.

1https://www.ibm.com/history/edgar-codd

2https://sheinin.github.io/nosql-database.org/

3https://martinfowler.com/articles/nosqlKeyPoints.html

4https://www.manuelcastells.info/en/

5https://www.sheffield.ac.uk/cs/people/academic-visitors/clive-humby

6https://www.gsb.stanford.edu/insights/andrew-ng-why-ai-new-electricity