Minería de datos

¿Qué es?

 

minaLa Minería de Datos son un conjunto de técnicas que sirven para extraer la información útil, desconocida e implícita que está escondida en las bases de datos.

 

PREGUNTA: Si la mina son los datos y el mineral es la información, ¿cómo se llama el minero?

RESPUESTA: MINTRADA

Detalles

Conjunto de técnicas

La minería de datos es un conjunto de técnicas que utiliza recursos de disciplinas como la lógica, las matemáticas, la informática y la física. La minería de datos no es ni una ciencia, ni una tecnología.

eines
     
 Información

Los datos NO son información. Los datos son registros de números. La información es lo que nos permite interpretar los datos y la relación entre ellos de forma resumida.

numeros
     
Útil

La información que se extrae de los datos debe ser útil para dar respuesta a lo que se busca.

 util
     
Desconocida

La información que se obtiene habitualmente es desconocida, es decir, no hay constancia de las conclusiones escondidas detrás de los datos.

cortina2
     
Implícita

El hecho de que la información sea implícita significa que no se deduce fácilmente, no es obvia. La minería de datos revela lo que no es evidente.

hiddenlogo
     
Bases de datos

Los datos se obtienen de bases de datos porque la informática permite procesar grandes cantidades de datos.

 arxiu

Metodología

         

classificar

rightarrow

aprendre

rightarrow

prediccio

 Classificación    Entrenamiento    Predicción

En esta etapa se clasifican los datos en categorías, de acuerdo con los valores numéricos de los atributos de los datos. Cada categoría contiene un número de ejemplos a partir de los cuales se determinan las características relevantes de la categoría.

 

El núcleo de la minería de datos es el algoritmo matemático de entrenamiento, que se conoce como aprendizaje automático. Se encarga de encontrar las propiedades relevantes de los ejemplos de cada categoría.   

 

Tras la etapa de entrenamiento, se puede determinar automáticamente la categoría a la que pertenece un nuevo caso.

Aplicaciones

Toma de decisiones

La Minería de Datos permite estudiar lo que se ha hecho en el pasado, determinar si una decisión fue correcta y establecer cuál debe ser la decisión actual. Esto es especialmente útil cuando hay que tomar decisiones en las que hay que tener en cuenta un alto número de variables.

 

Sistematización del saber hacer

La Minería de Datos puede recopilar de una manera organizada y sistemática el conjunto de habilidades y conocimientos que un individuo o un equipo han ido aprendiendo a lo largo de su trayectoria profesional.

Aprendizaje automático

Mediante la Minería de Datos se pueden diseñar algoritmos informáticos para que los ordenadores puedan aprender automáticamente. Consiste en darles ejemplos de casos para que estudien y tengan un comportamiento inteligente.

Automatización de tareas tediosas

En determinadas actividades, hay que tomar decisiones repetitivas pero bien establecidas por un protocolo. La Minería de Datos puede automatizar aquellas tareas en que hay que tener en cuenta los valores y los intervalos de múltiples variables simultáneamente.

Revelación de normas

¿En qué se parecen los miembros de un mismo grupo? ¿Hay alguna norma o un grupo de normas que determinan la pertenencia al grupo? La Minería de Datos puede revelar lo que tienen en común los miembros de un grupo.

Diagnóstico

¿Cuál es el origen de un problema, una enfermedad o la avería de una máquina? Esta pregunta a menudo se soluciona reuniendo varios indicios o síntomas para determinar dónde reside el problema. Mediante la Minería de Datos se pueden recopilar las coincidencias de los casos anteriores y establecer protocolos para diagnosticar.

 

Clasificación sin teoría

A menudo nos encontramos en situaciones en las que no sabemos cómo manejar los datos cuando los vemos por primera vez. La Minería de Datos permite clasificarlas en categorías sin necesidad de tener una explicación teórica detrás.

Ejemplos

Hay ejemplos de aplicaciones de Minería de Datos en campos muy diversos. Aquí destacamos algunos de ellos.

  •  Ciencia y tecnología 
    1. Especies de lirios. Un ejemplo clásico (Fisher, 1936) es el de la clasificación de 3 especies de lirios en función de la longitud y la anchura de sus pétalos y sépalos.
    2. Filtrado de imágenes. El análisis de imágenes es una tarea tediosa para los humanos. La Minería de Datos ha demostrado que es eficiente detectando derrames de petróleo en el mar a partir de imágenes satélite o de radar, donde se analiza la evolución temporal de la mancha, su forma, su extensión y la granularidad de la imagen.
    3. Demanda eléctrica. La energía eléctrica que se produce no se puede almacenar y hay que consumirla al instante. Las compañías productoras y comercializadoras de electricidad necesitan predecir de la demanda de electricidad cada día del año. La Minería de Datos ha conseguido hacer esta predicción mediante los registros de consumo de años anteriores.
    4. Diagnóstico de averías. La Minería de Datos también ha resultado útil para determinar el origen de las avería de máquinas industriales. A partir de la experiencia de los ingenieros mecánicos que pueden tomar medidas, como por ejemplo las vibraciones de la máquina, se puede obtener un protocolo para identificar averías.
    5. Diagnóstico de enfermedades.  A partir de los síntomas de pacientes anteriores, se pueden diagnosticar enfermedades de nuevos pacientes.
    6. Catalogación de objetos celestes. En astronomía, se pueden utilizar los datos de objetos conocidos (estrellas, planetas, etc.) para identificar nuevos objetos.
    7. Estructura de las moléculas. A partir de las imágenes de Resonancia Magnética Nuclear o Rayos X con las que se ha deducido la esctructura 3D de algunas moléculas, se puede deducir la estructura de nuevas moléculas de manera automática. Además, esto facilita el descubrimiento de nuevos fármacos.
    8. Factores de riesgo. Se utiliza la minería de datos para obtener características genéticas o ambientales que pueden suponer un riesgo para el desarrollo de enfermedades.
  •  Web 
    1. Correo basura. Se determina si un mail es spam o no a partir de las palabras que contiene, quien es el remitente, la hora a la que se envió y otros atributos.
    2. Preferencias. A partir del historial de navegación de un usuario de Internet se determinan qué gustos tiene y qué otros contenidos pueden interesarle.
  •  Finanzas, Mercadotecnia y ventas 
    1. Fuga de clientes. A partir del estudio de cómo evolucionan las ventas a un cliente, su frecuencia o la facturación total, se determina si hay riesgo de que un cliente deje de serlo. Además, se puede detectar el riesgo de fuga del cliente y realizar ofertas personalizadas para fidelizarlo.
    2. Previsión de existencias. A partir de datos de venta a lo largo del tiempo, las nuevas tendencias en las compras de los clientes, etc. se pueden realizar mejores predicciones de las existencias que se necesitan en cada momento del año.
    3. Cesta de la compra. A partir de las correlaciones entre productos que se compran simultáneamente, se pueden diseñar ofertas conjuntas que involucren varios productos.
    4. Solvencia. A partir de las características del demandante de un crédito como su formación académica, la experiencia profesional, el número de tarjetas de crédito, el saldo medio, etc. se puede determinar si el demandante tiene capacidad para devolver un crédito.