Mineria de dades

Què és?

 

minaLa mineria de dades són un conjunt de tècniques que serveixen per a extreure la informació útil, desconeguda i implícita que està amagada en les bases de dades.

 

PREGUNTA: Si la mina són les dades i el mineral és la informació, com es diu el miner?

RESPOSTA: MINTRADA

Detalls

Conjunt de tècniques

La mineria de dades és un conjunt de tècniques perquè utilitza recursos de disciplines com la lògica, les matemàtiques, la informàtica i la física. La mineria de dades no és ni una ciència, ni una tecnologia. eines
     
 Informació Les dades NO són informació. Les dades són registres de números. La informació és allò que ens permet interpretar les dades i la relació entre elles d'una manera resumida. numeros
     
Útil La informació que s'extreu de les dades ha de ser útil per a donar resposta a allò que es busca.  util
     
Desconeguda La informació que s'obté habitualment és desconeguda, és a dir, no es té constància de les conclusions amagades dins les dades. cortina2
     
Implícita El fet que la informació sigui implícita vol dir que no es dedueix fàcilment, no és òbvia. La mineria de dades revela allò que no és evident. hiddenlogo
     
Bases de dades Les dades s'obtenen de bases de dades perquè la informàtica permet processar grans quantitats de dades.  arxiu

Metodologia

         

classificar

rightarrow

aprendre

rightarrow

prediccio

 Classificació    Entrenament    Predicció
En aquesta etapa es classifiquen les dades en categories, d'acord amb els valors numèrics dels atributs de les dades. Cada categoria agrupa un nombre d'exemples a partir dels quals es determinen les característiques rellevants de la categoria.   El nucli de la mineria de dades és l'algoritme matemàtic d'entrenament, que es coneix com a aprenentatge automàtic. S'encarrega de trobar les propietats rellevants dels exemples de cada categoria.   Després de l'entrenament, es pot determinar automàticament la categoria a la qual pertany un nou cas.

Aplicacions

Presa de decisions

La Mineria de Dades permet estudiar allò que s'ha fet en el passat, determinar si una decisió va ser correcta i establir quina ha de ser la decisió actual. Això és especialment útil quan cal prendre decisions en què s'han de tenir en compte un alt nombre de variables.

 

Sistematització del saber fer

La Mineria de Dades pot recopilar d'una manera organitzada i sistemàtica el conjunt d'habilitats i coneixements que un individu o un equip han anat aprenent al llarg de la seva trajectòria professional.

Aprenentatge automàtic

A través de la Mineria de Dades es poden dissenyar algoritmes informàtics per tal que els ordinadors puguin aprendre automàticament. Consisteix a donar-los exemples de casos per a que estudiïn i tinguin un comportament intel·ligent.

Automatització de tasques tedioses

En determinades activitats, cal prendre decisions repetitives però ben establertes per un protocol. La Mineria de Dades pot automatitzar aquelles tasques en que cal tenir en compte els valors i els intèrvals de múltiples variables simultàniament.

Revelació de normes

En què s'assemblen els membres d'un mateix grup? Hi ha alguna norma o un grup de normes que determinen la pertenença al grup? La Mineria de Dades pot revelar allò que tenen en comú els membres d'un grup.

Diagnòstic

Quin és l'origen d'un problema, una malaltia o l'avaria d'una màquina? Aquesta pregunta sovint se soluciona reunint diversos indicis o símptomes per tal de determinar on resideix el problema. Mitjançant la Mineria de Dades es poden recopilar les coincidències dels casos anteriors i establir protocols per a diagnosticar.

 

Classificació sense teoria

Sovint ens trobem en situacions en què no sabem com manejar les dades quan les veiem per primera vegada. La Mineria de Dades permet classificar-les en categories sense necessitat de tenir una explicació teòrica al darrera.

Exemples

Hi ha exemples d'aplicació de la Mineria de Dades en camps diversos, dels quals en destaquem alguns.

  •  Ciència i tecnologia 
    1. Espècies de lliris. Un exemple clàssic (Fisher, 1936) és el de la classificació de 3 espècies de lliris en funció de la llargada i l'amplada dels seus pètals i sèpals.
    2. Filtratge d'imatges. L'ànalisi d'imatges és una tasca tediosa per al humans. La Mineria de Dades ha mostrat que és eficient a l'hora de detectar vessaments de petroli al mar a partir d'imatges satèl·lit o de radar, on s'analitza l'evolució temporal de la taca, la forma, extensió i granularitat de la imatge.
    3. Demanda elèctrica. L'energia elèctrica que es produeix no es pot emmagatzemar i es consumeix a l'instant. Les companyies productores i comercialitzadores d'electricitat necessiten fer una predicció de la demanda d'electricitat cada dia de l'any. La Mineria de Dades ha aconseguit fer aquesta predicció mitjançant els registres de consum d'anys anteriors.
    4. Diagnosi d'avaries. La Mineria de Dades també ha resultat útil per a determinar l'origen de l'avaria de màquines industrials. A partir de l'experiència dels enginyers mecànics que poden mesurar les vibracions de la màquina es pot obtenir un protocol per a identificar avaries.
    5. Diagnosi de malalties. A partir dels símptomes dels pacients anteriors, es poden diagnosticar malalties de nous pacients.
    6. Catalogació d'objectes celestes. En astronomia, es poden utilitzar les dades d'objectes coneguts (estrelles, planetes, etc.) per identificar nous objectes.
    7. Estructura de les molècules. A partir de les imatges de Ressonància Magnètica Nuclear o Raigs X amb les que s'ha deduit l'esctructura 3D d'una molècules, se'n poden deduir de noves de manera automàtica. A més, això facilita el descobriment de nous fàrmacs.
    8. Factors de risc. S'utilitza la mineria de dades per obtenir característiques genètiques o ambientals que poden suposar un risc per al desenvolupament de malalties.
  •  Web 
    1. Correu brossa. A partir de les paraules, el remitent, l'hora d'enviament i altres atributs es determina si un e-mail és correu brossa o no.
    2. Gustos. A partir de l'historial de navegació d'un usuari d'Internet es determinen quins gustos té i quins altres continguts poden interessar-li.
  •  Finances, Màrqueting i vendes 
    1. Fuga de clients. A partir de l'estudi de com evolucionen les vendes a un client, la seva freqüència o la facturació total, es determina si hi ha risc que un client deixi de ser-ho. A més, es pot detectar el risc de fuga del client i realitzar ofertes personalitzades per a fidelitzar-lo.
    2. Previsió d'existències. A partir de les dades passades de venda al llarg del temps, les noves tendències en les compres del clients, etc. es poden fer millors prediccions de les existències que es necessiten en cada moment de l'any.
    3. Cistella de la compra. A partir de les correlacions entre productes que es compren simultàniament, es poden dissenyar ofertes conjuntes que involucrin diversos productes.
    4. Solvència. A partir de les característiques del demandant d'un crèdit com la formació academica, l'experiència professional, el nombre de targetes de crèdit, el saldo mitjà, etc. es pot determinar si el demandant té capacitat per a retornar un crèdit.