apriori algoritm, știința datelor

Vom merge mai departe într-o serie de articole Top 10 algoritmi de data mining și ia în considerare algoritmul util și interesant Apriori (Apriori).

Apriori algoritm caută reguli de asociere și se aplică la bazele de date care conțin număr mare de tranzacții.

Care este regulile asociației? Studiul de asociere reguli - o tehnică utilizată în extragerea de date pentru a explora relațiile și relațiile dintre baza de date variabile.

Ce este un exemplu de utilizare Apriori algoritm? Să presupunem că avem o bază de date a unei tranzacții de date supermarket. Vă puteți imagina baza de date ca o masă uriașă, în care fiecare linie - un număr de tranzacție, și fiecare coloană este o achiziție separată.

Aplicarea algoritmului Apriori, putem identifica bunurile achiziționate împreună - adică, la stabilirea regulilor de asociere.

Ea ne dă:

Puteți identifica elementele care sunt adesea achiziționate împreună. Sarcina principală de marketing - pentru a obține clienților să cumpere mai mult. Produse similare sunt numite seturi.

Este posibil să observați că chips-uri, chips-uri cu sos și sodă stau de multe ori pe rafturi acolo. Aceasta se numește un set de două părți. În cazul în care baza de date este suficient de mare, acesta va fi mult mai greu de a „vedea“ relația, mai ales atunci când se ocupă cu trohelementnymi sau seturi mai mari. Doar pentru acest lucru și a creat algoritmul Apriori.

Cum algoritmul Apriori? Înainte de a merge la esenta algoritmului, trebuie să definiți 3 parametri:

  1. În primul rând, trebuie să setați dimensiunea setului. Vrei să definiți două elemente, trohelementny set sau unele altceva?
  2. În al doilea rând, să identifice suportul - numărul de tranzacții, incluse în setul împărțit la numărul total de tranzacții. Set care este susținută, aceasta este cea mai comuna tastare.
  3. În al treilea rând, pentru a determina autenticitatea. adică, probabilitatea condiționată a unui anumit produs să fie într-un coș cu alte elemente. Exemplu: Chips în kit au o șansă de 67% să fie într-un coș cu sifon.

Algoritmul simplu Apriori este format din trei etape:

Are această metodă de învățare sau de auto-învățare-l? Apriori este în general considerată ca fiind un algoritm de auto-învățare, de aceea este adesea folosit pentru a găsi modele interesante și relații.

Există o modificare a Apriori algoritm care pot clasifica datele etichetate

De ce Apriori? Este simplu, ușor de înțeles, legkorealizuem și are multe modificări.

Pe de altă parte ...

În timpul funcționării, algoritmul poate fi foarte intensive în resurse; calcule poate dura o lungă perioadă de timp.

În cazul în care este folosit? Există mai multe implementări ale Apriori. Unele dintre cele mai populare - l ARtool. WEKA și Orange.

Algoritmul pseudo-cod Apriori

apriori algoritm, știința datelor

Punerea în aplicare a algoritmului Apriori în R

apriori (date, parametrul = NULL, apariție = NULL, control = NULL)

  • date
    obiect al tranzacțiilor de clasă sau orice structură de date care pot fi constrânsă în tranzacții (de exemplu, o matrice binară sau data.frame).
  • parametru
    obiect al APparameter de clasă sau a unei liste cu nume. Comportamentul implicit este de a mea reguli cu suport 0,1, 0,8 încredere, și maxlen 10.
  • apariție
    obiect al APappearance de clasă sau a unei liste cu nume. Cu acest aspect articol argument poate fi restricționată (implementează regula template-uri). În mod implicit toate articolele pot apărea fără restricții.
  • control
    obiect al APcontrol de clasă sau a unei liste cu nume. Controlează performanța algoritmică a algoritmului minier (sortare element, etc.)