Categorizzazione dei contenuti: card sorting

Author Stefano Bussolon

Definizione

Il card sorting, come strumento per classificare oggetti in categorie, è usato da decenni. È stato utilizzato in numerosi ambiti delle scienze sociali [ameel2005], sebbene con nomi diversi: classificazione soggettiva, categorizzazione soggettiva, folk taxonomy, free classification, free sorting, pile sorting, free grouping [coxon1999]. In ambito psicoterapeutico alcune tecniche di sorting sono utilizzate nell'approccio costruttivista di Kelly [upchurchrugg2001].

In termini matematici il card sorting viene rappresentato come una partizione di M elementi in C insiemi disgiunti; questa definizione corrisponde a quella che Stevens definisce scala nominale [coxon1999].

Il card sorting è la tecnica di elicitazione della conoscenza più usata e citata nell'area dell'interazione uomo computer per far emergere i modelli mentali degli utenti relative alla categorizzazione dei contenuti di un sito web [nielsen1994,ruggmcgeorge1997,maurer2004,nielsen20040719,fincher2005].Nell'ambito dell'architettura dell'informazione il card sorting costituisce un metodo di design centrato sull'utente, finalizzato ad ottimizzare la reperibilità (findability) di un sistema.

A cosa serve

Il card sorting costituisce un metodo efficace per individuare i modelli mentali impliciti degli utenti, rendendo esplicite le loro aspettative di categorizzazione dei contenuti. Conoscere i modelli mentali e le categorizzazioni implicite ci permette di organizzare le informazioni in modo che siano più facili da trovare e da utilizzare, migliorando la qualità del prodotto.

Attraverso il card sorting è possibile identificare il criterio di classificazione usato dagli utenti ed identificare il contenuto e l'etichetta delle categorie da essi utilizzati. È possibile far emergere eventuali differenze nella categorizzazione fra diversi gruppi di partecipanti.

Quando usare il card sorting

Nel web design [maurer2004] consigliano l'uso del card sorting nel design di un sito nuovo, nel design di una nuova area di un sito, nel redesign di un sito esistente.

Nell'ambito delle scienze sociali, antropologiche o cognitive, [coxon1999] identifica innumerevoli contesti in cui il card sorting viene utilizzato: classificazione delle diagnosi mediche, analisi dei contenuti, analisi semantiche, reti sociali, psicologia sociale e delle organizzazioni, antropologia culturale, archeologia.

Secondo [ruggmcgeorge1997] il card sorting può essere usato sia come tecnica esplorativa che come tecnica di classificazione vera e propria. Secondo questi autori il card sorting può essere applicato ad una gamma di entità estremamente ampia, che spazia da elenchi di oggetti concreti a concetti astratti, e può essere utilizzata ricorsivamente a vari livelli di una struttura informativa. L'utilizzo di questa tecnica è appropriato quando ci si propone di far emergere le categorie usate dagli utenti.Attraverso il card sorting possiamo far emergere:

  • i criteri che i partecipanti adottano per categorizzare e cercare le informazioni;

  • la struttura informativa che implicitamente si aspettano di trovare;

  • le eventuali differenze fra diversi gruppi di utenti;

  • le etichette delle categorie, espresse nel vocabolario degli utenti.

Il card sorting funziona se è preceduto dai passaggi necessari per identificare la lista di elementi da categorizzare, descritti nelle sezioni precedenti. Inoltre le circostanze ideali per ottenere dei buoni riusltati sono:

  • un elenco non superiore a 60 - 70 elementi;

  • dei contenuti omogenei fra loro;

  • un campione di partecipanti che conoscano e comprendano i contenuti.

Vantaggi

Il metodo offre numerosi vantaggi [maurer2004]: è una tecnica facile da realizzare e facile da far comprendere ai partecipanti; gli utenti la considerano un metodo di classificazione naturale; può essere utilizzata con individui di ogni estrazione culturale; i compiti di picture sorting Secondo [ruggmcgeorge1997] il compito di categorizzazione può avvenire anche usando delle immagini (picture sorting) o gli oggetti veri e propri da classificare (object sorting) possono essere usati in età evolutiva e con individui illetterati.

È centrato sugli utenti: Nella progettazione di un sito web se i partecipanti sono rappresentativi degli utenti del sito i risultati dell'analisi tenderanno a riflettere la struttura in cui gli utenti si aspettano che le informazioni siano presentate. È un buon punto di partenza per organizzare la struttura del sistema informativo.

Svantaggi

[maurer2004] osservano che il metodo si focalizza sui contenuti, non sui processi: i partecipanti non compiono realmente il compito, ma si limitano a raggruppare le etichette; a volte non conoscono le etichette, o non intuiscono il contenuto della risorsa descritta dall'etichetta.L'analisi statistica del card sorting somministrato manualmente impiega molto tempo [faikshyland].

Assunti e limiti

Le tecniche di sorting assumono che gli individui organizzano la propria rappresentazione dell'ambiente attraverso dei processi di categorizzazione, e che le categorizzazioni implicite degli individui possono essere individuate. Poiché la seconda assunzione non è scontata [ruggmcgeorge1997] sostengono l'utilità di affiancare a queste tecniche degli strumenti di verifica della bontà dei risultati (ad esempio dei test osservativi) .

Card sorting aperto e chiuso

Il card sorting può essere somministrato in due modalità: card sorting aperto e card sorting chiuso.Nel card sorting chiuso all'utente viene chiesto di categorizzare gli item in categorie stabilite dallo sperimentatore.Il card sorting aperto è meno strutturato in quanto è l'utente che decide il nome delle categorie; questa variante permette di far emergere i criteri di categorizzazione impliciti degli utenti. Anche i criteri di classificazione e le etichette delle categorie sono dunque decise dagli utenti; d'altro canto la maggiore libertà concessa all'utente aumenta la variabilità dei risultati.Il card sorting chiuso è più strutturato: è lo sperimentatore che decide le etichette delle categorie nelle quali gli utenti andranno a categorizzare gli item. Come vedremo nello studio 3 il card sorting chiuso è più facile del card sorting aperto [bussolon2005uclic].Nei progetti che abbiamo seguito si è utilizzato quasi esclusivamente il card sorting aperto. Se il numero di elementi da classificare non è eccessivo, se non vi sono molti elementi di difficile classificazione e se abbiamo un numero sufficiente di partecipanti (almeno 60 - 70) i risultati sono generalmente piuttosto stabili. Nelle situazioni in qualche modo più problematiche si può decidere di fare un card sorting chiuso come secondo passaggio, dopo aver identificato il criterio di classificazione e le etichette con il card sorting aperto.

Come abbiamo accennato, non è opportuno chiedere ai partecipanti (quantomeno nella somministrazione on line) di classificare più di 60 - 70 elementi. Se il sito è di maggiori dimensioni, potrebbe essere utile applicare il card sorting aperto ai primi 60 elementi, e successivamente un card sorting chiuso (con degli esempi già classificati) per gli elementi rimanenti.

La versione carta e penna

Il processo di card sorting prevede che i partecipanti raggruppino una serie di cartoncini, ognuno provvisto di una etichetta, in insiemi che ritengono coerenti. Nel card sorting aperto si chiede agli utenti di proporre un nome ai gruppi creati.

Preparazione

  • Creare la lista degli item. Per un sito web, la lista dei contenuti principali;

  • valutare che le etichette adottate siano comprensibili, attraverso un'analisi preliminare del labelling;

  • creare un cartoncino per ogni etichetta; numerare il dorso dei cartoncini;

  • creare dei contenitori, ad esempio delle scatole dove il partecipante possa raggruppare i cartoncini; il numero dei contenitori dev'essere pari al numero massimo di categorie che vogliamo che siano create;

  • in caso di card sorting chiuso etichettare i contenitori.

Nel caso di picture sorting i cartoncini contengono il disegno o la fotografia degli oggetti; nel caso di object sorting sono gli oggetti stessi ad essere raggruppati dall'utente.

Somministrazione

  • Informare il partecipante dello scopo del test e delle modalità di somministrazione;

  • evitare di fornire informazioni che possano influenzare le sue scelte;

  • informarlo che alcune spiegazioni verranno fornite alla fine del test;

  • mescolare i cartoncini e presentarli al partecipante;

  • chiedere al partecipante di raggruppare gli elementi in insieme coerenti;

  • in alcuni minuti l'utente dovrà posizionare i cartoncini nelle scatole;

  • segnare (su foglio cartaceo, foglio elettronico, database …) i raggruppamenti fatti dal partecipante;

  • segnare gli eventuali missing: cartoncini che l'utente non ha saputo catalogare;

  • nel card sorting aperto chiedere all'utente di fornire un'etichetta per ogni gruppo creato.

Debriefing

Fornire al partecipante le informazioni che non era opportuno dare prima dell'esperimento. Eventualmente offrire la possibilità di informarlo sui risultati del test una volta che si sia conclusa la raccolta dei dati e l'analisi.

Analisi

Analisi delle singole classificazioni

[coxon1999] indica alcuni indici che è possibile calcolare per ogni partecipante (k):

il numero di categorie create: mk;un indice che misura lo stile di classificazione, definito dalla formula

= ⁢ h k ∑ i m k c i 2

dove ci è la numerosità dell'i-esimo gruppo.Questo indice può essere normalizzato utilizzando la seguente formula:

= ⁢ h k ∑ i m k c i 2 N 2

dove N è il numero di elementi del dominio.

Analisi pairwise (coppie di partecipanti)

Di maggior interesse sono le analisi che mettono a confronto coppie di partecipanti. La edit distance [deibelanderson2005,fossumhaller] consiste nel numero di spostamenti necessari per passare da una partizione all'altra. Un'altra possibilità è quella di calcolare la correlazione fra le due matrici dicotomiche dei partecipanti usando il coefficiente di Jaccard [capra2005]; questa misura è simile alla Pairbonds dissimilarity measure citata da [coxon1999].Attraverso queste misure è possibile creare delle matrici M * M di distanza o di correlazione, dove M è il numero di partecipanti. A partire da questa matrice è possibile raggruppare i partecipanti in base all'affinità delle loro partizioni.

Analisi delle co-occorrenze

Per ogni partecipante è possibile creare una matrice N * N, dove N rappresenta il numero di elementi del dominio classificato. Il valore di ogni cella cij sarà pari a 1 se gli elementi i e j appaiono nello stesso gruppo, 0 se appaiono in gruppi diversi. Questa matrice è definita delle co-occorrenze. Dalla somma delle matrici di co-occorrenza degli M partecipanti si ottiene la matrice di prossimità. Da questa matrice è possibile ottenere una matrice di dissimilarità attraverso la funzione =δij-⁢maxcij dove max è pari al valore più grande della matrice originale.La matrice di prossimità è una matrice quadrata, simmetrica, dove ogni casella i,j rappresenta il numero di volte che l'elemento i e l'elemento j sono stati classificati nello stesso gruppo. Se tutti i partecipanti hanno classificato tutti gli elementi, i valori sulla diagonale saranno pari al numero M di partecipanti. Se, viceversa, vi sono delle omissioni, la casella i,i rappresenta il numero di volte in cui l'elemento è stato classificato.

Analisi multidimensionali

Da un punto di vista matematico è possibile trattare la matrice come un insieme di N osservazioni su N variabili, assumendo che gli elementi classificati costituiscano contemporaneamente le variabili misurate (le N colonne) e le osservazioni fatte (le N righe). In questa prospettiva alla matrice di prossimità possono essere applicate tecniche di analisi multidimensionali quali l'analisi delle componenti principali e l'analisi fattoriale, finalizzate ad esempio a ridurre lo spazio dimensionale, a far emergere delle variabili latenti [bollen2002,borsboom2003] o a visualizzare graficamente la distanza fra gli elementi citepRaychaudhuri2000.

Scaling multidimensionale

Lo scaling multidimensionale è un insieme di tecniche statistiche esplorative multivariate [wiki:mds]. Tecniche di scaling multidimensionale come il Classical Multidimensional Scaling sono tipicamente applicate a matrici di similarità ottenute con tecniche di sorting [vandeunweb2007]. Lo scaling multidimensionale trasforma un insieme di dissimilarità in un insieme di punti tali che le distanze fra i punti sono approssimazioni delle dissimilarità [rproject]. L'analisi fattoriale è un particolare tipo di scaling multidimensionale, così come l'analisi delle componenti principali, in quanto in entrambi i metodi a partire da n dimensioni si estraggono <rn nuove variabili.

Analisi delle componenti principali

L'analisi delle componenti principali (PCA) è una tecnica statistica esplorativa multivariata finalizzata a semplificare insiemi di dati complessi [anderson1988,raychaudhuri2000,ding2004]. Date m osservazioni su n variabili, lo scopo della PCA è di ridurre la dimensionalità della matrice di dati trovando r nuove variabili, dove <rn. Queste r variabili, definite componenti principali, hanno la proprietà di spiegare la varianza delle n variabili originali e di essere fra loro ortogonali e non correlate. Ogni componente principale è una combinazione lineare delle variabili originarie, ed analizzando i coefficenti è possibile attribuire un significato alle componenti [raychaudhuri2000]. Nelle nostre analisi (sulle matrici di prossimità) i risultati ottenuti con lo scaling multidimensionale classico (metrico) e la PCA sono del tutto equivalenti.

Analisi fattoriale

L'analisi fattoriale è una tecnica di riduzione dimensionale utilizzata per spiegare la variabilità di n variabili osservate in termini di <rn variabili latenti, definite fattori. Le variabili osservate sono rappresentate da una combinazione lineare dei fattori, con l'aggiunta di un termine di approssimazione [wiki:factoranalysis]. Sotto il profilo matematico la PCA e l'analisi fattoriale differiscono nella modalità di calcolo ed assegnazione della varianza alle variabili create. Anche sotto il profilo concettuale vi sono delle differenze: i fattori costituiscono delle variabili latenti, mentre le componenti principali sono una trasformazione lineare che permette di concentrare la varianza nelle prime componenti principali [wiki:factoranalysis]. L'uso dell'analisi fattoriale sulle matrici di prossimità non è molto comune. In ambito HCI è stata recentemente proposta da [capra2005].

Consensus analysis

La consensus analysis è finalizzata a valutare l'omogeneità delle classificazioni fra partecipanti, e dunque si basa sulla matrice M * M che misura la correlazione o la distanza fra i partecipanti. La consensus analysis si basa sull'analisi delle componenti principali, e mette a confronto la variabile spiegata della prima e della seconda componente [coxon1999,gatewood1999,boster]; la regola empirica che si utilizza è la seguente: se la varianza spiegata dalla prima componente è alta ed è pari ad almeno 3 volte la varianza della seconda componente si può assumere vi sia omogeneità nei criteri di classificazione dei partecipanti.

Cluster analysis

La clusterizzazione è una divisione di un insieme in gruppi di oggetti fra loro simili. Ogni gruppo, definito cluster, consiste di oggetti che sono simili fra di loro e dissimili dagli oggetti degli altri gruppi [berkhin]. La cluster analysis è un sistema di classificazione esplorativo senza supervisione [xu2005] che costruisce una partizione, ovvero un insieme di gruppi fra loro disgiunti [ding2004].Vi sono innumerevoli algoritmi di classificazione; i più comuni si distinguono in metodi gerarchici e metodi di partizionamento [berkhin]. La cluster analysis gerarchica è un metodo gerarchico agglomerativo, mentre la k-means è un algoritmo di partizionamento.

Cluster analysis gerarchica

La cluster analysis gerarchica costruisce un albero di clusters, detto dendrogramma o albero di classificazione gerarchica [coxon1999,sinha2004]; questo è l'algoritmo di clusterizzazione più frequentemente applicato alle matrici di prossimità e dunque al card sorting [tullis2004,faikshyland,berkhin].

K-means

L'algoritmo k-means è il metodo di clusterizzazione più usato in ambito scientifico [berkhin]. K-means è un algoritmo di partizionamento che assegna l'insieme di oggetti in K clusters [xu2005]; ogni cluster è rappresentato da un centroide, e l'algoritmo, attraverso un processo iterativo, muove i centroidi – inizialmente collocati casualmente nello spazio dimensionale – verso le aree dello spazio multidimensionale a maggiore densità, e contemporaneamente assegna ogni osservazione al centroide più vicino – attraverso un'opportuna metrica. Da un punto di vista concettuale il centroide rappresenta il prototipo del cluster all'interno dello spazio dimensionale [ding2004]. La tecnica ha alcuni svantaggi [xu2005]: non è semplice determinare a priori il numero K di centroidi; non è garantito il raggiungimento della soluzione ottimale, in quanto l'algoritmo può rimanere bloccato in un minimo locale; l'algoritmo è sensibile agli outliers; è applicabile soltanto a variabili numeriche.[ding2004] suggeriscono di applicare k-means alle componenti principali della PCA; più precisamente gli autori propongono di calcolare la tecnica di clusterizzazione sulle prime k-1 componenti; da un punto di vista computazionale questa soluzione ha il vantaggio di minimizzare il problema dei minimi locali.Noi abbiamo deciso di applicare questa sequenza alle matrici di prossimità del card sorting. Questo approccio ha numerosi vantaggi:

  • permette di applicare ai dati del card sorting non solo l'algoritmo di clusterizzazione gerarchica, ma anche un algoritmo di partizionamento;

  • permette di visualizzare i risultati in uno spazio bidimensionale;

  • permette di far emergere delle dimensioni semanticamente interpretabili; poiché il clustering si basa su tali dimensioni, è possibile interpretare la classificazione in base a tali variabili latenti [raychaudhuri2000].

Nelle analisi dei dati che presenteremo nei capitoli seguenti abbiamo sistematicamente applicato questo metodo, che ha dato dei risultati molto interessanti sia da un punto di vista statistico che esplicativo.

AddThis Social Bookmark Button

Test on line

Misura la tua capacità logica, il tuo lessico, le tue capacità induttive con i test on line di hyperlabs.net.

» I test