Laboratorio Matlab: differenze tra le versioni

Versione delle 17:56, 25 set 2019

Indice

1 Apprendimento Supervisionato
2 Apprendimento Non Supervisionato
- 2.1 Cluster Analysis: Self-Organizing Maps
- 2.2 Cluster Analysis: k-Means
3 Dendrogramma
4 Test chi-quadro
5 t-Test
6 z-Test
7 Esame 4 luglio 2019
8 Materiale per Bioinformatica Avanzata in attesa di pagina specifica

Apprendimento Supervisionato

Reti Neurali Feed-Forward

Esempio di applicazione di reti neurali artificiali.

Creazione dataset:

```
load cancer_dataset.mat
```
```
x = cancerInputs;
```
```
t = cancerTargets(1,:);
```
```
 
```
```
temp = [x;t];
```
```
rng(0)
```

p = randperm(size(temp,2)); % Genero un vettore di permutazioni casuali

```
 
```

train_size = floor(size(temp,2)*.8); % Percentuale di dati per il primo subset

p_train = p(1:train_size); % Seleziono la percentuale di indici per il primo subset

p_test = p(train_size+1:end); % Seleziono la percentuale di indici per il secondo subset

```
 
```
```
% Divisione del dataset
```
```
x_train = temp(1:9,p_train);
```
```
t_train = temp(10,p_train);
```
```
 
```
```
x_test = temp(1:9,p_test);
```
```
t_test = temp(10,p_test);
```
```
 
```
```
% Salvataggio del dataset
```

save('dataset2.mat','x_train','t_train','x_test','t_test')

Implementazione rete neurale:

```
load dataset2.mat
```
```
 
```

disp(['# Features: ',num2str(size(x_train,1))])

disp(['# Samples: ',num2str(size(x_train,2))])

```
 
```
```
%% Creazione rete
```
```
 
```
```
% Layers nascosti
```
```
% hiddenLayerSize = [20];
```
```
% hiddenLayerSize = [50];
```
```
hiddenLayerSize = [20,10];
```
```
 
```
```
 
```
```
% Training Function - help nntrain
```

trainFcn = 'traingdx'; % traingda, traingdm, traingd

```
 
```
```
% Creazione rete
```

net = patternnet(hiddenLayerSize, trainFcn);

```
 
```
```
% Suddivisione dataset
```
```
net.divideFcn = 'dividerand';
```
```
net.divideParam.trainRatio = 70/100;
```
```
net.divideParam.valRatio = 30/100;
```
```
net.divideParam.testRatio = 0/100;
```
```
 
```
```
% Criteri di stop
```
```
net.trainParam.epochs = 5000;;
```
```
%net.trainParam.max_fail = 20;
```
```
%net.trainParam.min_grad = 0;%10e-5;
```
```
 
```
```
% Funzione errore
```
```
net.performFcn = 'mse';
```
```
 
```
```
% Funzioni di attivazione
```
```
net.layers{end}.transferFcn = 'logsig';
```
```
 
```
```
% Visualizza rete
```
```
view(net)
```
```
 
```
```
%% Inizializzazione Rete
```
```
rng(0)
```
```
net = configure(net,x_train,t_train);
```
```
net = init(net);
```
```
init_LW = net.LW;
```
```
init_IW = net.IW;
```
```
 
```
```
%% Addestramento Rete
```
```
[net,tr] = train(net,x_train,t_train);
```
```
y_train = net(x_train);
```
```
 
```
```
% Plots vari
```

figure, plotperform(tr) % Andamento errori

figure, plotconfusion(t_train,y_train),title('Training Confusion Matrix')   % Matrice di confusione

```
%figure, plotroc(t,y)   % ROC
```
```
 
```
```
%% Test Rete
```
```
y_test = net(x_test);
```

figure, plotconfusion(t_test,y_test),title('Test Confusion Matrix')   % Matrice di confusione

Traccia ed esempio svolto a lezione (1)

Utilizzando il dataset "cancer_dataset" già presente in Matlab, implementare un classificatore binario con un solo layer formato da 10 neuroni, ’traingdx’ come funzione di addestramento e ‘mse’ come funzione errore. Utilizzare il validation set come criterio di stop (numero massimo di fallimenti pari a 20) e 1000 epoche come numero massimo di iterazioni. Impostare, inoltre, ‘tansig’ e ‘logsig’ rispettivamente come funzioni di attivazione del primo layer nascosto e del layer di uscita.
Si rappresenti la matrice di confusione sul test set.
Salvare le matrici dei pesi, inizializzare la rete e ripetere l’addestramento senza validation set.
Rappresentare nuovamente la matrice di confusione sul test set.

```
%% Caricamento del dataset
```
```
load cancer_dataset.mat
```
```
 
```
```
x = cancerInputs;
```
```
t = cancerTargets;
```
```
 
```

disp(['# Features: ',num2str(size(x,1))])

disp(['# Samples: ',num2str(size(x,2))])

```
 
```
```
%% Split dataset
```
```
rng(0)
```
```
test_rate = .15;
```
```
idx = randperm(size(x,2));
```
```
test_n = floor(test_rate*size(x,2));
```
```
test_idx = idx(1:test_n);
```
```
non_test_idx = idx(test_n+1:end);
```
```
 
```
```
x_test = x(:,test_idx);
```
```
t_test = t(:,test_idx);
```
```
 
```
```
x = x(:,non_test_idx);
```
```
t = t(:,non_test_idx);
```
```
 
```
```
%% Creazione rete
```
```
 
```
```
% Layers nascosti
```
```
hiddenLayerSize = [10];
```
```
 
```
```
% Training Function - help nntrain
```

trainFcn = 'traingdx'; % traingda, traingdm, traingd

```
 
```
```
% Creazione rete
```

net = patternnet(hiddenLayerSize, trainFcn);

```
 
```
```
% Suddivisione dataset
```
```
net.divideFcn = 'dividerand';
```
```
net.divideParam.trainRatio = .8;
```
```
net.divideParam.valRatio = .2;
```
```
net.divideParam.testRatio = 0;
```
```
 
```
```
% Criteri di stop
```
```
net.trainParam.epochs = 1000;
```
```
net.trainParam.max_fail = 20;
```
```
 
```
```
% Funzione errore
```
```
net.performFcn = 'mse';
```
```
 
```
```
% Funzioni di attivazione
```
```
net.layers{1}.transferFcn = 'tansig';
```
```
net.layers{end}.transferFcn = 'logsig';
```
```
 
```
```
%% Inizializzazione Rete
```
```
net = configure(net,x,t);
```
```
net = init(net);
```
```
view(net)
```
```
 
```
```
%% Addestramento Rete
```
```
[net,tr] = train(net,x,t);
```
```
 
```
```
y = net(x);
```
```
figure, plotperform(tr)
```

figure, plotconfusion(t,y,'Training 1')   % Matrice di confusione

```
 
```
```
%% Test Rete
```
```
y_test = net(x_test);
```

figure, plotconfusion(t_test,y_test,'Test 1')   % Matrice di confusione

```
 
```
```
%% Senza validation (punto 2)
```
```
 
```
```
% Salvataggio matrici dei pesi
```
```
LW = net.LW;
```
```
IW = net.IW;
```
```
 
```
```
net.divideFcn = 'dividetrain';
```
```
net = init(net);
```
```
[net,tr] = train(net,x,t);
```
```
 
```
```
y = net(x);
```
```
figure, plotperform(tr)
```

figure, plotconfusion(t,y,'Training 2')   % Matrice di confusione

```
 
```
```
y_test = net(x_test);
```

figure, plotconfusion(t_test,y_test,'Test 2')   % Matrice di confusione

Traccia ed esempio svolto a lezione (2)

Da una osservazione effettuata su pazienti afferenti ad una struttura ospedaliera si vuole dedurre il periodo di degenza.
Sono state effettuate le seguenti osservazioni:

media degenza per un paziente anziano soggetto ad intervento, con complicanze e con patologie pregresse non rilevanti;
media degenza per un paziente adulto soggetto ad intervento, con complicanze e con patologie pregresse;
degenza giornaliera per un paziente adulto soggetto ad intervento, con complicanze e senza patologie pregresse;
degenza giornaliera per paziente giovane soggetto ad intervento, con complicanze e con patologie pregresse non rilevanti;
lunga degenza per un paziente anziano soggetto ad intervento, senza complicanze e con patologie pregresse non rilevanti;
lunga degenza per un paziente adulto soggetto ad intervento, senza complicanze e con patologie pregresse;
media degenza per un paziente adulto non soggetto ad intervento e con patologie pregresse;
degenza giornaliera per un paziente giovane soggetto ad intervento, senza complicanze e senza patologie pregresse;
lunga degenza per un paziente anziano non soggetto ad intervento e con patologie pregresse;
media degenza per un paziente adulto soggetto ad intervento, senza complicanze e con patologie pregresse non note;
media degenza per un paziente giovane soggetto ad intervento, senza complicanze e con patologie pregresse;
media degenza per un paziente anziano non soggetto ad intervento e con patologie pregresse non note;
degenza giornaliera per un paziente adulto non soggetto ad intervento e senza patologie pregresse;
degenza giornaliera per un paziente giovane non soggetto ad intervento e con patologie pregresse non rilevanti

I dati in input sono:

presenza (P1=+1) o meno (P1=-1) di intervento chirurgico;
presenza di complicanze (P2=+1) o meno (P2=-1) dopo intervento chirurgico, in assenza di intervento P2=0;
presenza (P3=+1) o meno (P3=-1) di patologie pregresse, se non note o non rilevanti si porrà P3=0;
età P4 del paziente, con valori +1, 0, -1 rispettivamente con profilo "anziano", "adulto" o "giovane";

L'output T corrisponde al periodo di degenza, con valori +1, +0.5, 0 rispettivamente per "lunga", "media" o "giornaliera".

Tabella dei dati di input ed output realizzata secondo la codifica indicata:

Feature 1	Feature 2	Feature 3	Feature 4	Target
1	1	0	1	0.5
1	1	1	0	0.5
1	1	-1	0	0
1	1	0	-1	0
1	-1	0	1	1
1	-1	1	0	1
-1	0	1	0	0.5
1	-1	-1	-1	0
-1	0	1	1	1
1	-1	0	0	0.5
1	-1	1	-1	0.5
-1	0	0	1	0.5
-1	0	-1	0	0
-1	0	0	-1	0

Implementazione rete:

%% Esempio di risoluzione del problema del sistema esperto

```
 
```
```
P =[ 1 1 1 1 1 1 -1 1 -1 1 1 -1; 
```
```
     1 1 1 1 -1 -1 0 -1 0 -1 -1 0;
```
```
     0 1 -1 0 0 1 1 -1 1 0 1 0;
```
```
     1 0 0 -1 1 0 0 -1 1 0 -1 1];
```

T = [ 0.5 0.5 0 0 1 1 0.5 0 1 0.5 0.5 0.5] ;

```
 
```
```
%test generalizzazione
```
```
P13=[ -1 0  -1 0]';
```
```
T13 = 0;
```
```
% a213 deve essere prossimo T13;
```
```
 
```
```
P14=[-1 0  0 -1]';
```
```
T14 = 0;
```
```
% a214 deve essere prossimo T14;
```
```
 
```
```
%test robustezza (immunità al rumore)
```
```
Pnoise=[0.8 0.8 0.1 0.8]';
```
```
Tnoise = .5;
```

% essendo Pnoise prossimo a P(1) Tnoise

```
% deve essere prossimo T(1)
```
```
 
```
```
%% Creazione rete
```
```
 
```
```
% Layers nascosti
```
```
hiddenLayerSize = [5];
```
```
 
```
```
% Training Function - help nntrain
```

trainFcn = 'traingdx'; % traingda, traingdm, traingd

```
 
```
```
% Creazione rete
```

net = patternnet(hiddenLayerSize, trainFcn);

```
 
```
```
% Suddivisione dataset
```
```
net.divideFcn = 'dividetrain';
```
```
 
```
```
% Criteri di stop
```
```
net.trainParam.epochs = 20000;
```
```
net.trainParam.goal = 1e-4;
```
```
 
```
```
% Funzione errore
```
```
net.performFcn = 'mse';
```
```
 
```
```
% Funzioni di attivazione
```
```
net.layers{1}.transferFcn = 'logsig';
```
```
net.layers{end}.transferFcn = 'logsig';
```
```
 
```
```
%% Inizializzazione Rete
```
```
net = configure(net,P,T);
```
```
rng(0)
```
```
net = init(net);
```
```
view(net)
```
```
 
```
```
%% Addestramento Rete
```
```
[net,tr] = train(net,P,T);
```
```
y = net(P)
```
```
 
```
```
%% Test Rete
```
```
a = net(P);
```
```
a13 = net(P13)
```
```
a14 = net(P14)
```
```
anoise = net(Pnoise)
```

Apprendimento Non Supervisionato

Cluster Analysis: Self-Organizing Maps

Implementazione rete SOM:

```
load filteredyeastdata.mat
```
```
rng(0);
```

[x,std_settings] = mapstd(yeastvalues');  % Normalize data

[x,pca_settings] = processpca(x,0.15);    % PCA

```
 
```
```
% Dimensione
```
```
dimensions = [10];
```
```
 
```
```
% Creazione rete
```
```
net = selforgmap(dimensions);
```
```
 
```
```
% Visualizza rete
```
```
net = configure(net,x);
```
```
view(net)
```
```
 
```
```
% Criteri di stop
```
```
net.trainParam.epochs = 2000;
```
```
% Stampa output nella command line
```
```
net.trainParam.showCommandLine = 1;
```
```
 
```
```
% Addestramento Rete
```
```
net = train(net,x);
```
```
 
```
```
% Plots vari
```

figure,plotsompos(net,x);   % Pesi neuroni

figure,plotsomhits(net,x);  % Numero di input che attivano ogni neurone

figure,plotsomnd(net,x);    % Distanze neuroni

```
 
```

% Indice del cluster (neurone) dato un input

```
y = net(x);
```
```
cluster_indices = vec2ind(y);
```

Cluster Analysis: k-Means

Implementazione k-Means:

```
clear all, close all
```
```
rng(0); % For reproducibility
```
```
load dataset3.mat
```
```
 
```
```
[X,pca_settings] = processpca(X',0.15);
```
```
X = X';
```
```
 
```
```
%% K-means
```
```
K = 3;
```
```
 
```
```
% Rappresento i dati
```
```
figure;
```

plot(X(:,1),X(:,2),'k*','MarkerSize',5);

```
grid minor
```
```
xlabel 'F1'; 
```
```
ylabel 'F2';
```
```
 
```
```
[idx,C] = kmeans(X,K);
```
```
 
```

% Rappresento i dati secondo i cluster individuati dall'applicazione del k-means

```
figure;
```
```
gscatter(X(:,1),X(:,2),idx);
```
```
hold on
```

plot(C(:,1),C(:,2),'kx','MarkerSize',15,'LineWidth',3);

```
hold off
```

legend('Region 1','Region 2','Region 3','C');

Dendrogramma

Costruzione del dendrogramma partendo da dati generati casualmente:

```
%% Generazione dei dati
```
```
rng(0) % For reproducibility
```
```
N = 10; % Samples
```
```
X = rand(N,2); % Dataset
```
```
 
```
```
%% Rappresentazione del dataset
```
```
figure,plot(X(:,1),X(:,2),'*')
```
```
grid minor
```
```
txt = strsplit(num2str(1:N));
```
```
text(X(:,1),X(:,2),txt,'FontSize',15)
```
```
 
```
```
%% Costruzione del dendrogramma
```

tree = linkage(X,'average','euclidean'); % Creazione albero

```
figure,dendrogram(tree)
```

Test chi-quadro

Si supponga di lanciare una moneta 10 volte e di ottenere 6 volte testa e 4 volte croce. È possibile affermare che la distribuzione dei risultati sia coerente con quella di una moneta non truccata?

Applicazione del test chi-quadro:

obs = [4;6]; % Vettore delle osservazioni

expt = [5;5]; % Vettore dei valori attesi

```
df = 1; % Gradi di liberà
```
```
 
```
```
c = compute_chi(obs,expt);
```
```
p = chi_table(.05,df);
```
```
disp(c > p)
```
```
 
```
```
 
```
```
%% Funzioni
```
```
 
```
```
% Calcolo del chi-quadro
```
```
function c = compute_chi(obs,expt)
```
```
c = sum((obs - expt).^2 ./ expt);
```

%c = sum((abs(obs - expt)-.5).^2 ./ expt);

```
end
```
```
 
```

% Inversa del chi-quadro fissati "df" gradi di libertà e "1-p" probabilità

```
function C = chi_table(p,df)
```
```
C = chi2inv(1-p,df);
```
```
end
```

t-Test

Date le seguenti misure si verifichi, applicando t-Test con un livelli di significatività del 5%, se è possibile affermare che la popolazione provenga da una distribuzione normale con media pari a 5 e varianza non nota.

5.53	6.83	2.74	5.86	5.31	3.69	4.56	5.34	8.57	7.76	3.65	8.03	5.72	4.93	5.71	4.79	4.87	6.48	6.40	6.41	5.67	3.79	5.71	6.63	5.48

```
% Dati
```

x = [5.53,6.83,2.74,5.86,5.31,3.69,4.56,5.34,8.57,7.76,3.65,8.03,5.72,4.93,5.71,4.79,4.87,6.48,6.40,6.41,5.67,3.79,5.71,6.63,5.48];

```
disp(['Media dati: ',num2str(mean(x))])
```
```
 
```
```
%% t-Test
```
```
[ht,pp] = ttest(x,m,'Alpha',.05)
```
```
 
```
```
if ht
```
```
    disp('Rifiuto ipotesì nulla')
```
```
end
```

z-Test

Date le seguenti misure si verifichi, applicando z-Test con un livelli di significatività del 5%, se è possibile affermare che la popolazione provenga da una distribuzione con media pari a 5 e deviazione standard pari a 1.

5.53	6.83	2.74	5.86	5.31	3.69	4.56	5.34	8.57	7.76	3.65	8.03	5.72	4.93	5.71	4.79	4.87	6.48	6.40	6.41	5.67	3.79	5.71	6.63	5.48

```
% Dati
```

x = [5.53,6.83,2.74,5.86,5.31,3.69,4.56,5.34,8.57,7.76,3.65,8.03,5.72,4.93,5.71,4.79,4.87,6.48,6.40,6.41,5.67,3.79,5.71,6.63,5.48];

```
disp(['Media dati: ',num2str(mean(x))])
```
```
 
```
```
%% z-Test
```
```
sigma = 1;
```
```
[hz,pz] = ztest(x,m,sigma,'Alpha',.05)
```
```
 
```
```
if hz
```
```
    disp('Rifiuto ipotesì nulla')
```
```
end
```

Esame 4 luglio 2019

Traccia:

Si supponga di aver addestrato una rete neurale feedforward e di voler testare le performance su un nuovo dataset. La rete è stata addestrata usando la seguente configurazione:

un layer nascosto formato da 10 neuroni e avente come funzione di trasferimento "tansig";
un layer di uscita formato da un solo neurone e avente come funzione di trasferimento "logsig”.

Successivamente all’addestramento, lo stato della rete è stato salvato all’interno di tre strutture dati Matlab IW, LW, b contenenti rispettivamente: i pesi in ingresso, i pesi del layer nascosto e i vettori di bias. Fissando, quindi, una soglia sull’output di classificazione pari a 0.5, si valutino le performance in termini di accuratezza sul nuovo dataset fornito. Si rappresentino successivamente le curve ROC relativamente ai valori di soglia: 0.1, 0.5 e 0.8. Si commentino i risultati ottenuti.

N.B.: Tutte le variabili necessarie allo svolgimento sono contenute all’interno del file esame.mat fornito.

Possibile soluzione per il ripristino di una rete:

```
clear all, close all
```
```
load esame.mat;
```
```
 
```
```
% Creazione rete
```
```
net = patternnet([10]);
```
```
net = configure(net,features,target);
```
```
 
```
```
% Funzioni di attivazione
```
```
net.layers{1}.transferFcn = 'tansig';
```
```
net.layers{end}.transferFcn = 'logsig';
```
```
 
```
```
% Pesi
```
```
net.IW = IW;
```
```
net.LW = LW;
```
```
net.b = b;
```
```
 
```
```
% Test
```
```
y_test = net(features);
```

Per la valutazione delle performance e delle curve ROC si rimanda al seguente link

Materiale per Bioinformatica Avanzata in attesa di pagina specifica

Tecniche di Ottimizzazione e Algoritmi Genetici https://it.mathworks.com/discovery/genetic-algorithm.html

Versione delle 17:54, 25 set 2019 (visualizza sorgente) Profbevilacqua (Discussione \| contributi) (→‎Materiale per Bioinformatica Avanzata ij attesa di pagina specifica) ← Differenza precedente		Versione delle 17:56, 25 set 2019 (visualizza sorgente) Profbevilacqua (Discussione \| contributi) (→‎Materiale per Bioinformatica Avanzata in attesa di pagina specifica) Differenza successiva →
Riga 623:		Riga 623:

	== Materiale per Bioinformatica Avanzata in attesa di pagina specifica ==		== Materiale per Bioinformatica Avanzata in attesa di pagina specifica ==
		+
		+	Tecniche di Ottimizzazione e Algoritmi Genetici https://it.mathworks.com/discovery/genetic-algorithm.html

Laboratorio Matlab: differenze tra le versioni

Versione delle 17:56, 25 set 2019

Indice

Apprendimento Supervisionato

Reti Neurali Feed-Forward

Traccia ed esempio svolto a lezione (1)

Traccia ed esempio svolto a lezione (2)

Apprendimento Non Supervisionato

Cluster Analysis: Self-Organizing Maps

Cluster Analysis: k-Means

Dendrogramma

Test chi-quadro

t-Test

z-Test

Esame 4 luglio 2019

Materiale per Bioinformatica Avanzata in attesa di pagina specifica

Menu di navigazione

Strumenti personali

Namespace

Varianti

Visite

Azioni

Ricerca

Navigazione

Strumenti

Feature 1	Feature 2	Feature 3	Feature 4	Target
1	1	0	1	0.5
1	1	1	0	0.5
1	1	-1	0	0
1	1	0	-1	0
1	-1	0	1	1
1	-1	1	0	1
-1	0	1	0	0.5
1	-1	-1	-1	0
-1	0	1	1	1
1	-1	0	0	0.5
1	-1	1	-1	0.5
-1	0	0	1	0.5
-1	0	-1	0	0
-1	0	0	-1	0

Feature 1	Feature 2	Feature 3	Feature 4	Target
1	1	0	1	0.5
1	1	1	0	0.5
1	1	-1	0	0
1	1	0	-1	0
1	-1	0	1	1
1	-1	1	0	1
-1	0	1	0	0.5
1	-1	-1	-1	0
-1	0	1	1	1
1	-1	0	0	0.5
1	-1	1	-1	0.5
-1	0	0	1	0.5
-1	0	-1	0	0
-1	0	0	-1	0

Feature 1	Feature 2	Feature 3	Feature 4	Target
1	1	0	1	0.5
1	1	1	0	0.5
1	1	-1	0	0
1	1	0	-1	0
1	-1	0	1	1
1	-1	1	0	1
-1	0	1	0	0.5
1	-1	-1	-1	0
-1	0	1	1	1
1	-1	0	0	0.5
1	-1	1	-1	0.5
-1	0	0	1	0.5
-1	0	-1	0	0
-1	0	0	-1	0