Doctoraatsverdediging Frederik Questier
Contributions to clustering and feature selection methods for clusters

Vele wetenschappelijke disciplines kennen een ware data-explosie, die het moeilijk maakt deze data te verkennen en te interpreteren. Farmaceutisch-analytische technieken, zoals Hoge Druk Vloeistof Chromatografie gekoppeld aan Diode Array Detectie (HPLC-DAD) of Gas Chromatografie gekoppeld aan Massa Spectrometrie (GC-MS), laten toe vele honderden of duizenden meetwaarden (variabelen) per staal in een korte tijdspanne te verwerven. Technieken zoals combinatoriële chemie en Hoge DoorvoerScreening (HTS) laten toe vele duizenden stalen te synthetiseren en te meten. Het grote aantal stalen en de hoge dimensionaliteit van deze datasets compliceren hun visualisatie en interpretatie.Clusteringsmethoden, die gelijkaardige objecten groeperen in clusters, kunnen helpen data samen te vatten en interessante patronen te herkennen.Het neurale gas algoritme werd in de chemometrie geïntroduceerd als een interessante clusterings-methode en combinaties met visualisatietechnieken werden voorgesteld.Waar clusteringsmethoden helpen bij een groot aantal stalen, kunnen variabelenselectiemethoden helpen bij een groot aantal meetwaarden. De identificatie van de interessantste variabelen kan leiden tot een beter begrip van de bestudeerde fenomenen. De verwijdering van irrelevante of redundante variabelen kan leiden tot een kosten- en tijdsbesparing qua metingen en tot een reductie van opslagkosten, alsook tot een performantie- en snelheidsverbetering van leeralgoritmen. Vele variabelenselectiemethoden zijn beschikbaar, maar slechts weinigen zijn bruikbaar voor niet-gesuperviseerde data, waar klasse informatie omtrent de objecten niet beschikbaar is. Verscheidene methoden werden voorgesteld voor dergelijke niet-gesuperviseerde variabelenselectie, in het bijzonder voor clusteringstoepassingen. De nieuw voorgestelde AAMRT methode (Auto-Associatieve Multivariate Regressie Bomen) leidt tot een betere clustering door verwijdering van de irrelevante en redundante variabelen en laat ook toe de variabelen te identificeren verantwoordelijk voor de clusterstructuur van de data.

 

 

 

 

Terug naar doctoratenoverzicht