Please use this identifier to cite or link to this item:
http://repositorio.ufersa.edu.br/handle/prefix/1093
metadata.dc.type: | Dissertação |
Title: | Um estudo comparativo de técnicas de detecção de outliers no contexto de classificação de dados |
metadata.dc.creator: | Freitas, Igor Wescley Silva de |
metadata.dc.contributor.advisor1: | Araújo, Daniel Sabino Amorim de |
metadata.dc.contributor.referee1: | Nunes, Isabel Dilmann |
metadata.dc.contributor.referee2: | Santos, Araken de Medeiros |
metadata.dc.description.resumo: | Outliers são objetos que se desviam consideravelmente dos demais em relação a alguma medida, e promovem grande influência na análise dos dados. Na estatística, essa influência pode induzir uma análise equívoca dos dados, neste caso, os outliers constituem dados que precisam ser removidos. Para outras aplicações, o outlier pode representar alguma informação valiosa, tratando-se de algum tipo de fraude, intrusão em sistemas, anomalias em redes de computadores, falhas mecânicas e condição clinica crítica. Para todo caso, os outliers precisam ser identificados, independente de seu tratamento. A literatura fornece diversas técnicas para detecção de outliers, cada uma com suas características e especificidades, que por sua vez foram aplicadas em diversos domínios, tendo em vista resolver problemas singulares. Precisar qual técnica tem melhor desempenho para determinado domínio de dados, constitui um desafio ainda pouco explorado na literatura e provoca o desenvolvimento de estratégias, para mensurar a performance de técnicas de detecção de outliers. Nesse sentido, a proposta deste trabalho é apresentar um estudo comparativo de técnicas de detecção de outliers, através de uma metodologia que permita uma análise uniforme e objetiva. As técnicas utilizadas na análise comparativa estão distribuídas em técnicas baseadas em métodos estatísticos, proximidade e distância. Como parte da metodologia, elas são aplicadas no pré-processamento dos dados, onde seu desempenho é mensurado analisando o efeito desta aplicação na indução de classificadores. As métricas de avaliação de classificadores funcionam como indicadores de desempenho das técnicas. De acordo com os resultados dos experimentos realizados, foi possível analisar efetivamente o desempenho das técnicas de detecção de outliers para diferentes domínios, e confirmar a validade da metodologia |
Abstract: | Outliers are objects that deviate considerably from others in relation to some measure, and promote great influence in the analysis of the data. In statistics, this influence may induce an equivocal analysis of the data, in which case the outliers constitute data that need to be removed. For other applications, the outlier may represent some valuable information, dealing with some type of fraud, system intrusion, computer network anomalies, mechanical failures and critical clinical condition. In any case, outliers need to be identified, regardless of their treatment. The literature provides several techniques for detection of outliers, each with its characteristics and specificities, which in turn have been applied in several domains, in order to solve singular problems. To specify which technique performs better for a particular data domain is a challenge that is still little explored in the literature and causes the development of strategies to measure the performance of outliers detection techniques. In this sense, the proposal of this work is to present a comparative study of outliers detection techniques, through a methodology that allows a uniform and objective analysis. The techniques used in the comparative analysis are distributed in techniques based on statistical methods, proximity and distance. As part of the methodology, they are applied in the pre-processing of the data, where their performance is measured by analyzing the effect of this application on the classifier induction. Classifier evaluation metrics serve as performance indicators for classifiers. According to the results of the experiments, it was possible to effectively analyze the performance of outliers detection techniques for different domains, and confirm the validity of the methodology |
Keywords: | Outliers Detecção de Outliers Classificação Metodologia Outliers Outlier Detection Classification methodology |
metadata.dc.subject.cnpq: | CNPQ::CIENCIAS EXATAS E DA TERRA |
metadata.dc.language: | por |
metadata.dc.publisher.country: | Brasil |
Publisher: | Universidade Federal Rural do Semi-Árido |
metadata.dc.publisher.initials: | UFERSA |
metadata.dc.publisher.department: | Centro de Ciências Exatas e Naturais - CCEN |
metadata.dc.publisher.program: | Programa de Pós-Graduação em Ciência da Computação |
Citation: | Citação com autor incluído no texto: Freitas (2019) Citação com autor não incluído no texto: (FREITAS, 2019) |
metadata.dc.rights: | Acesso Aberto |
URI: | http://repositorio.ufersa.edu.br/handle/prefix/1093 |
Issue Date: | 25-Jan-2019 |
Appears in Collections: | MESTRADO EM CIÊNCIA DA COMPUTAÇÃO |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
IgorWSF_DISSERT.pdf | 1.64 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.