Ocorrência de sinistros em veículos no sul de Minas Gerais: uma abordagem via modelos de classificação

Luiz Otávio de Oliveira Pala; Marcela de Marillac Carvalho; Paulo Henrique Sales Guimarães; Thelma Sáfadi

doi:10.5433/1679-0375.2020v41n1p79

Ocorrência de sinistros em veículos no sul de Minas Gerais: uma abordagem via modelos de classificação

Autores

Luiz Otávio de Oliveira Pala Universidade Federal de Lavras
Marcela de Marillac Carvalho Universidade Federal de Lavras
Paulo Henrique Sales Guimarães Universidade Federal de Lavras
Thelma Sáfadi Universidade Federal de Lavras

DOI:

https://doi.org/10.5433/1679-0375.2020v41n1p79

Palavras-chave:

Random Forest, Random Over Sampling Examples, Regressão Logística.

Resumo

Com as mudanças nos padrões de risco, novos produtos de seguros são disponibilizados no mercado, atendendo as demandas do consumidor. Consequentemente, os modelos de precificação são reestruturados de modo a gerenciar os níveis de risco e estabelecer prêmios que mantenham o bem estar atuarial, alocando apólices em carteiras através de modelos de classificação e clusterização. Este trabalho analisou o desempenho dos modelos logístico e Random forests na classificação de ocorrências de sinistros do tipo colisão por perda total no sul de Minas Gerais utilizando amostras de treino originais e artificiais via método de reamostragem ROSE. Considera-se a perda total de um veículo quando os custos de reparos do sinistro de um mesmo evento superarem um percentual estabelecido contratualmente. Como resultado, obteve-se que os modelos com amostra artificial apresentaram resultados de acurácia superiores aos demais, indicando a melhoria nas taxas de acurácia através de métodos de reamostragem durante o treino.

Downloads

Não há dados estatísticos.

Biografia do Autor

Luiz Otávio de Oliveira Pala, Universidade Federal de Lavras

Doutorando no Prog. de Estatística e Exp. Agropecuária, UFLA, Lavras, MG, Brasil

Marcela de Marillac Carvalho, Universidade Federal de Lavras

Doutoranda no Prog. de Estatística e Exp. Agropecuária, UFLA, Lavras, MG, Brasil

Paulo Henrique Sales Guimarães, Universidade Federal de Lavras

Prof. Dr., Depto. de Estatística, UFLA, Lavras, MG, Brasil

Thelma Sáfadi, Universidade Federal de Lavras

Profa. Dra., Depto. de Estatística, UFLA, Lavras, MG, Brasi

Referências

BLAKE, David; CAIRNS, Andrew; COUGHLAN, Guy; DOWD, Kevin; MACMINN, Richard. The new life market. Journal of Risk and Insurance. v. 80, n. 3, p. 501-558, 2013. Disponível em: urlhttp://onlinelibrary.wiley.com/doi/10.1111/j.1539-6975.2012.01514.x/full.

BREIMAN, Leo. Random Forests. Kluwer Academic Publishers. v. 45, p. 5-32, 2001.

DIONNE, Georges. Risk management: history, definition, and critique. Risk Management and Insurance Review. v. 16, n. 2, p. 147-166, 2013. Disponível em: urlhttp://onlinelibrary.wiley.com/doi/10.1111/rmir.12016/abstract.

FILHO, Olívio. Seguros: fundamentos, formação de preço, provisões e funções biométricas. Editora Atlas. São Paulo. 2011.

HASTIE, Trevor; TIBSHIRANI, Robert; FRIEDMAN, Jerome. The elements of statistical learning: data mining, inference, and prediction. 2. ed. Springer Series in Statistics. New York. 2008.

IZBICK, Rafael; SANTOS, Tiago. Machine Learning sob a ótica estatística: uma abordagem preditivista para a estatística com exemplos em R. 2019. Disponível em: urlhttp://www.rizbicki.ufscar.br/sml.pdf.

MCCLISH, Donna. Analyzing a Portion of the ROC Curve. Medical Decision Making. v. 9, n. 3. 1989.

LANTZ, Brett. Machine learning with R. 2. ed. [s. L.]: Packt Publishing, 2015.

LIAW, Andy; WIENER, Matthew. Breiman and Cutler's Random Forests for Classification and Regression. 2018. Disponível em: urlhttps://cran.r-project.org/web/packages/randomForest/randomForest.pdf.

LIN, Weiwei; WU, Ziming; LIN, Longxin; WEN, Angzhan; LI, Jin. An Ensemble Random Forest Algorithm for Insurance Big Data Analysis. IEEE Access. 2017. Disponível em: urlhttps://ieeexplore.ieee.org/document/8005851.

LUNARDON, Nicola; MENARDI, Giovanna; TORELLI, Nicola. ROSE: Random Over-Sampling Examples. 2015. Disponível em: urlhttps://cran.r-project.org/web/packages/ROSE/ROSE.pdf.

MENARDI, Giovanna; TORELLI, Nicola. Training and assessing classification rules with imbalanced data. Data mining and knowledge discovery. v. 28, p. 92-122, 2014.

MORETTIN, Pedro; SINGER, Julio. Introdução à ciência de dados: fundamentos e aplicações. 2020. Disponível em: urlhttps://www.ime.usp.br/~pam/.

PRATI, R; BATISTA, G; MONARD, M. Curvas ROC para avaliação de classificadores. IEEE LATIN AMERICA TRANSACTIONS. v. 6, n. 2, 2008.

PIERRI, Francesca; STANGHELLINI, Elena; BISTONI, Nicoló. Risk analysis and retrospective unbalanced data. REVSTAT. v. 14, n. 2, p. 157-169, 2016.

R CORE TEAM. R: a language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. 2020.

SARLIJA, Natasa; BILANDZIC, Ana; STANIC, Marina. Logistic regression modelling: procedures and pitfalls in developing and interpreting prediction models. Croatian Operational Research Review. v. 8, p. 631-652, 2017.

SPEDICATO, Giorgio; DUTANG, Christophe; PETRINI, Leonardo. Machine Learning methods to perform pricing optimization: a comparison with Standard Generalized Linear Models. Variance Journal. v. 12, n. 1, p. 69-89, 2018.

SUSAC, Marijana; SARLIJA, Natasa; HAS, Adela; BILANDZIC, Ana. Predicting company growth using logistic regression and neural networks. Croatian operational research review. v. 7, p. 229-248, 2016.

Superintendência de Seguros Privados (SUSEP). CIRCULAR SUSEP Nº 145, DE 07 DE NOVEMBRO DE 2.000. 2000. Disponível em: urlhttp://www2.susep.gov.br/bibliotecaweb/docOriginal.aspx?tipo=1&codigo=9058.

Superintendência de Seguros Privados (SUSEP). AUTOSEG: sistema de estatística de automóveis da Susep. 2020. Disponível em: urlhttp://www2.susep.gov.br/menuestatistica/Autoseg/principal.aspx.

TANTITHAMTHAVORN, Chakkrit; HASSAN, Ahmed; MATSUMOTO, Kenichi. The impact of class rebalancing techniques on the performance and interpretation of defect prediction models. IEEE Access. 2018. Disponível em: urlhttps://arxiv.org/pdf/1801.10269.pdf.

ZEMIACKI, Juscelino. Teoria da credibilidade: Uma abordagem Bayesiana para estimação de prêmios de seguros de vida. UFRGS. 2006.

ZHANG, Jue; CHEN, Li. Clustering-based undersampling with random over sampling examples and support vector machine for imbalanced classification of breast cancer diagnosis. Computer Assisted Surgery. v.24, n. 2, p. 62-72. 2019.