Desenvolvimentos teóricos na análise de regressão de dados fraccionários, com aplicações à àrea das Finanças

Cofinanciado por:
Designação do projeto | Desenvolvimentos teóricos na análise de regressão de dados fraccionários, com aplicações à àrea das Finanças
Código do projecto | PTDC/EGE-ECO/119148/2010
Objetivo principal |

Região de intervenção |

Entidade beneficiária |
  • Universidade de Évora(líder)
  • Centro de Matemática Aplicada à Previsão e Decisão Económica (CEMAPRE/ISEG/UTL)(parceiro)
  • Universidade de Coimbra(parceiro)

Data de aprovação | 09-09-2011
Data de inicio | 01-03-2012
Data de conclusão | 31-08-2015

Custo total elegível |
Apoio financeiro da União Europeia |
Apoio financeiro público nacional/regional |
Apoio financeiro atribuído à Universidade de Évora | 81800 €

Resumo

Existem muitas variáveis de interesse económico que têm uma natureza fraccionária, isto é, apenas podem assumir valores no intervalo [0,1]. Entre outros, podem-se apontar como exemplos destas variáveis a participação em fundos de pensões, a proporção de uma propriedade que é usada para a agricultura, as proporções de horas semanais dedicadas a um determinado conjunto de actividades, as proporções de rendimento alocadas a várias classes de bens e serviços e as percentagens de diferentes tipos de dívida detidas por uma empresa. Enquanto nos dois primeiros casos existem apenas duas categorias e uma única proporção é modelada, os restantes exemplos referem-se à situação mais geral onde a variável de interesse tem uma natureza multivariada.

A análise de regressão de dados fraccionários levanta uma série de questões interessantes de investigação, uma vez que os métodos convencionais de modelação econométrica não são directamente aplicáveis neste contexto. Para o caso em que se pretende modelar uma única proporção, as principais questões foram discutidas no artigo pioneiro de [PaWo96]. Num artigo recente ([RaRaMu11]), alguns dos autores desta proposta de investigação fizeram um levantamento exaustivo dos principais modelos de regressão e métodos de estimação alternativos que podem ser usados na análise de variáveis fraccionárias do tipo univariado e propuseram uma bateria de testes estatísticos para avaliar a validade dos pressupostos inerentes a cada um dos modelos e métodos discutidos.

Neste projecto, propõe-se dar continuidade à investigação iniciada em 2007 (projecto PTDC/ECO/64693/2006), a qual se concentrou na análise de regressão de dados fraccionários de natureza univariada usando métodos paramétricos. A aplicação destes métodos naquele contexto é novamente considerada mas o principal objectivo da presente proposta de investigação é a análise de dados multivariados usando métodos paramétricos e não paramétricos. Além disso, enquanto o projecto anterior considerou uma única aplicação dos métodos propostos (a determinação dos factores que explicam a estrutura de capital das empresas), este projecto de investigação considera uma gama variada de aplicações à área das Finanças, a qual constitui um ramo do conhecimento onde em anos recentes a maioria dos membros da presente equipa de investigação tem trabalhado com alguma regularidade (ver, por exemplo, [RaSi09], [SaMu09] e [Ba10]).

Os modelos paramétricos propostos para a modelação de variáveis fraccionárias multivariadas diferem numa série de aspectos importantes: (i) a adopção, ou não, de pressupostos distribucionais; (ii) a possibilidade, ou não, de poderem lidar com observações extremas (0 e 1); e (iii) em casos onde as proporções resultam do quociente de números inteiros, o uso, ou não, desta informação adicional. Em todos os casos, os modelos têm em comum o facto de assumirem para a média condicional da variável dependente apenas especificações que obrigam a que aquela média se situe forçosamente no intervalo [0,1]. A análise de especificação dos modelos propostos também é um dos assuntos chave desta proposta, ao contrário do que tem acontecido até ao momento na literatura dedicada aos modelos multivariados para dados fraccionários.

Nalgumas aplicações, pode ser também útil usar técnicas de regressão menos exigentes em termos de pressupostos. Neste projecto consideram-se duas técnicas alternativas aos métodos paramétricos: árvores de decisão e redes neurais artificiais. Estes dois métodos não paramétricos são primeiro adaptados ao contexto fraccionário, demonstrando-se de seguida que os mesmos são alternativas aos métodos tradicionais, quer em termos de modelação, quer em termos de previsão. As árvores de decisão são também usadas em conjugação com os métodos paramétricos com o objectivo de modelar as variáveis de interesse por grupos homogéneos de empresas, onde a definição dos grupos é determinada pelo método não paramétrico.

Uma área de investigação onde muitas variáveis de interesse têm uma natureza fraccionária é a área das Finanças. Neste projecto, várias questões relevantes de Finanças são revistas, tais como os determinantes das decisões de tesouraria e da estrutura de capital, a relação entre a composição dos conselhos de administração e o desempenho da empresa, a previsão das taxas de recuperação de créditos bancários em caso de falência dos devedores e a determinação dos factores que influenciam o investimento em acções por parte dos investidores institucionais. Esta diversidade de exemplos permitirá aplicar os métodos desenvolvidos a uma série de situações interessantes e com características bem distintas: proporções uni e multivariadas; respostas fraccionárias resultantes, ou não, de quocientes conhecidos de números inteiros; observação, ou não, de valores extremos; modelação conjunta ou separada por grupos de empresas; e casos onde o interesse principal é a modelação ou a previsão do comportamento das empresas.


Objetivos, atividades e resultados esperados/atingidos

In order to circumvent the limitations of the existing parametric models for multivariate fractional responses, we consider various alternative approaches that fully account for the bounded, unit-sum nature of fractional variables and are sufficiently general to be applied to a variety of situations. Moreover, we consider the issue of specification testing. In particular, concerning parametric approaches, we address the following topics:

(i) The few studies that have modelled multivariate fractional response variables acknowledging appropriately their share nature and using conditional mean models are all based on a multinomial logit specification. This choice has been dictated mainly by convenience: this is the simplest model used in the discrete case to describe multivariate choice probabilities. However, the behavioral implications of the well-known independency of irrelevant alternatives (IIA) property of the multinomial logit model, which implies that the ratio between the proportions allocated to two categories is independent from the remaining categories, naturally extends to the case of fractional variables. In this research project we consider the adaptation to the fractional setting of other specifications that are commonly used in the discrete case to model choice probabilities (e.g. nested logit, mixed logit).

(ii) In contrast to the case of conditional mean models, most applications of the Dirichlet model are based on different reparameterizations of the Dirichlet distribution, which imply different functional forms for the conditional expectation of the response variables. However, most of those alternative specifications of the Dirichlet regression model seem to be specific to the particular studies carried out by their proponents. For instance, [ChGr02] use a specification that only makes sense in the framework of Lorenz curves. In this research project we provide an integrated approach for all models analyzed, suggesting reparameterizations of the distributions underlying the Dirichlet and other full parametric regression models that ensure that the same specifications used for E(Y|X) in conditional mean models may also be used for describing the conditional expectation implied by each parametric model. With this approach, as for the univariate case, each model formulated for E(Y|X), irrespective of the specific formulation chosen, may be estimated by either QML or ML, depending on the adoption, or not, of full joint distributional assumptions for the fractional response variables.

(iii) In some applications, the response variables may be interpreted as ratios of integers, i.e. the dependent variables are the proportions of sampling units in a given group who select each of a set of mutually exclusive alternatives. In such cases, provided that the size group or the total number of units in a given group that choose each alternative are also known, models that exploit the extra information available may produce more efficient estimators than models which use information on the fractional response alone. In this research project, we propose using two parametric models that have not been considered previously in the literature of fractional responses, namely the multinomial and the Dirichlet-multinomial regression models. For both models we propose parameterizations that imply standard specifications for the conditional expectation of the response variables and, in contrast to the Dirichlet model, have the advantage of being able to deal with boundary observations.

(iv) Another limitation of the existing literature on multivariate fractional regression is the absence of suitable tests for assessing the assumptions underlying each parametric model. To the best of our knowledge, although the assumptions implied by the multinomial logit model are often questionable and the Dirichlet regression model is not robust to deviations from the assumed distribution, not a single paper in this area has applied specification tests. In this research project we develop tests for assessing both distributional and first moment assumptions. In the former case, we consider conditional moment tests for assessing the covariance structures implied by the Dirichlet, the multinomial and the Dirichlet-multinomial regression models. Regarding conditional mean assumptions, we propose tests that are extensions of their counterparts for either the univariate fractional case or the multivariate discrete case, namely RESET-type tests, goodness-of-functional form tests ([RaRaMu11]) and tests for the IIA assumption.

In terms of semi and nonparametric techniques, the following methods are expected to be adapted and applied to the modelling and forecasting of both univariate and multivariate fractional regression models:

(i) Decision tree models ([BrFrOlSt84]; [Qu86]). A decision tree model is a regression technique in which the predicted values of the target variable are obtained through a series of sequential logical if-then conditions. This sequence of binary splits divides the fractional response observations into several partitions according to some explanatory variables. The objective of the splitting procedure is to divide the data into groups in which the observations are as homogenous as possible. The predicted response in a given partition is equal to the average of the response variable for the set of observations that lie in the partition, which implies that when the response variable is bounded to the unit interval, predicted values will inevitably be also bounded between 0 and 1. The only application of decision tree models in the fractional context, [Ba10], was made by one of the researchers involved in this project, which, however, was mainly interested in forecasting in the framework of univariate models. In this project, we extend the method for the multivariate setting and consider also its use for the determination of the factors that explain the conditional mean of fractional response variables, both as a sole method and in conjugation with parametric models.

(ii) Artificial neural networks ([Bi96]). An artificial neural network is a nonparametric mathematical model that attempts to emulate the functioning of biological neural networks, consisting of a group of interconnected processing units denoted by neurons. Due to their good capability of approximating arbitrary complex functions ([HoStWh89]), these models have been applied in a wide range of scientific domains, including finance (e.g. [AlMaVa94] use neural networks to model the probability of default). Typically, neural networks employ linear activation functions in the output neuron. In order to adapt it to the fractional context, in this research project we consider using sigmoid activation functions that guarantee that the predicted values are constrained to the unit interval. Furthermore, neural network architectures with two or more neurons in the output layer allow regression analyses of multivariate fractional dependent variables.

For all the new models developed in this research project, we carry out Monte Carlo simulation studies to assess the finite sample performance of the estimators and tests developed. In addition, we use real data to show the usefulness of the suggested methods in empirical work. In particular, we consider the following applications in the area of finance:

(i) Capital structure decisions. In this case, we consider two distinct applications of our methods. First, since nonparametric methods may be used both in classification and regression problems, we implement a full nonparametric version of the two-part fractional regression model considered by [RaSi09] to deal with cases where the fractional dependent variable (e.g. the proportion of interest-bearing debt in firms’ capital) has a nontrivial probability of assuming one of its boundary values. Second, we show how our multivariate models can cope with situations where there is a clear interdependency between the proportions allocated to different types/sources of funding, an issue mainly disregarded by the previous literature;

(ii) Cash-holdings decisions. This application is mainly designed to show how decision tree models and parametric regression models can be combined in a single research design to improve our understanding of a well-established research area. Specifically, we first use decision tree models to partition firms into homogenous groups using a number of firms’ attributes (e.g. number of employees, annual turnover, annual balance sheet total, industry dummies), and then employ parametric models to study the cash holding’s conditional mean of each group.

(iii) Composition of the board of directors and determinants of institutional equity ownership. These two applications will shed light on how fractional regression models behave when the fractional dependent variable is defined as the ratio of two known integers. While in the first application the fractional response is univariate and the denominator of the ratio is typically a small value, in the second case that denominator is commonly very large. In this second application, we also consider the case of multivariate proportions, as we partition institutional investors into five mutually exclusive categories, an innovation in comparison with the extent literature.

(iv) Loss-given-default. The main purpose of this application is to apply the theory of forecasting in the context of fractional regression. In order to contribute to the current literature on this subject, we implement neural network models of loss-given default and apply parametric and nonparametric models that take into account the fact that recovery distributions for bank loans and subordinated bonds typically present point masses at zero, that is, many credits result in total loss of the outstanding debt.

Attribute Type Value
id integer 2389