sexta-feira, 28 de abril de 2017

Curso de Inferência Estatística e Regressão Linear Simples e Múltipla


Dias 5, 12, 19 e 26 de Maio e 2 de Junho de 2017, das 15:00 às 21:00 (sextas-feiras). 


Os formandos que frequentem no mínimo 80% da acção de formação, receberão gratuitamente uma licença do software CastleR®, com um crédito de 400,00€ para utilização durante e após o curso em qualquer prazo e em quaisquer avaliações.



Curso sobre a temática das Avaliações de Bens Imobiliários com objetivo de proporcionar aos participantes conhecimentos de Inferência Estatística aplicados na Engenharia de Avaliações, com aplicação de modelos de regressão linear múltipla, seguindo normas internacionais e os preceitos determinados pela NBR 14.653-2 da ABNT. 


O público alvo desta acção são profissionais ligados à atividade de avaliação imobiliária com necessidade de aprofundar os seus conhecimentos nas metodologias cientificas de avaliação, e todos aqueles que pretendem iniciar-se neste tipo de avaliações. 

Os formandos serão convidados a desenvolver diversos trabalhos práticos de forma a consolidar os conhecimentos adquiridos. No final, dependendo do aproveitamento atingido será emitido um certificado de formação profissional com avaliação quantitativa. 


sexta-feira, 21 de abril de 2017

Estatística Espacial na Avaliação Imobiliária


A Estatística e Análise Espacial incorpora cada vez mais os Sistemas de Informação Geográfica, incluindo novos princípios e procedimentos de análise espacial, e existe o consenso na comunidade científica de que alguns processos espaciais, principalmente aqueles observados no ambiente urbano das grandes cidades, apresentam indexação no espaço e trazem como característica comum a continuidade. Isto significa dizer que esses valores variam de forma gradual numa determinada vizinhança ou região de influência.

 A associação de procedimentos de estatísticas espaciais aos sistemas SIG é importante porque permite que novos modelos inferenciais possam ser utilizados, incluindo uma informação importante: a correlação espacial.

Para que se possa estimar a correlação espacial, o estudo da geoestatística e seus conceitos básicos são de extrema importância e envolve a análise e inferência de fenómeno espacial e/ou temporal, tal como os preços de imóveis no mercado imobiliário.

A geoestatística teve a sua origem na área de mineração (Krige, 1951) e actualmente está associada com uma classe de técnicas usada para analisar e inferir valores de uma variável regionalizada. Estes valores, nestes estudos representados pelos preços dos imóveis, o consumo habitacional e a procura por habitação, estão implicitamente correlacionados uns com os outros, e o estudo de tal correlação é denominada de análise estrutural ou modelagem do variograma. A construção do variograma permite realizar a análise estrutural e inferências em localizações não amostradas, que são realizadas usando "Krigagem" ou a regressão espacial com a matriz de espacialidade.

Resumidamente, os passos num estudo de mercado imobiliário empregando técnicas geoestatísticas incluem a análise exploratória dos dados, a análise estrutural (cálculo e modelagem do variograma) e a realização de inferências (Krigagem ou Regressão Espacial).
A conceituação das técnicas de geoestatística está fundamentada na Teoria das Variáveis Regionalizadas, desenvolvida por Matheron (1963, 1971). A variável regionalizada é uma variável distribuída no espaço (ou tempo), como o preço dos imóveis no mercado imobiliário. As estimativas podem ser realizadas através de uma função aleatória (ou processo aleatório, ou processo estocástico). Esta teoria consolida o alicerce da geoestatística.
No trabalho apresentado por Anselin (1998) é demonstrado que existem dois tipos de efeitos que podem ser encontrados nos dados distribuídos espacialmente: o efeito causado pela heterogeneidade espacial e pela autocorrelação ou dependência espacial. O primeiro diz respeito à instabilidade dos parâmetros em relação à macro-região em que se situam os dados e, na ausência de dependência espacial, podem ser tratados pela metodologia tradicional; o segundo efeito diz respeito a uma interacção espacial entre os dados colectados e distribuídos espacialmente e que pode afectar a componente do erro aleatório, a variável dependente em estudos ou ambos.

Neste caso, a econometria espacial é adequada para realizar estimativas seguras dos parâmetros do modelo. Os efeitos de autocorrelação espacial no termo erro devem ser tratados pelos Modelos de Erros Espaciais, através da inclusão e um factor de defasagem espacial nos erros aleatórios do Modelo Clássico de Regressão.

Enquanto os efeitos de dependência entre os preços de cada imóvel e os preços dos imóveis vizinhos devem ser tratados pelos Modelos de Defasagem Espacial, onde se inclui uma variável dependente espacialmente defasada, como variável explicativa no modelo Modelo Clássico de Regressão.

Existem duas maneiras de se diagnosticar a presença de efeitos de dependência espacial numa amostra: pela análise gráfica do variograma ou utilizando-se testes estatísticos específicos como os testes de Moran I e os testes LM Robusto (erro) e LM Robusto (defasagem). No primeiro caso, a inferência espacial é realizada pelo processo denominado de Krigagem (Método de estimação, por interpolação, que considera a distância entre os dados distribuídos espacialmente, e no segundo caso, a modelagem espacial é realizada conforme a metodologia desenvolvida por Anselin (1988).

Para diagnosticar a presença de efeitos de dependência espacial, bem como introduzir estes efeitos no modelo de regressão linear, pela metodologia desenvolvida por Anselin, é necessário definir, previamente, uma matriz de pesos espaciais, conhecida como W. A construção desta matriz requer cuidados especiais. A abordagem mais simples é feita com a construção de uma matriz simétrica W em que cada elemento wij, é igual a 1(um) se i e j são vizinhos e igual a zero no caso contrário. Por convenção, os elementos diagonais são iguais a zero, ou seja, wii = 0. Uma segunda abordagem leva em consideração a importância dos vizinhos através de uma ponderação correspondente ao inverso da distância ou ao inverso do quadrado da distância entre eles. Normalmente, esta distância é calculada com base nas coordenadas geográficas dos imóveis que compõe a amostra, medidas em UTM. Cuidado especial deve ser dado quando existirem, na amostra de bens do mercado imobiliário, imóveis localizados num mesmo edifício. Nesta circunstância, a distância calculada utilizando as coordenadas geográficas será igual a zero, o que contradiz a lógica de mercado. Apartamentos situados num mesmo edifício possuem uma alta correlação espacial e a distância entre estes imóveis deve ser medida na vertical.

Em geral, a matriz W é padronizada por linha, onde cada elemento de W, representado por Wsij, é obtido dividindo-se Wij pela soma dos elementos da linha i a que pertence.

Nesta matriz, os elementos das linhas somam 1. Este procedimento, além de facilitar a interpretação dos pesos, como uma média ponderada dos valores dos vizinhos, assegura a compatibilidade entre os modelos (Anselin e Bera, 1998). O argumento principal a favor do uso de uma matriz de peso espacial é que esta associa uma variável em certo ponto do espaço (preço dos imóveis para o mercado de habitação) às observações da mesma variável noutros lugares do espaço. Nos estudos do mercado imobiliário é utilizada a notação W para a matriz de pesos espaciais ponderada por linha, calculada com base no inverso da distância entre os imóveis, para os modelos de preços hedónicos.

Os principais testes utilizados para detectar a autocorrelação espacial são Moran I, LM Robusto (erro) e LM Robusto (defasagem). O teste de Moran I é o mais usado nos estudos de dados de corte transversal de unidades geográficas. O problema deste teste é que ele não identifica o tipo de efeito (erro ou defasagem espacial). Por isso, serão utilizados testes mais específicos: o LM (erro) Robusto, para detectar efeitos de autocorrelação espacial no termo de erro; e o LM (defasagem) Robusto, para verificar a presença de efeitos de defasagem espacial na variável dependente. É importante frisar que a validade destes testes exige a aceitação das hipóteses de normalidade e homocedasticidade dos resíduos de MQQ – Método dos Mínimos Quadrados, obtidos pelo modelo de regressão linear.

A autocorrelação espacial no termo de erro está relacionada a erros de medida ocasionados pelas divisões artificiais das unidades geográficas, como os limites estabelecidos para os bairros ou regiões consideradas homogéneas de uma cidade, que não necessariamente coincidem com a realidade estudada. Isto é, na prática, o consumidor não tem o conhecimento exacto dos limites que dividem os bairros ou regiões. No mercado habitacional há uma tendência de efeito de transbordamento de um bairro de maior importância sobre os seus vizinhos. Outro factor que pode gerar a autocorrelação espacial nos erros é a omissão de variáveis de localização relevantes, nomeadamente as variáveis de microlocalização. Para tratar adequadamente este tipo de efeito espacial nos dados, será necessário considerar o processo espacial auto-regressivo no termo de erro. Quando os erros são autocorrelacionados espacialmente, os parâmetros estimados pelo modelo de regressão linear são não eficientes, isto é, os desvios-padrões que se encontram associados a eles são tendenciosos. Assim, os testes de hipóteses e os intervalos de confiança construídos não são confiáveis nem válidos e os resultados obtidos a partir deles são enganosos.

O efeito de defasagem espacial é ocasionado pela dependência espacial criada como consequência da interacção espacial entre os preços dos imóveis, conhecido como “efeito de vizinhança” (Dantas, 2001). Quando um comprador e um vendedor realizam a transacção de um imóvel, eles não somente levam em consideração as suas características estruturais e locacionais, mas também são influenciados pelos preços dos imóveis vizinhos. Neste caso, esta influência é medida pela inclusão de uma variável adicional no modelo dada por W × Y, sendo W a matriz de pesos espaciais e Y o vector de preços dos imóveis, que é a variável dependente espacialmente defasada (Anselin, 1998).
Cada elemento WYi, do vector WY é formado por uma ponderação dos preços dos imóveis vizinhos. Esta variável serve também para captar os efeitos de dependência espacial não considerados explicitamente nas variáveis locacionais comummente utilizadas, como questões ligadas à segurança, saúde e educação (Dantas, 2001). A introdução do termo de defasagem espacial, como variável explicativa, serve como “proxy” para as variáveis independentes omitidas que estão correlacionadas com as características locacionais (Pace, Barry e Sirmams, 1998).

Tendo em vista que a variável WY é aleatória, a estimação por MQO não é adequada, porque viola um dos pressupostos básicos do Modelo Clássico de Regressão Linear: as variáveis não devem conter nenhuma perturbação aleatória.

Uma maneira de escolher o modelo a adoptar – o Modelo de Erro espacial ou o Modelo de Defasagem Espacial – pode ser feita pela comparação do valor absoluto das estatísticas LM Robusto para o erro e defasagem. Assim, quanto maior for o valor encontrado na estatística de teste, maior será o efeito espacial correspondente a esta estatística, conforme argumento de Anselin e Rey (1991).


sábado, 8 de abril de 2017

Modelos contínuos

 Os modelos contínuos partem do princípio de que o valor dos imóveis ou o valor da sua localização adoptam uma forma contínua de variação. Esta continuidade surge do efeito da distância entre as amostras. Este fenómeno permite utilizar a distância entre amostras como uma informação útil para a modelagem do valor da localização. Esta forma de variação determina que o valor da localização tenha a forma de uma superfície que pode ser modelada.

Existem dois tipos de modelagem do valor da localização como superfície contínua: as superfícies de tendência e a krigagem.

Uma superfície de tendência é a superfície gerada pela expressão polinomial das coordenadas geográficas dos imóveis. Geralmente, trabalha-se com um grau de polinómio baixo, de quarta ou quinta ordem. As superfícies de tendência são consideradas apropriadas quando o objectivo é a modelagem espacial dos fenómenos de grande escala, mostrando-se menos adequada para a modelagem de fenómenos espaciais de pequena escala (Michael, 2004).

As principais limitações das superfícies de tendência são as seguintes:

– Não corrigem os efeitos de autocorrelação espacial nos resíduos;
– Apresentam problemas de extrapolação nas bordas da área de estudo;
– Podem gerar multicolinearidade nas variáveis a medida que aumenta o grau do polinómio;
– A superfície polinomial não modela adequadamente o gradiente de variação do valor, mantendo assim autocorrelação espacial nos resíduos;
– Na medida que aumenta o grau do polinómio de tendência usado o tamanho da amostra também deve aumentar substancialmente.

A modelagem por krigagem dos resíduos de uma regressão com as variáveis construtivas é um método que pode ser utilizado para uma amostra de imóveis homogéneos (Dubin, 1992; Chica Olmo, 1994; e Cano Guervós, 1999, entre outros). O método apresenta as seguintes limitações:

– Como modelo aditivo, não considera a possível interacção entre variáveis construtivas e de localização.
– A tentativa de definir um valor da localização a partir deste modelo aditivo esbarra na estimação da constante do modelo, pois a constante da regressão responde ao mesmo tempo às características construtivas e de localização. As técnicas propostas até ao momento para separar essa constante nas duas partes correspondentes e assim definir o valor da localização e o valor da construção não têm sido satisfatórias.
– A estimação exacta da krigagem nos pontos da malha (krigagem pontual) introduz o erro dos dados na modelagem da superfície.
– O uso do método residual não considera a existência de autocorrelação espacial nos resíduos da regressão das variáveis construtivas, a diferença da regressão espacial, mantendo assim os erros de estimação dos parâmetros.

Em resumo, o valor de uma localização é influenciado pela proximidade na sua vizinhança de uma série de serviços urbanos, factores naturais e socioeconómicos (presença de belezas naturais, investimentos públicos, centros comerciais, centros culturais como escolas, universidades, igrejas e teatros), factores de segurança social e criminalidade, factores de qualidade e poluição ambiental, qualidade do transporte, características do trânsito de veiculos, qualidade construtiva dos imóveis na região, entre outros.

Pode dizer-se que todas as características urbanas e sociais, naturais e económicas do espaço urbano afectam o valor dos imóveis localizados nas suas vizinhanças, existindo um alto grau de inter-relação entre todos os factos urbanos e entre o valor dos imóveis entre si. Devido ao dinamismo urbano provocado pela construção de novos empreendimentos e investimentos públicos e privados, o valor da localização urbana encontra-se em permanente mudança e constitui a parte do valor dos imóveis que tem maior grau de dinamismo: o investimento urbano afecta o valor das localizações próximas a ele.

Considerada desta forma, a definição da localização e do seu valor pode deduzir-se que o valor da localização varia de forma permanente e continua em todo o solo urbano, podendo existir regiões onde esta variação tem menor intensidade, em zonas onde não existem muitos pólos de valorização próximos e não há investimentos públicos importantes, enquanto outras regiões têm um gradiente de variação do valor acentuado, em especial na proximidade dos pólos de valorização mais importantes de uma região.

Outra característica fundamental do valor da localização, devido à distribuição heterogénea dos fenómenos urbanos, é a sua variação diferencial para cada direcção espacial, isto é, a variação do valor da localização tem uma característica basicamente anisotrópica.

domingo, 2 de abril de 2017

Modelagem da localização nos modelos hedónicos


 Na estimação do valor dos imóveis por modelos hedónicos, as variáveis de localização são classificadas geralmente em variáveis de distância (para as características de acessibilidade) e variáveis de zonas homogéneas (para as características qualitativas de vizinhança), entre outras possíveis, como descritas a seguir.

As variáveis de tipo distância são consideradas em relação aos possíveis centros de valorização de uma região. A principal dificuldade de usar este tipo de variáveis reside em que a influência real destes factores pode ter um efeito geográfico limitado. A partir de certa distância, o efeito de um pólo valorizador pode ser nulo ou imperceptível. Definir a priori esta distância máxima é impossível sem uma análise empírica dos dados de mercado. Outra dificuldade está em modelar a forma de variação funcional do valor com a distância. As formas funcionais mais utilizadas são as seguintes: diminuição linear com a distância, diminuição logarítmica, inversa da distância, inversa da distância ao quadrado. A escolha entre estas formas requer uma análise dos dados de mercado, porém, muitas vezes, modelos são adoptados de forma arbitrária pelo avaliador.

Estes factores podem introduzir erros no modelo de regressão e falta de significância estatística de variáveis importantes. Outra limitação de usar variáveis de tipo distância a pólos de valorização é a possível multicolinearidade de variáveis independentes, pois geralmente uma mesma região tende a concentrar a presença de vários pólos de atractividade, conformando-se centros e subcentros de valorização; as variáveis de tipo distância podem estar então correlacionadas, impedindo a sua utilização como variáveis independentes na regressão.

As variáveis de tipo vizinhança ou zona homogénea definem-se para regiões teoricamente homogéneas quanto às suas características qualitativas de localização. Elas podem ser definidas com base em informações sociais, económicas, ambientais, e existem propostas de utilizar os SIG para a sua análise e definição (Silva et al., 2004). As limitações que apresentam este tipo de variáveis são as seguintes: a definição objectiva dos limites destas zonas, geralmente baseada em sectores definidos para outros objectivos; a validade da hipótese de homogeneidade no interior destas regiões, pois esta hipótese representa uma simplificação que pode ser excessiva; mesmo dividindo em regiões pequenas, a pergunta que subsiste é se elas podem ser consideradas com um valor de localização constante em todos os seus pontos. Do ponto de vista da aplicação deste conceito, vários estudos realizados utilizando variáveis de vizinhanças em modelos hedónicos, com amostras de grande tamanho, têm mostrado resultados positivos, trabalhando com um grande número de sectores homogéneos como variáveis dicotómicas. O uso de variáveis dicotómicas permite avaliar a média de valorização de cada região ou vizinhança. A principal dificuldade para poder usar este tipo de modelagem consiste em que são necessárias amostras de grande tamanho; para trabalhar com zonas realmente homogéneas as amostras devem conter centenas ou milhares de dados; tamanho disponível em muitas cidades dos Estados Unidos de América onde este método é utilizado, mas de difícil aquisição noutras partes do mundo.

Também são utilizadas variáveis socioeconómicas como variáveis proxy do valor da localização: renda média das famílias ou per capita, nível de escolaridade, entre outras, são definidas para regiões consideradas homogéneas; este tipo de variável apresenta as mesmas limitações do que as variáveis de zonas homogéneas: definição do suporte espacial e homogeneidade real.


As variáveis de tipo zona fiscal são semelhantes às zonas homogéneas (vide CIMI), criam-se zonas fiscais com um valor venal teoricamente homogéneo. Estas variáveis têm os erros provenientes dos cadastros existentes, que podem estar desactualizados ou mal calculados, além de existir o problema de definição de limites arbitrários para estas zonas.

Finalmente, existem também variáveis construídas por Análise Factorial: Análise de Componentes Principais ou Análise de Correspondências, a partir de um conjunto de variáveis que representam características da vizinhança ou socioeconómicas. Estas variáveis apresentam o mesmo problema de definição do suporte de medição, além da disponibilidade real de informação completa e abrangente. Entre as vantagens destas variáveis está a redução da dimensão localização a um número pequeno de factores, permitindo a sua utilização em modelos hedónicos para amostras de tamanho reduzido, dado que poucos factores possam expressar a informação contida numa grande quantidade de características de localização.

O problema do tamanho da amostra é um problema sério, inclusive onde existe disponibilidade para trabalhar com amostras de grande tamanho, pois acontece geralmente que alguns tipos de imóveis não sejam comercializados com tanta frequência. O caso mais comum é o caso de terrenos em áreas densamente urbanizadas. Geralmente, existem poucos terrenos livres, o que dificulta conseguir uma quantidade mínima de dados para poder modelar os efeitos de localização, por exemplo.

Segundo Chica Olmo (1994), os factores de localização afectam no mesmo sentido todos os imóveis de uma região, sejam terrenos ou construções, porém, o grau em que afectam o valor de cada tipo de imóvel pode ser diferente.

Peruzzo Trivelloni (1998), analisando uma amostra de mercado de apartamentos, comprova que os mesmos factores de localização, analisados para imóveis de características diferentes, podem ser significativos na explicação do valor de todos eles mas afectar de forma diferente a cada tipo de imóvel.
No mesmo sentido, Gloudemans (2002), considerando imóveis construídos e terrenos, argumenta que as variáveis de localização afectam todos os imóveis de forma semelhante, mas que o efeito sobre um e outro tipo de imóveis poderia ser proporcionalmente diferente, sendo que esta diferença pode ser modelada por meio da análise dos dados de mercado.

Em resumo, as limitações dos modelos hedónicos para a modelagem dos factores de localização são os seguintes:

– A consideração individual de cada factor de localização como uma variável independente do modelo provoca a necessidade de uma grande quantidade de observações como amostra, que geralmente é difícil de encontrar na prática.

– Dificuldade para enumerar e considerar todos os factores de localização influenciantes.

– Dificuldade para considerar o gradiente de variação de cada efeito e o seu alcance em distância. Erros na consideração do gradiente ou do alcance provocam autocorrelação espacial nos resíduos.

– Factores que não conseguem ser modelados significativamente também provocam autocorrelação espacial nos resíduos.

– Factores de localização são variáveis parcialmente correlacionadas e por este motivo a sua inclusão simultânea nos modelos de regressão não é possível.

As dificuldades de incorporar nos modelos hedónicos todas as variáveis de localização influenciantes determinam que os resíduos do modelo possam apresentar autocorrelação espacial: os resíduos de imóveis próximos, por estarem afectados pelas mesmas características de localização, estarão correlacionados.

A autocorrelação espacial dos resíduos invalida uma das hipóteses básicas dos modelos de regressão, que é a de ter resíduos não correlacionados.

Dubin (1988) propôs uma metodologia diferente para o tratamento das variáveis de localização. Ela sugeriu usar como variáveis explicativas da regressão apenas as características construtivas dos imóveis. Assim, os efeitos das variáveis de localização estarão embutidos nos resíduos do modelo. Calculando a média ponderada destes resíduos pode ser estimado o efeito de vizinhança. Desta forma, o modelo de regressão teria as seguintes variáveis explicativas: por um lado, as tradicionais variáveis construtivas dos imóveis: por outro lado, um polinómio formado pelas coordenadas dos imóveis, para conseguir a estacionariedade dos resíduos, e finalmente um termo obtido por krigagem dos resíduos que representaria os efeitos de localização não medidos pelas outras variáveis.

Segundo Can (1998) e Anselin (2001), diversas técnicas de análise exploratória de dados, como os testes de Moran, a análise de semivariogramas ou correlogramas podem ser utilizadas para avaliar a existência de autocorrelação espacial.

Segundo Anselin (1998a), as técnicas de análise exploratória de dados espaciais consistem numa série de técnicas para descrever e visualizar distribuições espaciais, descobrir padrões de associação espacial, sugerir regimes espaciais diferenciados e outras formas de não estacionariedade, e identificar observações atípicas. A descrição de distribuições espaciais está sendo gradualmente integrada com técnicas de gráficos dinâmicos incluindo mapas como forma adicional de visualização dos dados espaciais, em adição a box-plots, diagramas de dispersão e outras técnicas comuns de análise exploratória de dados.

As técnicas de análise exploratória de dados espaciais podem ser classificadas por duas vias: na primeira, segundo sejam medidas baseadas na vizinhança ou medidas baseadas na distância; na segunda, em função do nível de abrangência e podem ser classificadas em medidas globais ou locais de autocorrelação.

No caso de medidas baseadas na vizinhança, a interacção espacial é visualizada para um conjunto determinado de vizinhos. A interacção global dos vizinhos sobre um imóvel é obtida a partir da definição arbitrária de uma forma particular de processo espacial. Este enfoque requer a formalização de uma estrutura de vizinhança para cada observação na forma de uma matriz de pesos espaciais.

O outro ponto de vista, baseado na distância, tipicamente adoptado na geoestatística, assume a interacção espacial como uma função suavizada da distância entre pares de observações. Uma medida indispensável para poder calcular esta interacção será, então, a medida da distância entre cada par de observações.