Estimación de precios de alquiler de viviendas mediante algoritmos de aprendizaje automático
Metadatos
Mostrar el registro completo del ítemAutor
Fecha
2026Materia/s
Resumen
Este trabajo se enmarca en un contexto de creciente interés por la aplicación de técnicas de inteligencia artificial (IA) en el mercado inmobiliario, especialmente en un momento en el que España se encuentra con importantes incrementos del precio de alquiler y compra de vivienda. La investigación aborda la aplicación de algoritmos de aprendizaje automático para estimar precios de alquiler y desarrollar una plataforma web abierta que acerque estas tecnologías tanto a usuarios individuales como a profesionales del sector. El objetivo principal consiste en diseñar una metodología de entrenamiento, optimización e interpretación de modelos predictivos orientados al cálculo automatizado del precio de alquiler de viviendas multifamiliares en la Comunidad Valenciana. Este objetivo se materializa en la creación de una aplicación web que permita realizar estimaciones actualizadas y fácilmente interpretables tanto para usuarios especializados como no especializados. La base de datos utilizada ha sido obtenida de portales inmobiliarios, de los cuales se han descargado mensualmente datos durante dos años (2024–2025), incluyendo precios de oferta, atributos de la vivienda y del edificio, su ubicación espacial (coordenadas geográficas) y un identificador temporal. Tras un exhaustivo proceso de limpieza, depuración y eliminación de duplicados, se conformó un conjunto de datos de corte transversal agrupado (pooled cross-section). La metodología empleada se ajustó a las fases establecidas del proceso de aprendizaje automático: preparación y análisis exploratorio de datos, ingeniería de características, entrenamiento de modelos, optimización de hiperparámetros, evaluación, interpretación y despliegue. Se compararon varios algoritmos de aprendizaje supervisado basados en conjuntos (ensemble learning) como el boosting (GBR, XGBM, LGBM) y el bagging (RF, ET), tomando como línea base la regresión lineal por mínimos cuadrados ordinarios. La optimización se realizó mediante estrategias de búsqueda aleatoria y bayesiana con validación cruzada, utilizando particiones agrupadas por el identificador del inmueble. En la evaluación de los modelos se emplearon métricas de error (MAE, MSE, RMSE) y bondad de ajuste (R2) aplicadas a conjuntos de entrenamiento y prueba. Los resultados demuestran que los modelos basados en técnicas de boosting ofrecen un mejor desempeño predictivo y una mayor estabilidad frente a alternativas tradicionales y de bagging. Además, muestran una capacidad de generalización adecuada y un buen equilibrio entre precisión y eficiencia computacional. La interpretación del modelo mediante valores de Shapley (SHAP) y análisis de importancia por permutación revela que las variables más influyentes son la ubicación geográfica, la renta neta y las características intrínsecas del inmueble como superficie, número de baños y dormitorios. La presencia de ascensor se confirma como un factor de impacto marginal. El estudio culmina con la implementación de una aplicación web de acceso abierto, desarrollada en Python y Streamlit, que permite introducir las características de un inmueble, indicar su localización y obtener una estimación del precio de oferta acompañada de explicaciones gráficas y textuales. La herramienta democratiza el acceso a la valoración automatizada, aportando transparencia y utilidad práctica a ciudadanos y profesionales.
Este trabajo se enmarca en un contexto de creciente interés por la aplicación de técnicas de inteligencia artificial (IA) en el mercado inmobiliario, especialmente en un momento en el que España se encuentra con importantes incrementos del precio de alquiler y compra de vivienda. La investigación aborda la aplicación de algoritmos de aprendizaje automático para estimar precios de alquiler y desarrollar una plataforma web abierta que acerque estas tecnologías tanto a usuarios individuales como a profesionales del sector. El objetivo principal consiste en diseñar una metodología de entrenamiento, optimización e interpretación de modelos predictivos orientados al cálculo automatizado del precio de alquiler de viviendas multifamiliares en la Comunidad Valenciana. Este objetivo se materializa en la creación de una aplicación web que permita realizar estimaciones actualizadas y fácilmente interpretables tanto para usuarios especializados como no especializados. La base de datos utilizada ha sido obtenida de portales inmobiliarios, de los cuales se han descargado mensualmente datos durante dos años (2024–2025), incluyendo precios de oferta, atributos de la vivienda y del edificio, su ubicación espacial (coordenadas geográficas) y un identificador temporal. Tras un exhaustivo proceso de limpieza, depuración y eliminación de duplicados, se conformó un conjunto de datos de corte transversal agrupado (pooled cross-section). La metodología empleada se ajustó a las fases establecidas del proceso de aprendizaje automático: preparación y análisis exploratorio de datos, ingeniería de características, entrenamiento de modelos, optimización de hiperparámetros, evaluación, interpretación y despliegue. Se compararon varios algoritmos de aprendizaje supervisado basados en conjuntos (ensemble learning) como el boosting (GBR, XGBM, LGBM) y el bagging (RF, ET), tomando como línea base la regresión lineal por mínimos cuadrados ordinarios. La optimización se realizó mediante estrategias de búsqueda aleatoria y bayesiana con validación cruzada, utilizando particiones agrupadas por el identificador del inmueble. En la evaluación de los modelos se emplearon métricas de error (MAE, MSE, RMSE) y bondad de ajuste (R2) aplicadas a conjuntos de entrenamiento y prueba. Los resultados demuestran que los modelos basados en técnicas de boosting ofrecen un mejor desempeño predictivo y una mayor estabilidad frente a alternativas tradicionales y de bagging. Además, muestran una capacidad de generalización adecuada y un buen equilibrio entre precisión y eficiencia computacional. La interpretación del modelo mediante valores de Shapley (SHAP) y análisis de importancia por permutación revela que las variables más influyentes son la ubicación geográfica, la renta neta y las características intrínsecas del inmueble como superficie, número de baños y dormitorios. La presencia de ascensor se confirma como un factor de impacto marginal. El estudio culmina con la implementación de una aplicación web de acceso abierto, desarrollada en Python y Streamlit, que permite introducir las características de un inmueble, indicar su localización y obtener una estimación del precio de oferta acompañada de explicaciones gráficas y textuales. La herramienta democratiza el acceso a la valoración automatizada, aportando transparencia y utilidad práctica a ciudadanos y profesionales.
This work is framed within a context of growing interest in the application of artificial intelligence (AI) techniques in the real estate market, especially at a time when Spain is experiencing significant increases in rental and housing purchase prices. The research addresses the application of machine-learning algorithms to estimate rental prices and to develop an open web platform that brings these technologies closer to both individual users and professionals in the sector. The main objective is to design a methodology for training, optimising and interpreting predictive models aimed at the automated calculation of rental prices for multifamily dwellings in the Valencian Community. This objective is materialised in the creation of a web application that enables updated and easily interpretable estimates to be produced for both specialised and non-specialised users. The database used was obtained from real estate portals, from which data were downloaded monthly over two years (2024–2025), including asking prices, dwelling and building attributes, spatial location (geographical coordinates) and a temporal identifier. After an exhaustive process of cleaning, filtering and removing duplicates, a pooled cross-section dataset was created. The methodology followed the established phases of the machine-learning process: data preparation and exploratory analysis, feature engineering, model training, hyperparameter optimisation, evaluation, interpretation and deployment. Several supervised ensemble-learning algorithms were compared, including boosting (GBR, XGBM, LGBM) and bagging (RF, ET), using ordinary least squares linear regression as the baseline. Optimisation was carried out using random and Bayesian search strategies with cross-validation, employing partitions grouped by the property identifier. Model evaluation used error metrics (MAE, MSE, RMSE) and goodness-of-fit (R2) applied to training and test sets. The results show that boosting-based models provide better predictive performance and greater stability than traditional and bagging alternatives. They also show adequate generalisation capacity and a good balance between accuracy and computational efficiency. Model interpretation using Shapley values (SHAP) and permutation importance analysis reveals that the most influential variables are geographical location, net income and intrinsic property characteristics such as floor area, number of bathrooms and bedrooms. The presence of a lift is confirmed as a factor with marginal impact. The study culminates in the implementation of an open-access web application, developed in Python and Streamlit, which allows users to enter the characteristics of a property, indicate its location and obtain an estimate of the asking price accompanied by graphical and textual explanations. The tool democratises access to automated valuation, providing transparency and practical usefulness for citizens and professionals.
This work is framed within a context of growing interest in the application of artificial intelligence (AI) techniques in the real estate market, especially at a time when Spain is experiencing significant increases in rental and housing purchase prices. The research addresses the application of machine-learning algorithms to estimate rental prices and to develop an open web platform that brings these technologies closer to both individual users and professionals in the sector. The main objective is to design a methodology for training, optimising and interpreting predictive models aimed at the automated calculation of rental prices for multifamily dwellings in the Valencian Community. This objective is materialised in the creation of a web application that enables updated and easily interpretable estimates to be produced for both specialised and non-specialised users. The database used was obtained from real estate portals, from which data were downloaded monthly over two years (2024–2025), including asking prices, dwelling and building attributes, spatial location (geographical coordinates) and a temporal identifier. After an exhaustive process of cleaning, filtering and removing duplicates, a pooled cross-section dataset was created. The methodology followed the established phases of the machine-learning process: data preparation and exploratory analysis, feature engineering, model training, hyperparameter optimisation, evaluation, interpretation and deployment. Several supervised ensemble-learning algorithms were compared, including boosting (GBR, XGBM, LGBM) and bagging (RF, ET), using ordinary least squares linear regression as the baseline. Optimisation was carried out using random and Bayesian search strategies with cross-validation, employing partitions grouped by the property identifier. Model evaluation used error metrics (MAE, MSE, RMSE) and goodness-of-fit (R2) applied to training and test sets. The results show that boosting-based models provide better predictive performance and greater stability than traditional and bagging alternatives. They also show adequate generalisation capacity and a good balance between accuracy and computational efficiency. Model interpretation using Shapley values (SHAP) and permutation importance analysis reveals that the most influential variables are geographical location, net income and intrinsic property characteristics such as floor area, number of bathrooms and bedrooms. The presence of a lift is confirmed as a factor with marginal impact. The study culminates in the implementation of an open-access web application, developed in Python and Streamlit, which allows users to enter the characteristics of a property, indicate its location and obtain an estimate of the asking price accompanied by graphical and textual explanations. The tool democratises access to automated valuation, providing transparency and practical usefulness for citizens and professionals.





