Wheat yield prediction using a regression approach

Thesis title: Wheat yield prediction using a regression approach
Author: Kuzdas, Vojtěch
Thesis type: Bachelor thesis
Supervisor: Štěpánek, Lubomír
Opponents: Pinkas, Jaroslav
Thesis language: English
Abstract:
This bachelor thesis explores the applicability of linear and tree regression models in predicting the true yield of wheat crops in the South Moravian and Ústí nad Labem regions in the Czech Republic. Thesis pairs Sentinel-2 satellite imagery with single-season post-harvest yield data into a 10x10m grid. Yield data are split into percentile and manually filtered datasets. Two vegetation indices, NDVI and EVI, are extracted from satellite imagery and used as the primary independent variables in model training. Some models use additional post-harvest variables as independent variables. Simple and multiple linear regression and tree regression with bagging are done to predict the true yield. All models across all datasets are compared using standard R2 and MSE statistics. Models based on heavily filtered datasets achieve R2 values in the upper range of 0.92. Models based on less filtered datasets achieve R2 values of 0.65. However, the industrial applicability of constructed models requires further discussion due to potential issues (e.g. overfitting). Tree-based models showed better performance over linear regression models. Although perceived promisingly, tree-bagging did not prove to be effective on the given data.
Keywords: Yield Prediction; Remote Sensing; Precision Agriculture; Linear Regression; Regression Trees; Bagging
Thesis title: Předpověď výnosu pšenice pomocí regresního přístupu
Author: Kuzdas, Vojtěch
Thesis type: Bakalářská práce
Supervisor: Štěpánek, Lubomír
Opponents: Pinkas, Jaroslav
Thesis language: English
Abstract:
Tato bakalářská práce zkoumá použitelnost lineárních a stromových regresních modelů při predikci skutečného výnosu pšenice v Jihomoravském a Ústeckém kraji v České republice. Práce páruje družicové snímky Sentinel-2 s daty o výnosu po sklizni v jedné sezóně do mřížky 10x10m. Data o výnosech jsou rozdělena na percentilové a manuálně filtrované soubory dat. Ze satelitních snímků jsou extrahovány dva vegetační indexy, NDVI a EVI, které jsou použity jako primární nezávislé proměnné při trénování modelu. Některé modely používají jako nezávislé proměnné další proměnné po sklizni. K předpovědi skutečného výnosu se provádí jednoduchá a vícenásobná lineární regrese a stromová regrese s baggingem. Všechny modely ve všech souborech dat jsou porovnány pomocí standardních statistik R^2 Modely založené na silně filtrovaných souborech dat dosahují hodnot R^2 v horním rozmezí 0,92. Modely založené na méně filtrovaných souborech dat dosahují hodnot R^2 0,65. Průmyslová použitelnost zkonstruovaných modelů však vyžaduje další diskusi vzhledem k možným problémům (např. nadměrný fitting). Modely založené na stromech vykazovaly lepší výkonnost než lineární regresní modely. Ačkoli byly vnímány slibně, stromové modely se na daných datech neukázaly jako efektivní.
Keywords: Předpověď výnosů; Dálkový průzkum Země; Precizní zemědělství; Lineární regrese; Regresní stromy; Bagging

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 3. 2. 2022
Date of submission: 8. 5. 2022
Date of defense: 24. 6. 2022
Identifier in the InSIS system: https://insis.vse.cz/zp/79596/podrobnosti

Files for download

    Last update: