Wheat yield prediction using a regression approach
Thesis title: | Wheat yield prediction using a regression approach |
---|---|
Author: | Kuzdas, Vojtěch |
Thesis type: | Bachelor thesis |
Supervisor: | Štěpánek, Lubomír |
Opponents: | Pinkas, Jaroslav |
Thesis language: | English |
Abstract: | This bachelor thesis explores the applicability of linear and tree regression models in predicting the true yield of wheat crops in the South Moravian and Ústí nad Labem regions in the Czech Republic. Thesis pairs Sentinel-2 satellite imagery with single-season post-harvest yield data into a 10x10m grid. Yield data are split into percentile and manually filtered datasets. Two vegetation indices, NDVI and EVI, are extracted from satellite imagery and used as the primary independent variables in model training. Some models use additional post-harvest variables as independent variables. Simple and multiple linear regression and tree regression with bagging are done to predict the true yield. All models across all datasets are compared using standard R2 and MSE statistics. Models based on heavily filtered datasets achieve R2 values in the upper range of 0.92. Models based on less filtered datasets achieve R2 values of 0.65. However, the industrial applicability of constructed models requires further discussion due to potential issues (e.g. overfitting). Tree-based models showed better performance over linear regression models. Although perceived promisingly, tree-bagging did not prove to be effective on the given data. |
Keywords: | Yield Prediction; Remote Sensing; Precision Agriculture; Linear Regression; Regression Trees; Bagging |
Thesis title: | Předpověď výnosu pšenice pomocí regresního přístupu |
---|---|
Author: | Kuzdas, Vojtěch |
Thesis type: | Bakalářská práce |
Supervisor: | Štěpánek, Lubomír |
Opponents: | Pinkas, Jaroslav |
Thesis language: | English |
Abstract: | Tato bakalářská práce zkoumá použitelnost lineárních a stromových regresních modelů při predikci skutečného výnosu pšenice v Jihomoravském a Ústeckém kraji v České republice. Práce páruje družicové snímky Sentinel-2 s daty o výnosu po sklizni v jedné sezóně do mřížky 10x10m. Data o výnosech jsou rozdělena na percentilové a manuálně filtrované soubory dat. Ze satelitních snímků jsou extrahovány dva vegetační indexy, NDVI a EVI, které jsou použity jako primární nezávislé proměnné při trénování modelu. Některé modely používají jako nezávislé proměnné další proměnné po sklizni. K předpovědi skutečného výnosu se provádí jednoduchá a vícenásobná lineární regrese a stromová regrese s baggingem. Všechny modely ve všech souborech dat jsou porovnány pomocí standardních statistik R^2 Modely založené na silně filtrovaných souborech dat dosahují hodnot R^2 v horním rozmezí 0,92. Modely založené na méně filtrovaných souborech dat dosahují hodnot R^2 0,65. Průmyslová použitelnost zkonstruovaných modelů však vyžaduje další diskusi vzhledem k možným problémům (např. nadměrný fitting). Modely založené na stromech vykazovaly lepší výkonnost než lineární regresní modely. Ačkoli byly vnímány slibně, stromové modely se na daných datech neukázaly jako efektivní. |
Keywords: | Předpověď výnosů; Dálkový průzkum Země; Precizní zemědělství; Lineární regrese; Regresní stromy; Bagging |
Information about study
Study programme: | Aplikovaná informatika/Aplikovaná informatika |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 3. 2. 2022 |
---|---|
Date of submission: | 8. 5. 2022 |
Date of defense: | 24. 6. 2022 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/79596/podrobnosti |