Skills

Core Data Science Competencies

Exploratory data analysis (EDA), data cleaning, missing-data strategies, outlier detection
Feature engineering (scaling, encoding, transformations, variable selection)
Model development: supervised & unsupervised ML (classification, regression, clustering)
Model selection: algorithm comparison, hyperparameter tuning, validation strategies, overfitting control
Model evaluation: accuracy, precision/recall, ROC-AUC, F1, confusion matrices, cross-validation
Workflow design: replicable pipelines, version control, environment management

Statistical modelling: GLM, GAM, mixed-effects, hierarchical Bayesian models
Spatiotemporal modelling: species distribution models, spatial autocorrelation, forecasting
Machine learning: Linear/Logistic Regression, Random Forests, Gradient Boosting, k-NN, Decision Trees, SVMs, clustering (K-Means); hyperparameter tuning; scikit-learn Pipelines
Deep learning: foundational neural networks using TensorFlow/Keras (feedforward models)
Dimensionality reduction: PCA (ordination, variance structure, visualisation)
Bayesian inference: hierarchical & spatiotemporal models, detection–abundance separation
Forecasting & simulation: demographic forecasting, Monte Carlo, scenario modelling
Model interpretation: feature importance, partial dependence, SHAP
Probability modelling: Monte Carlo simulation, hypergeometric frameworks
Introductory recommender systems: collaborative filtering and similarity metrics
Introductory NLP: text cleaning, tokenization, vectorization (CountVectorizer/TF-IDF), Naive Bayes classification

Python: pandas, NumPy, scikit-learn, matplotlib, Seaborn, Plotly; regex; logging; OOP
R: tidyverse (dplyr/tidyr), ggplot2, sf/terra (spatial analysis), Shiny
SQL: PostgreSQL (SELECT, JOIN, aggregation, subqueries, CTEs, window functions); PgAdmin
Bayesian modelling: JAGS; familiarity with rstan-style workflows