🍊 DataProject-OFF-FDC

Project 1A - GLO-3002 H26 team 14

Akram Ilyes Metehri
Bernice Tang Ngoufo
Djamel Yanis Saliou Yoni
Ons Kechiche
Sandrine Comeau
Steeve Dabire

Languages

English
Français

English

📌 Building an enriched Open Food Facts Canada database by grouping and deduplicating products into a single, more complete local database. This project is based on OpenFoodFactCanada and implemented with DuckDB.

Project Structure

.
├── pipeline/
├── webscraping/
├── docker-compose.yml
└── README.md

Prerequisites

uv is recommended. You can visit the link for more details on installation. on mac/linux :

curl -LsSf https://astral.sh/uv/install.sh | sh

on windows user:

powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

Docker Desktop. You need Docker to run the pipeline and embedding.

Services

The project is divided into 2 independent services that run separately (with a Docker container) and scraping scripts located in their own folder.

Pipeline — downloads data from Open Food Facts Canada, generates vector embeddings, identifies and groups product duplicates, and then consolidate the data using dbt models. See the specific README for full details.

PIPELINE README

Scraper — scripts that can be run manually to scrape grocery store websites. See the specific README for full details.

WEBSCRAPING README

Français

📌 Construction d'une base de données Open Food Facts Canada enrichie en regroupant et dédupliquant les produits dans une base locale consolidé. Cette itération du projet est basée sur OpenFoodFactCanada et implémentée avec DuckDB.

Structure du projet

.
├── pipeline/
├── webscraping/
├── docker-compose.yml
└── README.md

Prérequis

uv est conseillé. Vous pouvez visiter le lien pour plus de détails sur l'installation.

curl -LsSf https://astral.sh/uv/install.sh | sh

Docker Desktop. Il vous faut docker pour lancer la pipeline et l'embedding

Services

Le projet est divisé en 2 services indépendants qui s'exécutent séparément dans un container Docker et des scripts de scraping qui sont dans leur propre dossier.

Pipeline — télécharge les données d'Open Food Facts Canada, génère des embeddings vectoriels, identifie et regroupe les doublons de produits, puis enrichit les données via dbt. Voir le README spécifique pour tous les détails.

README DU PIPELINE

Scraper — scripts pouvant être roulés manuellement pour faire le scraping de sites d'épiceries. Voir le README spécifique pour tous les détails.

README DU WEBSRAPING

Name		Name	Last commit message	Last commit date
Latest commit History 203 Commits
.github/workflows		.github/workflows
pipeline		pipeline
webscraping		webscraping
.flake8		.flake8
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
README.md		README.md
check.bat		check.bat
docker-compose.yml		docker-compose.yml
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🍊 DataProject-OFF-FDC

Languages

English

Project Structure

Prerequisites

Services

Français

Structure du projet

Prérequis

Services

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

🍊 DataProject-OFF-FDC

Languages

English

Project Structure

Prerequisites

Services

Français

Structure du projet

Prérequis

Services

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages