Source code for discrimintools.datasets.load_canines
# -*- coding: utf-8 -*-
from pandas import read_excel
from pathlib import Path
#set directory
DATASETS_DIR = Path(__file__).parent / "data"
[docs]
def load_canines(element="train"):
"""
Canines dataset
Parameters
----------
element : str, default = 'train'
The dataset to load. Possible values are:
- 'train' for training dataset.
- 'test' for testing dataset.
Returns
-------
canines : DataFrame of shape (n_samples, n_columns)
The canines dataset.
References
----------
[1] Michel Tenenhaus (1996), « Méthodes statistiques en gestion », Dunod.
[2] Michel Tenenhaus (2007), « Statistique - Méthodes pour décrire, expliquer et prévoir », Dunod.
[3] Ricco Rakotomalala (2008), « `AFCM - Races canines <https://eric.univ-lyon2.fr/ricco/tanagra/fichiers/fr_Tanagra_Acm.pdf>`_ ».
[4] Ricco Rakotomalala (2009), « `Analyse des Correspondances Multiple avec R <https://eric.univ-lyon2.fr/ricco/cours/didacticiels/R/afcm_avec_r.pdf>`_ ».
Examples
--------
>>> from discrimintools.datasets import load_canines
>>> from discrimintools import DiCA
>>> D = load_canines("train") # load training data
>>> y, X = D["Fonction"], D.drop(columns=["Fonction"]) # split into X and y
>>> clf = DiCA()
>>> clf.fit(X,y)
DiCA()
"""
if element == "train":
canines = read_excel(DATASETS_DIR/"canines.xlsx",sheet_name="Feuil1",header=0,index_col=0)
elif element == "test":
canines = read_excel(DATASETS_DIR/"canines.xlsx",sheet_name="Feuil2",header=0,index_col=0)
else:
raise ValueError("'element' should be one of 'train' or 'test'.")
#set cocumentation
canines.__doc__ = """
Canines dataset
"""
return canines