DrugDesign Data Analysis
https://gitlab.com/UmbrellaLeaf5/drugdesign_parsing
|
Functions | |
pd.DataFrame | AddedIC50andGI50ToCellLinesDF (pd.DataFrame data, bool get_activities=True, str raw_csv_folder_name="raw/cell_lines_activities", str activities_results_folder_name="results/activities", bool download_compounds_sdf=True, bool print_to_console=False, bool skip_gotten_activities=False) |
pd.DataFrame | AddedIC50andKiToTargetsDF (pd.DataFrame data, bool download_activities=True, str activities_results_folder_name="results/activities", bool download_compounds_sdf=True, bool print_to_console=False, bool skip_downloaded_activities=False) |
pd.DataFrame | CleanedCellLineActivitiesDF (pd.DataFrame data, str cell_id, str activities_type, bool print_to_console=False) |
pd.DataFrame | CleanedTargetActivitiesDF (pd.DataFrame data, str target_id, str activities_type, bool print_to_console=False) |
int | CountCellLineActivitiesByFile (str file_name) |
int | CountTargetActivitiesByIC50 (str target_id) |
int | CountTargetActivitiesByKi (str target_id) |
None | DownloadCellLinesFromIdList (list[str] cell_line_chembl_id_list=[], str results_folder_name="results/cell_lines", str primary_analysis_folder_name="primary_analysis", bool need_primary_analysis=False, bool get_activities=True, str activities_results_folder_name="results/activities", bool print_to_console=False, bool skip_gotten_activities=False) |
DownloadCompoundsByMWRange (int less_limit=0, int greater_limit=12_546_42, str results_folder_name="results/compounds", str primary_analysis_folder_name="primary_analysis", bool need_primary_analysis=False, bool print_to_console=False) | |
None | DownloadTargetsFromIdList (list[str] target_chembl_id_list=[], str results_folder_name="results/targets", str primary_analysis_folder_name="primary_analysis", bool need_primary_analysis=False, bool download_activities=True, str activities_results_folder_name="results/activities", bool print_to_console=False, bool skip_downloaded_activities=False) |
pd.DataFrame | ExpandedFromDictionariesCompoundsDF (pd.DataFrame data) |
pd.DataFrame | ExpandedFromDictionariesTargetsDF (pd.DataFrame data) |
QuerySet | QuerySetActivitiesByIC50 (str target_id) |
QuerySet | QuerySetActivitiesByKi (str target_id) |
QuerySet | QuerySetAllCellLines () |
QuerySet | QuerySetAllTargets () |
QuerySet | QuerySetCellLinesFromIdList (list[str] cell_line_chembl_id_list) |
QuerySet | QuerySetCompoundsByMWRange (int less_limit=0, int greater_limit=12_546_42) |
QuerySet | QuerySetTargetsFromIdList (list[str] target_chembl_id_list) |
None | SaveMolfilesToSDFByIdList (list[str] molecule_chembl_id_list, str file_name, pd.DataFrame extra_data=pd.DataFrame(), bool print_to_console=False) |
pd.DataFrame functions.AddedIC50andGI50ToCellLinesDF | ( | pd.DataFrame | data, |
bool | get_activities = True, | ||
str | raw_csv_folder_name = "raw/cell_lines_activities", | ||
str | activities_results_folder_name = "results/activities", | ||
bool | download_compounds_sdf = True, | ||
bool | print_to_console = False, | ||
bool | skip_gotten_activities = False ) |
Добавляет в pd.DataFrame два столбца: IC50 и GI50 Args: data (pd.DataFrame): исходный pd.DataFrame need_to_download_activities (bool, optional): нужно ли получать activities отдельно. Defaults to True. raw_csv_folder_name (str, optional): название папки, откуда необходимо получить activities. Defaults to "raw/cell_lines_activities". activities_results_folder_name (str, optional): название папки для полученных activities. Defaults to "results/activities". download_compounds_sdf (bool, optional): нужно ли скачивать .sdf файл с molfile для каждой молекулы. Defaults to True. print_to_console (bool, optional): нужно ли выводить логирование в консоль. Defaults to False. skip_gotten_activities (bool, optional): пропускать ли уже скачанные файлы activities. Defaults to False. Returns: pd.DataFrame: расширенный pd.DataFrame
pd.DataFrame functions.AddedIC50andKiToTargetsDF | ( | pd.DataFrame | data, |
bool | download_activities = True, | ||
str | activities_results_folder_name = "results/activities", | ||
bool | download_compounds_sdf = True, | ||
bool | print_to_console = False, | ||
bool | skip_downloaded_activities = False ) |
Добавляет в pd.DataFrame два столбца: IC50 и Ki Args: data (pd.DataFrame): исходный pd.DataFrame need_to_download_activities (bool, optional): нужно ли скачивать activities отдельно. Defaults to True. activities_results_folder_name (str, optional): название папки для скачанных activities. Defaults to "results/activities". download_compounds_sdf (bool, optional): нужно ли скачивать .sdf файл с molfile для каждой молекулы. Defaults to True. print_to_console (bool, optional): нужно ли выводить логирование в консоль. Defaults to False. skip_downloaded_activities (bool, optional): пропускать ли уже скачанные файлы activities. Defaults to False. Returns: pd.DataFrame: расширенный pd.DataFrame
pd.DataFrame functions.CleanedCellLineActivitiesDF | ( | pd.DataFrame | data, |
str | cell_id, | ||
str | activities_type, | ||
bool | print_to_console = False ) |
Производит чистку выборки activities конкретной клеточной линии по IC50 и GI50 Args: data (pd.DataFrame): выборка activities cell_id (str): идентификатор клеточной линии activities_type (str): IC50 или GI50 print_to_console (bool, optional): нужно ли выводить логирование в консоль. Defaults to False. Returns: pd.DataFrame: очищенная выборка
pd.DataFrame functions.CleanedTargetActivitiesDF | ( | pd.DataFrame | data, |
str | target_id, | ||
str | activities_type, | ||
bool | print_to_console = False ) |
Производит чистку выборки activities конкретной цели по IC50 и Ki Args: data (pd.DataFrame): выборка activities target_id (str): идентификатор цели activities_type (str): IC50 или Ki print_to_console (bool, optional): нужно ли выводить логирование в консоль. Defaults to False. Returns: pd.DataFrame: очищенная выборка
int functions.CountCellLineActivitiesByFile | ( | str | file_name | ) |
Подсчитывает кол-во активностей клеточных линий по .csv файлу, в котором они находятся Args: file_name (str): _description_ Returns: int: _description_
int functions.CountTargetActivitiesByIC50 | ( | str | target_id | ) |
Подсчитывает кол-во активностей по target_id по IC50 (иначе говоря, численное значение IC50 для конкретной цели) Args: target_id (str): идентификатор цели из базы ChEMBL Returns: int: количество
int functions.CountTargetActivitiesByKi | ( | str | target_id | ) |
Подсчитывает кол-во активностей по target_id по Ki (иначе говоря, численное значение Ki для конкретной цели) Args: target_id (str): идентификатор цели из базы ChEMBL Returns: int: количество
None functions.DownloadCellLinesFromIdList | ( | list[str] | cell_line_chembl_id_list = [], |
str | results_folder_name = "results/cell_lines", | ||
str | primary_analysis_folder_name = "primary_analysis", | ||
bool | need_primary_analysis = False, | ||
bool | get_activities = True, | ||
str | activities_results_folder_name = "results/activities", | ||
bool | print_to_console = False, | ||
bool | skip_gotten_activities = False ) |
Скачивает клеточные линии по списку id из базы ChEMBL, сохраняя их в .csv файл Args: cell_line_chembl_id_list (list[str], optional): список id. Defaults to []: для скачивания всех клеточных линий. results_folder_name (str, optional): имя папки для закачки. Defaults to "results/cell_lines". primary_analysis_folder_name (str, optional): имя папки для сохранения данных о первичном анализе. Defaults to "primary_analysis". need_primary_analysis (bool, optional): нужно ли проводить первичный анализ. Defaults to False. get_activities (bool, optional): нужно ли получать активности к клеточным линиям по IC50 и GI50. Defaults to True. activities_results_folder_name (str, optional): имя папки для закачки activities. Defaults to "results/activities". print_to_console (bool, optional): нужно ли выводить логирование в консоль. Defaults to False. skip_gotten_activities (bool, optional): пропускать ли уже скачанные файлы activities. Defaults to False.
functions.DownloadCompoundsByMWRange | ( | int | less_limit = 0, |
int | greater_limit = 12_546_42, | ||
str | results_folder_name = "results/compounds", | ||
str | primary_analysis_folder_name = "primary_analysis", | ||
bool | need_primary_analysis = False, | ||
bool | print_to_console = False ) |
Возвращает молекулы в диапазоне молекулярной массы [less_limit; greater_limit) из базы ChEMBL, сохраняя их в .csv файл Args: less_limit (int, optional): нижняя граница. Defaults to 0. greater_limit (int, optional): верхняя граница. Defaults to 12_546_42. results_folder_name (str, optional): имя папки для закачки. Defaults to "results/compounds". primary_analysis_folder_name (str, optional): имя папки для сохранения данных о первичном анализе. Defaults to "primary_analysis". need_primary_analysis (bool, optional): нужно ли проводить первичный анализ. Defaults to False. print_to_console (bool, optional): нужно ли выводить логирование в консоль. Defaults to False.
None functions.DownloadTargetsFromIdList | ( | list[str] | target_chembl_id_list = [], |
str | results_folder_name = "results/targets", | ||
str | primary_analysis_folder_name = "primary_analysis", | ||
bool | need_primary_analysis = False, | ||
bool | download_activities = True, | ||
str | activities_results_folder_name = "results/activities", | ||
bool | print_to_console = False, | ||
bool | skip_downloaded_activities = False ) |
Скачивает цели по списку id из базы ChEMBL, сохраняя их в .csv файл Args: target_chembl_id_list (list[str], optional): список id. Defaults to []: для скачивания всех целей. results_folder_name (str, optional): имя папки для закачки. Defaults to "results/targets". primary_analysis_folder_name (str, optional): имя папки для сохранения данных о первичном анализе. Defaults to "primary_analysis". need_primary_analysis (bool, optional): нужно ли проводить первичный анализ. Defaults to False. download_activities (bool, optional): нужно ли скачивать активности к целям по IC50 и Ki. Defaults to True. activities_results_folder_name (str, optional): имя папки для закачки activities. Defaults to "results/activities". print_to_console (bool, optional): нужно ли выводить логирование в консоль. Defaults to False. skip_downloaded_activities (bool, optional): пропускать ли уже скачанные файлы activities. Defaults to False.
pd.DataFrame functions.ExpandedFromDictionariesCompoundsDF | ( | pd.DataFrame | data | ) |
Избавляет pd.DataFrame от словарей и списков словарей в столбцах, разбивая их на подстолбцы Args: data (pd.DataFrame): исходный pd.DataFrame Returns: pd.DataFrame: "раскрытый" pd.DataFrame
pd.DataFrame functions.ExpandedFromDictionariesTargetsDF | ( | pd.DataFrame | data | ) |
Избавляет pd.DataFrame от словарей и списков словарей в столбцах, разбивая их на подстолбцы Args: data (pd.DataFrame): исходный pd.DataFrame Returns: pd.DataFrame: "раскрытый" pd.DataFrame
QuerySet functions.QuerySetActivitiesByIC50 | ( | str | target_id | ) |
Возвращает активности по target_id по IC50 Args: target_id (str): идентификатор цели из базы ChEMBL Returns: QuerySet: набор активностей
QuerySet functions.QuerySetActivitiesByKi | ( | str | target_id | ) |
Возвращает активности по target_id по Ki Args: target_id (str): идентификатор цели из базы ChEMBL Returns: QuerySet: набор активностей
QuerySet functions.QuerySetAllCellLines | ( | ) |
Возвращает все цели из базы ChEMBL Returns: QuerySet: набор всех целей
QuerySet functions.QuerySetAllTargets | ( | ) |
Возвращает все цели из базы ChEMBL Returns: QuerySet: набор всех целей
QuerySet functions.QuerySetCellLinesFromIdList | ( | list[str] | cell_line_chembl_id_list | ) |
Возвращает цели по списку id из базы ChEMBL Args: cell_line_chembl_id_list (list[str]): список id Returns: QuerySet: набор целей по списку id
QuerySet functions.QuerySetCompoundsByMWRange | ( | int | less_limit = 0, |
int | greater_limit = 12_546_42 ) |
Возвращает молекулы в диапазоне молекулярной массы [less_limit; greater_limit) из базы ChEMBL Args: less_limit (int, optional): нижняя граница. Defaults to 0. greater_limit (int, optional): верхняя граница. Defaults to 12_546_42. Raises: ValueError: границы должны быть больше нуля ValueError: greater_limit должен быть больше less_limit Returns: QuerySet: набор молекул в диапазоне
QuerySet functions.QuerySetTargetsFromIdList | ( | list[str] | target_chembl_id_list | ) |
Возвращает цели по списку id из базы ChEMBL Args: target_chembl_id_list (list[str]): список id Returns: QuerySet: набор целей по списку id
None functions.SaveMolfilesToSDFByIdList | ( | list[str] | molecule_chembl_id_list, |
str | file_name, | ||
pd.DataFrame | extra_data = pd.DataFrame(), | ||
bool | print_to_console = False ) |
Сохраняет molfiles из списка id в .sdf файл Args: molecule_chembl_id_list (list[str]): список id file_name (str): имя файла (без .sdf) extra_data (pd.DataFrame, optional): дополнительная информация. Defaults to pd.DataFrame(). print_to_console (bool, optional): нужно ли выводить логирование в консоль. Defaults to False. Returns: _type_: _description_