Functions
pd.DataFrame	AddedIC50andGI50ToCellLinesDF (pd.DataFrame data)

pd.DataFrame	AddedIC50andKiToTargetsDF (pd.DataFrame data)

pd.DataFrame	CleanedCellLineActivitiesDF (pd.DataFrame data, str cell_id, str activities_type)

pd.DataFrame	CleanedTargetActivitiesDF (pd.DataFrame data, str target_id, str activities_type)

int	CountCellLineActivitiesByFile (str file_name)

int	CountTargetActivitiesByIC50 (str target_id)

int	CountTargetActivitiesByKi (str target_id)

	DownloadCellLinesFromIdList ()

	DownloadCompoundsByMWRange (int less_limit, int greater_limit, str results_folder_name)

	DownloadCompoundToxicity (dict compound_data, str page_folder_name)

	DownloadTargetsFromIdList ()

pd.DataFrame	ExpandedFromDictionariesCompoundsDF (pd.DataFrame data)

pd.DataFrame	ExpandedFromDictionariesTargetsDF (pd.DataFrame data)

None	FilterDownloadedToxicityByCharacteristics (str unit_type, str charact_1, str charact_2, str charact_3)

pd.DataFrame	GetDataFrameFromUrl (str request_url, float sleep_time)

str	GetLinkFromSid (int sid, str collection, int limit)

str	GetMolfileFromCID (str cid, float\|None sleep_time=config["PubChem_download_toxicity"]["sleep_time"])

list[str]	GetMolfilesFromCIDs (list[str] cids, float\|None sleep_time=config["PubChem_download_toxicity"]["sleep_time"])

	GetRawCellLinesData (str file_id, str output_path, bool print_to_console)

requests.Response	GetResponse (str request_url, bool stream, float\|None sleep_time=config["PubChem_download_toxicity"]["sleep_time"])

QuerySet	QuerySetActivitiesByIC50 (str target_id)

QuerySet	QuerySetActivitiesByKi (str target_id)

QuerySet	QuerySetAllCellLines ()

QuerySet	QuerySetAllTargets ()

QuerySet	QuerySetCellLinesFromIdList (list[str] cell_line_chembl_id_list)

QuerySet	QuerySetCompoundsByMWRange (int less_limit, int greater_limit)

QuerySet	QuerySetTargetsFromIdList (list[str] target_chembl_id_list)

	SaveChEMBLMolfilesToSDFByIdList (list[str] molecule_chembl_id_list, str file_name, pd.DataFrame extra_data=pd.DataFrame())

Variables
Config	filtering_config = toxicity_config["filtering"]

Config	toxicity_config = config["PubChem_download_toxicity"]

Detailed Description

ChEMBL_download_activities/functions.py

Этот модуль содержит функции для запроса и обработки данных об активностях
(IC50, Ki) из базы данных ChEMBL, а также для очистки данных об активностях
клеточных линий.

ChEMBL_download_cell_lines/functions.py

Этот модуль содержит функции для загрузки и обработки данных о клеточных линиях
из базы данных ChEMBL.

ChEMBL_download_compounds/functions.py

Этот модуль содержит функции для запроса соединений из базы данных ChEMBL по
диапазону молекулярной массы, преобразования данных в DataFrame и сохранения
molfiles в SDF формат.

ChEMBL_download_targets/functions.py

Этот модуль содержит функции для загрузки данных о целевых белках (targets)
из базы данных ChEMBL, расширения словарей в DataFrame, добавления
информации об активностях и сохранения результатов в CSV-файл.

PubChem_download_toxicity/functions.py

Этот модуль содержит функции для скачивания данных о токсичности соединений
из PubChem, их фильтрации, преобразования и сохранения в CSV и SDF файлы.

Function Documentation

◆ AddedIC50andGI50ToCellLinesDF()

pd.DataFrame functions.AddedIC50andGI50ToCellLinesDF ( pd.DataFrame data )

Добавляет столбцы `IC50` и `GI50` в DataFrame с данными о клеточных линиях,
подсчитывая количество соответствующих активностей из CSV-файлов,
а также опционально скачивает новые активности.

Args:
    data (pd.DataFrame): DataFrame с данными о клеточных линиях.

Returns:
    pd.DataFrame: DataFrame с добавленными столбцами `IC50` и `GI50`,
                  содержащими количество соответствующих активностей.

                                  ) -> pd.DataFrame:
  """
  Добавляет столбцы `IC50` и `GI50` в DataFrame с данными о клеточных линиях,
  подсчитывая количество соответствующих активностей из CSV-файлов,
  а также опционально скачивает новые активности.
 
  Args:
      data (pd.DataFrame): DataFrame с данными о клеточных линиях.
 
  Returns:
      pd.DataFrame: DataFrame с добавленными столбцами `IC50` и `GI50`,
                    содержащими количество соответствующих активностей.
  """
 
  # получаем конфигурацию для клеточных линий.
  cell_lines_config: Config = config["ChEMBL_download_cell_lines"]
 
  v_logger.info("Adding 'IC50' and 'GI50' columns to pandas.DataFrame...",
                LogMode.VERBOSELY)
 
  # проверяем, пуста ли папка с необработанными данными.
  if IsFolderEmpty(cell_lines_config["raw_csv_folder_name"]):
    v_logger.info("Getting raw cell_lines from Google.Drive...",
                  LogMode.VERBOSELY)
 
    GetRawCellLinesData(cell_lines_config["raw_csv_g_drive_id"],
                        cell_lines_config["raw_csv_folder_name"],
                        config["Utils"]["VerboseLogger"]["verbose_print"])
 
    v_logger.success("Getting raw cell_lines from Google.Drive!",
                     LogMode.VERBOSELY)
 
  # добавляем столбец 'IC50', подсчитывая активности по файлам.
  data["IC50"] = data.apply(
      lambda value: CountCellLineActivitiesByFile(
          f"{cell_lines_config["raw_csv_folder_name"]}/"
          f"{value["cell_chembl_id"]}_IC50_activities.csv"), axis=1)
 
  # добавляем столбец 'GI50', подсчитывая активности по файлам.
  data["GI50"] = data.apply(
      lambda value: CountCellLineActivitiesByFile(
          f"{cell_lines_config["raw_csv_folder_name"]}/"
          f"{value["cell_chembl_id"]}_GI50_activities.csv"), axis=1)
 
  v_logger.success("Adding 'IC50' and 'GI50' columns to pandas.DataFrame!",
                   LogMode.VERBOSELY)
 
  # проверяем, нужно ли скачивать активности.
  if cell_lines_config["download_activities"]:
    GetCellLineChEMBLActivitiesFromCSV(data)
 
    try:
      # оставляем только строки, в которых есть IC50_new и Ki_new
      data = data[(data['IC50_new'].notna()
                   ) & (
          data['GI50_new'].notna())]
 
      data = data.copy()
 
      data["IC50_new"] = data["IC50_new"].astype(int)
      data["GI50_new"] = data["GI50_new"].astype(int)
 
    # это исключение может возникнуть, если колонки нет.
    except KeyError as exception:
      # новых activities не скачалось, т.е. значение пересчитывать не надо.
      if not config["skip_downloaded"]:
        raise exception
 
    # это исключение может возникнуть, если какое-то значение оказалось невалидным.
    except pd.errors.IntCastingNaNError:
      v_logger.warning("Cannot convert non-finite values!")
 
  return data
 
 

Here is the call graph for this function:

Here is the caller graph for this function:

◆ AddedIC50andKiToTargetsDF()

pd.DataFrame functions.AddedIC50andKiToTargetsDF ( pd.DataFrame data )

Добавляет столбцы 'IC50' и 'Ki' в DataFrame с данными о целевых белках
(targets), подсчитывая количество соответствующих активностей из базы данных
ChEMBL, а также опционально скачивает новые активности.

Args:
    data (pd.DataFrame): DataFrame с данными о целевых белках.

Returns:
    pd.DataFrame: DataFrame с добавленными столбцами 'IC50' и 'Ki',
                  содержащими количество соответствующих активностей.

def AddedIC50andKiToTargetsDF(data: pd.DataFrame) -> pd.DataFrame:
  """
  Добавляет столбцы 'IC50' и 'Ki' в DataFrame с данными о целевых белках
  (targets), подсчитывая количество соответствующих активностей из базы данных
  ChEMBL, а также опционально скачивает новые активности.
 
  Args:
      data (pd.DataFrame): DataFrame с данными о целевых белках.
 
  Returns:
      pd.DataFrame: DataFrame с добавленными столбцами 'IC50' и 'Ki',
                    содержащими количество соответствующих активностей.
  """
 
  # получаем конфигурацию для скачивания целей.
  targets_config: Config = config["ChEMBL_download_targets"]
 
  v_logger.info(
      "Adding 'IC50' and 'Ki' columns to pandas.DataFrame...",
      LogMode.VERBOSELY)
 
  # добавляем столбец 'IC50', подсчитывая активности.
  data["IC50"] = data["target_chembl_id"].apply(
      CountTargetActivitiesByIC50)
  # добавляем столбец 'Ki', подсчитывая активности.
  data["Ki"] = data["target_chembl_id"].apply(
      CountTargetActivitiesByKi)
 
  v_logger.success(
      "Adding 'IC50' and 'Ki' columns to pandas.DataFrame!",
      LogMode.VERBOSELY)
 
  # если нужно скачивать активности.
  if targets_config["download_activities"]:
    # скачиваем активности для целевых белков.
    DownloadTargetChEMBLActivities(data)
 
    try:
      # оставляем только строки, в которых есть IC50_new и Ki_new
      data = data[(data['IC50_new'].notna()
                   ) & (
          data['Ki_new'].notna())]
 
      # преобразуем типы столбцов.
      data["IC50_new"] = data["IC50_new"].astype(int)
      data["Ki_new"] = data["Ki_new"].astype(int)
 
    # это исключение может возникнуть, если колонки нет.
    except KeyError as exception:
      # новых activities не скачалось, т.е. значение пересчитывать не надо.
      if not config["skip_downloaded"]:
        raise exception
 
    # это исключение может возникнуть, если какое-то значение оказалось невалидным.
    except pd.errors.IntCastingNaNError:
      v_logger.warning("Cannot convert non-finite values!")
 
  return data
 
 
@ReTry(attempts_amount=1)

Here is the caller graph for this function:

◆ CleanedCellLineActivitiesDF()

pd.DataFrame functions.CleanedCellLineActivitiesDF	(	pd.DataFrame	data,
		str	cell_id,
		str	activities_type )

Очищает DataFrame с данными об активностях
для указанной клеточной линии (cell_id) по IC50 и GI50.

Функция выполняет следующие шаги:
1. Выбирает нужные столбцы из DataFrame.
2. Переименовывает столбцы,
приводя их к нижнему регистру и заменяя пробелы на "_".
3. Фильтрует данные, оставляя только значения с отношениями, единицами,
организмами и типами активности из файла с конфигурациями.
4. Преобразует столбец "standard_value" в числовой тип.
5. Удаляет значения "standard_value", превышающие 1000000000 (1e9).
6. Удаляет столбец "assay_organism" и "standard_type".
7. Переименовывает столбец "smiles" в "canonical_smiles".
8. Вычисляет медиану для дублирующихся значений "standard_value"
по "molecule_chembl_id".
9. Переиндексирует столбцы DataFrame в логическом порядке.

Args:
data (pd.DataFrame): DataFrame с данными об активностях клеточных линий.
cell_id (str): Идентификатор клеточной линии.
activities_type (str): Тип активности ("IC50" или "GI50")
(используется только для логирования).

Returns:
pd.DataFrame: Очищенный DataFrame с данными об активностях клеточной линии.

                                ) -> pd.DataFrame:
  """
  Очищает DataFrame с данными об активностях
  для указанной клеточной линии (cell_id) по IC50 и GI50.
 
  Функция выполняет следующие шаги:
      1. Выбирает нужные столбцы из DataFrame.
      2. Переименовывает столбцы,
         приводя их к нижнему регистру и заменяя пробелы на "_".
      3. Фильтрует данные, оставляя только значения с отношениями, единицами,
         организмами и типами активности из файла с конфигурациями.
      4. Преобразует столбец "standard_value" в числовой тип.
      5. Удаляет значения "standard_value", превышающие 1000000000 (1e9).
      6. Удаляет столбец "assay_organism" и "standard_type".
      7. Переименовывает столбец "smiles" в "canonical_smiles".
      8. Вычисляет медиану для дублирующихся значений "standard_value"
         по "molecule_chembl_id".
      9. Переиндексирует столбцы DataFrame в логическом порядке.
 
  Args:
      data (pd.DataFrame): DataFrame с данными об активностях клеточных линий.
      cell_id (str): Идентификатор клеточной линии.
      activities_type (str): Тип активности ("IC50" или "GI50")
                             (используется только для логирования).
 
  Returns:
      pd.DataFrame: Очищенный DataFrame с данными об активностях клеточной линии.
  """
 
  # конфигурация для фильтрации активностей (клеточных линий).
  filtering_config: Config =\
      config["ChEMBL_download_activities"]["filtering"]["cell_lines"]
 
  v_logger.info(f"Start cleaning {activities_type} activities DataFrame from "
                f"{cell_id}...", LogMode.VERBOSELY)
  v_logger.info("Deleting useless columns...", LogMode.VERBOSELY)
 
  data = data[["Molecule ChEMBL ID", "Smiles", "Document ChEMBL ID",
               "Standard Type", "Standard Relation", "Standard Value",
               "Standard Units", "Assay ChEMBL ID", "Assay Description",
               "Assay Type", "Assay Variant Accession", "Assay Variant Mutation",
               "Action Type", "Data Validity Comment", "BAO Format ID", "BAO Label",
               "Assay Organism"]]
 
  data.columns = [column_name.lower().replace(" ", "_")
                  for column_name in data.columns]
 
  v_logger.success("Deleting useless columns!", LogMode.VERBOSELY)
  v_logger.info("Deleting inappropriate elements...", LogMode.VERBOSELY)
 
  data = data[data["standard_relation"].isin(filtering_config["standard_relation"])]
  data = data[data["standard_units"].isin(filtering_config["standard_units"])]
  data = data[data["assay_organism"].isin(filtering_config["assay_organism"])]
  data = data[data["standard_type"].isin(filtering_config["standard_type"])]
 
  data['standard_value'] = data['standard_value'].astype(float)
  data = data[data['standard_value'] <= 1000000000]
 
  data = data.drop(["assay_organism", "standard_type"], axis=1)
 
  data = data.rename(columns={'smiles': "canonical_smiles"})
 
  v_logger.success("Deleting inappropriate elements!", LogMode.VERBOSELY)
  v_logger.info("Calculating median for 'standard value'...", LogMode.VERBOSELY)
 
  data = MedianDedupedDF(data, "molecule_chembl_id", "standard_value")
 
  v_logger.success("Calculating median for 'standard value'!", LogMode.VERBOSELY)
  v_logger.info("Reindexing columns in logical order...", LogMode.VERBOSELY)
 
  data = data.reindex(columns=["molecule_chembl_id",
                               "canonical_smiles", "document_chembl_id",
                               "standard_relation", "standard_value", "standard_units",
                               "assay_chembl_id", "assay_description", "assay_type",
                               "assay_variant_accession", "assay_variant_mutation",
                               "action_type", "data_validity_description",
                               "bao_format", "bao_label"])
 
  v_logger.success("Reindexing columns in logical order!", LogMode.VERBOSELY)
  v_logger.success(f"End cleaning activities DataFrame from {cell_id}!",
                   LogMode.VERBOSELY)
  v_logger.info("-", LogMode.VERBOSELY)
 
  return data

◆ CleanedTargetActivitiesDF()

pd.DataFrame functions.CleanedTargetActivitiesDF	(	pd.DataFrame	data,
		str	target_id,
		str	activities_type )

Очищает DataFrame с данными об активностях
для указанной цели (target_id) по IC50 и Ki.

Функция выполняет следующие шаги:
1. Удаляет неинформативные столбцы.
2. Фильтрует данные, оставляя только значения с отношением, единицами,
организмами, типами активности и типами анализа из файла с конфигурациями.
3. Преобразует столбец "standard_value" в числовой тип.
4. Удаляет значения "standard_value", превышающие 1000000000 (1e9).
5. Заменяет значения "Not Determined" в столбце 'activity_comment' на None.
6. Удаляет столбцы "target_organism" и "standard_type".
7. Вычисляет медиану для дублирующихся значений "standard_value"
по "molecule_chembl_id".
8. Переиндексирует столбцы DataFrame в логическом порядке.

Args:
data (pd.DataFrame): DataFrame с данными об активностях, полученными из ChEMBL.
target_id (str): Идентификатор цели из базы ChEMBL.
activities_type (str): Тип активности ("IC50" или "Ki")
(используется только для логирования).

Returns:
pd.DataFrame: Очищенный DataFrame с данными об активностях.

                              ) -> pd.DataFrame:
  """
  Очищает DataFrame с данными об активностях
  для указанной цели (target_id) по IC50 и Ki.
 
  Функция выполняет следующие шаги:
      1. Удаляет неинформативные столбцы.
      2. Фильтрует данные, оставляя только значения с отношением, единицами,
         организмами, типами активности и типами анализа из файла с конфигурациями.
      3. Преобразует столбец "standard_value" в числовой тип.
      4. Удаляет значения "standard_value", превышающие 1000000000 (1e9).
      5. Заменяет значения "Not Determined" в столбце 'activity_comment' на None.
      6. Удаляет столбцы "target_organism" и "standard_type".
      7. Вычисляет медиану для дублирующихся значений "standard_value"
         по "molecule_chembl_id".
      8. Переиндексирует столбцы DataFrame в логическом порядке.
 
  Args:
      data (pd.DataFrame): DataFrame с данными об активностях, полученными из ChEMBL.
      target_id (str): Идентификатор цели из базы ChEMBL.
      activities_type (str): Тип активности ("IC50" или "Ki")
                             (используется только для логирования).
 
  Returns:
      pd.DataFrame: Очищенный DataFrame с данными об активностях.
  """
  # конфигурация для фильтрации активностей (мишеней).
  filtering_config: Config = config["ChEMBL_download_activities"]["filtering"]["targets"]
 
  v_logger.info(f"Start cleaning {activities_type} activities DataFrame from "
                f"{target_id}...", LogMode.VERBOSELY)
  v_logger.info("Deleting useless columns...", LogMode.VERBOSELY)
 
  data = data.drop(["activity_id", "activity_properties",
                    "document_journal", "document_year",
                    "molecule_pref_name", "pchembl_value",
                    "potential_duplicate", "qudt_units",
                    "record_id", "src_id", "standard_flag",
                    "standard_text_value", "standard_upper_value",
                    "target_chembl_id", "target_pref_name",
                    "target_tax_id", "text_value", "toid",
                    "type", "units", "uo_units", "upper_value",
                    "value", "ligand_efficiency", "relation"], axis=1)
 
  v_logger.success("Deleting useless columns!", LogMode.VERBOSELY)
  v_logger.info("Deleting inappropriate elements...", LogMode.VERBOSELY)
 
  data = data[data["standard_relation"].isin(filtering_config["standard_relation"])]
  data = data[data["standard_units"].isin(filtering_config["standard_units"])]
  data = data[data["target_organism"].isin(filtering_config["target_organism"])]
  data = data[data["standard_type"].isin(filtering_config["standard_type"])]
  data = data[data["assay_type"].isin(filtering_config["assay_type"])]
 
  data["standard_value"] = data["standard_value"].astype(float)
  # неправдоподобные значения
  data = data[data["standard_value"] <= 1000000000]
 
  data['activity_comment'] = data['activity_comment'].replace(
      "Not Determined", None)
 
  data = data.drop(["target_organism", "standard_type"], axis=1)
 
  v_logger.success("Deleting inappropriate elements!", LogMode.VERBOSELY)
  v_logger.info("Calculating median for 'standard value'...", LogMode.VERBOSELY)
 
  data = MedianDedupedDF(data, "molecule_chembl_id", "standard_value")
 
  v_logger.success("Calculating median for 'standard value'!", LogMode.VERBOSELY)
  v_logger.info("Reindexing columns in logical order...", LogMode.VERBOSELY)
 
  data = data.reindex(columns=["molecule_chembl_id", "parent_molecule_chembl_id",
                               "canonical_smiles", "document_chembl_id",
                               "standard_relation", "standard_value", "standard_units",
                               "assay_chembl_id", "assay_description", "assay_type",
                               "assay_variant_accession", "assay_variant_mutation",
                               "action_type", "activity_comment",
                               "data_validity_comment", "data_validity_description",
                               "bao_endpoint", "bao_format", "bao_label"])
 
  v_logger.success("Reindexing columns in logical order!", LogMode.VERBOSELY)
  v_logger.success(f"End cleaning activities DataFrame from {target_id}!",
                   LogMode.VERBOSELY)
  v_logger.info("-", LogMode.VERBOSELY)
 
  return data
 
 
@ReTry(attempts_amount=1)

◆ CountCellLineActivitiesByFile()

int functions.CountCellLineActivitiesByFile ( str file_name )

Подсчитывает количество строк (активностей) в CSV-файле,
содержащем данные о клеточных линиях.

Args:
    file_name (str): Имя файла CSV,
                     содержащего данные об активностях клеточных линий.

Returns:
    int: Количество строк в файле (предположительно, количество активностей).

def CountCellLineActivitiesByFile(file_name: str) -> int:
  """
  Подсчитывает количество строк (активностей) в CSV-файле,
  содержащем данные о клеточных линиях.
 
  Args:
      file_name (str): Имя файла CSV,
                       содержащего данные об активностях клеточных линий.
 
  Returns:
      int: Количество строк в файле (предположительно, количество активностей).
  """
 
  return sum(1 for _ in open(file_name, "r"))
 
 
@ReTry(attempts_amount=1)

◆ CountTargetActivitiesByIC50()

int functions.CountTargetActivitiesByIC50 ( str target_id )

Подсчитывает количество активностей для указанной цели (target_id) на основе IC50.

Args:
    target_id (str): Идентификатор цели из базы ChEMBL.

Returns:
    int: Количество активностей типа IC50 для указанной цели.

def CountTargetActivitiesByIC50(target_id: str) -> int:
  """
  Подсчитывает количество активностей для указанной цели (target_id) на основе IC50.
 
  Args:
      target_id (str): Идентификатор цели из базы ChEMBL.
 
  Returns:
      int: Количество активностей типа IC50 для указанной цели.
  """
 
  return len(QuerySetActivitiesByIC50(target_id))  # type: ignore
 
 

Here is the call graph for this function:

◆ CountTargetActivitiesByKi()

int functions.CountTargetActivitiesByKi ( str target_id )

Подсчитывает количество активностей для указанной цели (target_id) на основе Ki.

Args:
    target_id (str): Идентификатор цели из базы ChEMBL.

Returns:
    int: Количество активностей типа Ki для указанной цели.

def CountTargetActivitiesByKi(target_id: str) -> int:
  """
  Подсчитывает количество активностей для указанной цели (target_id) на основе Ki.
 
  Args:
      target_id (str): Идентификатор цели из базы ChEMBL.
 
  Returns:
      int: Количество активностей типа Ki для указанной цели.
  """
 
  return len(QuerySetActivitiesByKi(target_id))  # type: ignore
 
 

Here is the call graph for this function:

◆ DownloadCellLinesFromIdList()

functions.DownloadCellLinesFromIdList ( )

Скачивает данные о клеточных линиях из ChEMBL по списку идентификаторов,
добавляет информацию об активностях IC50 и GI50, проводит первичный анализ
и сохраняет результаты в CSV-файл.

def DownloadCellLinesFromIdList():
  """
  Скачивает данные о клеточных линиях из ChEMBL по списку идентификаторов,
  добавляет информацию об активностях IC50 и GI50, проводит первичный анализ
  и сохраняет результаты в CSV-файл.
  """
 
  # получаем конфигурацию для клеточных линий.
  cell_lines_config: Config = config["ChEMBL_download_cell_lines"]
 
  v_logger.info("Downloading cell_lines...", LogMode.VERBOSELY)
 
  # получаем клеточные линии по списку id.
  cell_lines_with_ids: QuerySet = QuerySetCellLinesFromIdList(
      cell_lines_config["id_list"])
 
  # если список id пуст, получаем все клеточные линии.
  if cell_lines_config["id_list"] == []:
    cell_lines_with_ids = QuerySetAllCellLines()
 
  v_logger.info(f"Amount: {len(cell_lines_with_ids)}")  # type: ignore
  v_logger.success("Downloading cell_lines!", LogMode.VERBOSELY)
  v_logger.info("Collecting cell_lines to pandas.DataFrame...",
                LogMode.VERBOSELY)
 
  # добавляем информацию об активностях IC50 и GI50.
  data_frame = AddedIC50andGI50ToCellLinesDF(
      pd.DataFrame(cell_lines_with_ids))  # type: ignore
 
  v_logger.UpdateFormat(cell_lines_config["logger_label"],
                        cell_lines_config["logger_color"])
 
  v_logger.success("Collecting cell_lines to pandas.DataFrame!",
                   LogMode.VERBOSELY)
  v_logger.info(
      f"Collecting cell_lines to .csv file in "
      f"'{cell_lines_config["results_folder_name"]}'...",
      LogMode.VERBOSELY)
 
  # формируем имя файла для сохранения.
  file_name: str = f"{cell_lines_config["results_folder_name"]}/"\
      f"{cell_lines_config["results_file_name"]}.csv"
 
  # сохраняем DataFrame в CSV-файл.
  data_frame.to_csv(file_name, sep=";", index=False)
 
  v_logger.success(
      f"Collecting cell_lines to .csv file in "
      f"'{cell_lines_config["results_folder_name"]}'!",
      LogMode.VERBOSELY)

Here is the call graph for this function:

◆ DownloadCompoundsByMWRange()

functions.DownloadCompoundsByMWRange	(	int	less_limit,
		int	greater_limit,
		str	results_folder_name )

Возвращает молекулы в диапазоне молекулярной массы [less_limit;
greater_limit) из базы ChEMBL, сохраняя их в .csv файл.

Args:
    less_limit (int): нижняя граница.
    greater_limit (int): верхняя граница.
    results_folder_name (str): имя папки для закачки.

                               results_folder_name: str):
  """
  Возвращает молекулы в диапазоне молекулярной массы [less_limit;
  greater_limit) из базы ChEMBL, сохраняя их в .csv файл.
 
  Args:
      less_limit (int): нижняя граница.
      greater_limit (int): верхняя граница.
      results_folder_name (str): имя папки для закачки.
  """
 
  v_logger.info(
      f"Downloading molecules with mw in range [{less_limit}, "
      f"{greater_limit})...",
      LogMode.VERBOSELY)
 
  # получаем молекулы в заданном диапазоне молекулярной массы.
  mols_in_mw_range: QuerySet = QuerySetCompoundsByMWRange(
      less_limit, greater_limit)
 
  v_logger.info(f"Amount: {len(mols_in_mw_range)}",  # type: ignore
                LogMode.VERBOSELY)
  v_logger.success(
      f"Downloading molecules with mw in range [{less_limit}, "
      f"{greater_limit})!",
      LogMode.VERBOSELY)
 
  v_logger.info("Collecting molecules to pandas.DataFrame...",
                LogMode.VERBOSELY)
 
  # преобразуем данные в DataFrame.
  data_frame = ExpandedFromDictionariesCompoundsDF(pd.DataFrame(
      mols_in_mw_range))  # type: ignore
 
  v_logger.success("Collecting molecules to pandas.DataFrame!",
                   LogMode.VERBOSELY)
  v_logger.info(
      f"Collecting molecules to .csv file in '{results_folder_name}'...",
      LogMode.VERBOSELY)
 
  # формируем имя файла для сохранения.
  file_name: str = f"{results_folder_name}/range_"\
      f"{less_limit}_{greater_limit}_mw_mols.csv"
 
  # сохраняем DataFrame в .csv файл.
  data_frame.to_csv(file_name, sep=";", index=False)
 
  v_logger.success(
      f"Collecting molecules to .csv file in '{results_folder_name}'!",
      LogMode.VERBOSELY)
 
 

Here is the call graph for this function:

◆ DownloadCompoundToxicity()

functions.DownloadCompoundToxicity	(	dict	compound_data,
		str	page_folder_name )

Скачиваем данные о токсичности соединения по информации из JSON PubChem
и сохраняем их в CSV-файл.

Args:
    compound_data (dict): словарь с информацией о соединении из JSON PubChem.
    page_folder_name (str): путь к директории, в которой будет сохранен файл.

                             page_folder_name: str):
  """
  Скачиваем данные о токсичности соединения по информации из JSON PubChem
  и сохраняем их в CSV-файл.
 
  Args:
      compound_data (dict): словарь с информацией о соединении из JSON PubChem.
      page_folder_name (str): путь к директории, в которой будет сохранен файл.
  """
 
  cid: str = ""
 
  try:
    # пытаемся получить CID соединения.
    cid = compound_data["LinkedRecords"]["CID"][0]
 
  # если CID отсутствует.
  except KeyError:
    v_logger.warning(
        f"No 'cid' for 'sid': {compound_data["LinkedRecords"]["SID"][0]}"
        f", skip.")
    v_logger.info("-", LogMode.VERBOSELY)
 
    return
    # не сохраняем те соединения, у которых нет cid,
    # так как невозможно вычислить молекулярные вес
 
  primary_sid: int | None
  try:
    # пытаемся получить SID соединения.
    primary_sid = int(compound_data["LinkedRecords"]["SID"][0])
 
  # если SID отсутствует.
  except KeyError:
    primary_sid = None
 
  # получаем данные из таблицы.
  raw_table: str = compound_data["Data"][0]["Value"]["ExternalTableName"]
  table_info: dict = {}
 
  # разбираем данные таблицы.
  for row in raw_table.split("&"):
    key, value = row.split("=")
    table_info[key] = value
 
  # проверяем тип запроса.
  if table_info["query_type"] != "sid":
    v_logger.LogException(ValueError("Unknown query type at page "
                                     f"{page_folder_name}"))
 
  # получаем SID из данных таблицы.
  sid = int(table_info["query"])
 
  # проверяем соответствие SID.
  if primary_sid != sid:
    v_logger.warning(f"Mismatch between 'primary_sid' ({primary_sid}) "
                     f"and 'sid' ({sid}).")
 
  # формируем имя файла.
  compound_name: str = f"compound_{sid}_toxicity"
 
  # формируем пути к файлам для разных единиц измерения.
  compound_file_kg = f"{page_folder_name.format(unit_type="kg")}/"\
      f"{compound_name}"
  compound_file_m3 = f"{page_folder_name.format(unit_type="m3")}/"\
      f"{compound_name}"
 
  # если файл уже существует и скачивание пропущено, пропускаем.
  if os.path.exists(f"{compound_file_kg}.csv") or\
          os.path.exists(f"{compound_file_m3}.csv") and\
          config["skip_downloaded"]:
    v_logger.info(f"{compound_name} is already downloaded, skip.",
                  LogMode.VERBOSELY)
    v_logger.info("-", LogMode.VERBOSELY)
 
    return
 
  v_logger.info(f"Downloading {compound_name}...", LogMode.VERBOSELY)
 
  # получаем данные о токсичности из PubChem.
  acute_effects = GetDataFrameFromUrl(
      GetLinkFromSid(sid=sid,
                     collection=table_info["collection"],
                     limit=toxicity_config["limit"]),
      toxicity_config["sleep_time"]
  )
 
  @ReTry()
  def GetMolecularWeightByCid(cid: str | int) -> str:
    """
    Получает молекулярный вес соединения из PubChem REST API, используя его CID.
 
    Args:
        cid (str | int): PubChem Compound Identifier (CID) соединения.
 
    Returns:
        str: молекулярный вес соединения в виде строки.
    """
 
    # получаем молекулярный вес соединения из PubChem.
    return GetResponse(
        "https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/"
        f"{cid}/property/MolecularWeight/txt",
        True, None).text.strip()
 
  def CalcMolecularWeight(df: pd.DataFrame,
                          id_column: str,
                          ) -> pd.DataFrame:
    """
    Вычисляет и добавляет столбец 'mw' (молекулярный вес) в pd.DataFrame.
 
    Args:
        df (pd.DataFrame): исходный pd.DataFrame.
        id_column (str): название столбца, содержащего ID соединений.
 
    Returns:
        pd.DataFrame: модифицированный DataFrame с добавленным столбцом 'mw'.
    """
 
    # получаем уникальные идентификаторы соединений.
    unique_ids = df[id_column].dropna().unique()
 
    # если найден только один уникальный идентификатор.
    if len(unique_ids) == 1:
      # получаем молекулярный вес для этого идентификатора.
      mw = GetMolecularWeightByCid(unique_ids[0])
 
      # если молекулярный вес найден.
      if mw is not None:
        # добавляем столбец с молекулярным весом в DataFrame.
        df["mw"] = mw
 
        v_logger.info(f"Found 'mw' by '{id_column}'.",
                      LogMode.VERBOSELY)
 
      # если молекулярный вес не найден.
      else:
        v_logger.warning(
            "Could not retrieve molecular weight by "
            f"'{id_column}' for {unique_ids[0]}.")
 
    # если идентификаторы не найдены.
    elif len(unique_ids) == 0:
      v_logger.warning(f"No '{id_column}' found for {unique_ids[0]}.")
 
    # если идентификаторов несколько.
    else:
      v_logger.warning(
          f"Non-unique 'mw' by {id_column} for {unique_ids[0]}.")
 
      # применяем функцию получения молекулярного веса к каждому id.
      df["mw"] = df[id_column].apply(GetMolecularWeightByCid)
 
      # если некоторые значения молекулярного веса не найдены.
      if df["mw"].isnull().any():
        v_logger.warning(
            f"Some 'mw' could not be retrieved by {id_column}.")
 
    return df
 
  def ExtractDoseAndTime(df: pd.DataFrame,
                         valid_units: list[str]) -> pd.DataFrame:
    """
    Преобразует DataFrame с данными о дозировках, извлекая числовое
    значение, единицу измерения и период времени.
 
    Args:
        df (pd.DataFrame): таблица с колонкой "dose", содержащей
                            информацию о дозировках.
        valid_units (list[str]): список допустимых единиц измерения дозы.
 
    Returns:
        DataFrame с тремя новыми колонками: "numeric_dose", "dose_value",
        "time_period".
    """
 
    def ExtractDose(dose_str: str,
                    mw: float
                    ) -> tuple[float | None, str | None, str | None]:
      """
      Извлекает дозу, единицу измерения и период времени из строки
      дозировки.
 
      Args:
          dose_str (str): строка, содержащая информацию о дозировке.
          mw (float): молекулярная масса соединения.
 
      Returns:
          tuple[float | None, str | None, str | None]: кортеж, содержащий:
              - числовую дозу (float или None, если извлечь не удалось).
              - единицу измерения дозы (str или None, если извлечь не удалось).
              - период времени (str или None, если извлечь не удалось).
      """
 
      # если в строке нет пробелов, возвращаем None.
      if " " not in dose_str:
        return None, None, None
 
      num_dose: float | str | None = None
      dose_unit: str | None = None
      time_per: str | None = None
 
      try:
        # если строка дозировки содержит не два элемента, возвращаем None.
        if len(dose_str.split(" ")) != 2:
          return None, None, None
 
        # разделяем строку на количество дозы и единицы измерения.
        dose_amount_str, dose_and_time = dose_str.split(" ")
        # преобразуем количество дозы в число.
        num_dose = float(dose_amount_str)
 
      # если не удалось преобразовать количество дозы в число.
      except ValueError:
        v_logger.warning(f"Unsupported dose string: {dose_str}",
                         LogMode.VERBOSELY)
        return None, None, None
 
      # определяем, есть ли период времени.
      match dose_str.count("/"):
        case 1:      # нету time period или это pp*/time
          # если строка начинается с "p", это "pp*/time".
          if dose_and_time.startswith("p"):
            dose_unit, time_per = dose_and_time.split("/")
          else:
            dose_unit = dose_and_time
            time_per = None
 
        case 2:      # есть time period
          # извлекаем единицу измерения и период времени.
          dose_unit = "/".join(dose_and_time.split("/")[:-1])
          time_per = dose_and_time.split("/")[-1]
 
        case _:
          return None, None, None
 
      # если единица измерения не поддерживается.
      if dose_unit not in valid_units:
        v_logger.warning(f"Unsupported dose_unit: {dose_unit}",
                         LogMode.VERBOSELY)
        return None, None, None
 
      unit_prefix: str = dose_unit
      unit_suffix: str = "m3"
 
      # если единица измерения содержит "/", разделяем ее.
      if dose_unit.count("/") > 0:
        unit_prefix, unit_suffix = dose_unit.split("/")
 
        # если суффикс не поддерживается.
        if unit_suffix not in ("kg", "m3"):
          v_logger.warning(f"Unsupported dose_unit: {dose_unit}",
                           LogMode.VERBOSELY)
          return None, None, None
 
      unit_prefix = unit_prefix.lower()
 
      # словарь с коэффициентами перевода единиц измерения.
      conversions: dict[str, float] = {
          "mg": 1,
          "gm": 1000,
          "g": 1000,
          "ng": 0.000001,
          "ug": 0.001,
 
          "ml": 1000,
          "nl": 0.001,                   # 1000 * 0.000001
          "ul": 1,                       # 1000 * 0.001
 
          "ppm": 24.45 / mw,             # 1 ppm = 1 mg/m3 * 24.45/mw
          "ppb": 0.001 * 24.45 / mw,     # 1 ppb = 0.001 ppm
          "pph": 1 / 60 * 24.45 / mw,    # 1 pph = 1/60 ppm
      }
 
      # переводим известные единицы к "mg/kg" и "mg/m3".
      if unit_prefix in conversions:
        num_dose *= conversions[unit_prefix]
        dose_unit = "mg/" + unit_suffix
 
      # если префикс не поддерживается.
      else:
        v_logger.warning(f"Unsupported dose_unit: {dose_unit}",
                         LogMode.VERBOSELY)
        return None, None, None
 
      return num_dose, dose_unit, time_per
 
    # применяем функцию извлечения дозы к каждой строке DataFrame.
    df[["numeric_dose", "dose_units", "time_period"]] = df.apply(
        lambda row: pd.Series(ExtractDose(row["dose"], row["mw"])),
        axis=1)
    # удаляем исходный столбец "dose" и переименовываем новый.
    df = df.drop(columns=["dose"]).rename(
        columns={"numeric_dose": "dose"})
 
    return df
 
  def SaveMolfileWithToxicityToSDF(df: pd.DataFrame, unit_type: str):
    """
    Сохраняет molfile соединения с данными о токсичности в SDF-файл.
 
    Args:
        df (pd.DataFrame): DataFrame, содержащий данные о токсичности соединения.
        unit_type (str): тип единиц измерения (например, "kg" или "m3").
    """
 
    # создаем пустой DataFrame для хранения данных.
    listed_df = pd.DataFrame()
 
    # итерируемся по столбцам DataFrame.
    for column_name in df.columns:
      # получаем данные столбца в виде списка.
      full_column_data = df[column_name].tolist()
 
      # добавляем данные столбца в новый DataFrame.
      listed_df[column_name] = [full_column_data]
      # если элемент уникален.
      if len(DedupedList(full_column_data)) == 1:
        # то записываем только его.
        listed_df.loc[0, column_name] = full_column_data[0]
 
    # сохраняем molfile в SDF-файл.
    SaveMolfilesToSDF(
        data=pd.DataFrame({"cid": [cid],
                           "molfile": [GetMolfileFromCID(cid)]}),
        file_name=(
            f"{toxicity_config["molfiles_folder_name"]}/"
            f"{compound_name}_{unit_type}"),
        molecule_id_column_name="cid",
        extra_data=listed_df,
        indexing_lists=True)
 
  def SaveToxicityUnitSpecification(compound_file_unit: str,
                                    unit_str: str,
                                    valid_units: list[str],
                                    acute_effects: pd.DataFrame):
    """
    Фильтрует, преобразует и сохраняет данные о токсичности для указанного
    типа единиц измерения.
 
    Args:
        compound_file_unit (str): имя файла для сохранения (без расширения).
        unit_str (str): тип единиц измерения ("kg" или "m3").
        valid_units (list[str]): список допустимых единиц измерения.
        acute_effects (pd.DataFrame): DataFrame с данными о токсичности.
    """
 
    v_logger.info("Filtering 'organism' and 'route'...",
                  LogMode.VERBOSELY)
 
    # фильтруем данные по организму.
    acute_effects_unit = acute_effects[acute_effects["organism"].isin(
        filtering_config[unit_str]["organism"])]
    # фильтруем данные по способу введения.
    acute_effects_unit = acute_effects_unit[
        acute_effects_unit["route"].isin(
            filtering_config[unit_str]["route"])]
 
    v_logger.success("Filtering 'organism' and 'route'!",
                     LogMode.VERBOSELY)
 
    v_logger.info(f"Filtering 'dose' in {unit_str}...",
                  LogMode.VERBOSELY)
 
    # если DataFrame пустой, пропускаем.
    if acute_effects_unit.empty:
      v_logger.warning(
          f"{compound_name}_{unit_str} is empty, no need saving, skip.",
          LogMode.VERBOSELY)
      return
 
    # если столбец "dose" присутствует.
    if "dose" in acute_effects_unit.columns:
      # извлекаем дозу, единицы измерения и время.
      acute_effects_unit = ExtractDoseAndTime(acute_effects_unit,
                                              valid_units)
 
      # преобразуем значения столбца "dose" в числовой формат.
      acute_effects_unit["dose"] = pd.to_numeric(
          acute_effects_unit["dose"], errors="coerce")
 
    # если столбец "dose" отсутствует.
    else:
      v_logger.warning(f"No dose in {compound_name}_{unit_str}, skip.",
                       LogMode.VERBOSELY)
      return
 
    # если DataFrame пустой, пропускаем.
    if acute_effects_unit.empty:
      v_logger.warning(
          f"{compound_name}_{unit_str} is empty, no need saving, skip.",
          LogMode.VERBOSELY)
      return
 
    # если столбцы "dose" или "dose_units" отсутствуют.
    if "dose" not in acute_effects_unit.columns or\
            "dose_units" not in acute_effects_unit.columns:
      v_logger.warning(
          f"{compound_name}_{unit_str} misses 'dose' or 'dose_units'"
          f", skip.",
          LogMode.VERBOSELY)
      return
 
    v_logger.success(f"Filtering 'dose' in {unit_str}!",
                     LogMode.VERBOSELY)
 
    v_logger.info(f"Adding 'pLD' to {compound_name}_{unit_str}...",
                  LogMode.VERBOSELY)
 
    # вычисляем pLD.
    acute_effects_unit["pLD"] = -np.log10(
        (acute_effects_unit["dose"] / acute_effects_unit["mw"]) / 1000000)
 
    v_logger.success(f"Adding 'pLD' to {compound_name}_{unit_str}!",
                     LogMode.VERBOSELY)
 
    v_logger.info(f"Saving {compound_name}_{unit_str} to .csv...",
                  LogMode.VERBOSELY)
 
    # заменяем пустые строки на NaN.
    acute_effects_unit = acute_effects_unit.replace('', np.nan)
    # удаляем столбцы, состоящие только из NaN.
    acute_effects_unit = acute_effects_unit.dropna(axis=1, how='all')
 
    # проверяем наличие дозы и единиц ее измерения.
    if "dose" in acute_effects_unit.columns and\
            "dose_units" in acute_effects_unit.columns:
      # оставляем только строки, в которых есть информация о дозе и
      # единицах измерения.
      acute_effects_unit =\
          acute_effects_unit[(acute_effects_unit['dose_units'].notna()
                              ) & (
              acute_effects_unit['dose'].notna())]
 
    # если нет нужных столбцов.
    else:
      v_logger.warning(
          f"{compound_name}_{unit_str} misses 'dose' or 'dose_units'"
          f", skip.",
          LogMode.VERBOSELY)
      return
 
    # сохраняем DataFrame в CSV-файл.
    acute_effects_unit.to_csv(f"{compound_file_unit}.csv",
                              sep=";",
                              index=False,
                              mode="w")
 
    v_logger.success(f"Saving {compound_name}_{unit_str} to .csv!",
                     LogMode.VERBOSELY)
 
    # если необходимо скачивать соединения в SDF.
    if toxicity_config["download_compounds_sdf"]:
      v_logger.info(f"Saving {compound_name}_{unit_str} to .sdf...",
                    LogMode.VERBOSELY)
 
      # создаем директорию для SDF-файлов.
      os.makedirs(toxicity_config["molfiles_folder_name"],
                  exist_ok=True)
 
      # сохраняем molfile в SDF-файл.
      SaveMolfileWithToxicityToSDF(acute_effects_unit, unit_str)
 
      v_logger.success(f"Saving {compound_name}_{unit_str} to .sdf!",
                       LogMode.VERBOSELY)
 
  v_logger.info("Adding 'mw'...", LogMode.VERBOSELY)
 
  # добавляем столбец с молекулярным весом.
  acute_effects = CalcMolecularWeight(acute_effects, "cid")
 
  try:
    # преобразуем значения столбца "mw" в числовой формат.
    acute_effects["mw"] = pd.to_numeric(acute_effects["mw"],
                                        errors="coerce")
 
    v_logger.success("Adding 'mw'!", LogMode.VERBOSELY)
 
  # если столбец "mw" не найден.
  except KeyError:
    v_logger.warning(f"No 'mw' for {compound_name}, skip.")
    return
 
  v_logger.info("~", LogMode.VERBOSELY)
 
  # сохраняем данные о токсичности для единиц измерения "kg".
  SaveToxicityUnitSpecification(compound_file_unit=compound_file_kg,
                                unit_str="kg",
                                valid_units=["gm/kg",
                                             "g/kg",
 
                                             "mg/kg",
                                             "ug/kg",
                                             "ng/kg",
 
                                             "mL/kg",
                                             "uL/kg",
                                             "nL/kg"],
                                acute_effects=acute_effects)
 
  v_logger.info("·", LogMode.VERBOSELY)
 
  # сохраняем данные о токсичности для единиц измерения "m3".
  SaveToxicityUnitSpecification(compound_file_unit=compound_file_m3,
                                unit_str="m3",
                                valid_units=["gm/m3",
                                             "g/m3",
 
                                             "mg/m3",
                                             "ug/m3",
                                             "ng/m3",
 
                                             "mL/m3",
                                             "uL/m3",
                                             "nL/m3",
 
                                             "ppm",
                                             "ppb",
                                             "pph"],
                                acute_effects=acute_effects)
 
  v_logger.info("·", LogMode.VERBOSELY)
  v_logger.success(f"Downloading {compound_name}!", LogMode.VERBOSELY)
  v_logger.info("-", LogMode.VERBOSELY)
 
 
# MARK: FilterDownloadedToxicityByCharacteristics
 
 

Here is the call graph for this function:

◆ DownloadTargetsFromIdList()

functions.DownloadTargetsFromIdList ( )

Скачивает данные о целевых белках (targets) из ChEMBL по списку
идентификаторов, добавляет информацию об активностях IC50 и Ki, проводит
первичный анализ и сохраняет результаты в CSV-файл.

def DownloadTargetsFromIdList():
  """
  Скачивает данные о целевых белках (targets) из ChEMBL по списку
  идентификаторов, добавляет информацию об активностях IC50 и Ki, проводит
  первичный анализ и сохраняет результаты в CSV-файл.
  """
 
  # получаем конфигурацию для скачивания целей.
  targets_config: Config = config["ChEMBL_download_targets"]
 
  v_logger.info("Downloading targets...", LogMode.VERBOSELY)
 
  # получаем цели по списку id.
  targets_with_ids: QuerySet = QuerySetTargetsFromIdList(
      targets_config["id_list"])
 
  # если список id пуст, получаем все цели.
  if targets_config["id_list"] == []:
    targets_with_ids = QuerySetAllTargets()
 
  v_logger.info(f"Amount: {len(targets_with_ids)}")  # type: ignore
  v_logger.success("Downloading targets!", LogMode.VERBOSELY)
  v_logger.info("Collecting targets to pandas.DataFrame..",
                LogMode.VERBOSELY)
 
  # добавляем информацию об активностях IC50 и Ki.
  data_frame = AddedIC50andKiToTargetsDF(
      ExpandedFromDictionariesTargetsDF(
          pd.DataFrame(targets_with_ids)  # type: ignore
      ))
 
  v_logger.UpdateFormat(targets_config["logger_label"],
                        targets_config["logger_color"])
 
  v_logger.success("Collecting targets to pandas.DataFrame!",
                   LogMode.VERBOSELY)
  v_logger.info(
      f"Collecting targets to .csv file in "
      f"'{targets_config["results_folder_name"]}'...",
      LogMode.VERBOSELY)
 
  # формируем имя файла.
  file_name: str = f"{targets_config["results_folder_name"]}/"\
      f"{targets_config["results_file_name"]}.csv"
 
  # сохраняем DataFrame в CSV-файл.
  data_frame.to_csv(file_name, sep=";", index=False)
 
  v_logger.success(
      f"Collecting targets to .csv file in "
      f"'{targets_config["results_folder_name"]}'!",
      LogMode.VERBOSELY)

Here is the call graph for this function:

◆ ExpandedFromDictionariesCompoundsDF()

pd.DataFrame functions.ExpandedFromDictionariesCompoundsDF ( pd.DataFrame data )

Избавляет pd.DataFrame от словарей и списков словарей в столбцах, разбивая
их на подстолбцы.

Args:
    data (pd.DataFrame): исходный pd.DataFrame.

Returns:
    pd.DataFrame: "раскрытый" pd.DataFrame.

def ExpandedFromDictionariesCompoundsDF(data: pd.DataFrame) -> pd.DataFrame:
  """
  Избавляет pd.DataFrame от словарей и списков словарей в столбцах, разбивая
  их на подстолбцы.
 
  Args:
      data (pd.DataFrame): исходный pd.DataFrame.
 
  Returns:
      pd.DataFrame: "раскрытый" pd.DataFrame.
  """
 
  def ExtractedValuesFromColumn(df: pd.DataFrame,
                                column_name: str,
                                key: str,
                                is_list: bool = True
                                ) -> pd.Series:
    """
    Извлекает значения из указанного столбца DataFrame на основе заданного
    ключа.
 
    Args:
        df (pd.DataFrame): DataFrame, из которого нужно извлечь значения.
        column_name (str): название столбца, из которого нужно извлечь
                             значения.
        key (str): ключ, по которому нужно извлечь значения из словарей.
        is_list (bool, optional): флаг, указывающий, является ли значение
                                   в столбце списком словарей.
 
    Returns:
        pd.Series: Series, содержащий извлеченные значения.
    """
 
    # если значение в столбце - список словарей.
    if is_list:
      return df[column_name].apply(
          lambda x: [d[key] for d in x] if x else [])
 
    # если значение в столбце - не список словарей.
    return [item[key] if isinstance(item, dict) else None for item in
            df[column_name]]  # type: ignore
 
  # извлекаем значения из различных столбцов DataFrame.
  exposed_data = pd.DataFrame({
      # ! cross_references
      "xref_id": ExtractedValuesFromColumn(data,
                                           "cross_references",
                                           "xref_id"),
      "xref_name": ExtractedValuesFromColumn(data,
                                             "cross_references",
                                             "xref_name"),
      "xref_src": ExtractedValuesFromColumn(data,
                                            "cross_references",
                                            "xref_src"),
      # ! molecule_hierarchy
      "active_chembl_id": ExtractedValuesFromColumn(data,
                                                    "molecule_hierarchy",
                                                    "active_chembl_id",
                                                    is_list=False),
      "molecule_chembl_id": ExtractedValuesFromColumn(data,
                                                      "molecule_hierarchy",
                                                      "molecule_chembl_id",
                                                      is_list=False),
      "parent_chembl_id": ExtractedValuesFromColumn(data,
                                                    "molecule_hierarchy",
                                                    "parent_chembl_id",
                                                    is_list=False),
      # ! molecule_properties
      "alogp": ExtractedValuesFromColumn(data,
                                         "molecule_properties",
                                         "alogp",
                                         is_list=False),
      "aromatic_rings": ExtractedValuesFromColumn(data,
                                                  "molecule_properties",
                                                  "aromatic_rings",
                                                  is_list=False),
      "cx_logd": ExtractedValuesFromColumn(data,
                                           "molecule_properties",
                                           "cx_logd",
                                           is_list=False),
      "cx_logp": ExtractedValuesFromColumn(data,
                                           "molecule_properties",
                                           "cx_logp",
                                           is_list=False),
      "cx_most_apka": ExtractedValuesFromColumn(data,
                                                "molecule_properties",
                                                "cx_most_apka",
                                                is_list=False),
      "cx_most_bpka": ExtractedValuesFromColumn(data,
                                                "molecule_properties",
                                                "cx_most_bpka",
                                                is_list=False),
      "full_molformula": ExtractedValuesFromColumn(data,
                                                   "molecule_properties",
                                                   "full_molformula",
                                                   is_list=False),
      "full_mwt": ExtractedValuesFromColumn(data,
                                            "molecule_properties",
                                            "full_mwt",
                                            is_list=False),
      "hba": ExtractedValuesFromColumn(data,
                                       "molecule_properties",
                                       "hba", is_list=False),
      "hba_lipinski": ExtractedValuesFromColumn(data,
                                                "molecule_properties",
                                                "hba_lipinski",
                                                is_list=False),
      "hbd": ExtractedValuesFromColumn(data,
                                       "molecule_properties",
                                       "hbd", is_list=False),
      "hbd_lipinski": ExtractedValuesFromColumn(data,
                                                "molecule_properties",
                                                "hbd_lipinski",
                                                is_list=False),
      "heavy_atoms": ExtractedValuesFromColumn(data,
                                               "molecule_properties",
                                               "heavy_atoms",
                                               is_list=False),
      "molecular_species": ExtractedValuesFromColumn(data,
                                                     "molecule_properties",
                                                     "molecular_species",
                                                     is_list=False),
      "mw_freebase": ExtractedValuesFromColumn(data,
                                               "molecule_properties",
                                               "mw_freebase",
                                               is_list=False),
      "mw_monoisotopic": ExtractedValuesFromColumn(data,
                                                   "molecule_properties",
                                                   "mw_monoisotopic",
                                                   is_list=False),
      "np_likeness_score": ExtractedValuesFromColumn(data,
                                                     "molecule_properties",
                                                     "np_likeness_score",
                                                     is_list=False),
      "num_lipinski_ro5_violations": ExtractedValuesFromColumn(data,
                                                               "molecule_properties",
                                                               "num_lipinski_"
                                                               "ro5_violations",
                                                               is_list=False),
      "num_ro5_violations": ExtractedValuesFromColumn(data,
                                                      "molecule_properties",
                                                      "num_ro5_violations",
                                                      is_list=False),
      "psa": ExtractedValuesFromColumn(data,
                                       "molecule_properties",
                                       "psa",
                                       is_list=False),
      "qed_weighted": ExtractedValuesFromColumn(data,
                                                "molecule_properties",
                                                "qed_weighted",
                                                is_list=False),
      "ro3_pass": ExtractedValuesFromColumn(data,
                                            "molecule_properties",
                                            "ro3_pass",
                                            is_list=False),
      "rtb": ExtractedValuesFromColumn(data,
                                       "molecule_properties",
                                       "rtb",
                                       is_list=False),
      # ! molecule_structures
      "canonical_smiles": ExtractedValuesFromColumn(data,
                                                    "molecule_structures",
                                                    "canonical_smiles",
                                                    is_list=False),
      "molfile": ExtractedValuesFromColumn(data,
                                           "molecule_structures",
                                           "molfile",
                                           is_list=False),
      "standard_inchi": ExtractedValuesFromColumn(data,
                                                  "molecule_structures",
                                                  "standard_inchi",
                                                  is_list=False),
      "standard_inchi_key": ExtractedValuesFromColumn(data,
                                                      "molecule_structures",
                                                      "standard_inchi_key",
                                                      is_list=False),
      # ! molecule_synonyms
      "molecule_synonym": ExtractedValuesFromColumn(data,
                                                    "molecule_synonyms",
                                                    "molecule_synonym"),
      "syn_type": ExtractedValuesFromColumn(data,
                                            "molecule_synonyms",
                                            "syn_type"),
      "synonyms": ExtractedValuesFromColumn(data,
                                            "molecule_synonyms",
                                            "synonyms"),
  })
 
  # удаляем исходные столбцы со словарями и списками словарей.
  data = data.drop(["cross_references", "molecule_hierarchy",
                   "molecule_properties", "molecule_structures",
                    "molecule_synonyms"], axis=1)
 
  # объединяем исходный DataFrame с извлеченными значениями.
  return pd.concat([data, exposed_data], axis=1)
 
 
@ReTry(attempts_amount=1)

Here is the caller graph for this function:

◆ ExpandedFromDictionariesTargetsDF()

pd.DataFrame functions.ExpandedFromDictionariesTargetsDF ( pd.DataFrame data )

Избавляет pd.DataFrame от словарей и списков словарей в столбцах, разбивая
их на подстолбцы.

Args:
    data (pd.DataFrame): исходный pd.DataFrame.

Returns:
    pd.DataFrame: "раскрытый" pd.DataFrame.

def ExpandedFromDictionariesTargetsDF(data: pd.DataFrame) -> pd.DataFrame:
  """
  Избавляет pd.DataFrame от словарей и списков словарей в столбцах, разбивая
  их на подстолбцы.
 
  Args:
      data (pd.DataFrame): исходный pd.DataFrame.
 
  Returns:
      pd.DataFrame: "раскрытый" pd.DataFrame.
  """
 
  def ExtractedValuesFromColumn(df: pd.DataFrame,
                                column_name: str,
                                key: str) -> pd.Series:
    """
    Извлекает значения из указанного столбца DataFrame, который содержит
    списки словарей, на основе заданного ключа.
 
    Args:
        df (pd.DataFrame): DataFrame, из которого нужно извлечь значения.
        column_name (str): название столбца, содержащего списки словарей.
        key (str): ключ, по которому нужно извлечь значения из словарей.
 
    Returns:
        pd.Series: Series, содержащий списки извлеченных значений.
    """
 
    # извлекаем значения из указанного столбца DataFrame.
    return df[column_name].apply(
        lambda x: [d[key] for d in x] if x else [])
 
  # извлекаем значения из столбца cross_references.
  exposed_data = pd.DataFrame({
      "xref_id": ExtractedValuesFromColumn(data, "cross_references", "xref_id"),
      "xref_name": ExtractedValuesFromColumn(data, "cross_references", "xref_name"),
      "xref_src": ExtractedValuesFromColumn(data, "cross_references", "xref_src"),
  })
 
  # избавляемся от списков, так как в них находятся одиночные словари.
  data["target_components"] = data["target_components"].apply(
      lambda x: x[0] if x else {"accession": None,
                                "component_description": None,
                                "component_id": None,
                                "component_type": None,
                                "relationship": None,
                                "target_component_synonyms": [],
                                "target_component_xrefs": []})
 
  # создаем DataFrame из столбца target_components.
  target_components_data = pd.DataFrame(
      data["target_components"].values.tolist())
 
  # извлекаем значения из столбца target_component_synonyms и
  # target_component_xrefs.
  exposed_target_components_data = pd.DataFrame({
      # ! target_component_synonyms
      "component_synonym": ExtractedValuesFromColumn(
          target_components_data, "target_component_synonyms", "component_synonym"),
      "syn_type": ExtractedValuesFromColumn(
          target_components_data, "target_component_synonyms", "syn_type"),
 
      # ! target_component_xrefs
      "xref_id_target_component_xrefs": ExtractedValuesFromColumn(
          target_components_data, "target_component_xrefs", "xref_id"),
      "xref_name_target_component_xrefs": ExtractedValuesFromColumn(
          target_components_data, "target_component_xrefs", "xref_name"),
      "xref_src_db_target_component_xrefs": ExtractedValuesFromColumn(
          target_components_data, "target_component_xrefs", "xref_src_db"),
  })
 
  # удаляем столбцы target_component_synonyms и target_component_xrefs.
  target_components_data = target_components_data.drop(
      ["target_component_synonyms", "target_component_xrefs"], axis=1)
  # объединяем DataFrames.
  target_components_data = pd.concat(
      [target_components_data, exposed_target_components_data], axis=1)
 
  # удаляем столбцы cross_references и target_components.
  data = data.drop(["cross_references", "target_components"], axis=1)
  # объединяем DataFrames.
  data = pd.concat([data, exposed_data, target_components_data], axis=1)
 
  return data
 
 
@ReTry(attempts_amount=1)

Here is the caller graph for this function:

◆ FilterDownloadedToxicityByCharacteristics()

None functions.FilterDownloadedToxicityByCharacteristics	(	str	unit_type,
		str	charact_1,
		str	charact_2,
		str	charact_3 )

Фильтрует данные о токсичности из CSV-файла по заданным характеристикам,
загружает molfile для каждого соединения и сохраняет результаты в CSV и SDF файлы.

Args:
    unit_type (str): тип единиц измерения (например, "kg" или "m3").
    charact_1 (str): название первой характеристики для фильтрации.
    charact_2 (str): название второй характеристики для фильтрации.
    charact_3 (str): название третьей характеристики для фильтрации.

                                              charact_3: str) -> None:
  """
  Фильтрует данные о токсичности из CSV-файла по заданным характеристикам,
  загружает molfile для каждого соединения и сохраняет результаты в CSV и SDF файлы.
 
  Args:
      unit_type (str): тип единиц измерения (например, "kg" или "m3").
      charact_1 (str): название первой характеристики для фильтрации.
      charact_2 (str): название второй характеристики для фильтрации.
      charact_3 (str): название третьей характеристики для фильтрации.
  """
  toxicity_config: Config = config["PubChem_download_toxicity"]
 
  v_logger.info(f"Filtering by characteristics for {unit_type}...")
 
  # папка для результатов фильтрации.
  charact_folder_name: str =\
      f"{toxicity_config["results_folder_name"]}/"\
      f"{filtering_config["characteristics_folder_name"]}"
  os.makedirs(charact_folder_name, exist_ok=True)
 
  # читаем CSV-файл с данными о токсичности.
  unit_type_df = pd.read_csv(f"{toxicity_config["results_folder_name"]}/"
                             f"{toxicity_config["combined_file_name"]}_{unit_type}.csv",
                             sep=config["csv_separator"],
                             low_memory=False)
 
  unique_charact_1 = unit_type_df[charact_1].unique()
  v_logger.info(f"Unique {charact_1}s: {unique_charact_1}.", LogMode.VERBOSELY)
 
  # заменяем отсутствующие значения времени на "no_exact_time".
  if charact_2 == "time_period":
    unit_type_df[charact_2] =\
        unit_type_df[charact_2].replace(np.nan, "no_exact_time")
 
  unique_charact_2 = unit_type_df[charact_2].unique()
  v_logger.info(f"Unique {charact_2}s: {unique_charact_2}.", LogMode.VERBOSELY)
 
  # словарь для хранения отфильтрованных данных.
  unique_separated: dict[str, dict[str, pd.DataFrame]] = {}
 
  # группируем данные по первой и второй характеристикам.
  for u_charact_1, charact_1_df in unit_type_df.groupby(charact_1):
    unique_separated.setdefault(str(u_charact_1), {})
 
    for u_charact_2, charact_2_df in charact_1_df.groupby(charact_2):
      unique_separated[str(u_charact_1)][str(u_charact_2)] =\
          charact_2_df.copy()
 
  unique_charact_3 = unit_type_df[charact_3].unique()
  v_logger.info(f"Unique {charact_3}s: {unique_charact_3}.", LogMode.VERBOSELY)
 
  # словарь для хранения окончательно отфильтрованных данных.
  unique_filtered: dict[str, dict[str, dict[str, pd.DataFrame]]] = {}
 
  # итерируемся по уникальным значениям характеристик и фильтруем данные.
  for u_charact_1 in unique_charact_1:
    v_logger.info("-", LogMode.VERBOSELY)
    v_logger.info(f"Current {charact_1}: {u_charact_1}.", LogMode.VERBOSELY)
 
    unique_filtered.setdefault(u_charact_1, {})
 
    for u_charact_2 in unique_charact_2:
      v_logger.info(f"Current {charact_2}: {u_charact_2}.", LogMode.VERBOSELY)
 
      unique_filtered[u_charact_1].setdefault(u_charact_2, {})
 
      df: pd.DataFrame
      try:
        # DataFrame для текущих значений первой и второй характеристик.
        df = unique_separated[u_charact_1][u_charact_2]
 
      except KeyError:
        # если DataFrame не существует, переходим к следующей итерации.
        continue
 
      for u_charact_3 in unique_charact_3:
        # фильтруем DataFrame по третьей характеристике.
        charact_df = df[df[charact_3] == u_charact_3].copy()
 
        filtered_file_name = f"{charact_folder_name}/{unit_type}/"\
            f"{toxicity_config["results_file_name"]}_"\
            f"{u_charact_1}_{u_charact_2}_{u_charact_3}"
 
        # если файл уже существует и скачивание пропущено, пропускаем.
        if os.path.exists(f"{filtered_file_name}.csv") and\
                config["skip_downloaded"]:
          v_logger.info(f"{u_charact_1}_{u_charact_2}_{u_charact_3}"
                        " is already downloaded, skip.",
                        LogMode.VERBOSELY)
          v_logger.info("~", LogMode.VERBOSELY)
 
          continue
 
        # устраняем дубликаты по 'cid', используя медиану 'dose'.
        charact_df = MedianDedupedDF(charact_df, "cid", "dose")
 
        # перевычисляем pLD.
        if not charact_df.empty:
          charact_df["pLD"] = -np.log10(
              (charact_df["dose"] / charact_df["mw"]) / 1000000)
 
        # если количество записей в отфильтрованном DataFrame больше или равно
        # filtering_config["occurrence_characteristics_number"], сохраняем его.
        if len(charact_df) >=\
                filtering_config["occurrence_characteristics_number"]:
          unique_filtered[u_charact_1][u_charact_2][u_charact_3] = charact_df
 
          os.makedirs(f"{charact_folder_name}/{unit_type}", exist_ok=True)
 
          charact_df.to_csv(f"{filtered_file_name}.csv")
 
          # если необходимо скачивать соединения в SDF.
          if toxicity_config["download_compounds_sdf"]:
            v_logger.info(f"Saving {unit_type} characteristics to .sdf...",
                          LogMode.VERBOSELY)
 
            cids: list[str] = list(charact_df["cid"])
            SaveMolfilesToSDF(data=pd.DataFrame(
                {"cid": cids,
                 "molfile": GetMolfilesFromCIDs(cids)}),
                file_name=filtered_file_name,
                molecule_id_column_name="cid",
                extra_data=charact_df,
                indexing_lists=True)
 
            v_logger.success(f"Saving {unit_type} characteristics to .sdf!",
                             LogMode.VERBOSELY)
 
          v_logger.success(
              f"Current {charact_3}: {u_charact_3}, len: "
              f"{len(unique_filtered[u_charact_1][u_charact_2][u_charact_3])}!",
              LogMode.VERBOSELY)
          v_logger.info("~", LogMode.VERBOSELY)
 
  v_logger.success(f"Filtering by characteristics for {unit_type}!")

Here is the call graph for this function:

◆ GetDataFrameFromUrl()

pd.DataFrame functions.GetDataFrameFromUrl	(	str	request_url,
		float	sleep_time )

Скачивает данные из CSV-файла по URL и преобразует их в pandas.DataFrame.

Args:
    request_url (str): URL CSV-файла.
    sleep_time (float): время ожидания перед повторной попыткой в секундах.

Returns:
    pd.DataFrame: DataFrame, содержащий данные из CSV-файла.

def GetDataFrameFromUrl(request_url: str, sleep_time: float) -> pd.DataFrame:
  """
  Скачивает данные из CSV-файла по URL и преобразует их в pandas.DataFrame.
 
  Args:
      request_url (str): URL CSV-файла.
      sleep_time (float): время ожидания перед повторной попыткой в секундах.
 
  Returns:
      pd.DataFrame: DataFrame, содержащий данные из CSV-файла.
  """
 
  # получаем ответ на запрос.
  res = GetResponse(request_url, True, sleep_time)
 
  # определяем кодировку из заголовков ответа.
  if res.encoding is None:
    res.encoding = "utf-8"  # (UTF-8, если кодировка не указана)
 
  # читаем CSV из ответа и преобразуем в DataFrame.
  return pd.read_csv(StringIO(res.content.decode(res.encoding)))
 
 

Here is the call graph for this function:

Here is the caller graph for this function:

◆ GetLinkFromSid()

str functions.GetLinkFromSid	(	int	sid,
		str	collection,
		int	limit )

Формируем URL для скачивания данных из PubChem SDQ API по SID (Structure ID).

Args:
    sid (int): SID соединения.
    collection (str): коллекция для поиска.
    limit (int): максимальное количество возвращаемых записей.

Returns:
    str: URL для скачивания данных.

                   ) -> str:
  """
  Формируем URL для скачивания данных из PubChem SDQ API по SID (Structure ID).
 
  Args:
      sid (int): SID соединения.
      collection (str): коллекция для поиска.
      limit (int): максимальное количество возвращаемых записей.
 
  Returns:
      str: URL для скачивания данных.
  """
 
  def QueryDictToStr(query: dict[str, str]) -> str:
    """
    Преобразует словарь с параметрами запроса в строку запроса URL-encoded.
 
    Args:
        query (dict[str, str]): словарь с параметрами запроса.
 
    Returns:
        str: строка запроса в формате "query={JSON-encoded query}".
             Пустая строка, если словарь пуст.
    """
 
    # если словарь пуст, возвращаем пустую строку.
    if not query:
      return ""
 
    # преобразуем словарь в строку запроса.
    return f"query={urllib.parse.quote(json.dumps(query))}"
 
  # формируем словарь с параметрами запроса.
  query = {
      "download": "*",
      "collection": f"{collection}",
      # "order": ["relevancescore,desc"],
      "limit": f"{limit}",
      "where": {
          "ands": [
              {"sid": f"{sid}"}
          ]
      }
  }
 
  # формируем URL для запроса.
  start = "https://pubchem.ncbi.nlm.nih.gov/sdq/sdqagent.cgi"\
      "?infmt=json"\
      "&outfmt=csv"
 
  return start + "&" + QueryDictToStr(query)
 
 
# MARK: DownloadCompoundToxicity
 
 
@ReTry(attempts_amount=1)

Here is the caller graph for this function:

◆ GetMolfileFromCID()

str functions.GetMolfileFromCID	(	str	cid,
		float \| None	sleep_time = config["PubChem_download_toxicity"]["sleep_time"] )

Возвращает molfile-строку из GET-запроса для соединения с cid из базы PubChem.

Args:
    cid (str): CID соединения.
    sleep_time (float | None, optional): время ожидания перед повторной попыткой
    в секундах. Defaults to config["PubChem_download_toxicity"]["sleep_time"].

Returns:
    str: molfile-строка.

                      ) -> str:
  """
  Возвращает molfile-строку из GET-запроса для соединения с cid из базы PubChem.
 
  Args:
      cid (str): CID соединения.
      sleep_time (float | None, optional): время ожидания перед повторной попыткой
      в секундах. Defaults to config["PubChem_download_toxicity"]["sleep_time"].
 
  Returns:
      str: molfile-строка.
  """
 
  # получаем molfile соединения из PubChem.
  molfile: str = GetResponse(
      "https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/CID/"
      f"{cid}/record/SDF?record_type=2d",
      True,
      sleep_time).text
 
  v_logger.info(f"Return molfile (len: {len(molfile)}) for cid: {cid}.",
                LogMode.VERBOSELY)
 
  # очищаем molfile от лишних символов.
  return molfile[molfile.find("\n"):].replace("$$$$", "").rstrip()
 
 

Here is the call graph for this function:

Here is the caller graph for this function:

◆ GetMolfilesFromCIDs()

list[str] functions.GetMolfilesFromCIDs	(	list[str]	cids,
		float \| None	sleep_time = config["PubChem_download_toxicity"]["sleep_time"] )

Возвращает список molfile-строк для заданного списка CID.
Соединяет CID в строку, разделяет ее на более короткие подстроки, чтобы избежать
ограничений на длину URL при запросе к PubChem, и получает molfile для каждого CID.

Args:
    cids (list[str]): список CID соединений.
    sleep_time (float | None, optional): время ожидания перед повторной попыткой
    в секундах. Defaults to config["PubChem_download_toxicity"]["sleep_time"].

Returns:
    list[str]: список molfile-строк.

                        config["PubChem_download_toxicity"]["sleep_time"]) -> list[str]:
  """
  Возвращает список molfile-строк для заданного списка CID.
  Соединяет CID в строку, разделяет ее на более короткие подстроки, чтобы избежать
  ограничений на длину URL при запросе к PubChem, и получает molfile для каждого CID.
 
  Args:
      cids (list[str]): список CID соединений.
      sleep_time (float | None, optional): время ожидания перед повторной попыткой
      в секундах. Defaults to config["PubChem_download_toxicity"]["sleep_time"].
 
  Returns:
      list[str]: список molfile-строк.
  """
 
  cids_str = ",".join(str(cid) for cid in cids).replace(" ", "")
 
  def SplitLongStringWithCommas(s: str) -> list[str]:
    """
    Разбивает длинную строку, содержащую CID, разделенные запятыми,
    на список более коротких строк.
 
    Это необходимо для избежания ограничений на длину URL при запросе к PubChem.
    Разбивает так, чтобы длина каждой подстроки не превышала 2000 символов.
 
    Args:
        s (str): строка, содержащая CID, разделенные запятыми.
 
    Returns:
        list[str]: список строк, содержащих CID, разделенные запятыми.
    """
 
    if len(s) <= 2000:
      return [s]
 
    chunks = []
    curr_chunk = ""
    for cid in s.split(","):
      if len(curr_chunk) + len(f"{cid},") <= 2000:
        curr_chunk += f"{cid},"
 
      else:
        chunks.append(curr_chunk.rstrip(","))
        curr_chunk = f"{cid},"
 
    if curr_chunk not in chunks:
      chunks.append(curr_chunk.rstrip(","))
    return chunks
 
  # получаем molfile для каждой подстроки CID.
  molfiles_str: str = ""
  for cids_str_shorter in SplitLongStringWithCommas(cids_str):
    molfiles_str += GetResponse(
        "https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/CID/"
        f"{cids_str_shorter}/record/SDF?record_type=2d",
        True,
        sleep_time).text
 
  # разделяем строку с molfile на отдельные molfile и очищаем их.
  return [f"\n{molfile.split("\n", 1)[1]}"
          for molfile in molfiles_str.split("\n\n$$$$\n")[:-1]]
 
 

Here is the call graph for this function:

Here is the caller graph for this function:

◆ GetRawCellLinesData()

functions.GetRawCellLinesData	(	str	file_id,
		str	output_path,
		bool	print_to_console )

Скачивает zip-файл из Google.Drive,
извлекает его содержимое, а затем удаляет zip-файл.

Args:
    file_id: ID файла в Google Drive.
    output_path: путь к каталогу, куда будут помещены извлеченные файлы.
    print_to_console (bool): нужно ли выводить логирование в консоль.

                        print_to_console: bool):
  """
  Скачивает zip-файл из Google.Drive,
  извлекает его содержимое, а затем удаляет zip-файл.
 
  Args:
      file_id: ID файла в Google Drive.
      output_path: путь к каталогу, куда будут помещены извлеченные файлы.
      print_to_console (bool): нужно ли выводить логирование в консоль.
  """
 
  os.makedirs(output_path, exist_ok=True)
 
  url = f"https://drive.google.com/uc?id={file_id}&export=download"
 
  zip_file_path = f"{output_path}.zip"
  gdown.download(url, zip_file_path, quiet=(not print_to_console))
 
  with zipfile.ZipFile(zip_file_path, "r") as zip_ref:
    zip_ref.extractall(output_path)
 
  os.remove(zip_file_path)
 
 
@ReTry(attempts_amount=1)

Here is the caller graph for this function:

◆ GetResponse()

requests.Response functions.GetResponse	(	str	request_url,
		bool	stream,
		float \| None	sleep_time = config["PubChem_download_toxicity"]["sleep_time"] )

Отправляет GET-запрос по указанному URL, повторяет попытку в случае ошибки.

Args:
    request_url (str): URL для запроса.
    stream (bool): если True, ответ будет получен потоком.
    sleep_time (float | None, optional): время ожидания перед повторной попыткой
    в секундах. Defaults to config["PubChem_download_toxicity"]["sleep_time"].

Returns:
    requests.Response: объект ответа requests.

                ) -> requests.Response:
  """
  Отправляет GET-запрос по указанному URL, повторяет попытку в случае ошибки.
 
  Args:
      request_url (str): URL для запроса.
      stream (bool): если True, ответ будет получен потоком.
      sleep_time (float | None, optional): время ожидания перед повторной попыткой
      в секундах. Defaults to config["PubChem_download_toxicity"]["sleep_time"].
 
  Returns:
      requests.Response: объект ответа requests.
  """
 
  # ждем указанное время, если оно задано.
  if sleep_time is not None:
    time.sleep(sleep_time)
 
  # отправляем GET-запрос.
  response = requests.get(request_url, stream=stream)
  response.raise_for_status()
 
  return response
 
 

Here is the caller graph for this function:

◆ QuerySetActivitiesByIC50()

QuerySet functions.QuerySetActivitiesByIC50 ( str target_id )

Возвращает QuerySet активностей для указанной цели (target_id) на основе IC50.

IC50 (Half maximal inhibitory concentration) - полумаксимальная ингибирующая
концентрация.

Args:
    target_id (str): Идентификатор цели из базы ChEMBL.

Returns:
    QuerySet: QuerySet, содержащий активности, отфильтрованные по target_id и
              типу "IC50".

Raises:
    Exception: Если не удается получить данные после нескольких попыток
               (благодаря декоратору ReTry).

def QuerySetActivitiesByIC50(target_id: str) -> QuerySet:
  """
  Возвращает QuerySet активностей для указанной цели (target_id) на основе IC50.
 
  IC50 (Half maximal inhibitory concentration) - полумаксимальная ингибирующая
  концентрация.
 
  Args:
      target_id (str): Идентификатор цели из базы ChEMBL.
 
  Returns:
      QuerySet: QuerySet, содержащий активности, отфильтрованные по target_id и
                типу "IC50".
 
  Raises:
      Exception: Если не удается получить данные после нескольких попыток
                 (благодаря декоратору ReTry).
  """
 
  return new_client.activity.filter(  # type: ignore
      target_chembl_id=target_id).filter(standard_type="IC50")
 
 
@ReTry()

Here is the caller graph for this function:

◆ QuerySetActivitiesByKi()

QuerySet functions.QuerySetActivitiesByKi ( str target_id )

Возвращает QuerySet активностей для указанной цели (target_id) на основе Ki.

Ki (Inhibition constant) - константа ингибирования.

Args:
    target_id (str): Идентификатор цели из базы ChEMBL.

Returns:
    QuerySet: QuerySet, содержащий активности, отфильтрованные по target_id и
              типу "Ki".

Raises:
    Exception: Если не удается получить данные после нескольких попыток
               (благодаря декоратору ReTry).

def QuerySetActivitiesByKi(target_id: str) -> QuerySet:
  """
  Возвращает QuerySet активностей для указанной цели (target_id) на основе Ki.
 
  Ki (Inhibition constant) - константа ингибирования.
 
  Args:
      target_id (str): Идентификатор цели из базы ChEMBL.
 
  Returns:
      QuerySet: QuerySet, содержащий активности, отфильтрованные по target_id и
                типу "Ki".
 
  Raises:
      Exception: Если не удается получить данные после нескольких попыток
                 (благодаря декоратору ReTry).
  """
 
  return new_client.activity.filter(  # type: ignore
      target_chembl_id=target_id).filter(standard_type="Ki")
 
 

Here is the caller graph for this function:

◆ QuerySetAllCellLines()

QuerySet functions.QuerySetAllCellLines ( )

Возвращает все клеточные линии из базы ChEMBL.

Returns:
    QuerySet: набор всех целей

def QuerySetAllCellLines() -> QuerySet:
  """
  Возвращает все клеточные линии из базы ChEMBL.
 
  Returns:
      QuerySet: набор всех целей
  """
 
  return new_client.cell_line.filter()  # type: ignore
 
 
@ReTry()

Here is the caller graph for this function:

◆ QuerySetAllTargets()

QuerySet functions.QuerySetAllTargets ( )

Возвращает все цели из базы ChEMBL.

Returns:
    QuerySet: набор всех целей

def QuerySetAllTargets() -> QuerySet:
  """
  Возвращает все цели из базы ChEMBL.
 
  Returns:
      QuerySet: набор всех целей
  """
 
  # получаем все цели из базы ChEMBL.
  return new_client.target.filter()  # type: ignore
 
 
@ReTry()

Here is the caller graph for this function:

◆ QuerySetCellLinesFromIdList()

QuerySet functions.QuerySetCellLinesFromIdList ( list[str] cell_line_chembl_id_list )

Возвращает клеточные линии по списку id из базы ChEMBL.

Args:
    cell_line_chembl_id_list (list[str]): список id.

Returns:
    QuerySet: набор целей по списку id.

def QuerySetCellLinesFromIdList(cell_line_chembl_id_list: list[str]) -> QuerySet:
  """
  Возвращает клеточные линии по списку id из базы ChEMBL.
 
  Args:
      cell_line_chembl_id_list (list[str]): список id.
 
  Returns:
      QuerySet: набор целей по списку id.
  """
 
  return new_client.cell_line.filter(  # type: ignore
      cell_chembl_id__in=cell_line_chembl_id_list)
 
 

Here is the caller graph for this function:

◆ QuerySetCompoundsByMWRange()

QuerySet functions.QuerySetCompoundsByMWRange	(	int	less_limit,
		int	greater_limit )

Возвращает молекулы в диапазоне молекулярной массы
[less_limit; greater_limit) из базы ChEMBL.

Args:
    less_limit (int): нижняя граница.
    greater_limit (int): верхняя граница.

Raises:
    ValueError: границы должны быть больше нуля.
    ValueError: greater_limit должен быть больше less_limit.

Returns:
    QuerySet: набор молекул в диапазоне.

def QuerySetCompoundsByMWRange(less_limit: int, greater_limit: int) -> QuerySet:
  """
  Возвращает молекулы в диапазоне молекулярной массы
  [less_limit; greater_limit) из базы ChEMBL.
 
  Args:
      less_limit (int): нижняя граница.
      greater_limit (int): верхняя граница.
 
  Raises:
      ValueError: границы должны быть больше нуля.
      ValueError: greater_limit должен быть больше less_limit.
 
  Returns:
      QuerySet: набор молекул в диапазоне.
  """
 
  # проверяем, что границы больше нуля.
  if greater_limit < 0 or less_limit < 0:
    raise ValueError(
        "QuerySetMWRangeFilter: limits should be greater zero")
 
  # проверяем, что верхняя граница больше нижней.
  if greater_limit < less_limit:
    raise ValueError(
        "QuerySetMWRangeFilter: greater_limit should be greater than "
        "less_limit")
 
  # фильтруем молекулы по диапазону молекулярной массы.
  return new_client.molecule.filter(  # type: ignore
      molecule_properties__mw_freebase__lt=greater_limit,
      molecule_properties__mw_freebase__gte=less_limit)
 
 

Here is the caller graph for this function:

◆ QuerySetTargetsFromIdList()

QuerySet functions.QuerySetTargetsFromIdList ( list[str] target_chembl_id_list )

Возвращает цели по списку id из базы ChEMBL.

Args:
    target_chembl_id_list (list[str]): список id.

Returns:
    QuerySet: набор целей по списку id.

def QuerySetTargetsFromIdList(target_chembl_id_list: list[str]) -> QuerySet:
  """
  Возвращает цели по списку id из базы ChEMBL.
 
  Args:
      target_chembl_id_list (list[str]): список id.
 
  Returns:
      QuerySet: набор целей по списку id.
  """
 
  # получаем цели по списку id из базы ChEMBL.
  return new_client.target.filter(  # type: ignore
      target_chembl_id__in=target_chembl_id_list)
 
 

Here is the caller graph for this function:

◆ SaveChEMBLMolfilesToSDFByIdList()

functions.SaveChEMBLMolfilesToSDFByIdList	(	list[str]	molecule_chembl_id_list,
		str	file_name,
		pd.DataFrame	extra_data = pd.DataFrame() )

Сохраняет molfiles из списка id в .sdf файл.

Args:
    molecule_chembl_id_list (list[str]): список id.
    file_name (str): имя файла (без .sdf).
    extra_data (pd.DataFrame): дополнительная информация.

                                    extra_data: pd.DataFrame = pd.DataFrame()):
  """
  Сохраняет molfiles из списка id в .sdf файл.
 
  Args:
      molecule_chembl_id_list (list[str]): список id.
      file_name (str): имя файла (без .sdf).
      extra_data (pd.DataFrame): дополнительная информация.
  """
 
  # если список molecule_chembl_id пуст.
  if not molecule_chembl_id_list:
    v_logger.warning("Molecules list is empty, nothing to save to .sdf!",
                     LogMode.VERBOSELY)
    return
 
  @ReTry()
  def DataFrameMolfilesFromIdList(molecule_chembl_id_list: list[str]
                                  ) -> pd.DataFrame:
    """
    Возвращает pd.DataFrame из molfile по каждой молекуле из списка
    molecule_chembl_id.
 
    Args:
        molecule_chembl_id_list (list[str]): список id.
 
    Returns:
        pd.DataFrame: DataFrame, который содержит molecule_chembl_id и
                      соотв. molfile.
    """
 
    # фильтруем молекулы по списку id.
    qs_data: QuerySet = new_client.molecule.filter(  # type: ignore
        molecule_chembl_id__in=molecule_chembl_id_list).only([
            "molecule_chembl_id", "molecule_structures"])
 
    data = pd.DataFrame(qs_data)  # type: ignore
 
    # извлекаем molfile из структуры молекулы.
    data["molfile"] = data["molecule_structures"].apply(
        lambda x: x["molfile"] if isinstance(x, dict) else None)
 
    # удаляем столбец molecule_structures.
    data = data.drop(["molecule_structures"], axis=1)
 
    return data
 
  v_logger.info("Collecting molfiles to pandas.DataFrame...",
                LogMode.VERBOSELY)
 
  # получаем DataFrame из molfiles.
  data = DataFrameMolfilesFromIdList(molecule_chembl_id_list)
 
  v_logger.success("Collecting molfiles to pandas.DataFrame!",
                   LogMode.VERBOSELY)
 
  # сохраняем molfiles в .sdf файл.
  SaveMolfilesToSDF(data=data,
                    file_name=file_name,
                    molecule_id_column_name="molecule_chembl_id",
                    extra_data=extra_data)

Functions

Variables

Detailed Description

Function Documentation

◆ AddedIC50andGI50ToCellLinesDF()

◆ AddedIC50andKiToTargetsDF()

◆ CleanedCellLineActivitiesDF()

◆ CleanedTargetActivitiesDF()

◆ CountCellLineActivitiesByFile()

◆ CountTargetActivitiesByIC50()

◆ CountTargetActivitiesByKi()

◆ DownloadCellLinesFromIdList()

◆ DownloadCompoundsByMWRange()

◆ DownloadCompoundToxicity()

◆ DownloadTargetsFromIdList()

◆ ExpandedFromDictionariesCompoundsDF()

◆ ExpandedFromDictionariesTargetsDF()

◆ FilterDownloadedToxicityByCharacteristics()

◆ GetDataFrameFromUrl()

◆ GetLinkFromSid()

◆ GetMolfileFromCID()

◆ GetMolfilesFromCIDs()

◆ GetRawCellLinesData()

◆ GetResponse()

◆ QuerySetActivitiesByIC50()

◆ QuerySetActivitiesByKi()

◆ QuerySetAllCellLines()

◆ QuerySetAllTargets()

◆ QuerySetCellLinesFromIdList()

◆ QuerySetCompoundsByMWRange()

◆ QuerySetTargetsFromIdList()

◆ SaveChEMBLMolfilesToSDFByIdList()

Variable Documentation

◆ filtering_config

◆ toxicity_config