237 page_folder_name: str):
238 """
239 Скачиваем данные о токсичности соединения по информации из JSON PubChem
240 и сохраняем их в CSV-файл.
241
242 Args:
243 compound_data (dict): словарь с информацией о соединении из JSON PubChem.
244 page_folder_name (str): путь к директории, в которой будет сохранен файл.
245 """
246
247 cid: str = ""
248
249 try:
250
251 cid = compound_data["LinkedRecords"]["CID"][0]
252
253
254 except KeyError:
255 v_logger.warning(
256 f"No 'cid' for 'sid': {compound_data["LinkedRecords"]["SID"][0]}"
257 f", skip.")
258 v_logger.info("-", LogMode.VERBOSELY)
259
260 return
261
262
263
264 primary_sid: int | None
265 try:
266
267 primary_sid = int(compound_data["LinkedRecords"]["SID"][0])
268
269
270 except KeyError:
271 primary_sid = None
272
273
274 raw_table: str = compound_data["Data"][0]["Value"]["ExternalTableName"]
275 table_info: dict = {}
276
277
278 for row in raw_table.split("&"):
279 key, value = row.split("=")
280 table_info[key] = value
281
282
283 if table_info["query_type"] != "sid":
284 v_logger.LogException(ValueError("Unknown query type at page "
285 f"{page_folder_name}"))
286
287
288 sid = int(table_info["query"])
289
290
291 if primary_sid != sid:
292 v_logger.warning(f"Mismatch between 'primary_sid' ({primary_sid}) "
293 f"and 'sid' ({sid}).")
294
295
296 compound_name: str = f"compound_{sid}_toxicity"
297
298
299 compound_file_kg = f"{page_folder_name.format(unit_type="kg")}/"\
300 f"{compound_name}"
301 compound_file_m3 = f"{page_folder_name.format(unit_type="m3")}/"\
302 f"{compound_name}"
303
304
305 if os.path.exists(f"{compound_file_kg}.csv") or\
306 os.path.exists(f"{compound_file_m3}.csv") and\
307 config["skip_downloaded"]:
308 v_logger.info(f"{compound_name} is already downloaded, skip.",
309 LogMode.VERBOSELY)
310 v_logger.info("-", LogMode.VERBOSELY)
311
312 return
313
314 v_logger.info(f"Downloading {compound_name}...", LogMode.VERBOSELY)
315
316
317 acute_effects = GetDataFrameFromUrl(
318 GetLinkFromSid(sid=sid,
319 collection=table_info["collection"],
320 limit=toxicity_config["limit"]),
321 toxicity_config["sleep_time"]
322 )
323
324 @ReTry()
325 def GetMolecularWeightByCid(cid: str | int) -> str:
326 """
327 Получает молекулярный вес соединения из PubChem REST API, используя его CID.
328
329 Args:
330 cid (str | int): PubChem Compound Identifier (CID) соединения.
331
332 Returns:
333 str: молекулярный вес соединения в виде строки.
334 """
335
336
337 return GetResponse(
338 "https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/"
339 f"{cid}/property/MolecularWeight/txt",
340 True, None).text.strip()
341
342 def CalcMolecularWeight(df: pd.DataFrame,
343 id_column: str,
344 ) -> pd.DataFrame:
345 """
346 Вычисляет и добавляет столбец 'mw' (молекулярный вес) в pd.DataFrame.
347
348 Args:
349 df (pd.DataFrame): исходный pd.DataFrame.
350 id_column (str): название столбца, содержащего ID соединений.
351
352 Returns:
353 pd.DataFrame: модифицированный DataFrame с добавленным столбцом 'mw'.
354 """
355
356
357 unique_ids = df[id_column].dropna().unique()
358
359
360 if len(unique_ids) == 1:
361
362 mw = GetMolecularWeightByCid(unique_ids[0])
363
364
365 if mw is not None:
366
367 df["mw"] = mw
368
369 v_logger.info(f"Found 'mw' by '{id_column}'.",
370 LogMode.VERBOSELY)
371
372
373 else:
374 v_logger.warning(
375 "Could not retrieve molecular weight by "
376 f"'{id_column}' for {unique_ids[0]}.")
377
378
379 elif len(unique_ids) == 0:
380 v_logger.warning(f"No '{id_column}' found for {unique_ids[0]}.")
381
382
383 else:
384 v_logger.warning(
385 f"Non-unique 'mw' by {id_column} for {unique_ids[0]}.")
386
387
388 df["mw"] = df[id_column].apply(GetMolecularWeightByCid)
389
390
391 if df["mw"].isnull().any():
392 v_logger.warning(
393 f"Some 'mw' could not be retrieved by {id_column}.")
394
395 return df
396
397 def ExtractDoseAndTime(df: pd.DataFrame,
398 valid_units: list[str]) -> pd.DataFrame:
399 """
400 Преобразует DataFrame с данными о дозировках, извлекая числовое
401 значение, единицу измерения и период времени.
402
403 Args:
404 df (pd.DataFrame): таблица с колонкой "dose", содержащей
405 информацию о дозировках.
406 valid_units (list[str]): список допустимых единиц измерения дозы.
407
408 Returns:
409 DataFrame с тремя новыми колонками: "numeric_dose", "dose_value",
410 "time_period".
411 """
412
413 def ExtractDose(dose_str: str,
414 mw: float
415 ) -> tuple[float | None, str | None, str | None]:
416 """
417 Извлекает дозу, единицу измерения и период времени из строки
418 дозировки.
419
420 Args:
421 dose_str (str): строка, содержащая информацию о дозировке.
422 mw (float): молекулярная масса соединения.
423
424 Returns:
425 tuple[float | None, str | None, str | None]: кортеж, содержащий:
426 - числовую дозу (float или None, если извлечь не удалось).
427 - единицу измерения дозы (str или None, если извлечь не удалось).
428 - период времени (str или None, если извлечь не удалось).
429 """
430
431
432 if " " not in dose_str:
433 return None, None, None
434
435 num_dose: float | str | None = None
436 dose_unit: str | None = None
437 time_per: str | None = None
438
439 try:
440
441 if len(dose_str.split(" ")) != 2:
442 return None, None, None
443
444
445 dose_amount_str, dose_and_time = dose_str.split(" ")
446
447 num_dose = float(dose_amount_str)
448
449
450 except ValueError:
451 v_logger.warning(f"Unsupported dose string: {dose_str}",
452 LogMode.VERBOSELY)
453 return None, None, None
454
455
456 match dose_str.count("/"):
457 case 1:
458
459 if dose_and_time.startswith("p"):
460 dose_unit, time_per = dose_and_time.split("/")
461 else:
462 dose_unit = dose_and_time
463 time_per = None
464
465 case 2:
466
467 dose_unit = "/".join(dose_and_time.split("/")[:-1])
468 time_per = dose_and_time.split("/")[-1]
469
470 case _:
471 return None, None, None
472
473
474 if dose_unit not in valid_units:
475 v_logger.warning(f"Unsupported dose_unit: {dose_unit}",
476 LogMode.VERBOSELY)
477 return None, None, None
478
479 unit_prefix: str = dose_unit
480 unit_suffix: str = "m3"
481
482
483 if dose_unit.count("/") > 0:
484 unit_prefix, unit_suffix = dose_unit.split("/")
485
486
487 if unit_suffix not in ("kg", "m3"):
488 v_logger.warning(f"Unsupported dose_unit: {dose_unit}",
489 LogMode.VERBOSELY)
490 return None, None, None
491
492 unit_prefix = unit_prefix.lower()
493
494
495 conversions: dict[str, float] = {
496 "mg": 1,
497 "gm": 1000,
498 "g": 1000,
499 "ng": 0.000001,
500 "ug": 0.001,
501
502 "ml": 1000,
503 "nl": 0.001,
504 "ul": 1,
505
506 "ppm": 24.45 / mw,
507 "ppb": 0.001 * 24.45 / mw,
508 "pph": 1 / 60 * 24.45 / mw,
509 }
510
511
512 if unit_prefix in conversions:
513 num_dose *= conversions[unit_prefix]
514 dose_unit = "mg/" + unit_suffix
515
516
517 else:
518 v_logger.warning(f"Unsupported dose_unit: {dose_unit}",
519 LogMode.VERBOSELY)
520 return None, None, None
521
522 return num_dose, dose_unit, time_per
523
524
525 df[["numeric_dose", "dose_units", "time_period"]] = df.apply(
526 lambda row: pd.Series(ExtractDose(row["dose"], row["mw"])),
527 axis=1)
528
529 df = df.drop(columns=["dose"]).rename(
530 columns={"numeric_dose": "dose"})
531
532 return df
533
534 def SaveMolfileWithToxicityToSDF(df: pd.DataFrame, unit_type: str):
535 """
536 Сохраняет molfile соединения с данными о токсичности в SDF-файл.
537
538 Args:
539 df (pd.DataFrame): DataFrame, содержащий данные о токсичности соединения.
540 unit_type (str): тип единиц измерения (например, "kg" или "m3").
541 """
542
543
544 listed_df = pd.DataFrame()
545
546
547 for column_name in df.columns:
548
549 full_column_data = df[column_name].tolist()
550
551
552 listed_df[column_name] = [full_column_data]
553
554 if len(DedupedList(full_column_data)) == 1:
555
556 listed_df.loc[0, column_name] = full_column_data[0]
557
558
559 SaveMolfilesToSDF(
560 data=pd.DataFrame({"cid": [cid],
561 "molfile": [GetMolfileFromCID(cid)]}),
562 file_name=(
563 f"{toxicity_config["molfiles_folder_name"]}/"
564 f"{compound_name}_{unit_type}"),
565 molecule_id_column_name="cid",
566 extra_data=listed_df,
567 indexing_lists=True)
568
569 def SaveToxicityUnitSpecification(compound_file_unit: str,
570 unit_str: str,
571 valid_units: list[str],
572 acute_effects: pd.DataFrame):
573 """
574 Фильтрует, преобразует и сохраняет данные о токсичности для указанного
575 типа единиц измерения.
576
577 Args:
578 compound_file_unit (str): имя файла для сохранения (без расширения).
579 unit_str (str): тип единиц измерения ("kg" или "m3").
580 valid_units (list[str]): список допустимых единиц измерения.
581 acute_effects (pd.DataFrame): DataFrame с данными о токсичности.
582 """
583
584 v_logger.info("Filtering 'organism' and 'route'...",
585 LogMode.VERBOSELY)
586
587
588 acute_effects_unit = acute_effects[acute_effects["organism"].isin(
589 filtering_config[unit_str]["organism"])]
590
591 acute_effects_unit = acute_effects_unit[
592 acute_effects_unit["route"].isin(
593 filtering_config[unit_str]["route"])]
594
595 v_logger.success("Filtering 'organism' and 'route'!",
596 LogMode.VERBOSELY)
597
598 v_logger.info(f"Filtering 'dose' in {unit_str}...",
599 LogMode.VERBOSELY)
600
601
602 if acute_effects_unit.empty:
603 v_logger.warning(
604 f"{compound_name}_{unit_str} is empty, no need saving, skip.",
605 LogMode.VERBOSELY)
606 return
607
608
609 if "dose" in acute_effects_unit.columns:
610
611 acute_effects_unit = ExtractDoseAndTime(acute_effects_unit,
612 valid_units)
613
614
615 acute_effects_unit["dose"] = pd.to_numeric(
616 acute_effects_unit["dose"], errors="coerce")
617
618
619 else:
620 v_logger.warning(f"No dose in {compound_name}_{unit_str}, skip.",
621 LogMode.VERBOSELY)
622 return
623
624
625 if acute_effects_unit.empty:
626 v_logger.warning(
627 f"{compound_name}_{unit_str} is empty, no need saving, skip.",
628 LogMode.VERBOSELY)
629 return
630
631
632 if "dose" not in acute_effects_unit.columns or\
633 "dose_units" not in acute_effects_unit.columns:
634 v_logger.warning(
635 f"{compound_name}_{unit_str} misses 'dose' or 'dose_units'"
636 f", skip.",
637 LogMode.VERBOSELY)
638 return
639
640 v_logger.success(f"Filtering 'dose' in {unit_str}!",
641 LogMode.VERBOSELY)
642
643 v_logger.info(f"Adding 'pLD' to {compound_name}_{unit_str}...",
644 LogMode.VERBOSELY)
645
646
647 acute_effects_unit["pLD"] = -np.log10(
648 (acute_effects_unit["dose"] / acute_effects_unit["mw"]) / 1000000)
649
650 v_logger.success(f"Adding 'pLD' to {compound_name}_{unit_str}!",
651 LogMode.VERBOSELY)
652
653 v_logger.info(f"Saving {compound_name}_{unit_str} to .csv...",
654 LogMode.VERBOSELY)
655
656
657 acute_effects_unit = acute_effects_unit.replace('', np.nan)
658
659 acute_effects_unit = acute_effects_unit.dropna(axis=1, how='all')
660
661
662 if "dose" in acute_effects_unit.columns and\
663 "dose_units" in acute_effects_unit.columns:
664
665
666 acute_effects_unit =\
667 acute_effects_unit[(acute_effects_unit['dose_units'].notna()
668 ) & (
669 acute_effects_unit['dose'].notna())]
670
671
672 else:
673 v_logger.warning(
674 f"{compound_name}_{unit_str} misses 'dose' or 'dose_units'"
675 f", skip.",
676 LogMode.VERBOSELY)
677 return
678
679
680 acute_effects_unit.to_csv(f"{compound_file_unit}.csv",
681 sep=";",
682 index=False,
683 mode="w")
684
685 v_logger.success(f"Saving {compound_name}_{unit_str} to .csv!",
686 LogMode.VERBOSELY)
687
688
689 if toxicity_config["download_compounds_sdf"]:
690 v_logger.info(f"Saving {compound_name}_{unit_str} to .sdf...",
691 LogMode.VERBOSELY)
692
693
694 os.makedirs(toxicity_config["molfiles_folder_name"],
695 exist_ok=True)
696
697
698 SaveMolfileWithToxicityToSDF(acute_effects_unit, unit_str)
699
700 v_logger.success(f"Saving {compound_name}_{unit_str} to .sdf!",
701 LogMode.VERBOSELY)
702
703 v_logger.info("Adding 'mw'...", LogMode.VERBOSELY)
704
705
706 acute_effects = CalcMolecularWeight(acute_effects, "cid")
707
708 try:
709
710 acute_effects["mw"] = pd.to_numeric(acute_effects["mw"],
711 errors="coerce")
712
713 v_logger.success("Adding 'mw'!", LogMode.VERBOSELY)
714
715
716 except KeyError:
717 v_logger.warning(f"No 'mw' for {compound_name}, skip.")
718 return
719
720 v_logger.info("~", LogMode.VERBOSELY)
721
722
723 SaveToxicityUnitSpecification(compound_file_unit=compound_file_kg,
724 unit_str="kg",
725 valid_units=["gm/kg",
726 "g/kg",
727
728 "mg/kg",
729 "ug/kg",
730 "ng/kg",
731
732 "mL/kg",
733 "uL/kg",
734 "nL/kg"],
735 acute_effects=acute_effects)
736
737 v_logger.info("·", LogMode.VERBOSELY)
738
739
740 SaveToxicityUnitSpecification(compound_file_unit=compound_file_m3,
741 unit_str="m3",
742 valid_units=["gm/m3",
743 "g/m3",
744
745 "mg/m3",
746 "ug/m3",
747 "ng/m3",
748
749 "mL/m3",
750 "uL/m3",
751 "nL/m3",
752
753 "ppm",
754 "ppb",
755 "pph"],
756 acute_effects=acute_effects)
757
758 v_logger.info("·", LogMode.VERBOSELY)
759 v_logger.success(f"Downloading {compound_name}!", LogMode.VERBOSELY)
760 v_logger.info("-", LogMode.VERBOSELY)
761
762
763
764
765