Python Config

简介

使用 Python 编写一些深度学习算法时，经常会涉及到大量超参数的配置。通过 Python 的两个标准库，ml_collections 和 dataclasses，可以实现对这些配置进行管理。

ml_collections

ml_collections 是一个 Python 库，主要用于管理实验配置，其中的 ConfigDict 是一个核心工具。ConfigDict 提供了一种结构化的、易于管理的方式来定义和操作配置。它类似于 Python 的字典，但增强了功能，以便更方便地进行深度学习实验或其他场景中的配置管理。

from ml_collections import ConfigDict

def get_config() -> ConfigDict:
  config = ConfigDict()
  config.model = ConfigDict()
  config.model.type = 'ResNet'
  config.model.num_layers = 50
  config.optimizer = 'adam'
  return config

if __name__ == "__main__":
  config = get_config()
  print(config.to_dict())
  # {'model': {'num_layers': 50, 'type': 'ResNet'}, 'optimizer': 'adam'}

dataclasses

Python 的 dataclasses 模块是 Python 3.7 引入的一个库，旨在简化数据类（data classes）的定义。dataclass 是一个装饰器，它可以用来减少定义类时的样板代码，尤其是那些主要用于存储数据的类。

from dataclasses import dataclass

@dataclass
class Config:
  batch_size: int = 256
  time_step: int = 256
  embed_dim: int = 768

if __name__ == "__main__":
  config = Config(batch_size=8, time_step=128)
  print(config)
  # Config(batch_size=8, time_step=128, embed_dim=768)

使用 @dataclass 装饰器实现的数据类，相比于直接使用 class 实现的普通类，更加简洁。

# 手动定义数据类
class Point:
  def __init__(self, x, y):
    self.x = x
    self.y = y
  def __repr__(self):
    return f"Point(x={self.x}, y={self.y})"

# 使用 @dataclass
@dataclass
class Point:
  x: float
  y: float

@dataclass 是一种简洁高效的方式，用于定义以数据为主的类，尤其适合那些只需要存储数据、不需要复杂逻辑的类。它减少了样板代码，提高了开发效率，同时保持了代码的可读性。