画像分類タスク(CIFAR-10, 100)において、ベースライン手法よりも精度が向上しています。横軸は正方形領域の大きさ(Patch Length)であり、縦軸は正解率(Accuracy)を表します。横軸のパラメータは特に重要で、同じ画像サイズ(32 x 32)でも、より詳細な情報が必要なタスクでは、パッチの長さを短く設定するなどの調整が必要です。
import albumentations as A
from albumentations.pytorch import ToTensorV2
transforms_cutout = A.Compose([
A.Resize(256, 256),
A.CoarseDropout(max_holes = 1, # Maximum number of regions to zero out. (default: 8)
max_height = 128, # Maximum height of the hole. (default: 8)
max_width = 128, # Maximum width of the hole. (default: 8)
min_holes=None, # Maximum number of regions to zero out. (default: None, which equals max_holes)
min_height=None, # Maximum height of the hole. (default: None, which equals max_height)
min_width=None, # Maximum width of the hole. (default: None, which equals max_width)
fill_value=0, # value for dropped pixels.
mask_fill_value=None, # fill value for dropped pixels in mask.
always_apply=False,
p=0.5
),
ToTensorV2(),
])