データ前処理パイプライン

全体フロー

3D MHA (SPIDER)
  → 2D PNG抽出 (512x640)
    → APTA (16クラス→4クラス変換)
      → RGB→グレースケール変換
        → データフィルタリング
          → 学習用データセット (3000枚)

Phase 1: データ抽出 (3D → 2D)

入力

3D MHA形式のMRI画像 + 対応するセグメンテーションマスク
T1, T2, T2 SPACE の3種類

解決すべき4つの問題

#	問題	解決方法
1	椎体クラスが欠落	APTAアルゴリズムで色変換により復元
2	4クラスのはずが16クラス存在	APTAで4クラスに統合
3	一部のスライスが矢状断でない	手動特定 → 軸位断から矢状断を抽出
4	一部の画像が回転/反転	抽出時に回転/反転で修正

出力

2D PNG画像 (512 x 640 pixels)
対応する2Dマスク画像

Phase 2: APTA (Adaptive Pixel Transformation Algorithm)

16クラスのマスクを4クラスに統合するための色変換アルゴリズム。

処理ステップ

色範囲の置換
- 非常に暗い色調 → 赤 (椎体を表す)
- 中間色調 → 緑 (脊柱管)
- 明るい色調 → 青 (IVDs)
- 黒 → 背景のまま
隣接ピクセルとの色統一
- 各ピクセルの色を、同色の隣接ピクセルに合わせて調整
- 領域内の均一性を向上
アウトライン除去
- 周囲と大きく異なるピクセルを、最も多い周辺色に置換
- 境界をクリーンに
境界ピクセルの修正
- 画像端のピクセルの色を隣接ピクセルに合わせる
孤立ピクセルの除去
- 周囲と異なる単独ピクセルを最も多い隣接色に置換
色の一貫性チェック
- 緑/青が存在するが赤がない場合 → 赤に置換
RGB → グレースケール変換
- 4クラスの色情報を保持しつつ単純化

マッピング

SPIDERマスクの実際のラベル値:

ラベル値	意味
0	Background
1–8	個別椎体 (下から上に番号付け)
100	Spinal Canal
201–208	個別IVD (下から上に番号付け)

4クラスへの統合マッピング:

元ラベル     → 新ラベル
0           → 0 (Background)
1–99        → 1 (Vertebrae)
100         → 2 (Spinal Canal)
200+        → 3 (IVDs)

Phase 3: データフィルタリング

Step 1: 不要画像の除外

マスクに4クラス未満しか含まれないスライスを除外
背景のみ、構造が欠けているスライスなどを排除

Step 2: クラス不均衡の対処

クラス重み計算:

Class Weight = (特定クラスのピクセル数) / (画像の総ピクセル数)

クラス不均衡比率:

Class Imbalance Ratio = (最大クラス重み) / (最小クラス重み)

フィルタリング閾値: 55%

不均衡比率が55%を超える画像を除外
経験的に決定された閾値

フィルタリング前後の不均衡比率

データ種別	フィルタリング前	フィルタリング後
T1	57%	3.51%
T2	56%	1.79%
T2 SPACE	40%	7.5%

最終データ数

データ種別	画像数	不均衡比率上限
T1	1000	55%
T2	1000	55%
T2 SPACE	1000	37%
合計	3000	—

画像前処理 (学習時)

論文に明示的な記述はないが、一般的に以下が想定される:

画像の正規化 (0-1 or z-score)
リサイズ (必要に応じて)
データ拡張 (論文では未記述だが、Dataset Paperではelastic deformation, Gaussian noise, Gaussian smoothing, random croppingが使われている)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

データ前処理パイプライン

全体フロー

Phase 1: データ抽出 (3D → 2D)

入力

解決すべき4つの問題

出力

Phase 2: APTA (Adaptive Pixel Transformation Algorithm)

処理ステップ

マッピング

Phase 3: データフィルタリング

Step 1: 不要画像の除外

Step 2: クラス不均衡の対処

フィルタリング前後の不均衡比率

最終データ数

画像前処理 (学習時)

FilesExpand file tree

preprocessing.md

Latest commit

History

preprocessing.md

File metadata and controls

データ前処理パイプライン

全体フロー

Phase 1: データ抽出 (3D → 2D)

入力

解決すべき4つの問題

出力

Phase 2: APTA (Adaptive Pixel Transformation Algorithm)

処理ステップ

マッピング

Phase 3: データフィルタリング

Step 1: 不要画像の除外

Step 2: クラス不均衡の対処

フィルタリング前後の不均衡比率

最終データ数

画像前処理 (学習時)