Data Formats — LeRobot, GR00T, HDF5, MCAP, RLDS

Format	Best for	Video	State / action	Used by
LeRobot	Modern HF/PyTorch robotics	yes	yes	LeRobot, openpi, GR00T adapters
GR00T-LeRobot	NVIDIA GR00T fine-tuning	yes	yes	Isaac GR00T
HDF5	ACT, Diffusion Policy, robomimic	optional	yes	ACT, robomimic, ALOHA
MCAP	ROS-native logs	yes	yes	Robotics infra / replay
RLDS	OXE/RT-X/Octo/JAX	yes	yes	JAX/TF robot learning

LeRobot (v2 / v2.1)

SignIQ exports

Hugging Face's PyTorch-native robot dataset format. Parquet for low-dim, MP4 for video, JSONL/JSON metadata. Modern default for VLA work.

File structure

meta/info.json
meta/episodes.jsonl
meta/tasks.jsonl
meta/stats.json
data/chunk-XXX/episode_XXX.parquet
videos/chunk-XXX/<camera>/episode_XXX.mp4

Required fields

●observation.images.<camera>
●observation.state
●action
●timestamp
●frame_index
●episode_index

Optional fields

task (language instruction) · next.reward · next.done · annotation.<custom>

Action representation

Per-dataset; documented in meta/info.json features

Best for

openpi / GR00T / OpenVLA / LeRobot fine-tuning and PyTorch pipelines

Used by

LeRobot, openpi, GR00T (with modality.json), many OXE mirrors

SignIQ export

Yes — shipped natively

GR00T-LeRobot

SignIQ exports

LeRobot v2 with an additional meta/modality.json that maps state, action, and video keys to GR00T's policy expectations. Required for Isaac-GR00T fine-tuning.

File structure

All LeRobot v2 files
meta/modality.json (state.<part>, action.<part>, video.<view>)
meta/embodiment.json

Required fields

●modality.state.<body_part>
●modality.action.<body_part>
●modality.video.<camera>
●embodiment tag

Optional fields

language · reward · subtask spans

Action representation

Per body part; GR00T handles chunking and tokenization internally

Best for

GR00T N1 / N1.7 fine-tuning on humanoid and bimanual platforms

Used by

NVIDIA GR00T, Isaac Lab post-training

SignIQ export

Yes — shipped natively

HDF5 (ALOHA / robomimic / ACT)

SignIQ exports

Hierarchical binary format with embedded multi-camera image stacks and joint trajectories. The native format for ACT, robomimic, and many bimanual recipes.

File structure

/observations/images/<camera>
/observations/qpos
/observations/qvel
/action
/episode_metadata

Required fields

●observations.qpos
●action
●episode metadata

Optional fields

observations.images.<camera> · observations.qvel · observations.gripper · language_instruction

Action representation

Joint targets or action chunks; embedded shape/length per dataset

Best for

ACT, Diffusion Policy, robomimic baselines, ALOHA tooling

Used by

ACT, robomimic, Diffusion Policy, ALOHA scripts

SignIQ export

Yes — shipped natively

MCAP / ROS 2

SignIQ exports

ROS-native log container. Best for replay, debugging, and end-to-end systems work where the full message bus matters.

File structure

<bag>.mcap (channel-keyed messages)
<bag>.metadata.yaml

Required fields

●/tf and /tf_static
●/joint_states
●/<camera>/image_raw

Optional fields

/wrench · /audio · /diagnostics · /<custom>

Action representation

Joint commands or twist/wrench messages on a control topic

Best for

Robotics infra teams, replay/visualization, ROS-first stacks

Used by

Foxglove, rosbag2, ROS 2 native pipelines

SignIQ export

Yes — shipped natively

RLDS / TFRecord

RLDS is the canonical format behind Open X-Embodiment. JAX/TF pipelines (Octo, OpenVLA) consume it directly.

File structure

*.tfrecord shards
features.json
dataset_info.json

Required fields

●steps[].observation
●steps[].action
●steps[].is_terminal
●steps[].language_instruction (optional)

Optional fields

episode_metadata · discount · reward

Action representation

Most VLA work uses 7D EEF delta + gripper

Best for

OXE/RT-X, OpenVLA, Octo, JAX/TF pretraining

Used by

Open X-Embodiment, OpenVLA, Octo, RT-X

SignIQ export

On request

robomimic

SignIQ exports

Curated HDF5 layout with proficient-human, multi-human, and machine-generated splits. Strong baselines and clean evaluation.

File structure

data/demo_<i>/obs/<key>
data/demo_<i>/actions
data/demo_<i>/dones
mask/train, mask/valid

Required fields

●obs.<key>
●actions
●dones

Optional fields

rewards · next_obs · states (sim)

Action representation

Joint deltas or absolute targets per dataset config

Best for

Offline imitation learning, BC/diffusion baselines, ablations

Used by

robomimic, robosuite, diffusion policy baselines

SignIQ export

Yes — shipped natively

Training-ready in the format your stack expects.

Compatibility at a glance

LeRobot (v2 / v2.1)

File structure

Required fields

Optional fields

GR00T-LeRobot

File structure

Required fields

Optional fields

HDF5 (ALOHA / robomimic / ACT)

File structure

Required fields

Optional fields

MCAP / ROS 2

File structure

Required fields

Optional fields

RLDS / TFRecord

File structure

Required fields

Optional fields

robomimic

File structure

Required fields

Optional fields

Need a format we don't list?