PhysioNet Index

Database Credentialed Access

EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images

Seongsu Bae, Daeun Kyung, Jaehee Ryu, et al.

We present EHRXQA, the first multi-modal EHR QA dataset combining structured patient records with aligned chest X-ray images. EHRXQA contains a comprehensive set of QA pairs covering image-related, table-related, and image+table-related questions.

question answering electronic health records evaluation chest x-ray multi-modal question answering ehr question answering semantic parsing benchmark visual question answering deep learning machine learning

Published: July 23, 2024. Version: 1.0.0

Database Credentialed Access

EHR-DS-QA: A Synthetic QA Dataset Derived from Medical Discharge Summaries for Enhanced Medical Information Retrieval Systems

Konstantin Kotschenreuther

Dataset consisting of question and answer pairs synthetically generated from medical discharge summaries, designed to facilitate the training and development of large language models specifically tailored for healthcare applications

mimic-iv clinical question-answering medical discharge summaries large language models

Published: Jan. 11, 2024. Version: 1.0.0

Database Credentialed Access

Insulin4RL: Real-Time Insulin Infusions For Offline Reinforcement Learning

Thomas Frost, Steve Harris

Openly available research dataset intended for offline reinforcement learning (ORL) using natively irregular healthcare data. The dataset is intended to encourage further research into ORL methods using naturally sporadic decision intervals.

insulin intensive care semi-markov decision process diabetes blood glucose offline reinforcement learning machine learning

Published: June 15, 2026. Version: 1.0.0

Database Credentialed Access

MIMIC-IV-Ext Triage Instruction Corpus

Qingyang Shen, Quan Guo

MIMIC-IV-Ext Triage Instruction Corpus includes 9,629 ED triage cases organized by the five-level ESI, enabling LLMs to improve triage accuracy. It provides CSV data, generation prompts, expert validation samples, and SQL QC scripts.

nlp clinical decision support large language models emergency severity index emergency triage machine learning

Published: March 4, 2025. Version: 1.0.0

Database Credentialed Access

CXR-Align: A Benchmark for CXR-Report Alignment with Negations

Hanbin Ko

CXR-Align is a benchmark dataset created to evaluate vision-language models' capability to interpret negations in chest X-ray (CXR) reports, featuring systematically modified reports from MIMIC-CXR.

Published: Aug. 21, 2025. Version: 1.0.0

Database Credentialed Access

A Temporal Dataset for Respiratory Support in Critically Ill Patients

Mira Moukheiber, Lama Moukheiber, Dana Moukheiber, et al.

A benchmark dataset offering hourly records over a 90-day period for 50,920 ICU subjects, including dynamic pulmonary function data and a spectrum of covariates for respiratory intervention analyses.

oberservational data time-series

Published: April 15, 2025. Version: 1.1.0

Database Restricted Access

Organ Retrieval and Collection of Health Information for Donation (ORCHID)

Hammaad Adam, Vinith Suriyakumar, Tom Pollard, et al.

Multi-center dataset on organ procurement in the United States

organ procurement organizations organ transplantation

Published: Sept. 29, 2025. Version: 2.1.1

Search

Resources

EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images

EHR-DS-QA: A Synthetic QA Dataset Derived from Medical Discharge Summaries for Enhanced Medical Information Retrieval Systems

Insulin4RL: Real-Time Insulin Infusions For Offline Reinforcement Learning

MIMIC-IV-Ext Triage Instruction Corpus

CXR-Align: A Benchmark for CXR-Report Alignment with Negations

A Temporal Dataset for Respiratory Support in Critically Ill Patients

Organ Retrieval and Collection of Health Information for Donation (ORCHID)