- 赛题名称:Child Mind Institute – 睡眠状态检测
- 赛题类型:时间序列
- 赛题链接👇:
https://www.kaggle.com/competitions/child-mind-institute-detect-sleep-states/overview
比赛介绍
比赛主办方是Child Mind Institute(CMI),该机构通过提供基于证据的黄金标准照护、向数百万家庭提供教育资源、在服务不足的社区培训教育工作者以及开发未来的突破性治疗方法,改变了与心理健康和学习障碍斗争的儿童和家庭的生活。
这个比赛的目标是通过分析腕部加速度计数据来检测睡眠的开始和醒来时刻。你将开发一个模型,该模型经过训练可以确定一个人的睡眠状态。
比赛数据集
我们的数据集名为TpuGraphs,是关于在张量处理单元(TPUs)v3上运行的XLA HLO图的性能预测数据集。总共有5个数据集合:layout:xla:random
、layout:xla:default
、layout:nlp:random
、layout:nlp:default
和 tile:xla
。最终得分将是所有集合的平均值。要下载整个数据集并查看更多信息,你可以转到数据选项卡。
评估指标
参赛作品将根据检测到事件的平均精度进行评估,该平均精度在时间戳误差容限阈值上进行平均,并在事件类别上进行平均。
检测结果将与地面真实事件在误差容限内匹配,模糊性按照置信度递减的顺序解决。对于两种事件类别,我们使用1、3、5、7.5、10、12.5、15、20、25、30分钟或20、60、100、150、200、250、300、400、500、600步的误差容限阈值。
- 对于在相同事件x容限x系列ID组内的每组预测和地面真实情况,我们将每个地面真实情况与允许的容限内出现的最高置信度的未匹配预测进行匹配。
- 收集每个系列ID内的事件,我们计算每个事件x容限组的平均精度分数。平均精度分数是通过在预测上降低置信度分数阈值生成的精度-召回曲线下的面积来计算的。在此计算中,超过阈值的匹配预测得分为TP(真正例),未匹配的预测得分为FP(假正例)。未匹配的地面真实情况得分为FN(假负例)。
- 最终分数是上述AP分数的平均值,首先在容限上平均,然后在事件上平均。
数据集描述
该数据集包含约500个多天的手腕加速度计数据记录,并标注了两种事件类型:onset(入睡开始)和wakeup(醒来结束)。您的任务是在加速度计数据系列中检测这两种事件的发生。
尽管睡眠日志仍然是黄金标准,但在处理加速度计数据时,我们将睡眠定义为手表佩戴期间的最长单一不活动期。对于这些数据,我们已经为评定者提供了一些具体的指导:
- 单一的睡眠周期至少必须有30分钟的长度
- 单一的睡眠周期可以被不超过30分钟的连续活动打断
- 除非手表在整个睡眠期间都被佩戴,否则不能检测到任何睡眠窗口(下文详细说明)
- 晚上最长的睡眠窗口是唯一记录的窗口
- 如果无法识别有效的睡眠窗口,则不会记录入睡或醒来事件。
- 睡眠事件不需要跨越日期线,因此在给定时期内可能发生多个事件。然而,每晚只能分配一个窗口。例如,一个人可以在同一日历日内从01:00至06:00和19:00至23:30拥有一个睡眠窗口,尽管分配给连续的夜晚。
- 每个系列中记录的夜晚大致与该系列中的24小时周期数量相同。
尽管每个系列是连续记录,但在系列中可能会有加速度计设备被取下的时期。这些时期被确定为加速度计信号在较长时间内变化极少,这在正常情况下对人类参与者是不现实的。这些时期没有注释的事件,并且您应该尽量避免在这些时期内进行事件预测:事件预测将被视为假阳性。
每个数据系列代表了一个独特的实验对象的连续(多天/事件)记录。
文件和字段描述
-
train_series.parquet:用作训练数据的系列。每个系列是单个主题的加速度计数据的连续记录,跨越多天。
series_id
– 每个加速度计系列的唯一标识符。step
– 系列内每个观测的整数时间步。timestamp
– 对应的日期时间,使用ISO 8601格式%Y-%m-%dT%H:%M:%S%z
。anglez
– 由GGIR包计算和描述的z角度,是从单个加速度计分量派生的度量,通常用于睡眠检测,表示相对于身体垂直轴的手臂角度。enmo
– 由GGIR包计算和描述的ENMO是所有加速度计信号的欧几里得范数减一,负值四舍五入为零。虽然在此空间中不存在加速度的标准度量,但这是几个常用计算特征之一。
test_series.parquet:用作测试数据的系列,包含与上述相同的字段。您将为此文件中的系列预测事件的发生。
train_events.csv:训练集中系列的睡眠日志,记录了入睡和醒来事件。
series_id
– 在train_series.parquet
中的每个加速度计数据系列的唯一标识符。night
– 潜在的onset
/wakeup
事件对的枚举。每晚最多可以发生一对事件。event
– 事件类型,是onset
(入睡)还是wakeup
(醒来)。step
和timestamp
– 事件在加速度计系列中发生的记录时间。
sample_submission.csv:正确格式的示例提交文件。详细信息请参阅评估页面。
赛题赛程
- 2023 年 9 月 5 日 – 开始日期。
- 2023 年 11 月 28 日 – 报名截止日期。
- 2023 年 11 月 28 日 – 合并截止日期。
- 2023 年 12 月 5 日 – 提交截止日期。
解题思路
-
数据理解和预处理:
- 首先,理解提供的时间序列数据,包括加速度计数据、时间戳和已标注的睡眠事件(入睡和醒来)。
- 对数据进行预处理,包括处理缺失值、异常值和数据平滑。考虑使用滑动窗口等方法来平滑原始加速度计数据,以减少噪声。
特征工程:
- 从原始数据中提取有意义的特征,这些特征应该有助于区分不同的睡眠状态。这可能包括基于加速度计数据的统计特征、频域特征和时域特征。
- 考虑使用领域知识来选择最相关的特征,例如,睡眠状态可能与加速度计的振幅、频率和周期性相关。
建模方法:选择合适的时间序列建模方法,例如循环神经网络(RNN)、卷积神经网络(CNN)、长短时记忆网络(LSTM)等。这些模型能够捕获时间序列数据中的时序信息。
# 竞赛交流群 邀请函 #
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与 36000+来自竞赛爱好者一起交流~