在对象检测、分割和字幕等应用中,COCO 数据集 被最先进的神经网络广泛理解。 它的多功能性和多用途场景变化最适合训练计算机视觉模型并衡量其性能。
在这篇文章中,我们将深入探讨 COCO 的基础知识,涵盖以下内容
- 什么是 COCO?
- COCO 类别
- 它用于什么,你可以用 COCO 做什么?
- 数据集格式
- 关键点
什么是 COCO?
上下文中的常见对象 (COCO) 是最流行的大规模标记图像数据集之一,可供公众使用。 它代表我们日常遇到的许多对象,并包含 80 个类别的图像注释,其中包含超过 150 万个对象实例。 你可以 探索 COCO 数据集,访问 SuperAnnotate 相关的数据集部分。
现代 AI 驱动的解决方案仍然无法在结果中产生绝对的准确性,这归结于 COCO 数据集是 CV 的主要基准,用于 训练、测试、优化和改进模型,以实现更快的 注释管道的扩展。
最重要的是,COCO 数据集是对迁移学习的补充,其中用于一个模型的数据作为另一个模型的起点。
COCO 类别
COCO 用于什么,你可以用它做什么?
COCO 数据集用于多个 CV 任务
- **目标检测和实例分割**: COCO 的边界框和每个实例的分割扩展到 80 个类别,提供了足够的灵活性来处理场景变化和注释类型。
- **图像字幕**: 该数据集包含约 50 万个描述超过 33 万张图像的字幕。
- **关键点检测**: COCO 提供对超过 20 万张图像和 25 万个标注了关键点的人员实例的访问权限。
- **全景分割**: COCO 的全景分割涵盖 91 个东西类别和 80 个物体类别,以创建连贯且完整的场景分割,有利于 自动驾驶行业、增强现实等。
- **密集姿势**: 它提供了超过 3.9 万张图像和 5.6 万个标注了手动注释对应关系的人员实例。
- **东西图像分割**: 数据集还提供了具有 91 个东西类别的每个像素的分割掩码。
COCO 数据集格式
COCO 将数据存储在 JSON 文件中,该文件由信息、许可证、类别、图像和注释格式化。 你可以为训练、测试和验证目的创建单独的 JSON 文件。
**信息**: 提供对数据集的高级描述。
“info”: {
“year”: int,
“version”: str,
“description:” str,
“contributor”: str,
“url”: str,
“date_created”: datetime
}
“info”: {
“year”: 2021,
“version”: 1.2,
“description:” “Pets dataset”,
“contributor”: “Pets inc.”,
“url”: “http://sampledomain.org”,
“date_created”: “2021/07/19”
}
**许可证**: 提供适用于数据集中图像的图像许可证列表。
“licenses”: [{
“id”: int,
“name”: str,
“url:” str
}]
“licenses”: [{
“id”: 1,
“name”: “Free license”,
“url:” “http://sampledomain.org”
}]
**类别**: 提供类别和超类别的列表。
“categories”: [{
“id”: int,
“name”: str,
“supercategory”: str,
“isthing”: int,
“color”: list
}]
“categories”: [
{“id”: 1,
“name”: ”poodle”,
“supercategory”: “dog”,
“isthing”: 1,
“color”: [1,0,0]},
{“id”: 2,
“name”: ”ragdoll”,
“supercategory”: “cat”,
“isthing”: 1,
“color”: [2,0,0]}
]
**图像**: 提供数据集中所有图像信息,不包含边界框或分割信息。
“image”: {
“id”: int,
“width”: int,
“height”: int,
“file_name: str,
“license”: int,
“flickr_url”: str,
“coco_url”: str,
“date_captured”: datetime
}
“image”: [{
“id”: 122214,
“width”: 640,
“height”: 640,
“file_name: “84.jpg”,
“license”: 1,
“date_captured”: “2021-07-19 17:49”
}]
**注释**: 提供数据集中每个图像中每个对象注释的列表。
“annotations”: {
“id”: int,
“image_id: int”,
“category_id”: int
“segmentation”: RLE or [polygon],
“area”: float,
“bbox”: [x,y,width,height],
“iscrowd”: 0 or 1
}
“annotations”: [{
”segmentation”:
{
“counts”: [34, 55, 10, 71]
“size”: [240, 480]
},
“area”: 600.4,
“iscrowd”: 1,
“Image_id:” 122214,
“bbox”: [473.05, 395.45, 38.65, 28.92],
“category_id”: 15,
“id”: 934
}]
“annotations”: [{
”segmentation”: [[34, 55, 10, 71, 76, 23, 98, 43, 11, 8]],
“area”: 600.4,
“iscrowd”: 1,
“Image_id:” 122214,
“bbox”: [473.05, 395.45, 38.65, 28.92],
“category_id”: 15,
“id”: 934
}]
关键点
机器模拟人眼的能力并不像过去那样遥不可及。 事实上,预计到 2022 年,CV 行业将超过 $486 亿美元。 CV 的成功归功于馈送到模型的训练数据。 特别是 COCO 数据集在 AI 成就中占据着特殊的地位,这使得它值得探索并可能嵌入到你的模型中。 我们希望这篇文章能加深你对 COCO 的理解,并促进你为最终模型发布做出有效的决策。
关于 SuperAnnotate
SuperAnnotate 通过其端到端平台和管理的注释服务团队集成市场,帮助公司构建下一代计算机视觉产品。 SuperAnnotate 提供全面的注释工具、强大的协作和质量管理系统、无代码神经网络训练和自动化,以及数据审查和整理系统,以成功开发和扩展计算机视觉项目。 从研究人员到初创企业,再到世界各地的企业,每个人都信任 SuperAnnotate 来构建更高质量的训练数据集,速度提高 10 倍,同时显着提高模型性能。 SuperAnnotate 被评为世界 2021 年 100 家顶级 AI 公司之一,由 CB Insights 评选。
本文最初发布在 SuperAnnotate 博客 上。
关于作者
Tigran Petrosyan
SuperAnnotate 联合创始人兼首席执行官
物理学家转型为技术爱好者和企业家。 在瑞士苏黎世联邦理工学院获得物理学硕士学位后,Tigran 继续攻读生物医学成像和光子学的博士学位。 在毕业前夕,Tigran 放弃了博士课程,与他的兄弟一起创办了 SuperAnnotate,追随他对组建全面团队和制作人们喜爱的产品的热情。