分类数据分析下的文章 - 奥林匹克技术竞赛~ - 做一名不被定义的苏南大叔

苏南大叔 » 数据分析

分类数据分析下的文章【分类结果介于标签结果和搜索结果之间】

dataframe特征工程，如何利用df.info()统计缺失值Nan？

发布于2024年05月18日

日常工作中，遇到的数据集不会像鸢尾花数据集那样完美，总会是出现一些空值。本文就是讲一下如何对数据集中的空值进行统计。以及在csv数据转换为dataframe的时候，对缺失值的处理。大家好，这里是苏南大叔的“程序如此...

机器学习，如何使用fetch_openml加载泰坦尼克数据集？

发布于2024年05月17日

在sklearn包里面，并不存在titanic.csv数据集文件本身。但是，可以通过fetch_openml()函数扩展到很多数据集，其中就包括titanic数据集。并且，在openml网站上，这个泰坦尼克数据集还...

机器学习数据集，解读泰坦尼克数据，有哪些字段？

发布于2024年05月16日

继鸢尾花数据集之后，苏南大叔来分析一下机器学习中非常著名的泰坦尼克数据集。这个数据集的标签是“survived”，而字段包括：年龄、阶层、票价、仓号、登船地、是否有亲戚同乘等等。数据表明：泰坦尼克号的乘客里面，最终...

以鸢尾花数据集为例，如何分析数据字段的相关性？

发布于2024年05月15日

本文以经典的鸢尾花数据为例，展示dataframe的数据相关性分析功能，也就是说看看各个字段之间相关度有多少。当然，这些相关度的计算，都是基于数字类型的。注意：字符串类型是无法参与相关度计算的。大家好，这里是苏南大...

dataframe数据，df.select_dtypes()根据dtype进行数据筛选

发布于2024年05月14日

机器学习操作的结构化数据，基本上就是一个又一个的dataframe。而实际的代码层面上来说，对于字符数据又是无法处理的。真正能处理的，只有数字或者浮点数等数据。所以，对于dataframe的数据类型筛选，是比较有必...