
资料内容:
1-1,结构化数据建模流程范例
一,准备数据
titanic 数据集的目标是根据乘客信息预测他们在 Titanic 号撞击冰山沉没后能
否生存。 结构化数据一般会使用 Pandas 中的 DataFrame 进行预处理。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras import models,layers
dftrain_raw = pd.read_csv('./data/titanic/train.csv')
dftest_raw = pd.read_csv('./data/titanic/test.csv')
dftrain_raw.head(10)
• Survived:0 代表死亡,1 代表存活【y 标签】
• Pclass:乘客所持票类,有三种值(1,2,3) 【转换成 onehot 编码】
• Name:乘客姓名 【舍去】
• Sex:乘客性别 【转换成 bool 特征】
• Age:乘客年龄(有缺失) 【数值特征,添加“年龄是否缺失”作为辅助特征】
• SibSp:乘客兄弟姐妹/配偶的个数(整数值) 【数值特征】
• Parch:乘客父母/孩子的个数(整数值)【数值特征】
• Ticket:票号(字符串)【舍去】
• Fare:乘客所持票的价格(浮点数,0-500 不等) 【数值特征】
• Cabin:乘客所在船舱(有缺失) 【添加“所在船舱是否缺失”作为辅助特征】
• Embarked:乘客登船港口:S、C、Q(有缺失)【转换成 onehot 编码,四维度
S,C,Q,nan】
利用 Pandas 的数据可视化功能我们可以简单地进行探索性数据分析 EDA
(Exploratory Data Analysis)。