呓语 | 杨英明的个人博客

专注于c++、Python,欢迎交流

By

使用 TensorFlow 搭建神经网络预测泰坦尼克号乘客生存率(Kaggle => Titanic: Machine Learning from Disaster)

By

Pandas 默认时间格式转换为 Unix 时间戳

Pandas读取csv文件时,时间会自动显示为‘YYYY-MM-DD HH:MM:SS’的格式,那么如果想要将这个时间转换为 Unix时间戳 呢?

先科普一下,什么是 Unix时间戳 呢?

Unix时间戳 是一种时间表示方式,是一个整型值,代表从格林威治时间1970年01月01日00时00分00秒起至现在经过的总秒数。

举个栗子:

Unix时间戳 表示形式为 1492751843 这样的整型
把它转换为 北京时间为 2017/4/21 13:17:23

实际上,Pandas中时间用 pandas.datetime() 转换为 pandas.tslib.Timestamp(时间戳) 格式之后,已经变成了整型存储,即 Unix时间戳形式 。

如果我们需要这个时间戳的整型格式,可以用 time[0].value 这个属性把它提取出来。

By

【IJCAI-17 口碑商家客流量预测】使用Pandas计算商家平均客流量

这段时间参加了天池的 IJCAI-17 口碑商家客流量预测 大数据竞赛,初次参加此类竞赛,也是第一次使用pandas,折腾了许久,记录下自己的心得。代码很粗糙,仅作个人记录用。参考价值不大,大神勿喷。

下面出现的代码已经提交检验通过,第一次提交混上了排行榜,400+左右的位置,第二次修改了一下混到了200+的位置,真是没有想到这么水的算法也能上排行榜……

By

Pandas读取csv表格数据 && 存入数据库

作为一只萌新报名参加了阿里的天池大数据比赛,参加的这场比赛的题目是 预测商家未来14天的客流量 。由于第一次做ML/DM方面的比赛,所以上手需要学习不少新知识,比如读取数据这方面。

Pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的,经常用于数据分析和科学计算领域。

不管参加天池大数据比赛或者是Kaggle,首先要做得都是从比赛提供的数据文件中将数据提取出来,即 提取数据

为了更好的提取数据我不可避免的用到了Pandas,在这里我把用pandas提取csv表格数据的心得记录下来。