V2EX › 9hills 的所有回复 › 第 39 页 / 共 355 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 35 36 37 38 39 40 41 42 43 44 ... 355

❮

❯

2016-09-10 07:16:37 +08:00

回复了 michaelchs 创建的主题 › 分享发现 › 新闻越来越可怕了....

这个和所谓的苹果手机解锁是一个把戏

2016-09-09 23:20:38 +08:00

回复了 slrey 创建的主题 › 分享发现 › 虚惊一场，差点就报警了，同时对网银和支付公司提个建议

你去支付宝下载对账单，然后和银行进行对账就行了

另外这个只要你平时关注信用卡发来的微信通知之类，就不会有疑问了。。。信用卡短信订阅一般是收费的，但是微信订阅一般都是免费的

2016-09-09 17:57:17 +08:00

回复了 smartdie 创建的主题 › 问与答 › 1914 年俄国车床工人和现今中国程序员的区别

这本书是不是叫《巨人的陨落》？非常好看

2016-09-09 17:50:36 +08:00

回复了 wpaygp 创建的主题 › 职场话题 › 关于业务员离职，公司要求签一份离职后三年内不能进入同行业的协议，是否合理？

@CodingPuppy 爱批不批，离职不需要它批准。只需要提前一个月书面申请离职，一个月后自然解除劳动关系。相关手续公司有义务配合，不配合直接劳动仲裁

2016-09-09 10:53:08 +08:00

回复了 wpaygp 创建的主题 › 职场话题 › 关于业务员离职，公司要求签一份离职后三年内不能进入同行业的协议，是否合理？

竞业协议必须有以下的原则：

1. 自愿。你就是不签，公司能把你怎样，不让你离职？你只要提前一个月发书面离职申请，一个月后劳动关系自然解除

2. 不能超过 2 年

3. 每个月公司必须给竞业补偿金，大约是公司的一半。不给合同无效

这个一般是入职的时候签的，入职后没人签。。因为你就是不签，公司也没办法把你怎么样

2016-09-08 20:52:12 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

@zmrenwu 可以试试 disk-based hash ，把 hash 表放到磁盘中。不过性能我没测试

2016-09-08 15:56:57 +08:00

回复了 wyntergreg 创建的主题 › 程序员 › ATB 这么牛，为什么不搞一搞操作系统？

@zhangdawei 先不提和 Android 的关系（其实基本算是 Android 的发行版）， Kernel 依然是 Linux ，所以本质上还是一个 Linux 发行版

2016-09-08 15:09:55 +08:00

回复了 wyntergreg 创建的主题 › 程序员 › ATB 这么牛，为什么不搞一搞操作系统？

@paw 木有

百度自己的内核只是因为没法升级内核不得不忍受，不得不自己打 Patch ，要是升级内核不那么痛苦，谁 TM 还用 2.6.32 的内核，连 Docker 都没法装

自己的 OS ，不过是 CentOS 改了改软件包

这个还是别提了

2016-09-08 15:02:40 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

@Magic347 另外大规模分布式集群，你见过多大的？

恰好负责运维一个 6 位数机器的分布式集群，不知道比起您见过的集群是大呢，还是小呢

2016-09-08 14:53:46 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

@Magic347 另外你的 9 楼里面有一行代码？

拿出 code 来才是王道，而不是说说思想，思想不值钱。 benchmark 才是硬道理

2016-09-08 14:51:58 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

@Magic347 知道什么是 Terasort 比赛么，参加过么

你就知道你自己有多么的坐井观天

2016-09-08 13:20:42 +08:00

回复了 cnkuner 创建的主题 › 问与答 › Win 下 10w 文件复制求助

以前有个程序叫 teracopy

2016-09-08 13:15:44 +08:00

回复了 SeedMssP 创建的主题 › 推广 › 如何抓包分析报文防护 DDoS 攻击?

看完全文发现就是一个特征匹配。。和 ML 有什么关系？

2016-09-08 12:03:31 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

恰好前不久用 13 台机器+Spark 做了一个排序

100G 的原始数据，需要接近 40min
但是如果用分布式去重算法的话， 1min 以内

有的时候不能盲目 MR ，盲目 Spark ，不先自己思考下

2016-09-08 11:46:24 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

@Magic347 再说资源， lz 不过 1 亿条未去重数据，按照 hash 来说 8G 足够了。这个就是一个正确的解决方法

你说有其他解决办法， OK ， code 拿出来看看，在 8G 内存条件下，看谁更快

2016-09-08 11:44:30 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

@Magic347 Talk is cheap ， show me your code 。

别 TB ， PB ，你就写个 3000w 行排序去重给我看看，呵呵

事实上，你以为 hash 不能分布式扩展？去重一定要排序？呵呵

2016-09-08 07:58:18 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

地图炮下，假如这是一个面试题目，凡是说排序的，统统不得分

做个简单的测试，首先生成 3000w 行随机数，去重后是 1000w
seq 1 10000000 > 1000w
cat 1000w 1000w 1000w > 3000w
shuf 3000w > 3000w.shuf

然后用 awk hash 的方法去做去重。结果如下

资源占用： 1G 内存， E5-2650 v3 @ 2.30GHz 一个核
时间消耗： 35s

$ time awk '{if($1 in a){}else{a[$1];print $1}}' 3000w.shuf > 1000w.out
awk '{if($1 in a){}else{a[$1];print $1}}' 3000w.shuf > 1000w.out 34.12s user 0.95s system 99% cpu 35.107 total

说排序的，谁能用单机排序去重做到 35s ？

2016-09-07 18:18:20 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

@9hills 这里有个错误， hash 表的大小是和最终去重后的条目有关的，和原始数据条目无关

2016-09-07 18:17:09 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

@xderam 用 awk 就行了，不需要 uniq 。因为原理是 hash 表

1 亿条数据（和大小无关，和条数有关）， 8G 内存应该差不多。 80B 一条，可能刚刚好

1 ... 35 36 37 38 39 40 41 42 43 44 ... 355

❮

❯