V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  9hills  ›  全部回复第 39 页 / 共 355 页
回复总数  7093
1 ... 35  36  37  38  39  40  41  42  43  44 ... 355  
2016-09-10 07:16:37 +08:00
回复了 michaelchs 创建的主题 分享发现 新闻越来越可怕了....
这个和所谓的苹果手机解锁是一个把戏
2016-09-09 23:20:38 +08:00
回复了 slrey 创建的主题 分享发现 虚惊一场,差点就报警了,同时对网银和支付公司提个建议
你去支付宝下载对账单,然后和银行进行对账就行了

另外这个只要你平时关注信用卡发来的微信通知之类,就不会有疑问了。。。信用卡短信订阅一般是收费的,但是微信订阅一般都是免费的
2016-09-09 17:57:17 +08:00
回复了 smartdie 创建的主题 问与答 1914 年俄国车床工人和现今中国程序员的区别
这本书是不是叫 《巨人的陨落》?非常好看
@CodingPuppy 爱批不批,离职不需要它批准。只需要提前一个月书面申请离职,一个月后自然解除劳动关系。相关手续公司有义务配合,不配合直接劳动仲裁
竞业协议必须有以下的原则:

1. 自愿。你就是不签,公司能把你怎样,不让你离职?你只要提前一个月发书面离职申请,一个月后劳动关系自然解除

2. 不能超过 2 年

3. 每个月公司必须给竞业补偿金,大约是公司的一半。不给合同无效


这个一般是入职的时候签的,入职后没人签。。因为你就是不签,公司也没办法把你怎么样
2016-09-08 20:52:12 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
@zmrenwu 可以试试 disk-based hash ,把 hash 表放到磁盘中。不过性能我没测试
2016-09-08 15:56:57 +08:00
回复了 wyntergreg 创建的主题 程序员 ATB 这么牛,为什么不搞一搞操作系统?
@zhangdawei 先不提和 Android 的关系(其实基本算是 Android 的发行版), Kernel 依然是 Linux ,所以本质上还是一个 Linux 发行版
2016-09-08 15:09:55 +08:00
回复了 wyntergreg 创建的主题 程序员 ATB 这么牛,为什么不搞一搞操作系统?
@paw 木有

百度自己的内核只是因为没法升级内核不得不忍受,不得不自己打 Patch ,要是升级内核不那么痛苦,谁 TM 还用 2.6.32 的内核,连 Docker 都没法装

自己的 OS ,不过是 CentOS 改了改软件包


这个还是别提了
2016-09-08 15:02:40 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
@Magic347 另外大规模分布式集群,你见过多大的?

恰好负责运维一个 6 位数机器的分布式集群,不知道比起您见过的集群是大呢,还是小呢
2016-09-08 14:53:46 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
@Magic347 另外你的 9 楼里面有一行代码?

拿出 code 来才是王道,而不是说说思想,思想不值钱。 benchmark 才是硬道理
2016-09-08 14:51:58 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
@Magic347 知道什么是 Terasort 比赛么,参加过么

你就知道你自己有多么的坐井观天
2016-09-08 13:20:42 +08:00
回复了 cnkuner 创建的主题 问与答 Win 下 10w 文件复制求助
以前有个程序叫 teracopy
2016-09-08 13:15:44 +08:00
回复了 SeedMssP 创建的主题 推广 如何抓包分析报文防护 DDoS 攻击?
看完全文发现就是一个特征匹配。。和 ML 有什么关系?
2016-09-08 12:03:31 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
恰好前不久用 13 台机器+Spark 做了一个排序

100G 的原始数据,需要接近 40min
但是如果用 分布式去重算法的话, 1min 以内

有的时候不能盲目 MR ,盲目 Spark ,不先自己思考下
2016-09-08 11:46:24 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
@Magic347 再说资源, lz 不过 1 亿条未去重数据,按照 hash 来说 8G 足够了。这个就是一个正确的解决方法

你说有其他解决办法, OK , code 拿出来 看看,在 8G 内存条件下,看谁更快
2016-09-08 11:44:30 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
@Magic347 Talk is cheap , show me your code 。

别 TB , PB ,你就写个 3000w 行排序去重给我看看,呵呵

事实上,你以为 hash 不能分布式扩展?去重一定要排序?呵呵
2016-09-08 07:58:18 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
地图炮下,假如这是一个面试题目,凡是说排序的,统统不得分

做个简单的测试,首先生成 3000w 行随机数,去重后是 1000w
seq 1 10000000 > 1000w
cat 1000w 1000w 1000w > 3000w
shuf 3000w > 3000w.shuf

然后用 awk hash 的方法去做去重。结果如下

资源占用: 1G 内存, E5-2650 v3 @ 2.30GHz 一个核
时间消耗: 35s

$ time awk '{if($1 in a){}else{a[$1];print $1}}' 3000w.shuf > 1000w.out
awk '{if($1 in a){}else{a[$1];print $1}}' 3000w.shuf > 1000w.out 34.12s user 0.95s system 99% cpu 35.107 total


说排序的,谁能用单机排序去重做到 35s ?
2016-09-07 18:18:20 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
@9hills 这里有个错误, hash 表的大小是和最终去重后的条目有关的,和原始数据条目无关
2016-09-07 18:17:09 +08:00
回复了 zmrenwu 创建的主题 Python 1 亿条数据如何使用 Pandas 去重?
@xderam 用 awk 就行了,不需要 uniq 。因为原理是 hash 表

1 亿条数据(和大小无关,和条数有关), 8G 内存应该差不多。 80B 一条,可能刚刚好
1 ... 35  36  37  38  39  40  41  42  43  44 ... 355  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1100 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 55ms · UTC 18:46 · PVG 02:46 · LAX 11:46 · JFK 14:46
Developed with CodeLauncher
♥ Do have faith in what you're doing.