« Posts under 个人生活

牛年小节续

前段时间牛年小节写了没多少内容就发觉已经出轨了,而且是出轨后继续行驶1000公里,真正在牛年做的事情好像没记录多少,今天再来回忆一下,顺便当笔记用了,哈哈。

学位论文发表了,虽然自己感觉有点豆腐渣工程,并略带忽悠,但毕业论文还是要写这一方向的内容,还是需要好好整理思考一下。文章的题目是《面向大型数据集合的关键分类查找算法》,题目是小老板定的,不过我还是没搞清楚为什么前面要加上“面向大型数据集合”这个定语,可能是为了吸引评审的眼球,在我看来,虽然算法有些优化的规则,但真的用到大型数据集合上,时间开销难保惨不忍睹,毕业论文还要好好把算法改进一下。

再来说说文章的核心“关键分类查找算法”,随意举个例子,统计青年人,中年人,老年人买车的开销(A: 老年人买什么车啊。。 B: 举例子!举例子!),看哪一类人买车的开销最高,很容易想到,就是对每一类人取个平均值,再做比较,但有时候这样的统计方法得到的结果可能并不科学,假如真实情况是中年人买车开销最高,但统计的样本中有几个老年人买了名贵车种(一辆抵几十辆),一下子就把平均值拉高了,这样用平均值得到的结果就有些失实了。为了消除平均值带来的不准确性,我在文章里用了近年数据库领域比较火热(为了能发表,就只能接受忽悠大军的思想了)的“不确定数据”模型去对问题建模,主要是考虑了数据的分布特性,而不是简单的平均值。

上面仅仅举了个简单例子,说穿了“关键分类”在这个例子里就是购车开销最高的年龄段,但从“有几个老年人买了名贵车种”看出,也许决定购车开销的“关键分类”并不一定是年龄段,在实际的问题中,除了年龄段,还有例如性别,学历,或者其他各种分类属性同时存在,所以这篇文章做的事情就是在众多不同的属性中找到最重要的属性值,比如“女性最爱看瑞丽杂志”或者“30-40岁的人买房子花的钱最多”。

以上就是文章解决的问题。很容易想到,能够再进一步深入的话,可以解决这样一个问题,就是可以得到一个结果类似“25-30岁、职业是软件工程师的人在数码产品上花的钱最多”,也就是说找到一个多属性的“关键分类”,但问题分两面,要想得到这样的结果还要考虑这样的结果是否有价值,如果得到“25-30岁、职业是软件工程师,男性,名字是Chocobo(举例子!)的人在数码产品上花的钱最多”,这样的结果等于是找到一个特例,就毫无价值了,反而有点侵犯隐私的嫌疑。恩,毕业论文可以从这个角度入手。

另一个可以深入的角度是,上面举的例子中属性本来就是分好类的,实际的数据中有些可能并不是离散数据,比如人的年龄,年收入,如果能自动将原始数据分类,再找出关键分类,那就更好了。而这样的方法也是有很多的,比如聚类、直方图,关键是如何与原来的方法很好地结合,这也是毕业论文需要考虑的。其他诸如算法的优化就不多写了,还要再思考思考。

————————我叫分割线,我信春哥————————

再来记录下实习,本科的时候是在VeryCD实习,虽然实习时间很短(应学校规定)工作做得不是很多,但还是被公司良好氛围(人手一台apple,嘴里大嚼php,python,ubuntu及各种奇闻异事)感染,对技术更添兴趣和热情。这次实习本来是去eBay的,本科时投过两次都没拿到过offer,可能是当初对自己的定位不清晰,这次投了数据仓库部门,结果群面总共只说了一句话,还拿到了offer。。本来抱定要去eBay实习,结果小老板说IBM CRL的一个原来实验室师兄项目缺人,推荐我去,一来是小老板推荐,不好意思拒绝,二来也有点好奇心,觉得自己以后工作肯定不会去啥研究院之类的地方,就答应去了,本来以为IBM办事效率低,说不定等我eBay实习开始了那边实习生招聘流程还没走完,那我就可以有正当理由拒绝了,结果IBM办事效率确实低,不过在我on board前一天给办好了。。我只好硬着头皮给eBay打电话说不能去报道了。

IBM研究院的人(不包括像我这样的实习生)给我的感觉是太累,并不是指工作累,我的工作地点是上海张江,但IBM研究院本来是在北京的,08年底才在上海设立了分院,如此一来,可能一个team的人分居京沪两地,这样工作上有什么事情就只能电话沟通,此乃一累。每个正式员工可能同时参与了多个项目组,而项目组经常会有各种会议要开,会议在会议室里面开,用网络电话和异地的同事进行交流,这样的情况导致了两种场面发生,一个是像我mentor那样项目很多的人,有时候一天看不到人,在会议室里面都不出来了,连续作战;另一个场面是有时候办公室里面看不到人,都去各种会议室开各种的会了,有时候是为了能和异地的同事沟通,但在自己座位上打电话不方便,怕影响别人,只能去会议室。

工作内容么,此处略过300字(IBM confidential),哈哈。

————————我叫分割线,我信春哥————————

找工作也已经尘埃落定,淘宝数据平台部门,职位是我一心向往的数据仓库开发工程师。虽然当初投淘宝的时候对淘宝除了购物网站以外一点也不了解,听宣讲会的时候还有点自己是去打酱油的感觉,但笔试完回去以后特意找了数据平台部门的团队blog看了一下,发现做的东西都很有意思,而且用的技术都很新,也是我想学习的方向。没想到笔试完当天晚上就接到第二天去面试的通知,面试完也是当天晚上就接到offer的通知,可以说从一个打酱油者,到感兴趣者,再到被录用者的转变就发生在短短的两天内。。。

这次记录的全面一点了,篇幅有点过长了, 不过反正这里也是我记笔记的地方,大家不想看的内容可以略过数行,哈哈。

confidential

牛年小节

还有一周不到的时间就要过春节了,外国人新年是1月1日,中国人都信春哥,所以春节才是中国的新年,作为春哥信众,自然也要到春节前才做年度小节。

牛年发生了许多大事,尤其是互联网,但对我个人生活产生的影响并不大,倒是借此机会掌握了二十一世纪上网的必备技能——翻墙,最方便的还是Autoproxy+Tor,开个小洋葱,就可以一支红杏出墙来了,按照Firefox + Autoproxy + Tor 使用详解(转载)这篇文章很容易配置。

前两天,帮小老板做实验的论文终于又投出去了,前前后后大概已经快折腾了1年了,记得去年春节的时候也是在加班加点地coding。虽然半年前投了已经沦为rank2的会议ICDE都被拒了,这次改投了rank1的期刊TKDE,但看上去还是蛮有希望的,3个reviewer中2个态度比较“友好”,只有1个看上去比较“专业”,上一轮发回的意见一大堆,拼写错误和字母大小写也丝毫不看漏。这次的修改稿,看在我辛辛苦苦做了那么多实验的份上,就给我们过吧~不过论文确实比较忽悠,虽然算法还算巧妙,但所要解决的问题,我总觉得在现实生活中还是很难找到应用场景,这算学术总是走在应用之前?还是为了学术而学术呢?我也搞不明白,至少我还是喜欢走用技术去做实用的产品的道路,等什么时候境界达到能走在应用之前的时候,再回去搞学术吧。

利用做实验时100%CPU占用率以及0%人脑占用率的机会,终于把《诛仙》看完了,一开始以为没多少字,看了个通宵,结果看了一天才揭了个序幕,整部小说一共200多万字,差不多相当于四大名著中三部之和那么长了。很多人都是先看了诛仙的小说,然后去玩了诛仙的网游,后来又有人做了个诛仙的war3rpg地图,我接触诛仙的顺序却刚好反过来,先是玩了war3的版本,觉得这个rpg的人物,技能,背景设定都不错,既古朴又华丽。后来发现有诛仙的网游,是完美时空出的,去玩了一下,发觉这个游戏实在是太傻瓜式了,任务不单单有地点提示,还能自动跑点,不仅如此。。居然还能自动打怪,还能指定只打与任务有关的怪,这和一个界面华丽的外挂也没多大差别了。

看了小说以后,才真正感受到了《诛仙》的经典,有人用一句话概括说“金庸写的是侠,古龙写的是义,诛仙写的是情”,经典也不只是诛仙的情,还有贯穿整部小说的那句“天敌不仁,以万物为刍狗”,出自老子的道德经,我看过的武侠小说不算多,以往的小说中一般总会体现一个“邪不胜正”的价值观,最终正义战胜了邪恶。虽然诛仙的结局还是“近卫军团”战胜了“天灾军团”,但小说中对“正”提出了质疑,所谓的正道就一定是正义的吗?正道和魔教一样也存在内在的勾心斗角,同时正道在“替天行道”剿灭魔教的时候,一样也妇孺皆杀。“天敌不仁,以万物为刍狗”,大致意思是世间万物本都是一样的,没有贵贱之分,正邪也是如此,并不是标榜“正道”就是所谓的正义了。

好像已经偏离了牛年小节的轨道了,下次接着写。

陆行鸟

第一次注册域名(Chocobo的顶级域名买不起,只能买了配件自己组装),第一次用wordpress,的第一篇日志,让我想起了初中时第一次做个人主页,用的是免费空间,附送二级域名(及各种弹出式广告),用frontpage将一些文字和图片以和谐但美观度小于0的形式建立了第一个网站,内容是各种资讯,图片,游戏,下载,活脱脱的山寨版门户网站,和个人主页完全无关,但站名却用了“晓峰个人空间”,囧。当时大家都喜欢用各种网名,我却反其道而用真名,等大家都开始用真名了,我找到了个感兴趣的ID: Chocobo,就是“最终幻想”里的陆行鸟,并不是因为我热爱最终幻想,虽然最终幻想的CG和音效都不错,而是因为在玩FF8时,玩了那个捆绑的陆行鸟养成游戏,突然觉得Chocobo这个字母组合很好看,而且陆行鸟这个名字也很有意思,大有将鸡鸭鸵鸟等禽类收归派生类的气势,就把各种应用的ID和头像全都换成了陆行鸟,而“巧克博”取自Chocobo的谐音,“博”通“Blog”,所以为Blog取了这个名字,听上去比“陆行鸟”更Install B一点 XD

最近周围的事情特别多,几乎没有时间能够停顿下来好好做自己的事情,学学自己想学的东西,玩玩自己想玩的游戏,域名和空间其实也已经注册了有一段时间了。不过有位名人曾说过“时间就像[文明用语],挤一挤还是有的”,O2小队里现在只有Chris和木头还会更新Blog(虽然木头是一年更新一次),我也不甘落后,为了证明一点,男人更勤劳!第一篇日志到此结束,以后会常更新,因为还要当技术笔记用,^_^