前段时间牛年小节写了没多少内容就发觉已经出轨了,而且是出轨后继续行驶1000公里,真正在牛年做的事情好像没记录多少,今天再来回忆一下,顺便当笔记用了,哈哈。
学位论文发表了,虽然自己感觉有点豆腐渣工程,并略带忽悠,但毕业论文还是要写这一方向的内容,还是需要好好整理思考一下。文章的题目是《面向大型数据集合的关键分类查找算法》,题目是小老板定的,不过我还是没搞清楚为什么前面要加上“面向大型数据集合”这个定语,可能是为了吸引评审的眼球,在我看来,虽然算法有些优化的规则,但真的用到大型数据集合上,时间开销难保惨不忍睹,毕业论文还要好好把算法改进一下。
再来说说文章的核心“关键分类查找算法”,随意举个例子,统计青年人,中年人,老年人买车的开销(A: 老年人买什么车啊。。 B: 举例子!举例子!),看哪一类人买车的开销最高,很容易想到,就是对每一类人取个平均值,再做比较,但有时候这样的统计方法得到的结果可能并不科学,假如真实情况是中年人买车开销最高,但统计的样本中有几个老年人买了名贵车种(一辆抵几十辆),一下子就把平均值拉高了,这样用平均值得到的结果就有些失实了。为了消除平均值带来的不准确性,我在文章里用了近年数据库领域比较火热(为了能发表,就只能接受忽悠大军的思想了)的“不确定数据”模型去对问题建模,主要是考虑了数据的分布特性,而不是简单的平均值。
上面仅仅举了个简单例子,说穿了“关键分类”在这个例子里就是购车开销最高的年龄段,但从“有几个老年人买了名贵车种”看出,也许决定购车开销的“关键分类”并不一定是年龄段,在实际的问题中,除了年龄段,还有例如性别,学历,或者其他各种分类属性同时存在,所以这篇文章做的事情就是在众多不同的属性中找到最重要的属性值,比如“女性最爱看瑞丽杂志”或者“30-40岁的人买房子花的钱最多”。
以上就是文章解决的问题。很容易想到,能够再进一步深入的话,可以解决这样一个问题,就是可以得到一个结果类似“25-30岁、职业是软件工程师的人在数码产品上花的钱最多”,也就是说找到一个多属性的“关键分类”,但问题分两面,要想得到这样的结果还要考虑这样的结果是否有价值,如果得到“25-30岁、职业是软件工程师,男性,名字是Chocobo(举例子!)的人在数码产品上花的钱最多”,这样的结果等于是找到一个特例,就毫无价值了,反而有点侵犯隐私的嫌疑。恩,毕业论文可以从这个角度入手。
另一个可以深入的角度是,上面举的例子中属性本来就是分好类的,实际的数据中有些可能并不是离散数据,比如人的年龄,年收入,如果能自动将原始数据分类,再找出关键分类,那就更好了。而这样的方法也是有很多的,比如聚类、直方图,关键是如何与原来的方法很好地结合,这也是毕业论文需要考虑的。其他诸如算法的优化就不多写了,还要再思考思考。
————————我叫分割线,我信春哥————————
再来记录下实习,本科的时候是在VeryCD实习,虽然实习时间很短(应学校规定)工作做得不是很多,但还是被公司良好氛围(人手一台apple,嘴里大嚼php,python,ubuntu及各种奇闻异事)感染,对技术更添兴趣和热情。这次实习本来是去eBay的,本科时投过两次都没拿到过offer,可能是当初对自己的定位不清晰,这次投了数据仓库部门,结果群面总共只说了一句话,还拿到了offer。。本来抱定要去eBay实习,结果小老板说IBM CRL的一个原来实验室师兄项目缺人,推荐我去,一来是小老板推荐,不好意思拒绝,二来也有点好奇心,觉得自己以后工作肯定不会去啥研究院之类的地方,就答应去了,本来以为IBM办事效率低,说不定等我eBay实习开始了那边实习生招聘流程还没走完,那我就可以有正当理由拒绝了,结果IBM办事效率确实低,不过在我on board前一天给办好了。。我只好硬着头皮给eBay打电话说不能去报道了。
IBM研究院的人(不包括像我这样的实习生)给我的感觉是太累,并不是指工作累,我的工作地点是上海张江,但IBM研究院本来是在北京的,08年底才在上海设立了分院,如此一来,可能一个team的人分居京沪两地,这样工作上有什么事情就只能电话沟通,此乃一累。每个正式员工可能同时参与了多个项目组,而项目组经常会有各种会议要开,会议在会议室里面开,用网络电话和异地的同事进行交流,这样的情况导致了两种场面发生,一个是像我mentor那样项目很多的人,有时候一天看不到人,在会议室里面都不出来了,连续作战;另一个场面是有时候办公室里面看不到人,都去各种会议室开各种的会了,有时候是为了能和异地的同事沟通,但在自己座位上打电话不方便,怕影响别人,只能去会议室。
工作内容么,此处略过300字(IBM confidential),哈哈。
————————我叫分割线,我信春哥————————
找工作也已经尘埃落定,淘宝数据平台部门,职位是我一心向往的数据仓库开发工程师。虽然当初投淘宝的时候对淘宝除了购物网站以外一点也不了解,听宣讲会的时候还有点自己是去打酱油的感觉,但笔试完回去以后特意找了数据平台部门的团队blog看了一下,发现做的东西都很有意思,而且用的技术都很新,也是我想学习的方向。没想到笔试完当天晚上就接到第二天去面试的通知,面试完也是当天晚上就接到offer的通知,可以说从一个打酱油者,到感兴趣者,再到被录用者的转变就发生在短短的两天内。。。
这次记录的全面一点了,篇幅有点过长了, 不过反正这里也是我记笔记的地方,大家不想看的内容可以略过数行,哈哈。