服务咨询热线:

022-88711099

当前位置:

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用26

发布时间:2012-01-24 05:26:09 作者:Yt7589--csdn 访问量:1293

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用26

清华帮
吴言在每天的第一件事都是先上到天使街转一圉,因为天使街是吴言的一个朋友Thomas创建的,吴言想给Thomas的网站增加点人气。最近这个网站各方面逐渐完善了起来,无论从内容方面,还是从版面设计方面,都有不小的进步,吴言很替Thomas感到高兴。吴言把自己当前的情况给Thomas发了信息,想听听他有什么好的建议。
出乎吴言意料的是Thomas很快就给吴言回了消息,而且写得很长,一看就知道是认真思考后写的。吴言不禁很感慨,一个网站的创始人,如果对每一个用户都有这种认真负责的精神,那么网站怎么可能不发展壮大呢!网站的发展,很大程度上和网站创始人的境界有关,比如说雷军小米科技的米聊,本来是一个不被人很看好的业务,雷军硬是凭着自己的影响力,对前几千名注册用户,每一位都亲自打招呼,令新用户感激涕零,怎么能不在感恩戴德之外,全力为米聊做免费的口碑宣传呢!正是凭借这一点,米聊现在已经至少有几百万用户了。雷军现在在做小米手机,吴言一点都不担心小米手机的前景,也许在将来的某一天,你就可以看到雷军在街头签名售机,有这种精神,有什么做不成呢!
反观山寨工场投资的某些项目,比如问知平台,本来是模仿国外著名问答网站Quora,最开始是炒作邀请码,号称只有有身份地位的人才能获得邀请,成为问知会员就是身份地位的象征,然后就玩起饥饿营销,严格控制邀请码数量,吊足普通用户的胃口。吴言是在四万多名用户时获得邀请的,刚开始进去也受宠若惊,拼命的找问题回答和问问题,居然后来还获得了邀请别人的机会。但是吴言发现,自己无论是问问知团队的问题,还是给他们发送的私信,都会石沉大海杳无音信。仔细研究了他们的网络使用行为后发现,他们只与一个小圈子交互。这就不难理解了,他们自认为是一群精英,怎么能看得起像吴言这种普通用户呢,跟吴言这种人对话也太掉价了。这常使吴言感慨,他们一定在收到自己以及其他人的类似信息后,心里骂着“这帮人,也不撒泡尿照照自己是什么玩意儿,也想上这来跟我们附庸风雅,太可笑了!”,然后看都不看就直接删掉了。经过这样对待的用户,至少对吴言来说,反应一定是再也不上这个网站了,一有机会就诋毁一下这个网站。他们已经很牛了,自己没必要费力让他们变得更牛,尤其是人家根本不在乎你捧场的情况下。这样的网站发展能好吗?至少从现在来看,这个问知平台离聚集百万用户的互联网业务的生死线还很远。
吴言仔细阅读着这位朋友的回复,发现这位朋友向吴言打开了一扇大门,让吴言看到另一世界真实的情况。Thomas在回信中介绍说,现在一线投资机构的主要负责人,要么有海外留学经历,要么就是清华北大毕业的清北帮的,他们投资的项目,一般也都集中在清华及北大系的项目。现在有很多清华及北大的项目,每天都在缠着这些一线投资人,因此他们被投的概率最大。另外,以清华为例,每个领域都会有一两个创业项目,清华学生做的项目,重点不是和社会上的创业团队竞争,而是和清华校内的创业团队竞争,只要在清华校内做到前三名,就可以在各种创业大赛中获奖,进而接触到一线投资人,最后获得投资。因此,清华及北大创业具有先天的其他人无法比拟的优势。
他比较熟悉清华的情况,清华创业以经管系为主,这个系主办MBA及EMBA教育,还主办创业者训练营,当前在EMBA班中很多都是企业老总和大企业金领,到这里来就是来寻找机会的,你也可以看到,有好几个成功的企业都是清华MBA同学做出来的。
因此,Thomas建议如果真想得到投资机构的投资,最好到清华读个博士或EMBA,这样可以在老师的帮助下,得到清华资源的资助,利用清华平台把项目做起来。
原来是这样,吴言想想也觉得有道理。现在的互联网创业界,和金庸小说中的江湖非常类似,清华、北大就是当前最大的帮派,而雷军系、阿里系、新浪系、腾讯系、创新工场系就是各个门派,创业者必须依附到某个门派才行,否则个人势单力孤很难成事。自己之前创业这么久,做不出一点可圈可点的成绩来,很大程度上就是因为自己不是这些门派的门徒。
但是怎样才能成为这些帮派的门徒呢?考清华的博士倒是一条看起来不错的路,考MBA和EMBA对吴言来说显然在经济上负担不起,如果不是把钱花在创业上倒还差不多,如果当初Thomas给自己这个建议,用创业的钱读MBA可能会更好,吴言不禁有些后悔。但是,以吴言的性格,未必可以在MBA期间积累起强大的人脉,如果是这样那钱也很可能白白浪费了。
考清华的博士,吴言倒不是很发憷,一直以来吴言对考试都比较在行,即使是在北航也经常考全班第一、二名,这成绩上清华问题应该不太大。但是,怎样选博导老师呢?大部分博导老师估计都比自己小,想起年轻老师带一个老学生,吴言自己都觉得好笑,这些博导肯定也会有类似的顾虑吧!年龄问题一直是吴言的一大心病,在中国当前的社会氛围下,如果一个人三十岁最多三十五岁还没出成绩的话,社会上就会给他贴上失败的标签,再想做什么就比较困难了。
考清华的博士虽然可行性方面还存在巨大的问题,但是吴言还是不经意的准备了起来,对于博士学位吴言还是很向往的。当年本科毕业时,因为不能留京,所以咬牙上了研究生。由于家境贫寒,吴言对缓解家庭财务困难很有压力,本来家里因为自己上学就借了不少债,读研究生又浪费了两年半,所以当研究生毕业时,吴言绝不敢奢望再读博士了,唯一的想法就是工作挣钱替家里还债。现在家里经济情况好多了,自己目前也没有什么更好的打算,读个博士确实是个好选择。
经过多方打听,吴言终于找到了清华经管系搞数据挖掘研究方向的博士生导师,叫张国锋,正好今年对外招生,而且有一点令吴言很欣慰,张国锋是71年的,比自己还略大一些,经过几番周折,吴言终于和张国锋约好在清华大学纬纶楼303室见面。
吴言在周二的上午走进了清华校园,九月的清晨,走在清华园宽敞的林荫道上,校园中弥漫着静谥地书卷气,偶尔经过的行人,脸上也带着一脸的纯真学院派气息,不像吴言近些年所见到的冷漠和高傲。十几年之后重返校园,而且是中国最顶尖的校园,吴言感觉就像走进了童话世界,一切都那么的美好,沉浸在其中真的感到心无杂念,时间仿佛都消失了一样。这一切虽然就在眼前,但是他觉得离自己又那么遥远,只有在这一刻才能和这个完美的童话世界亲密接触,自己要好好珍惜这一刻,生怕一不小心,这个世界又离自己远去了。
吴言准时地轻轻地敲响了纬纶楼303室的门。
“请进!”语调中带着平易进人的气息。
吴言轻轻地打开了门,见到了张国锋正坐在办公桌旁。张国锋瘦瘦的,看起来比实际年龄显得略小一些,虽然是学院的领导,但是没有一点架子。
“张老师,您好!我是吴言。”吴言向张国锋打着招呼。
“吴言呀!请进!”张国锋放下了手头的工作,微笑着向吴言说着,接着把吴言让到了办公桌对面的椅子上,吴言正襟危坐在了椅子上。
“我跟你们李老师挺熟的,经常一起开会!”张国锋说着。李老师是吴言研究生时的导师。
“是吗?那太好了!”吴言回答着。
“怎么着,工作了十几年,又想接着再读书了?”张国锋问着。
“是呀,其实我想读书有三个原因,当年因为家境不好,所以研究生毕业时没有选择,只能赶快去工作挣钱,所以读博士一直是我的一个心愿。其次是我现在搞的全文检索、数据挖掘、推荐引擎应用,但是这些算法应用到实际中时,还有很多不完善的地方,如果要想改进的话,就需要做一些深入的研究才行,做研究只有高校才有这种氛围。最后一点,我觉得搞研究的目的还是要应用,这点清华做得非常好,我也想借助清华这个平台,把研究成果应用到实际中去。”吴言对这个问题早有准备,所以回答起来当然得心应手,非常具有条理性了。
“你最后一点说得非常对,在清华,尤其是我们经管系,由于我们有MBA和创业者训练营等资源,我们的研究成果的市场转化率很高。”张国锋总结着说。
接着张国锋问了一下吴言现在所做的项目,采用的算法等情况。吴言看得出张国锋对这个项目还是有一些兴趣,这使他觉得很欣慰。
谈话接近尾声,吴言正要起身告辞时,这时一个学习生突然先敲了一下门,还没等张国锋说“请进”就闯了进来,非常着急地对张国锋说:“老板,我师哥Tim做的程序出问题了!他现在人在美国,而且咱们明天就要演示了,指望他肯定来不及!”
吴言看了一眼这个闯进来的学生,是个女孩子,说话非常快,就像连珠炮似的,听口音吴言猜是湖南人,整个人透着一股干练劲。
张国锋略略想一想问道:“是不是那个将WEKA神经网络实现改为利用遗传算法修正连接权值的那个程序?”
“是,就是那个!”这个女生确认着,“本来是好好的,但是在人口普查数据做分析预测时,您不是说原来的算法太慢,需要好几分钟,给改成基于Hadoop的实现了吗?改完之后就出问题了。”
“是这样啊!你给领导演示时,让他们在你机器前站几分钟等着,肯定不能接受!”张国锋说着。
“可是真凑巧,咱们学计算机的同学都不在这,所以才让你来搞的,看来我是低估了这个任务的难度了!”张国锋半自言自语地说着。
“哎,对了,你对WEKA和Hadoop熟不熟?”张国锋突然抬起头,这么直接的问着吴言。
WEKA和Hadoop吴言倒是都搞过,于是说:“这些以前搞过一些。”
“那你帮我们这位女同学看看,她本来是学管理的,现在让她搞程序设计,有点勉为其难了!”张国锋直接地说。
吴言不禁有些激动,同时也有些心里没底,如果做出来了当然好,如果搞不定那不就丢大脸了!想到这里,吴言很谨慎地说:“我只能是尽力而为了,不过......”
“没关系,我知道。那你就帮忙看看,没关系。”张国锋很宽容地说。
于是三个人来到了实验室,那个女生把吴言让到了一台计算机前,说道:“你看,就是这个,你看这个异常报的!”女生一边说一边指着满屏幕的异常说着。
吴言坐到的计算机前,张国锋就站在身后,吴言的心砰砰直跳,深深吸了一口气,平静了一下既兴奋又紧张的心情,将注意力集中到计算机上来。原来是个基于Eclipse的项目,吴言将一支手放在鼠标上,一支手放在键盘上,先看了一眼异常,从异常中很难发现什么线索。于是,吴言开始了调试过程。吴言首先确定了操作系统版本、内存数量、JDK版本、JRE版本及安装位置、WEKA版本及安装位置,随后又检查了Eclipse的版本,项目库文件配置是否正确包含WEKA和Hadoop,经过这一系列检查,吴言此刻可以肯定,这个问题不是因为配置原因造成的。
在吴言做这些检查时,那个女生偶尔还不耐烦地说着:“这些都不用看,没问题!”但是这是吴言做事的思路,对于Java程序,首先要保证环境配置的正确性。
虽然没仔细看源码,通过注释和函数名的猜测,吴言觉得将WEKA任务拆分为Hadoop的Map/Reduce也没有原则性的错误,那么问题会出在哪呢?吴言陷入了沉思。
刚开始时,由于张国锋站在身后,吴言还有种如芒在背的感觉,但是当吴言逐渐进入到程序中时,吴言已经完全忘记了张国锋的存在。直到张国锋拍了一下吴言的肩膀,说:“看来这个问题还挺复杂,我呆会还要开个会,辛苦你帮我们这个女同学调一下。”
吴言被吓了一跳,这才缓过神来,一看右下角的时间,发现自己已经调试了一个小时了,不禁有些不好意思了。于是站起来说:“不好意思,我还得看看,张老师有事儿您先忙,我再试试!”
张国锋点了点头,就直接出去了。
吴言又全身心地投入到程序调试中,突然吴言想到以前好像也遇到过类似的问题,当时是什么原因造成的来着?又是怎么解决的呢?吴言陷入了冥思苦想中。这时,计算机嘟嘟地叫了起来,吴言吃了一惊,原来是刚才自己想得太出神,手指压在键盘上,键盘缓冲区溢出了。吴言赶忙把打上去的字符重新删掉,原来吴言把一个HashMap对象硬生生从中间给断开了,吴言不好意思的吐了一下舌头。等等,HashMap对象,吴言眼前顿时一亮,这个HashMap对象需要几个线程同时访问的,HashMap对象不具有线程安全特性,但是给他加锁机制了吗?吴言仔细阅读了相关的代码,确认了程序并没有给这个HashMap对象加锁,也许就是由于这个原因造成的。
找到了可能的原因之后,吴言采用synchronized的方式,给这个对象加上锁,然后保存运行,太好了,程序居然没有异常,在经过几十秒的等待之后,一幅漂亮的统计报告跃然显示在了屏幕。太好了,要不是在清华的实验室,吴言早就高兴地跳起来了。极力压抑住狂喜的心情,吴言把那位女同学叫了过来,尽量平静地给她演示了一遍。那个女生也很兴奋,连说“太好了,太好了!对了,你是怎么搞出来的!”
接着吴言给她解释起了原因,吴言尽量解释得比较通俗,那个女生很聪明,吴言说到一半就完全理解了。接着那位女生又饶有兴致地问吴言是做什么的,来找张老师做什么等等。
两个人正聊的高兴,张国锋从外边推门进来了,首先问道:“怎么样?问题解决了吗?”
吴言站起来,如释重负地说:“解决了,解决了!”
“那太感谢你了!要不要中午一起吃顿饭?”张国锋问道。
“别客气,不了,不了!我下午还有事情!”吴言谢绝了张国锋的邀请。
张国锋亲自把吴言送到了楼梯口,在路上语重心长地说:“其实一个好老师不在乎他自己有多牛,关键在于能对自己的学生知人善任,并且能够掌握学生们做的程度,这样才不会造成学生们每次都重新发明轮子。我从你坐在计算机前的一刻起,就发现你是个计算机高手,因为你做事情有条不紊从容不迫,你肯定是一个搞数据挖掘算法的好手。”
“哪里哪里!”吴言受到张国锋的肯定,心里十分激动。
临分手时,张国锋和吴言握着手,说:“希望你明年能考出好成绩!”
和张国锋分手后,吴言着实为自己刚才的幸运出了一身汗,如果不是因为自己把那个HashMap对象断开,怎么可能发现它没加锁呢?真是太幸运了。很多时侯,吴言解决各种难题都是由于偶然原因搞定的,有时侯吴言真的感觉好像真的是有神灵相助似的。
张国锋的话不禁使吴言想起了于丹论语上的一个故事,一个顶级茶艺师因为穿了武士服而得罪了一个武士,非要和他决斗。无奈之下,茶艺师只好向另一个武师求教,那个武师在看了茶艺师的茶艺表演之后,说你只要像你泡茶一样去准备和那个武士的决斗就可以。果然,比武那天,茶艺师就在那个武士面前缓慢而认真的摘下幅子,裹好衣服,绑好裤脚,最后拨出剑,结果那个武士被吓得跪在地上,说你是我见到的武功最高的武士了,我认输了。显然,要想成为一个领域的高手,真的必须注意细节,正是这些细节可以体现出一个人的专业,自己以前养成的一些习惯,阴差阳错地就成为了一个程序高手所应体现的细节,但是这些方面自己还有需要加强的地方。
敬请期待下集:投资投资

本文由客户端添加