2017 End-year Recap

距离要起床去机场还不到2个小时了。实在是辗转难眠,就起床开始写今年的倒数第二篇博客了。如果我在飞机上能读完那本书的话,还是会有一篇book review的。

先贴上2016年的回顾吧。毕竟格式是要保持一致的。

2017年回顾

上来先做个工作报告,回顾一下16年展望中的工作进展:

  • 博客数量至少100篇!

粗略数了数,17年目前为止总共写了62篇博客。其中技术类44篇更新在我的个人主页上。虽然没有完成既定的目标,但是我个人对这个数量还是比较满意的。年初的时候就基本发现1年写100篇博客其实还是不现实的。如果在这个数量前加个“有质量”的定语,那就更加不可能。“有质量”仅仅是指对我个人来说。技术博客9月份以前由于工作原因时间比较充分,所以还是可以好好看看书,然后写写的。但是到9月份的时候就有灌水之嫌了。所以,我就果断作罢,停止技术博客更新了。希望回国冬假期间能补上几篇。Wordpress的博客这一年来还是坚持每月至少更新一篇,整体质量还算说得过去,只有11月份灌水了一下,这里作为半吊子作家自我检讨一下。博客的灌水究其原因还是时间不够。随着开始硕士学习,课程强度使得我没时间沉淀。每天都在张着嘴,被老师拿各种新东西往里揣。现在感觉有点消化不良,希望冬假能沉淀沉淀。

  • 体脂比降到15%以下,体重降到70kg

看到这个是老泪纵横。在国内控制的可以叫做胜利在望,但是出来了就可以叫做惨不忍睹了。最好记录是72.6公斤,12%体脂比。主要出来检讨一下在国外这几个月骄奢淫逸的罪行。首先没弄个体重秤是最大的问题原因。果然没有数字的直接刺激,就很难评估每次运动的直接成果。其次就是吃了。最开始吃还是克制了一些,但是后来就非常放飞了。10月底开始我家来了个重要客人来我这入伙,那真是变成了想怎么吃就怎么吃了。一顿饭不仅要弄个2,3个蔬菜,连肉大部分时间都是既有白肉也有红肉。每次蒸米饭,我的手抓个3把就差不多了。但是由于客人实在太过尊贵,就抓个4,5把了。米饭真是个好东西。亚马逊19.99一大袋便宜不说,吃起来特别管饱。每次两个人坐在椅子上,互相看着对方拍着肚皮的样子,一种幸福感与安全感混杂的情绪就油然而生了。现在我做饭口碑算是小有建立起来了,至少在那位不能说名字的客人面前,我做的饭是属于管够并且“多搁点盐就是餐馆水平”的了。现在和我室友,以及那位客人相约减肥,为此我室友还搞了个体重秤。希望能如愿。

  • 看书频率要达到这位的速度

这个又是罪过了,完全没有达到预期。如果把全年以出国日期8月5号作为切割点的话,两段时间各自出现了一些问题。出国前看书偏细致,算法书逢题比作,看的实在是过于精细了一点。同时,自己文学类书籍看过一些,但是频率还是不及。出国后看书效率明显提升。这个主要得益于跳着看这个方法。 这里非常感谢Prof. Dana Ballard教的Machine Learning以及其他courses的老师们,自学成为主要学习手段。疯狂的project进度逼迫着我这个完美主义者向能用就行主义者的进化。看一本书直接就看最相关的章节,所有背景知识都是后补,并且如果又不理解的但又不影响阅读的,就画个标记搁置起来后边再看。意识到一本书可以看多遍的道理,所以第一遍读时的贪欲就少了很多,就不求每个点都读懂了。是的,写这段话的时候,我脑海里浮现的书名就是PRML。但是,一本书没有看完大部分章节终究还是不能说看过的,所以8月份后问题主要出现在时间不够上边。介于未来几年希望能读完PhD的我来说,状况可能改善不会太大。

  • 每读一本书都要写book review!

这个做的还是不错的。因为毕竟真正读完的就没有几本而且都集中在上班时期,所以每本读完的书都写过book review了。

  • 有所学校能收了我!

这个愿望算是实现了。感谢主。我来到了UT-Austin!

从2016年的展望来看,5个点真正完成的了只有最后两个,完成率40%,只能说一般。但是从2017年整体来看,我还是比较满意的。适应了从职场人到学生的转变,虽然第一学期的Graduate school非常难熬,但是我还是非常高兴自己能挺了下来。希望新的一年里能继续加油。

2018年展望

  • 向下扎根,向上结果

其实这是教会2018年要交通的主题。结合自己来看就是希望自己能够更加的了解神,接近神,信靠神。教会里属灵前辈讲男人是头。17年的第一学期主要参加的就是团契和主日了。祷告会一次也没有参加过,甚是惭愧。重要的客人这方面已经积累了10多年了,要超越不容易,但是还是要做。具体来说,18年希望内心得刚强。有的时候我深深佩服我这位客人。总觉得内心是刚强的,尤其在美国,在外旅行的时候。要向她学习。这点我觉得解决问题的关键还是在主那里。也许主让我和这位客人相遇就是想去除我内心上的软弱呢?我还是非常相信这点的。

  • 找到实习或者署研

这点其实是老生常谈的问题。研究方向成为了17年一个贯穿始终的话题。坦率的讲,我第一学期之后还是没有发现我真正的研究方向。NLP已经成为我AI方向中的头号Candidate。但是System那边还是希望能多explore一下再做最终决定。至少目前我是这样想的,但是不到课表确定的最后一刻,任何问题都还是说不定。确定了研究方向暑期研究具体做什么也就确定了很大一部分了。剩下的就是确定导师了。实习算是另外一个方向,主要是为了刷题多积累点动力。另外一学期的政治学习也积累了不少动力。

  • 有学校可上

18年底又又又要申请学校了,这次希望继续有神的保守。

这一切的一切都需要主的保守!

Advertisements

书评:《男人的一半是女人》- 张贤亮

这本书立在我的书架上很久了。我曾经被它的标题所吸引,但是翻开到第一部第一章,开头却是这样子的:

也许我过去见到过她而没有留意,也许我从来没有见到过她。总之,这一次,她却给我留下了一个非常深刻的印象。

两个月前,我从大组被抽调出来,去管水稻田。在劳改队里,我是大组长,调到田管组,我仍然是田管组组长。

我顿时失去了兴趣。这本书似乎描写的并不是我脑海中特定的画面。我就把它丢到了一旁去看我的电脑去了。但是,在半个月前的某个晚上,我实在是难以忍受电脑所散发的热量,来到了卧室书架旁,想随便找一本书翻翻。我对外国文学的喜爱程度远不及我啥事吧对英文技术书籍的热衷程度的。一个个拗口的名字不停的摧残着我大脑的记忆力:莎士比亚的剧本我一部也没有完整的读下来过,每次总是边往后看,边捏着前几页出场人物表不放,像查字典似的费力的啃着每一个字。当我的目光划过《男人的一半是女人》的时候,自然而然的我就伸手把他从书架上取了下来。

这本小说在我看来一大特点就是真实。这种真实源于作者对人性的描写。这点在以文化大革命为背景下就显得更加弥足珍贵。众所周知,人的欲望是没办法被遮盖的。这个和他所处的时代和文化背景是没有什么关系的。很多文学影视作品,在描写某个特定时间年代的时候,都会不自然的从某些特定的角度去描写。比如说,描写长征或者抗日题材的话,一个非常常见的角度就是尝试着从艰苦,人民被外敌蹂躏等角度去描写。承然这种角度本身是没有任何问题,也反映了当时的时代特点。但是,不得不承认的是,长此以往的这样描写,时代中的人物不免会固话在某种特定印象中:比如思想觉悟高,时刻准备牺牲等。这种固然会起到使人物形象高大化的目的,但是与此同时却又使人物脱离了一个正常人的正常喜怒哀乐,人之欲望等特点。变相的使形象与读者脱节,造成了一种符号化的印象。从这种角度来看,张贤亮的《男人的一半是女人》取得了某种意义的突破。虽然整个故事的时代背景是文化大革命等各种建国初期的整风运动,但是作者却从文中男主老章和女主的黄香久的感情故事入手,既反应了当时人们的心理特点和生活常态,又从侧面通过老章的所思所想,表达了作者对文化大革命等整风运动的观点。

作者的真实描写是多方面的,甚至以我现在的眼光来看,作者的描写显得露骨,有时候甚至让我觉得我在看的是一本小黄书。比如说作者在描述女劳改犯在劳改队的生活状态时,他是这样写到的:

据他们说,女人在劳改队里比男人难熬,她们脆弱的神经忍受不了孤独,她们总要寻求爱抚、支持和保护。有的女犯隔着铁窗向警卫人员调情:“班长,你的小老鼠要咂水水子么?”

这种用词读起来的感觉和我上中学时大火的电视剧《蜗居》中宋思明对海萍说的“你想吃我的棒棒糖么?”非常像。一种成人的味道从文字中弥漫出来。再比如书中主人公老章最开始是没有性生活能力的。但是,在他舍身堵住快要决堤的大坝的窟窿后,他发了高烧,书中的女主人公黄香久解开了衬衣像温暖老章冰冷的额头,描写是这样子的:

她拽开的也不是她的衬,而是她的胸脯。在我面前,两大团雪白的莲花似的乳房一下子裸露无疑,莲花中间是彤红的花蕊,花朵还在一池清水中荡漾。花朵和花蕊,都比我记忆中的更大、更鲜明、更具有神韵。

石破天惊!我骤然产生了一种我从未有过的冲动。这就是爱情?我一伸手搂住了她。。。

“你好了!” 她的声音从很深很深的水底浮了上来。

”是的。。。我也不知道。。。” 我笑了。一种悲切的和狂喜的笑,一种痉挛的笑。笑声越来越大,笑得全身颤抖,笑得流出了眼泪。

“你还。。。能吗?” 水底又浮上来模糊的声音。

“能!”我恶狠狠地说。

书中像这样的描写其实有很多。这对读者来说是一种小刺激。但是,同时我却非常感谢作者这一种坦诚。在那个年代里,可以想象,崇高理想并不会让一个人时刻保持着活下去的冲动。但是,相反,恰恰是这种人性欲望和情感需要才会让人能艰难度过那段时光。老章最开始没有性能力其实并不是老章自身有什么生理问题。恰恰相反,从这次以及老章在林子中和黄香久的一段云雨看出,老章的身体其实一点问题也没有。那么是什么让老章最开始不能的呢?其实是心理上的一种压抑。这点从老章在第一次和黄香久相遇的场景就可以看出。老章和黄香久第一次相遇是黄香久在池塘了洗澡出浴的时候。老章第一次看到女人的裸体 。长时间艰苦的劳动改造和自己的本能让老章想要与她欢愉一番(”开始,我的眼睛总不自觉地朝她那个最隐秘的部位看。“)而黄香久也摆出了一番欲迎还拒的姿态(”她并不急于穿衣服,却聊下手中的内裤,像是畏凉一样,两臂交叉地将两手搭在两肩上,正面向着我。“)。但是老章总后却没有行动,他用自己的理性战胜了自己的欲望,但是与此同时这也给老章带来莫大的内心痛苦:

就在这孤零零的土屋里,就在这张散发着霉味和汗臭味的炕上,我展开过各式各样有关女人和爱情的幻想。所以,我非常的懊悔,我失去了一个极为难得的机会;可是,我又很感自豪,觉得自己经受住了一次严峻的考验。但究竟是什么?我也说不清。啊,魔障啊,魔障!是什么阻止了我扑上前去?既然那种精神上和肉体上的饥渴同时折磨这我和她,既然我们身上都烙印着苦难的印记,为什么我们不能再苦难中偷得片刻的欢愉?

我开始蔑视我过去所受到的全部教育。文明,不过是约束人的绳索,使一切归于人,发自人的本性的要求都变得那么复杂,那么可望而不可及。如果我象那些普通的农民劳改犯就好了。但我又庆幸自己过去受了教育,是文明使我区别于动物,使我能克制自己,在关键时刻表现出了人,也只有人才能表现出的高尚行为;我有自由意志,我可以选择,因而我要对自己的行为负责。然而,倘若我迎了上去,世界也并不会因此更坏些;我转身逃了开区,世界也没有因此变得更好。我,一个劳改犯,一只黑蚂蚁,还谈得上什么用行为合乎道德规范这点来自宽自慰?何况,如果我认为自己是道德的,就必定认为她是不道德的,而我又有什么权利在心里职责她?那不正是曾在自己幻想中出现过的场景吗?我对自己的行为负责,那么谁又曾对我负过责任?社会的责任似乎就全在于折磨我和迫害我。

。。。 那么,刚刚我要是与她媾合了,我就将不成其为我,我今后的命运就可能大大改观–

据说,人一生的命运就是一连串一环套一环的因果关系。不过,我又怎能知道改观以后的命运必然更糟?说不定我还能从此割断束缚我的精神绳索,还原成一个人,一个原始的人,在这个野蛮荒唐的年代,用野蛮人的方式去荒唐地生活。。。

我对老章这番思想斗争还是颇有感触的。因为,不论在何种年代,做一个好人真的是非常非常的不容易的。有些时候,在生活中你会发现似乎最后总是坏人,不道德的人,没有那么多像老章这种精神束缚的人笑到了最后。就像老章说得那样:“我对自己的行为负责,那么谁又曾对我负过责任?社会的责任似乎就全在于折磨我和迫害我。” Google的名言是“Don’t be evil”。但是,仔细想想,这是一个多么高的道德要求:”倘若我迎了上去,世界也并不会因此更坏些;我转身逃了开区,世界也没有因此变得更好。“ 如何在面对诱惑,面对那些最后 ”be evil”然后获得利益好处的做法,保持一种不作恶的行为准则。这是多么苛刻的要求。最后,也许就像老章那样,不停地去压抑自己,去符合社会所谓的准则,去活下去。但是,这真的是“活着“吗? 我不知道,书中也似乎没有给出这方面的答案。最后,老章为了自己的信念选择了离开黄香久。这也许是老章选择的 “活着”的一种方式。那么,我们自己真正应该以一种怎样的姿态去活着呢? 我还没有一个明确的答案。

注:我真是太喜欢这种纸页泛黄的书读起来的感觉了!

张贤亮.jpg

 

Takeaway from DTCC 2017

由于同事出差,我有幸参加了在北京国际会议中心举办的第八届中国数据库技术大会(Database Technology Conference China 2017)。这是我第一次参加业界交流大会,内心还是格外兴奋的。这次大会确实有很多的收获,我想用这篇博客记录下来。本来我想用英文记录的,毕竟对于计算机领域,英文是我的“母语”,但是介于分享主要以中文为主,所以我就还是以中文来记录了。

会议目标

虽然机会来的很突然,但是我还是设立了一些目标以最大可能的利用好这次机会(以下是这篇博文的英文初稿,由于实在是懒着重新翻译成中文,各位就凑合着看吧):

Get some sense from the peers

Focus on your own product is quite important. However, it’s even more important to see how your peers doing. I’m not an architect yet but I feel it’s helpful to begin thinking like an architect and see what the problems that your peers are facing and how they try to solve them. In addition, by knowing how’s the going with your peers, you may get a measure of yourself: is the work you are doing on the same level as your peers? Are you in a good shape in the job market? What’s the gap you need to fulfill skill-wise?

Deepen the understanding of the field

Even almost two years working on the database field, I still think myself as a newbie. This is mainly because database is arguably the most complex software that people can ever make and there are tons of stuff I don’t know. So, I want to see in a high level that what’s the trend of the field and what kind of reflection that people derive from their day-to-day engineering practice. I think this may help me to catch-up with the masters.

AI or System?

As I disclosed in my last post, I decide to head back to school and get a master degree. To be honest, my ultimate goal is to acquire a PhD in Computer Science and currently I’m actively preparing for it. The most important question is that which field I want to study?  I have two options and I have some interests in both fields: AI and System. Why these two options and not others is worth a whole new post and I don’t want to discuss here. So, my task for now is to gather as much information as possible about these two fields and see which one looks more attractive to me. This event is extremely helpful because it has sharing on System as well as on AI.

Day 1

第一天分为上下半场。上午是开场及四个分享。下午则是五个同时进行的专场,每个专场有六个同一主题的分享。这就造成了我无法参加每一个分享。第一天我的策略就是面面俱到:系统的我也参加,AI相关的我也参加。以下就是针对我参加的每一场的一些心得感悟和评论:

年度主题解读 (曹鹏 – 京东金融副总裁)

本次会议的主题叫做“数据驱动,价值发现”。这个分享是从京东金融自身的角度对本次会议的主题进行了结构。从中我记住了两点:

  1. Finance领域受到了机器学习的冲击,最近几年有越来越多的FinTech公司出现。机器学习在这种公司的主要应用从这个分享来看是对客户群体更加精确的定位和分析。相应的,对于量化交易策略的作用,这个分享没有涉及。我最近一直比较关心机器学习在金融领域的应用,但是从这个分享上,我没有找到我想要找到的答案。因为,在我看来,对客户群体的精确定位是一种机器学习的通用应用,并不具备金融行业的独特性。
  2. 数据公司在我看来是一个不错的创业想法。分享中提到数据对于京东金融的重要性。他们不仅要求数据的广度,也要求数据的厚度。一个重要问题是数据是具有很强的时效性和冷热变化的。一年前顾客的消费记录对于现在来说并不具备非常强的指导意义。因此,京东金融每天都要收集大量的数据(~6TB)来保证整个分析的准确性。同时,演讲者透露出即便在这种情况下,他们觉得数据还是远远无法满足他们的需求的。这个就能解释为什么IBM最近收购了The Weather Company和医疗影像公司Merge Healthcare:无非就是看上了这两家公司的数据。这让我想做数据贩卖商会不会是一个不错的创业点子呢?

数据库发展概览 (吴承杨 – 甲骨文)

这场分享整体来说亮点不多。不过还是有一些重要信息的:

  1.  在去IOE喊了那么多年的今天,Oracle的市场占有率依然有56%之多
  2. 数据库的未来是云:这里演讲者用一个case讲述hybrid cloud的重要性。企业现在面临的问题是如何将公有云的数据和本地服务器上的数据有效的对接在一起以及如何将公有云私有化等。整场演讲更像是Oracle解决方案介绍会,技术方面很少涉及,但是指出了未来数据库发展的方向:上云。
  3. 演讲者台风不错,是一个不错的演讲者。

数据技术的下一站 – 数据应用 (王桐 – 永洪科技)

这个分享反应出永洪科技的主营业务和技术实力可能不是那么雄厚。整个分享我感受到永洪科技做的是数据库的应用开发,而不是数据库系统的本身。从这个分享中我了解到永洪把传统数据库以及大数据系统做了个集成平台,并在上面开发了针对不同行业应用的服务。这个感觉和IBM自家的Bluemix非常像,少的只是Watson系列。我个人看来做软件系统集成要比做系统本身难度要低很多。整个分享关注在永洪科技所提供的各种数据应用的服务。我查了一下,公司属于初创成立于2012年,我觉得走到今天这个地步也是不容易的。

整个分享亮点还是有的。一个是人物岗位关系图的展示,流程之间的pending关系以一种网状图的形式展现出来,每个节点是一个岗位。通过这种展示,我们能清晰看出哪个岗位人物最关键,他的缺席或者能力高低会对整个公司业务带来何种影响。另外一个亮点就是资源配置图。展现的是诸如会议室的使用情况,使用率等指标。但凡在IBM呆过的,对会议室这点肯定会深有体会:无数会议室被人预定却无发得到充分利用。我想这种资源展示应该是对我们这种会议室资源紧张的地方来讲会有很大帮助的吧?

达梦如何冲击核心业务系统 – 国产数据库的产品发展之路 (韩朱忠 – 达梦数据)

我觉得这个分享可能是今天最励志的分享了。整个分享讲的就是一个国产小厂商是如何奋斗和外资数据库斗争,一点点争取市场份额,成长到今天这个样子的。这里边讲到的一个关于他们对这个用C写的数据库的SQL优化能力进行提升的例子。 他们曾经遇到过一条SQL, 长达3.9K行,换句话说就是粘到word文档里能粘350多页。里边包含着17个inner join, 557个子查询, 831个or筛选, 1000+个查询字段,2731个case when。他们通过不断优化将这个SQL语句从几百分钟降到不到1秒。另外一个故事是讲国产数据库生存的艰辛。因为大企业及银行电信等核心产业的数据库都是采用外资的, 国产根本进不去。国产只能在中小企业市场去竞争。但是,这家数据库通过自身的不断努力,终于拿下国家电网的单子以及西藏和东方航空的单子。这在我看来是非常了不起的成就。这就让我对IBM产生了反思。我不觉得我们DB2能在不经过针对性的优化的情况下就能处理这么复杂的SQL语句。这个例子也让我觉得要么我们是在用我们的名声和过去的积累在赢得客户,要么就是DB2售前的同事在做POC的时候super tryhard。我明显感受到我们和这些国产数据库在努力程度上的差距。也许有一天我和他们的地位会呼唤?我相信这是IBM高层不愿意看到的事情。我们确实该努力了。

SSD的IO Determination特性在数据库业务优化中的应用与拓展 (阳学仕 – 宝存科技)

这个是从storage上出发来讲如何用软件模拟硬件来提升读写速度。换句话说,这个分享带给我的思考就是数据库怎样才能利用IO determination提升读写速度。这里讲的IO determination我粗浅理解看来就是让硬盘上的应用能更加和谐共处,并通过提升应用优先级,IO资源上下限,以及时间上对读写顺序进行优化等方式来使应用获得所需要的资源。另外SSD对于网络发展的匹配也有涉及:通过硬件的提升,我们现在基本可以做到本地写入和通过网络写入远程只有10几微秒的差距。这些在我看来是属于OS的领域。硬件对DB的加成这个方向让我感到耳目一新。

面向未来的数据库体系架构的思考 (张瑞 – 阿里巴巴)

这个主要介绍的是阿里巴巴里的AliSQL的架构以及针对阿里业务特点的数据库架构的反思。这里有两点我想提及:

  1. 国内厂商和IBM在对待数据库上有本质上的区别。国内厂商如阿里巴巴,腾讯,以及百度都是以自身业务痛点作为出发点对自家的数据库进行开发和改造。所以相应的,这些家的数据库改造,提升都是带有极强的针对性的。他们的数据库架构可能并不具备非常强的通用性。相反,IBM是把数据库作为产品来销售的,因此在数据库本身设计上考虑到的更多是面面俱到,大而全的尽可能满足所有用户类型的需求。这就导致在某些场景下,IBM的DB2做不到像AliSQL, OceanDB, TDB那样强劲。因此,在超大型公司做数据库,最终方向可能都是“私人订制”。
  2. 机器学习与系统结合的越来越紧密。这里演讲者提到他们想在未来把自动运维转换到智能运维上面来。SQL不再是DBA来手动看,而是通过ML的某种方式来进行优化。这些阿里的人还没有想好但是他们觉得这是未来的方向。

下午场综述

下午听的有”百度NewSQL数据库系统”, “Tencent MySQL内核优化解析”, “滴滴大数据应用”,“自然语言技术在文智趋势分析产品上的应用”。百度上最大收获是说现在分布式事物数据库非常的热,如果研究透,就没有在国内趟不过去的问题。另外一点收获就是不要过分崇拜Google系统。虽然细节我没有听的特别懂,但是从演讲者言语间我感受到,黑猫白猫抓到耗子就是好猫。有的时候不能太学究。而且系统之间即使是理念一模一样,但是由于implementation不同,也会导致巨大的性能差异。

腾讯的讲的非常Technical, 加上演讲者是技术出身,整个session非常的煎熬,感觉就是内核优化是个大坑,需要很扎实的DB知识。最后两场我选得是和机器学习相关的。不得不说没有达到我心中的理想。滴滴介绍的是他们一些数学模型应用的场景。我感觉演讲者应该是加入滴滴时间不长,并没有从一些模型上讲出个所以然来,反倒是应用场景上更让我感受到经济学家也是有用武之地的:比如说如何运用高峰涨价来调控司机和打车人之间的供求关系,以及如何收取取消订单等行为给平台所带来的损失。也许是民怨太重,整个滴滴分享感觉像是个新闻发布会。最后的自然语言技术应用是非常无聊的。演讲者是产品经理出身,主要介绍了下腾讯是如何针把NLP技术应用在新闻上的。非常泛泛,没有提及一些NLP上的技术难点,非常失望。

Day 2

第二天我觉得整体上不如第一天的精彩。主要原因我在想是方向性和行业发展战略性的内容比例在降低而具体技术内容所占比例在上升。不得不说的是通过这两天大会的观察,国内数据库领域MySQL系和Oracle系还是占主流,这主要是因为互联网行业的蓬勃发展。下面我就简单聊聊这一天的观察和体悟:

  • Informix现在是和物联网IOT紧密的捆绑在了一起

在IBM我的邻居就是Informix Technical Support组。他们组的老大之前也分享过Informix在物联网领域的应用。这在我看来是为Informix这个昔日的巨人在找新的发力点以获得新生。这点也在今天题为“万物互联时代的数据库支撑平台–SinoDB”上获得了印证。SinoDB可以理解为Informix的fork因为这个公司从IBM这里获得了Informix的源代码的授权。不得不说的是IBM在这里变成了吐槽的对象,这些以Informix元老员工成立的公司认为IBM并没有善待Informix这个继子。他们认为是时候把自己的“孩子”重新领回来让他茁壮成长了。这也让我不得不思考当初IBM收购Informix到底是为了什么?问了问和我一同参会的同事,Informix的代码是否已经和DB2的有机的融合在一起现在还是个未知数。这也让我明白为什么在Oracle收购MySQL之后会出现这么多MySQL的fork:毕竟不是亲儿子。

  • 问题的多重性和domain knowledge的重要性

下午场我就是盯着机器学习专场在听。其中我觉得来自连家的“机器学习技术在房屋估价中的应用”的分享最为有意思。分享的内容其实从标题就可以猜出个八九不离十。这个分享一个重要的信息就是机器学习并不是以算法为核心的而是以建立在以domain knowledge为支撑的加工过的data的基础上的。对于链家的问题就是他们的数据量是十万级的,远不及一些图像处理或者文本处理的亿级别的数据。另外他们的数据是类别变量和连续变量混合,连续变量有数量级差异;以及不可避免的脏数据。这些都很大程度上决定了要基于domain knowledge的feature engineering和针对数据特点的算法确定。现在想想也就不难理解为什么从在本科上统计课到现在看的Prof. Andrew Ng’s ML课程,大家拿到数据的第一步都是plotting:就是为了能更好的结合自己的domain knowledge来观察数据特点及预处理。另外说一句就是,在我看来从昨天的滴滴大数据应用到今天这场链家的机器学习应用,他们本质上处理的问题都是属于经济学范畴。与经济学中计量经济所不同的是,机器学习的方法更加暴力:分析数据就是分析数据,而不是先要把问题归类到经济,然后按照经济的科班套路先建模再通过数据验证模型的套路来解决问题。我这里不想说也不够资格说哪个解决问题的方式方法更好。我想说的是一个问题放在不同角度来解决套路真的是完全不一样。站在不同位置上看待同一个问题也许能会擦出更加明亮的火花?

Day 3

最后一天就是全天的专场了。前两天听下来基本上对System, ML方向有了个粗略的sense。到了第三天我就把重点放在了其他一些领域比如说区块链。这里我觉得讲的比较好的就是“区块链与大数据技术结合的商业应用”这场。可以看出的是区块链作为一个新兴技术,由于账本本身是公开的,可以把 这个想象成一个巨大的只支持insert和select的数据库,那么对于这个数据库里的数据挖掘和针对这个数据库所能做的一些优化就成为了现在区块链届关注的重点。据介绍现在这个账本已经有3,400G这么大。我另外了解到,分布式账本这种技术应用场景还是非常广泛的。比如说红十字会接受捐赠就可以利用区块链技术使得所有捐款信息完全透明公开。说句题外话,现在任何一个项目都需要不同类型的人才。系统,AI都有自己施展拳脚的空间。

小结

参加conference确实是一个非常愉快的体验。像我这种技术渣渣可以了解到各个领域的前进方向,找到自己努力的方向和未来的定位。和我一快来的同事就跟我说参加这个会议让自己更加坚定了当初自己选择的方向。另外,如果有丰富的工程经验也可以通过这次会议吸取同行的一些经验教训,取长补短。另外,丰富的networking机会也是这种会议的价值所在。

走出会议的那一刻,我觉得天空好蓝。

知乎问答

最近在知乎上面有两个话题特别的火热: 丧失了喜欢人的能力是怎样的体验?现在的男性是否普遍不再对女性展开追求了?为什么? 我相结合我的一些经历和思考去聊聊我对这两个问题的认知。

这两个问题在我看来是同一个问题。换句话说存在一种解释可以将这两个问题转化成一个问题并进行解释。首先第一个问题在我看来就是当你对人际关系失望的时候,你自然而然就会丧失喜欢的能力。而体验作为我,一个男性来讲就是你看哪个女生都会把她们贴上一个标签。这个标签提醒你“股市有风险,入市需谨慎”。其实这个并不是针对女生,对于平常所接触到的任何一个人来讲,你都会把他们用这个标签贴上。在这个前提下你就会发现,女生只是作为接触到的人们的一个子集,自然而然的可以用第一个问题的答案来解释。

那我分问题再详细展开一下聊聊。上学和工作的最大区别就是对于人性有更加深刻的认知,从而在心理上产生了非常大的变化,这种变化很难让你再去拥有学生时代的那种心态。这个体现就是对于“朋友”这个词定义的转变。上学的时候我和人交往的mindset就是谁都是朋友,我都想以交朋友的心态去和每个人去交往。如果他做出了不符合“朋友”预期的行为,那么他在我内心的地位就会一点点被修正。直到最差的情况是形同路人。 但是工作后,你经历过事情就会发现你整个心理变化的过程是和学生时代正好相反的。你所见到的每个人都是路人,他如果做出了一些符合“朋友”预期的行为,那你会一点点去修正他在你心里的地位,直到他在你心里占据了“朋友”的一个位置。你会发现,“朋友”这个词就像纸币,在学生时期你执行的是非常宽松的货币政策,你不停的在内心里去加印,争取让任何你所见到的人都可以拿到这个纸币。但是,在经历过事情之后,你就开始慢慢的去紧缩,直到这个纸币变得非常值钱,值钱到很少有人可以拿到这个纸币。但是当紧缩到一定程度,你不仅不再印这些纸币,你更加想法设法的去回收这些你之前发出去的纸币,比如说减少联系次数,停止更新朋友圈,不轻易在哪怕是“朋友”面前发表你的真实观点等等。之所以会去这么做,从我的反思来看就是对人性,人,人际关系的失望。你在心里筑起了围墙,这个围墙是如此的坚固,很难有人可以走进来。

我上学的时候,我的室友是一个曾经在报社工作过两年来到wisc学传播学的博士。第一次见到他,觉得他是一个非常礼貌客气的人。什么问题都会笑呵呵的和你说。但是我会非常明显的感受到你们两个人之间隔了一层纱,无发看透他内心的真实想法。有一次学期结束,坐下来和他有机会小饮两杯,我问他是什么原因让他想来美国读phD的。他跟我说是受不了国内报社这种吹须拍马的乌烟瘴气。当时我不懂,我不懂这些事情对于一个人来说会造成何种的影响,直到我开始工作后,开始经历了一些人和事之后,我才体会到我这位室友所经历的事情会对他早成何种影响。所幸的是,在我和他生活的两年里,我渐渐觉得他慢慢变得真实了。会去跟我分享他的看法,他所听到的八卦,他喜欢的综艺,会一起去图书馆学习。我觉得一层还没有形成很深的冰在渐渐的融化着。

我所经历的事请让我的紧缩的政策越发收紧,紧缩到对于友情是否真正发生过,是否真正存在过产生了质疑。交友不慎确确实实是存在着的。我在交友不慎的两端都扮演过角色。我曾经是受害者,也扮演过加害人。不管是有意无意,你在一个人身上所造成的裂痕是无法弥补的。弥补友情是一个伪命题。隔阂是无法消灭的。及时做出了多少的努力,你都无法消除你对一个曾经信任的人所造成的伤害,他们会永远记得。我知道,因为我也是记得所谓“朋友”对我所做出的事情。我想也许我会原谅他,但是所需要的努力,在现在这个快节奏的社会下,是很难发生的。因为每个人都有更多的选择,路人茫茫,彼此都可以是对方的过客,彼此都很难说的上是对方的唯一。跟何况即使你愿意弥补,对方也很难再去给你开启一道窗口。拆墙容易,筑墙难。我所做的就是承担起责任,去承受个人所带来的痛苦,任何道歉都无济于事,唯有离开并内化,希望相似的事情不会再发生。What is lost is lost.

现在再来说说第二个问题。经典之所以是经典就在于你不同阶段去看,都会有不一样的感悟。我个人非常喜欢老友记,他的经典之处就在于任何人在成长中所经历的人和事情,老友记都以一种夸张的形式将其淋漓尽致的展现了出来。回答这个问题同样没有意外: Friends Season 06 Episode 23 “The One with the Ring”。里边最开始是Rachel和Phoebe在聊天, Rachel说Paul是一个private guy, 她希望能多了解他。紧接着在下一个场景,Rachel鼓励Paul去share他自己内心的想法。在Rachel再三要求下,Paul说了关于自己童年父母送个他的”plastic chicken that hop on”并因此获得绰号”chicken boy”悲惨往事。终于door is open,Rachel终于受不了Paul再三的哭诉,和他分手了。虽然这个情节非常夸张,但是确实反映了现在的一些问题: 很难去和女生建立亲密关系,因为你绝望的认为几乎没有人会去停下来去倾听,你对人际关系感到绝望,你在筑墙,这并不是针对女生这个特定群体,这只是一种自然而然的内心保护机制。

也许这就是所谓的成熟?

Nano-thought on Research

午休时间打开手机上的知乎随便读了一两个post。其中有一个作者的回答吸引了我的注意:

CV/ML顶级会议上的灌水文都有哪些特征?如何快速判断顶会论文是在灌水?- 李沐回答

在回答中作者这段话让我感触颇深:

学术会议除了交流学术成果外,还有一个重要功能是培养新人。虽然存在super star登场就是开创性的工作,但绝大部分人还是从小白文开始,慢慢积累经验。

小白文一般来说是基于前面的工作,做一点细微的改动,然后有理有据的把结果写下来。这样一方面通过实际动手熟悉这个领域,另一方面练习写作。但从读者的角度来说,这些小白文十有八九是灌水。

所以对于研究者来说,一方面既不要觉得灌水是耻辱也不要觉得这就是目标,比较好的心态是总是保证下一篇文章比上一篇要好。
这段话让我回想起我在wisc上Econ 580时教授Kenneth West对我们说过的话(大意如下):

Making a theoretical new model is certainly called innovation and definitely counted towards research. However, applying an old model to a completely new data set can also be called research and innovation. By all means, you shouldn’t feel shame of it.
对于一个刚接触research, 不知天高地厚,并且又有点妄自菲薄的我来讲,这句话当时我并没有听明白同时我也没有听进去。当时候我的想法就是我一定要通过这门课搞出个惊天大模型出来,即使一个独立模型没搞出来,我也要弄出个模型衍生品出来。我从内心多多少少有些鄙视那些把在原型paper中一个对油价的linear regression model放到自己的insurance cost data的做法。但是,与此同时,我内心里确有另外一种声音;这个看起来是一个挑战很大的任务,你真的可以吗?

一学期下来我发现做research是一个既困难又容易的事物。一方面觉得同一个模型放到不同数据上就能叫research让整个research看起来不是那么daunting。另一方面,却又觉得那些在我看来不那么“细微的改动”的research是多么的不容易。最后,我还是成为了被我鄙视的那类人,写了这篇关于足球运动员转会费的研究。

另外就像知乎作者回答的那样,不要觉得写这些所谓的“灌水文”就是耻辱,万事都需要过程, “绝大部分人还是从小白文开始,慢慢积累经验”。把自己当作目标,“保证下一篇文章比自己上一篇要好”就可以了。

最后,贴出一个我比较喜欢的quote,多多少少和这个topic有些关联吧:

“There are two kinds of gifts. First, there is the innate gift of a given skill. This is a minor gift. If you have this gift, a skill such as doing math or playing the piano comes naturally to you. There are millions of people with minor gifts of all kinds who never do anything great with their gifted skills, because they lack the major gift.

The major gift is the love of the work. This might seem backward. How can love of using a skill be more important than the skill itself? It is for this simple reason: if you have a major gift, you will do things with the skills you have. And keep doing them. And your love of the work will shine through. And through practice, your skills will grow and become more powerful, until your skills are as great or greater than someone who only has the minor gift.

There is only one way to find out if you have the major gift. Start down the path, and see if it makes your heart sing.— From “The Art of Game Design”[Schell ’08]

2016 End-year Recap

离2017年就不到几个小时了。赶紧趁着这几个小时对自己2016年进行个小结。

2016年回顾

2016年工作方面基本平稳没有什么太大的变化。到3月份左右应该算是这一年里最忙碌的时候。赶上了产品大版本的release, 任何新的feature都要在一个非常明确的deadline前deliver。现在看来这在IBM来说是为数不多的crunch time。有一种要以秒计时交作业的感觉。年中6月份左右,参加了一次CDL举办的Hackathon比赛,获得了第二名。这个应该算是这一年来说最激动人心的时候。参加比赛熬夜写程序的时候,让我重拾了好久不见的激情。听见自己内心说:“I just fucking love programming”。和小伙伴在环宇刷夜是最美妙的时光。觉得有一种上学在Lab里和同学做project的感觉。非常爽。这个比赛一过到今年年底为止就进入了非常平淡的工作节奏。因为并不是互联网产品,release的话也就是三年一个大版本,所以下半年的工作重点就集中在为2017年的大feature做调研和修复版本bug上面。

工作上将于未来的恐惧内化了。提到这里稍微多说两句。2015年年底,也就是刚入职场不久,就很快发现了在big corporation做developer的一个很大问题就是: institutionalize. 每个人就像螺丝钉,管好自己眼前的这摊,慢慢就变成只有对这一台机器适用的螺丝钉。这让我非常恐惧。如果在Google,我可能对这点意识的会更慢一些。但是在IBM,每天听到的都是RA的风声,这让我非常恐慌。当时很是焦虑,但是经过2016年一年的调整,我慢慢的把这种恐慌内化成自己前进的动力。每天多学一点东西,多去成长,去接触不同的技术。所以,现在从恐慌变成了一种充实。其实我非常感谢IBM这种work-life balance的工作氛围。因为如果在一个非常忙的公司,每天还是在做这么一点点摊的话,我就根本就没有精力去丰富自己的能力了。

另外越是工作,越是想要去学习。慢慢感受到自己知识上的局限性。工作上的内容涉及Database system, OS, network, compiler这些CS知识领域。同时,C++, Perl,  Shell Scripting, Make这些都需要进一步精进。另外IBM关注patent的氛围也让我意识到见多识广的重要性。另外,不仅要见多识广,更重要的是要将知识体系系统化。从2015年10月28日我开始整理自己知识体系,我感觉到我非常欣慰我一直能坚持到现在。希望我真正能做到teach myself programming in 10 years.

EDIT: 01/01/2017

突然想到了之前看漫画“猎人”中的会长。会长之所以在“猎人”里作为排名前三的绝世高手,这来源于他不断的练习。具体细节我记不清了,只是记得“会长”在年轻的时候,一个人在不停的练习着打拳,打拳就是两只手不停的交替出拳,没有对手,没有木桩,不分日夜,不分寒暑,每天一个人不知疲惫的挥拳。最开始几年的时候没有任何变化,但是直到不知道第多少年,会长在普通的挥拳中劈开了山河,成为了现在的“会长”。原来上学的我,在看到高手的时候,总是觉得自己天赋不好,总是觉得为什么别人这么厉害,我适不适合干这些事。但是,2016年我突然发现,这些都不重要。只要我喜欢去干这件事情,不停的去“挥拳”就好了。终究我也会成为我所喜爱领域的“会长”。与其看他人,花时间去焦虑,挥拳就好了。

————–

既然说到了提高自己,就说说做了些什么吧。首先是思维上的提高。上学的时候觉得真正的提升就是好好学习,就是GPA。这个思维一直到了2015年。但是,在2016年却出现了转机。2016年我接触到了一套非常危险的理论 – redpill。稍加不慎,就会对周围尤其是女性朋友造成很大的影响。但是,这套理论也让我意识到提升对于一个男人来说提升是多维度的,并不仅仅是好好学习,提高GPA。沟通,身体,兴趣等等都需要时间去磨砺。就像理论说的那样 – “Women are born, men are made” 对于一个男人来讲要无时无刻的去提升自己,去做自己。也是在这个思想的指导下,我打破了自己思维上的束缚,去努力做自己,去提升自己。

2016年我通过Toastmasters Club去锻炼自己的领导力和public speaking; 我努力去锻炼自己的身体; 我培养起了自己写博客的爱好,在wordpress上写了16篇博客,从五月份开始每月至少写1篇,在我自己的网站上,我又写了15篇博客。可以说健身以及写作是我2016年最大的收获。

读书方面2016年读的不是太多。可以分成以下四类吧:心理,健身,技术以及其他。下面列举一下吧:

心理:

健身:

  • Bigger Leaner Stronger: The Simple Science of Building the Ultimate Male Body
  • Strength Training Anatomy Workout

技术:

  • Data Structures and Algorithm Analysis in C (in-progress)
  • Computer System: A Programmer’s Perspective (in-progress)
  • The Mythical Man-Month
  • … (books on Safari books online)

其他:

  • 一堆推理小说
  • IBM and the Holocaust (in-progress)

2017年展望

  • 博客数量至少100篇!
  • 体脂比降到15%以下,体重降到70kg
  • 看书频率要达到这位的速度
  • 每读一本书都要写book review!
  • 有所学校能收了我!

南京旅行小记 (Trip in Nan Jing)

前言

十一长假结束后第一周是没日没夜的忙碌(其实没有啦)。这篇南京游记一直拖到现在才慢慢成稿。与其说这篇是游记,不如说是南京见闻记录(话说这两者真的有区别吗?!):只有我个人的观察感受,没有正经八百的景点介绍(毕竟网上多的是)。那么咱们闲话少说,这就开始。

南京南站 + 南京地铁

img_2527

我们(和我母上)从北京南出发乘坐和谐号于上午11时许到达南京南站。整个南京南站从站台上来说与北京南站并没有很大不同。整个站台和南京地铁完美的衔接在了一起。我们出了站并没有走太远就可以进入南京地铁。这次我们订的酒店是在南京夫子庙地区,所以从地图上来看,乘坐1号线最合适。来到地铁,我发现南京地铁和北京地铁一个不同是,南京地铁是没有人工售票的。有只是一个服务台,对乘客提供帮助。所以我和我母上只能硬着头皮去自动售票机买票。在我们选好我们的票数及目的地的时候一个惊人的一幕出现了:我和我母上在等着硬币找零,但是首先掉下来的是我手上拿着的这个玩意,没错,这就是南京的地铁“票”。这个小东西你只要在进站的时候刷一下,在出站的时候放到特定的卡槽里可以了。“这也太容易丢了吧!”
img_2529

在站台等待的时候,我发现站台荧幕上播的是确确实实电视台的节目而不是专门为地铁定制化的一些短片。为什么我会知道这点呢?因为屏幕上播放着“猫捉老鼠”并挂着“江苏卫视”的台标。这让我有点小期待,会不会“非诚勿扰”也会在上面放着呢?

img_20161009_082518南京地铁和北京地铁除了在“票”的设计别出心裁外,在列车自动语音播报上与北京地铁也有些许的不一样。如果说北京地铁是美声的话,那么南京地铁语音播报就是流行音乐了。整个语速比北京地铁不知道快了多少拍。从出战播报到提醒给老幼病残孕让座到下一站提示总过说完也就10秒左右。不仅如此,南京地铁也在语音中将商业开发做到了极致。举个例子。在播报中南京地铁会这样说道:“南京银行提醒您给老幼病残孕让个座。前方到达中华门站,此战可到达南京大排档,环球雅思。” 这短短的十几秒的语音播报中就给“南京银行”,“南京大排档”和“环球雅思”这三个企业做了广告。这商业开发能力实在是高!而且,我发现“提醒您”这句的广告位基本上都是给银行了。什么“南京银行”, “徽商银行”, “工商银行”。每隔几站就会换一个银行蹦出来提醒你该让座了。关于语音有意思img_20161007_113711的还不止这一点。北京地铁的语音是全程女声的。然而南京地铁是男女声交替的。这也给我一种耳目一新的感觉。

南京地铁有意思的地方还不止这一点。在南京地铁车厢里的路线图上其实是有这么一行小字的:“鼓楼,新街口,三山街,天隆寺至小龙湾,天印大道至中国药科大学设有卫生间” 这让我意识到南京地铁原来不是每站都会设有卫生间的。这点确实有点出乎我的意料。最后,南京地铁在出站口的标识上是采用阿拉伯数字1,2,3,4的,而不是像北京地铁采用英文字母A, B, C, D的。这些让我意识到一个个小小的地铁就能体现出两个地方如此的不同。

南京市区

出了地铁站,我们终于接触到了南京市区。其实南京市区和北京并没有太大的不同。如果硬要说的话,就是南京自行车道和人行道不做太大区分这点上了。从图片上就能很明显的看出,人行道其实和自行车道是在一个平面上。人行道并没有突出来。这让我们最开始非常的不适应,因为你走着走着就会发现你已经走在自行车车道上,而对面正有一辆摩托朝你迎面冲来。

img_20161007_114938说道摩托,不像北京地铁站门口停满的是三轮摩的,南京地铁门口停满的是摩托。而大街上开这种摩托的人感觉和骑自行车的人数是差不多的。南京人民对摩托看来是真爱呀!

img_20161009_083938

吃吃吃!

提到南京小吃就不能不提鸡汁汤包和鸭血粉丝汤了。我们在南京找到了一家名字叫“鸡鸣汤包”的小店。按照店里的介绍,这加店前身是南京鸡鸣酒家。在上世纪50年代在原苏式汤包的基础上,运用传统的发面工艺,精选上等猪前腿肉,配制精心熬制的汤汁,研制出皮薄汁多,口感甜中带咸,咸中带鲜的汤包。后来我和我母上换了一家去吃,口味就完全不一样。

后来,我们又去“南京大排档”去吃了南京经典小吃“古法糖芋苗”,“蟹黄豆腐”,“蜜汁糖藕”,“酒酿元宵”。但是我个人还是觉得“鸡鸣汤包”这家最赞!不仅味道好,我和我母亲点了两碗“鸭血粉丝汤”和两屉“鸡汁汤包”才花了50块不到。这性价比简直不要太高!

玩玩玩!

我们这次南京去了“夫子庙”,“中山陵”,和“玄武湖”。总结一个字就是:“累”。“夫子庙”其实是一个超大的步行街区域。里边有卖各种南京小吃以及小商品,当然还有孔夫子庙。我们第一天去那里从下午两点多走到了八点多。整个人一天下来是虚脱的。可是,这只是热身运动,第二天的“中山陵”才是真正的挑战,整个“中山陵”其实是一个超大景区。我们去了“中山陵”,“音乐台”,“美龄宫”,“明孝陵”以及“灵谷寺”。整个一天下来我微信走了三万八千多步。而最后一天的“玄武湖”就是一个超大的中心公园。其实主题和前两天没有任何区别就是“走”。我就随便放点图吧。

This slideshow requires JavaScript.

最后欢迎大家关注我老妈的新浪微博:www.weibo.com/u/5617018681 !