新闻中心

News Center

当前位置:主页 > 新闻中心 >

从 Vi互联网sion 到 Language 再到 Action万字漫谈三年

2019-05-13 03:24 未知

  5、若对公司股票交易价格产生重大影响的重大事项发生或公司股东大会决定终止本次回购方案等事项发生,则存在回购方案无法顺利实施的风险。

  而对于非法集资“非法性”的认定依据,《意见》第一条便予以明确。《意见》规定,应以国家金融管理法律法规作为依据,对于其仅作原则性规定的,可以参考央行、银保监会、证监会等行政主管部门依法制定的部门规章或者国家有关金融管理的规定、办法、实施细则等规范性文件予以认定。

  吴建平院士CCTV-1开讲:中国互联网的新时代。1月27日晚十点半档,中国工程院院士,...

  习总书记强调:要加快推进电子政务,鼓励各级政府部门打破信息壁垒、提升服务效率,让百姓少跑腿、信息多跑路,解决办事难、办事慢、办事繁的问题。为适应互联网时代信息技术迅速变革所带来的新挑战与人民群众生活方式的新转变,应不断加强在线服务能力,充分展示在线服务能力的“含金量”,即提供更加有效、更有针对性、更具多样性和个性化的在线服务,让群众少跑路、不费事、办成事,满足人民群众在线服务的需要,提升人民群众的获得感。

  人民日报海外版:在京津冀三省市考察并主持召开京津冀协同发展座谈会 习:稳扎稳打 勇于担当 敢于创新 善作善成

  证监会发布《关于在上海证券交易所设立科创板并试点注册制的实施意见》

  认证审核阶段:由认证机构派出的审核员,到企业按照认证标准及企业体系文件规定对企业申请认证范围的活动的进行检查,重点是核实企业的情况及编制认证文件和记录,检查结束上报认证机构颁发证书。iso9000质量体系认证的依据是质量保证标准。进行质量体系认证,往往是供方为了对外提供质量保证的需要,故认证依据是有关质量保证模式标准。

  不仅如此,智慧系统中的资源库提供品类繁多、生动有趣的素材,备课平台会按照知识点设计课堂中每个环节要放入的教学内容。一段时间过后老师们发现,这样操作虽然麻烦点,但能出“细活儿”,备课本就应该是“细活儿”。

  鲍威尔称加息理由有所减弱 道指大涨逾400点收复25000点关口

  不过,记者发现时间过去近一个月,不少电商、微商并未按规定办理相关行政许可,朋友圈卖货依旧。而对农村小电商来说,他们或许将迎来一个活跃发展期。

  5、可能影响本次解除限售股份实际上市流通时间和数量的有关情况的说明:

  6、授权董事会按照相关法律法规办理《公司章程》修改、注册资本变更及工商变更登记等相关事宜。

  银保监会支持险资加大股权投资力度 简化股权投资计划和保险私募基金注册程序

  疯狂爆雷之夜!20亿成起步价 亏损王预亏逾73亿 各种奇葩计提刷新三观

  除此之外,SD-WAN的技术能力与业务模式将走向成熟,并对现有的网络架构和组网技术进行冲击,SD-WAN将不仅是中小型云服务商和初创公司的重点业务,包括运营商和大型云服务商都会加深对SD-WAN的研究和使用,未来的一年仍将是SD-WAN蓬勃发展的一年。(苏越)

  近年来,随着中共中央对统战工作的日益重视,新时期对派也提出了更高的要求,参政议政的压力与日俱增。面对这种情况,农工党宁波市委会领导意识到,要想“建言建到点子上,议政议到关键处”,必须提高调研课题和社情民意信息的质量。为此,市委会经过摸索,渐渐走出了一条“精选题、善搭台、勤调研”的打造精品之路,参政屡出成果。

  质疑人为自然人的,应当由本人签字;质疑人为法人或者其他组织的,应当由法定代表人、主要负责人,或者其授权代表签字或者盖章,并加盖公章。

  一是通过集体教研、集体备课、一对一磨课提高思源教师的内外功,外功主要侧重板书规范、表现力、激情互动等教学技能层面,内功是知识体系的逻辑梳理。

  江西完成全国中小学籍管理系统二期功能上线全省培训和全国资助管理系统升级改造工作。开展2018年度高校智慧校园建设评估,30所本科院校和3所高职院校完成评估工作。

  大家好,我叫吴琦,目前在阿德莱德大学担任讲师(助理教授)。2014 年博士毕业之后,有幸加入澳大利亚阿德莱德大学(University of Adelaide)开始为期 3 年的博士后工作。由于博士期间主要研究内容是跨领域图像识别,所以博士后期间,原本希望能够继续开展与跨领域相关方面的研究。但是,在与博士后期间的导师 Anton van den Hengel、沈春华教授讨论之后,决定跳出基于图像内部的跨领域研究,而展开图像与其他外部领域的跨领域研究。恰逢 2015 年 CVPR 有数篇 image captioning 的工作,其中最有名的当属 Andrej Karpathy 的 NeuralTak 和 Google 的 Show and Tell,同时 2015 年的 MS COCO Image Captioning Challenge 也得到了大量的关注。所以当时就决定开始研究与 Vision-to-Language 相关的跨领域问题。后来也在这个问题上越走越深,近三年在 CVPR,AAAI,IJCAI,TPAMI 等顶级会议与期刊上,先后发表了 15 篇与 vision-language 相关的论文,近期我们又将这个问题延伸到了与 Action 相关的领域,开启了一个全新的方向。接下来我就介绍一下我的一些研究思路,工作,以及我对这个领域的一些想法。

  我们 15 年第一个研究的问题是围绕 image captioning 展开的,当时这个方向的主流模型是基于 CNN-RNN 框架的,即输入一张图像,先用一个 pre-trained 的 CNN 去提取图像特征,然后,将这些 CNN 特征输入到 RNN,也就是递归神经网络当中去生成单词序列。这种模型表面上看起来非常吸引人,依赖于强大的深度神经网络,能够用 end-to-end 的方式学习到一个从图像到语言(vision2language)的直接对应关系,但忽略了一个重要的事实是,图像和语言之间,其实是存在鸿沟的。虽然我们用神经网络将图像空间和语言空间 embed 在同一个空间当中,但直觉上告诉我,这两个空间应该需要一个共同的 sub-space 作为桥梁来连接。于是我们想到了 attributes,一种图像和语言都拥有的特征。于是,基于上面提到的 CNN-RNN 结构,我们多加了一个 attributes prediction layer。当给定一张图像,我们先去预测图像当中的各种 attributes(我们的 attributes 定义是广义的,包括物体名称,属性,动作,形容词,副词,情绪等等),然后再将这些 attributes 代替之前的 CNN 图像特征(如图 1),输入到 RNN 当中,生成语句。

  然而,VQA 与其他 vision-to-language 不同的是,当它需要一个机器去回答一个关于图片内容的问题的时候,机器不仅需要能够理解图像以及语言信息,还要能够具有一定的常识,比如,如图 5 左边所示,问题是图中有几只哺乳动物。那么回答这个问题,我们不仅需要机器能够「看」到图中有狗,猫,鸟,还需要机器能够「知道」狗和猫是哺乳动物,而鸟不是,从而「告诉」我们正确答案是 2.

  于是,我们就自然想到了将知识图谱(knowledge-base)引入到 VQA 当中,帮助我们回答类似的问题。那么该如何连接起图像内容和 knowledge base 呢?我们的 attributes 这时候就又发挥了作用。我们先将图像当中的 attributes 提取出来,然后用这些 attributes 去 query knowledge base(DBpedia),去找到相关的知识,然后再使用 Doc2Vec 将这些知识信息向量化,再与其他信息一起,输入到 lstm 当中,去回答问题。我们的这个框架(见图 6)在 VQA 数据集上取得非常好的表现,相关论文结果已发表于 CVPR 2016,见论文 [3].

  虽然我们上面提出的框架解决了回答关于「common sense」的问题的挑战,但是我们发现在 VQA 当中还有两个重要的局限:

  第一个局限指的是,computer vision 其实在 VQA 当中的作用太小了,我们仅仅是使用 CNN 去对图片当中的物体等内容进行理解。而一个基于图片的问题,可能会问物体之间的关系,物体中的文字等等,而这其实是需要多种的计算机视觉算法来解决的。

  第二个局限指的是,在回答问题的过程当中,我们没有办法给出一个合理的解释。而「可解释性」恰恰是近几年来大家都很关注的一个问题。如果我们在回答问题的过程当中,还能够提供一个可理解的原因,将是非常有帮助的。

  那么基于上面这两点,我们就提出了一种新的 VQA 结构,我们称之为 VQA Machine。这个模型可以接收多个 computer vision 算法输出的结果,包括 object detection,attributes prediction,relationship detection 等等,然后将这些信息进行融合,得出答案。同时,我们的 VQA Machine 除了输出答案之外,还可以输出原因。在这个模型中,我们首先将问题从三个 level 来 encode。在每个 level,问题的特征与图像还有 facts 再一起 jointly embed 在一个空间当中,通过一个 co-attention model。这里的 facts 是一系列的,利用现有计算机视觉模型所提取出的图像信息。最后,我们用一个 MLP 去预测答案,基于每一层的 co-attention model 的输出。那么回答问题的原因是通过对加权后的 facts 进行排序和 re-formulating 得到的(见图 7)。

  我们的这个模型在 VQA 数据集上取得了 state-of-art 的表现(见表 1),更重要的是,它在回答问题的同时,能够给出对应的解释,这是其他的 VQA 模型所做不到的。图 8 给出了一些我们模型产生的结果。论文已经发表在 CVPR 2017,见论文 [4].

  图 8:VQA Machine 结果,问题中带颜色的词表示 top-3 的权重。代表了这个词在回答这个问题时的重要程度。图像当中高亮的区域表示图像当中 attention weights。颜色越深的区域说明这个区域对回答问题更重要。最后是我们模型生成的回答问题的原因。

  既然我们知道了 knowledge 和 reasoning 对 VQA 都很重要,那么怎么将它们两个结合在一起,同时能够进行 explicit reasoning(显示推理)呢?所谓 explicit reasoning,就是在回答问题的过程当中,能够给出一条可追溯的逻辑链。于是我们又提出了 Ahab,一种全新的能够进行显式推理的 VQA 模型。在这个模型当中,与以往直接把图像加问题直接映射到答案不同,Ahab 首先会将问题和图像映射到一个 KB query,也就是知识图谱的请求,从而能够接入到成千上万的知识库当中。另外,在我们的模型当中,答案是 traceable 的,也就是可以追踪的,因为我们可以通过 query 在知识图谱当中的搜索路径得到一个显式的逻辑链。

  首先在第一部分,我们会检测到图像当中的相关概念,然后将他们连接到一个知识图谱当中,形成一个大的 graph,我们把这个过程称为 RDF graph construction process。

  在第二步,一个自然语言式的问题会被首先处理成一个合适的 query,这个 query 会去请求上一步当中建立好的图。这个 query 可能会需要到多步的推理过程,而这个 query 对应的 response 则会形成对应问题的答案。

  最近我们又建立了一个新的 VQA 数据集叫做fact-based VQA,就是基于事实的 VQA。我们之前的基于 explicit reasoning 的数据集只能接受固定的模板式的问题,而新的 FVQA 数据集提供了开放式的问题。除此之外,对每一对问题-答案,我们额外提供了一个 supporting fact。所以在回答问题的时候,我们不仅需要机器回答出这个问题,而且还需要它能够提供关于这个回答的 supporting fact。图 10 展示了我们 Ahab 和 FVQA 模型和数据的一些例子。相关数据与结果分别发表于 IJCAI 2017 和 TPAMI,见论文 [5,6]

  从 VQA 可以衍生出很多新的问题,Visual Dialog(视觉对话)就是其中一个。与 VQA 只有一轮问答不同的是,视觉对话需要机器能够使用自然的,常用的语言和人类维持一个关于图像的,有意义的对话。与 VQA 另外一个不同的地方在于,VQA 的回答普遍都很简短,比如说答案是 yes/no, 数字或者一个名词等等,都偏机器化。而我们希望 visual dialog 能够尽量的生成偏人性化的数据。比如图 11 所示,面对同样的问题,偏人类的回答信息量更丰富,也更自然,同时能够关注到已经发生的对话,并且引出接下来要发生的对话。而偏机器的回应,就非常的古板,基本没法引出下面的对线:Human-like vs, Machine-like

  于是我们提出了一个基于 GAN(生成对抗网络) 的方法 (图 12),来帮助模型生成更加符合人类预期的回答。我们左边的生成网络是使用了一个 co-attention,也就是一个联合注意力模型,来联合的使用图像,对话历史来生成新的对话,然后我们将生成的对话以及从生成模型中得出的 attention,一起,送入到一个区别模型当中,去区别对话为人工产生还是自动生成,然后通过 reward 的形式,去鼓励模型生成更加符合人类的对线:Dialog Generation via GAN

  这项工作中,我们使用了一个 co-attention 的模型,来融合来自各个模态的信息,相同的模型也用在我们上面提到的 VQA-machine 当中。在一个 co-attention 模型当中,我们使用两种特征去 attend 另外一种特征,从而进行有效地特征选择。这种 attend 模式会以 sequential 的形式,运行多次,直到每个输入特征,均被另外两个特征 attend 过。该论文 [7] 被 CVPR2018 接受,大会 oral。

  前面简单介绍了一些我们在 vision-language 方向上的工作,可以看到,两者的结合无论在技术上还是应用上,都非常的有意义。然而,对于人工智能(AI)而言,这只是一小步。真正的人工智能,除了能够学习理解多种模态的信息,还应该能与真实环境进行一定程度的交互,可以通过语言,也可以通过动作,从而能够改变环境,帮助人类解决实际问题。那么从今年开始,我们开始将 action 也加入进来,进行相关的研究。

  我为此提出了一个 V3A 的概念,就是 Vision,Ask,Answer and Act(如图 15),在这个新的体系当中,

  首先谈一下 referring expression,也叫做 visual grounding,它需要机器在接受一张图片和一个 query(指令)之后,「指」出图片当中与这个 query 所相关的物体。为了解决这个问题,我们提出了一个统一的框架,ParalleL AttentioN(PLAN)网络,用于从可变长度的自然描述中发现图像中的对象。自然描述可以从短语到对话。PLAN 网络有两个注意力机制,将部分语言表达与全局可视内容以及候选目标直接相关联。此外,注意力机制也是重复迭代的,秒速时时彩投注这使得推理过程变的可视化和可解释。来自两个注意力的信息被合并在一起以推理被引用的对象。这两种注意机制可以并行进行训练,我们发现这种组合系统在不同长度语言输入的几个标准数据集上的性能优于现有技术,比如 RefCOCO,RefCOCO +和 GuessWhat 数据集。论文见 [8]。我们还提出了一个基于 co-attention 的模型,论文见 [9]。

  图 16:ParalleL AttentioN(PLAN)Network

  基于我们的 Matterport3D Simulator,我们又收集了一个 Room-to-Room (R2R) 的数据集,在这个数据集当中,我们收集了 21567 条 navigation instruction(导航指令),平均长度为 29 个单词。每一条指令都描述了一条跨越多个房间的指令。如图 18 所示。图 19 显示了我们导航指令的用词分布。

  那么除了上述 simulator 和数据,我们这篇文章还提出了一个 sequence-to-sequence 的模型,改模型与 VQA 模型非常类似,只是将输出动作作为了一种 sequence,用 LSTM 来预测。我们还加入了诸如 teacher-forcing,student-forcing 等变种,取得了更好的效果。我们接下来会继续扩充数据,并保留测试集,提供公平的测试平台,每年举行相关的比赛。请大家关注!

  人工智能是一个非常复杂的整体的系统,涉及到视觉,语言,推理,学习,动作等等方面,那么计算机视觉作为人工智能领域内的一个方向,除了关注经典的纯视觉的问题(比如图像识别,物体分类等),也应该关注如何与其他领域相结合来实现更高难度的任务与挑战。视觉与语言(vision-language)的结合就是一个非常好的方向,不仅引出了像 image captioning 和 VQA 这种有意思的问题,还提出了很多技术方面的挑战,比如如何融合多领域多维度的信息。

  [2] Qi Wu, Chunhua Shen, Peng Wang, Anthony Dick, Anton van den Hengel, Image Captioning and Visual Question Answering Based on Attributes and Their Related External Knowledge. IEEE Transaction on Pattern Analysis and Machine Intelligence (TPAMI), Volume:40 Issue:6. 2018.

  声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

网站地图