Are you over 18 and want to see adult content?
More Annotations
A complete backup of noorgenerators.com
Are you over 18 and want to see adult content?
A complete backup of goalie1998.duckdns.org
Are you over 18 and want to see adult content?
A complete backup of bdsmcoollection.com
Are you over 18 and want to see adult content?
A complete backup of watermarkchurch.hk
Are you over 18 and want to see adult content?
A complete backup of graphics-9.blogspot.com
Are you over 18 and want to see adult content?
Favourite Annotations
A complete backup of xdlatino.blogspot.com
Are you over 18 and want to see adult content?
A complete backup of explicithistoire.wordpress.com
Are you over 18 and want to see adult content?
Text
Python实现 #.
经过几天的调试,终于用Python实现了一个比较高效的Apriori脚本。. 当然,这里的高效是就Apriori算法本身而言的,不涉及到对算法本身的改进。. 算法利用了Pandas库,在保证运行效率的前提下,基本实现了代码最短化。. 读者可以发现,这里比网上找到 正十七边形的尺规作图存在之证明 设正17边形中心角为 θ ,则 17 θ = 2 π ,即 16 θ = 2 π − θ. 故 sin. . 16 θ = − sin. . θ ,而. sin. . 16 θ = 2sin.
只有两个四阶群和六阶群 我们上近世代数课的时候,老师谈到在同构意义之下只有两个不同的四阶群,六阶群也是只有两个,还说到这是代数的研究生入学考试题目。说到这样了,我就饶有兴致地研究了一下,发现只有两个互不同构的 玩转KERAS之SEQ2SEQ自动生成标题 话说自称搞了这么久的NLP,我都还没有真正跑过NLP与深度学习结合的经典之作——seq2seq。这两天兴致来了,决定学习并实践一番seq2seq,当然最后少不了Keras实现了 10分钟快速上手 从例子可以看到,其实代码分为两部分:第一部分是tokenizer的建立, bert4keras.tokenizers 里边包含了对原版BERT的tokenizer的完整复现,同时还补充了一下常用的功能;第二部分就是BERT模型的建立,其主要函数是 build_transformer_model ,其定义如下:. build_transformer_model各
词向量与EMBEDDING究竟是怎么回事? 词向量,英文名叫Word Embedding,按照字面意思,应该是词嵌入。说到词向量,不少读者应该会立马想到Google出品的Word2Vec,大牌效应就是不一样。另外,用Keras之类的框架还 科学空间|SCIENTIFIC SPACESTRANSLATE THIS PAGE 在《变分自编码器(五):vae + bn = 更好的vae》中,我们讲到了nlp中训练vae时常见的kl散度消失现象,并且提到了通过bn来使得kl散度项有一个正的下界,从而保证kl散度项不会消失。 事实上,早在2018年的时候,就有类似思想的工作就被提出了,它们是通过在vae中改用新的先验分布和后验分布,来使得 时光 - 科学空间|SCIENTIFIC SPACESTRANSLATE THIS PAGE 93年从奥尔特星云移民地球,因忘记回家路线,遂仰望星空,希望找到时空之路。. 兼爱各种科学,热衷钻牛角尖,因此经常碰壁,但偶然把牛角钻穿,也乐在其中。. 偏爱物理、天文、计算机,喜欢思考,企图打开科学的果壳。. 虽擅长理性分析,但也容易 BERT4KERAS 文档中心TRANSLATE THIS PAGE bert4keras旨在为keras用户提供一个快速加载常见预训练语言模型的方法,它的使用难易程度取决于你对keras的熟悉程度。. 幸运的是,keras是当前最易用的深度学习框架之一,这意味着我们的上手时间会相当短。. 但是,这不意味着使用bert4keras不需要任何基础 1 A 《量子力学与路径积分》习题解答 《量子力学与路径积分》习题解答v0.3 2 第二章量子力学的运动规律 2 第二章量子力学的运动规律 2.1 2-1经典作用量 用PANDAS实现高效的APRIORI算法Python实现 #.
经过几天的调试,终于用Python实现了一个比较高效的Apriori脚本。. 当然,这里的高效是就Apriori算法本身而言的,不涉及到对算法本身的改进。. 算法利用了Pandas库,在保证运行效率的前提下,基本实现了代码最短化。. 读者可以发现,这里比网上找到 正十七边形的尺规作图存在之证明 设正17边形中心角为 θ ,则 17 θ = 2 π ,即 16 θ = 2 π − θ. 故 sin. . 16 θ = − sin. . θ ,而. sin. . 16 θ = 2sin.
只有两个四阶群和六阶群 我们上近世代数课的时候,老师谈到在同构意义之下只有两个不同的四阶群,六阶群也是只有两个,还说到这是代数的研究生入学考试题目。说到这样了,我就饶有兴致地研究了一下,发现只有两个互不同构的 玩转KERAS之SEQ2SEQ自动生成标题 话说自称搞了这么久的NLP,我都还没有真正跑过NLP与深度学习结合的经典之作——seq2seq。这两天兴致来了,决定学习并实践一番seq2seq,当然最后少不了Keras实现了 10分钟快速上手 从例子可以看到,其实代码分为两部分:第一部分是tokenizer的建立, bert4keras.tokenizers 里边包含了对原版BERT的tokenizer的完整复现,同时还补充了一下常用的功能;第二部分就是BERT模型的建立,其主要函数是 build_transformer_model ,其定义如下:. build_transformer_model各
词向量与EMBEDDING究竟是怎么回事? 词向量,英文名叫Word Embedding,按照字面意思,应该是词嵌入。说到词向量,不少读者应该会立马想到Google出品的Word2Vec,大牌效应就是不一样。另外,用Keras之类的框架还 科学空间|SCIENTIFIC SPACESTRANSLATE THIS PAGE新浪科技讯
7月18日凌晨消息,据《每日邮报》报道,我们可能认为太阳很壮观,但是,与这个在600多光年之外燃烧的红色超大心大星相比,它显得苍白无力。. 在这张美丽的图片中,心大星发出橙色光,周围是反射成明黄色的气体和尘埃。. 心大星是银河系中的 鱼与熊掌兼得:融合检索和生成的SIMBERT模型UniLM #.
UniLM是一个融合NLU和NLG能力的Transformer模型,由微软在去年5月份提出来的,今年2月份则升级到了v2版本。 我们之前的文章《从语言模型到Seq2Seq:Transformer如戏,全靠Mask》就简单介绍过UniLM,并且已经集成到了bert4keras中。. UniLM的核心是通过特殊的Attention Mask来赋予模型具有Seq2Seq的能力。 自己实现了一个BERT4KERAS 然而,如果想要在加载官方预训练权重的基础上,对bert的内部结构进行修改,那么keras-bert就比较难满足我们的需求了,因为keras-bert为了代码的复用性,几乎将每个小模块都封装为了一个单独的库,比如keras-bert依赖于keras-transformer,而keras-transformer依赖于keras-multi WGAN-DIV:一个默默无闻的WGAN填坑者 今天我们来谈一下Wasserstein散度,简称“W散度”。注意,这跟Wasserstein距离(Wasserstein distance,简称“W距离”,又叫Wasserstein度量、Wasserstein metric)是不同的两个东西。. 本文源于论文《WassersteinDivergence for
GANs》,论文中提出了称为WGAN-div的GAN训练方案。 这是一篇我很是欣赏却默默无闻的paper,我只是 第七章 机械波和电磁波 §7-6 波的叠加原理 波的干涉 …TRANSLATE THIS PAGE 【上一页】【下一页】【返回目录】 §7-6 波的叠加原理 波的干涉 驻波 1. 波的叠加: 若有几列波同时在介质中传播,则它们各自将以原有的振幅、频率和波长独立传播;在几列波相遇处,质元的位移等于各列波单独 传播时在该处引起的位移的矢量和。 基于DGCNN和概率图的轻量级信息抽取模型 背景:前几个月,百度举办了“2019语言与智能技术竞赛”,其中有三个赛道,而我对其中的“信息抽取”赛道颇感兴趣,于是报名参加。经过两个多月的煎熬,比赛终于结束,并且最终结果已经公布。 当MATLAB遇上牛顿法 当Matlab遇上牛顿法. 牛顿法是求方程近似根的一个相当有用而且快捷的方法,我们最近科学计算软件课程(Matlab)的一个作业就是编写求方程近似解的程序,其中涉及到牛顿法。. 我们要实现的目标是, 用户输入一道方程,脚本就自动求出根来。. 这看起来是一个 词向量与EMBEDDING究竟是怎么回事? 词向量,英文名叫Word Embedding,按照字面意思,应该是词嵌入。说到词向量,不少读者应该会立马想到Google出品的Word2Vec,大牌效应就是不一样。另外,用Keras之类的框架还 一阶偏微分方程的特征线法 本文以尽可能清晰、简明的方式来介绍了一阶偏微分方程的特征线法。个人认为这是偏微分方程理论中较为简单但事实上又容易让人含糊的一部分内容,因此尝试以自己的文字来做一番介绍。当然,更准确来说 鬼斧神工:求N维球的体积 但是注意到,被积函数只跟 r 有关,因此对球表面进行积分,等价于原函数乘以球的表面积而已,因此 ( 2) 式的结果为. (4) G ( n) = ∫ 0 + ∞ d r exp. . ( − r 2) S n ( r) 虽然我们不知道 n 维球的体积和表面积公式,但是我们可以肯定, n 维球的体积一定正比于 r n 科学空间|SCIENTIFIC SPACES 看了标题,可能读者会有疑惑,大家不都想着将大模型缩小吗?怎么你想着将小模型放大了?其实背景是这样的:通常来说更大的模型加更多的数据确实能起得更好的效果,然而算力有限的情况下,从零预训练一个大的模型时间成本太大了,如果还要调试几次参数,那么可能几个月就过去了。 时光 - 科学空间|SCIENTIFIC SPACES往事如烟.
苏剑林,今年(2009)正好16岁,居住在广东省云浮市的一个小村庄。 我从小就对科学感兴趣,数学是我的强项,不过到了初三,还要加上一个“化学”。 BERT4KERAS 文档中心 欢迎使用bert4keras¶. bert4keras是一个基于keras的预训练模型加载框架,目前支持多种预训练模型(BERT、ALBERT、RoBERTa、ALBERT、NEZHA、GPT2、T5等),并支持多种环境(python 2.7、python 3.x)和后端(keras、tf.keras、tf 1.x、tf2.x)。.
bert4keras秉承keras的人性化理念,在框架上充分借鉴了keras的设计,尽量做到优雅 1 A 《量子力学与路径积分》习题解答 《量子力学与路径积分》习题解答v0.3 2 第二章量子力学的运动规律 2 第二章量子力学的运动规律 2.1 2-1经典作用量 用PANDAS实现高效的APRIORI算法 最新更新:《用Numpy实现高效的Apriori算法》最近在做数据挖掘相关的工作,阅读到了Apriori算法。平时由于没有涉及到相关领域,因此对Apriori算法并不了解,而如今工作上遇到了,就 只有两个四阶群和六阶群 我们上近世代数课的时候,老师谈到在同构意义之下只有两个不同的四阶群,六阶群也是只有两个,还说到这是代数的研究生入学考试题目。说到这样了,我就饶有兴致地研究了一下,发现只有两个互不同构的 10分钟快速上手 build_transformer_model各参数的含义很难用几句话表达清楚,不过在这个10分钟教程里,这些细节并不是特别重要,所以暂时略去。学习一个框架最好的方法还是多看例子,所以还是恳请用户多参考github上提供的examples。.支持模型¶.
bert4keras支持搭建和加载权重的预训练模型还是比较多的,在同类程序中 玩转KERAS之SEQ2SEQ自动生成标题 话说自称搞了这么久的NLP,我都还没有真正跑过NLP与深度学习结合的经典之作——seq2seq。这两天兴致来了,决定学习并实践一番seq2seq,当然最后少不了Keras实现了 正十七边形的尺规作图存在之证明tyler_zxc:
苏神,请教个问题,SimCSE原论文公式(4)有负号,公式(1)为什么没有负号呢?; nxznm: 确实。; zyz: 苏神之后会考虑上实验吗~; 苏剑林: “词与词之间的顺序关系”、“词与词之间的方向”具体是什么概念?;苏剑林:
其实也不至于,因为实际情况并不是直接内积的~ 词向量与EMBEDDING究竟是怎么回事? 词向量,英文名叫Word Embedding,按照字面意思,应该是词嵌入。说到词向量,不少读者应该会立马想到Google出品的Word2Vec,大牌效应就是不一样。另外,用Keras之类的框架还 科学空间|SCIENTIFIC SPACES 看了标题,可能读者会有疑惑,大家不都想着将大模型缩小吗?怎么你想着将小模型放大了?其实背景是这样的:通常来说更大的模型加更多的数据确实能起得更好的效果,然而算力有限的情况下,从零预训练一个大的模型时间成本太大了,如果还要调试几次参数,那么可能几个月就过去了。 时光 - 科学空间|SCIENTIFIC SPACES往事如烟.
苏剑林,今年(2009)正好16岁,居住在广东省云浮市的一个小村庄。 我从小就对科学感兴趣,数学是我的强项,不过到了初三,还要加上一个“化学”。 BERT4KERAS 文档中心 欢迎使用bert4keras¶. bert4keras是一个基于keras的预训练模型加载框架,目前支持多种预训练模型(BERT、ALBERT、RoBERTa、ALBERT、NEZHA、GPT2、T5等),并支持多种环境(python 2.7、python 3.x)和后端(keras、tf.keras、tf 1.x、tf2.x)。.
bert4keras秉承keras的人性化理念,在框架上充分借鉴了keras的设计,尽量做到优雅 1 A 《量子力学与路径积分》习题解答 《量子力学与路径积分》习题解答v0.3 2 第二章量子力学的运动规律 2 第二章量子力学的运动规律 2.1 2-1经典作用量 用PANDAS实现高效的APRIORI算法 最新更新:《用Numpy实现高效的Apriori算法》最近在做数据挖掘相关的工作,阅读到了Apriori算法。平时由于没有涉及到相关领域,因此对Apriori算法并不了解,而如今工作上遇到了,就 只有两个四阶群和六阶群 我们上近世代数课的时候,老师谈到在同构意义之下只有两个不同的四阶群,六阶群也是只有两个,还说到这是代数的研究生入学考试题目。说到这样了,我就饶有兴致地研究了一下,发现只有两个互不同构的 10分钟快速上手 build_transformer_model各参数的含义很难用几句话表达清楚,不过在这个10分钟教程里,这些细节并不是特别重要,所以暂时略去。学习一个框架最好的方法还是多看例子,所以还是恳请用户多参考github上提供的examples。.支持模型¶.
bert4keras支持搭建和加载权重的预训练模型还是比较多的,在同类程序中 玩转KERAS之SEQ2SEQ自动生成标题 话说自称搞了这么久的NLP,我都还没有真正跑过NLP与深度学习结合的经典之作——seq2seq。这两天兴致来了,决定学习并实践一番seq2seq,当然最后少不了Keras实现了 正十七边形的尺规作图存在之证明tyler_zxc:
苏神,请教个问题,SimCSE原论文公式(4)有负号,公式(1)为什么没有负号呢?; nxznm: 确实。; zyz: 苏神之后会考虑上实验吗~; 苏剑林: “词与词之间的顺序关系”、“词与词之间的方向”具体是什么概念?;苏剑林:
其实也不至于,因为实际情况并不是直接内积的~ 词向量与EMBEDDING究竟是怎么回事? 词向量,英文名叫Word Embedding,按照字面意思,应该是词嵌入。说到词向量,不少读者应该会立马想到Google出品的Word2Vec,大牌效应就是不一样。另外,用Keras之类的框架还 科学空间|SCIENTIFIC SPACES 科学空间致力于知识分享,所以欢迎您转载本站文章,但转载本站内容必须遵循 署名-非商业用途-保持一致 的创作共用协议。 鱼与熊掌兼得:融合检索和生成的SIMBERT模型UniLM #.
UniLM是一个融合NLU和NLG能力的Transformer模型,由微软在去年5月份提出来的,今年2月份则升级到了v2版本。 我们之前的文章《从语言模型到Seq2Seq:Transformer如戏,全靠Mask》就简单介绍过UniLM,并且已经集成到了bert4keras中。. UniLM的核心是通过特殊的Attention Mask来赋予模型具有Seq2Seq的能力。 自己实现了一个BERT4KERAS 王子恩: 总结的太棒了,感谢; trans: 苏神,三角函数形式的位置编码说是表达了相对位置的可能,那这难道不是相对位置编码吗;hzli:
不列公式,直接从几何角度思考也很直观。由“六接圆”的定义,易得DEGF为矩形,且O点为该矩形 苏剑林: 不知道你说什么,请自行梳理你的逻辑。 继续观测国际空间站苏剑林:
你证明了对于什么变换无法做到扩大?任意变换?那本文的结果错了吗?另外,贵作有电子版可以拜读一下吗;苏剑林:
谢谢建议,如果要不同梯度,可以考虑在本文结果的接触上给每个权重加点随机噪声。本文主要是论证无损张晗:
另外,我证明了LayerNorm层无法做到数学等价的扩大,只能 第七章 机械波和电磁波 §7-6 波的叠加原理 波的干涉驻波
【上一页】【下一页】【返回目录】 §7-6 波的叠加原理 波的干涉 驻波 1. 波的叠加: 若有几列波同时在介质中传播,则它们各自将以原有的振幅、频率和波长独立传播;在几列波相遇处,质元的位移等于各列波单独 传播时在该处引起的位移的矢量和。 鬼斧神工:求N维球的体积张晗:
你这个证的应该没错,因为是扩大整数倍。扩大N倍可以通过复制N倍保证均值和方差不变,所以laye欧言蹊:
苏神,无论是基于凝聚度的还是基于凝聚度加自由度的,空间度复杂度好高啊,除了基于分布式改写(我用;tttbag:
作者你好,假如倒推ODE方程的话,是不是必须确保X1,X2都是已 基于DGCNN和概率图的轻量级信息抽取模型 背景:前几个月,百度举办了“2019语言与智能技术竞赛”,其中有三个赛道,而我对其中的“信息抽取”赛道颇感兴趣,于是报名参加。经过两个多月的煎熬,比赛终于结束,并且最终结果已经公布。 一阶偏微分方程的特征线法 本文以尽可能清晰、简明的方式来介绍了一阶偏微分方程的特征线法。个人认为这是偏微分方程理论中较为简单但事实上又容易让人含糊的一部分内容,因此尝试以自己的文字来做一番介绍。当然,更准确来说 当MATLAB遇上牛顿法 牛顿法是求方程近似根的一个相当有用而且快捷的方法,我们最近科学计算软件课程(Matlab)的一个作业就是编写求方程近似解的程序,其中涉及到牛顿法。我们要实现的目标是,用户输入一道方程,脚本就 词向量与EMBEDDING究竟是怎么回事? 词向量,英文名叫Word Embedding,按照字面意思,应该是词嵌入。说到词向量,不少读者应该会立马想到Google出品的Word2Vec,大牌效应就是不一样。另外,用Keras之类的框架还SEARCH
MENU
* 打赏
* 公式
* 天象
* 链接
* 时光
* 博览
* 归档
CATEGORIES
* 千奇百怪
* 天文探索
* 数学研究
* 物理化学
* 信息时代
* 生物自然
* 图片摄影
* 问题百科
* 生活/情感
* 资源共享
NEWPOSTS
* 用bert4keras做三元组抽取 * “非自回归”也不差:基于MLM的阅... * 2020年全年天象 * 基于Conditional Lay... * 万能的seq2seq:基于seq2... * 级联抑制:提升GAN表现的一种简单... * 6个派生优化器的简单介绍及其实现 * n维空间下两个随机向量的夹角分布 * JoSE:球面上的词向量和句向量 * Keras:Tensorflow的...COMMENTS
* 猪猪p: 苏神您好,query 与 key 之间的操作不是内积吧,是矩阵...* linda_Xu:
大神,您文中将batch顺序打乱的方式获得负样本,我目前模型是...* 知识兔兔:
万分感谢!!!!!!!!!!!!!!!1* 知识兔兔:
苏神,我想问一下,我这里装0.x版本时,make的时候各种找不... * 菜: arxiv上的O-GAN论文Figure 1(b)的capti...* 鱼呲呲: 博主
我想对自定义的loss中传入参数,这个参数需要和y_tr... * 鱼呲呲: 大神太牛逼了 * 苏剑林: 有dynamic routing的过程才叫胶囊,而不是因为sq...* Mulan:
博主好,感觉你的文章写得特别好呀,易懂。 我感觉有些问题我有点... * yufeng: RaFM: Rank-Aware Factorization ...USERLOGIN
* 登录
科学空间|SCIENTIFIC SPACES* 登录
* 打赏
* 公式
* 天象
* 链接
* 时光
* 博览
* 归档
渴望成为一个小飞*
欢迎订阅
*
个性邮箱
*
天象信息
*
观测ISS
*
LaTeX
*
关于博主
欢迎访问“科学空间”,这里将与您共同探讨自然科学,回味人生百态;也期待大家的分享~ * 千奇百怪Everything * 天文探索Astronomy * 数学研究Mathematics * 物理化学Phy-chem * 信息时代Big-Data * 生物自然Biology * 图片摄影photograph * 问题百科Questions * 生活/情感Life-Feeling * 资源共享Resources* 千奇百怪
* 天文探索
* 数学研究
* 物理化学
* 信息时代
* 生物自然
* 图片摄影
* 问题百科
* 生活/情感
* 资源共享
感谢国家天文台LAMOST项目之“宇宙驿站”提供网络空间和数据库资源! 感谢国家天文台崔辰州博士等人的多方努力和技术支持! 科学空间致力于知识分享,所以欢迎您转载本站文章,但转载本站内容必须遵循 署名-非商业用途-保持一致 的创作共用协议。参与科学空间
为了保证你的利益,推荐你注册为本站会员。同时欢迎通过邮件或留言进行交流、建议或反馈科学空间的问题。 会员注册 会员登录 查看全站文章归档页3 Jan
用BERT4KERAS做三元组抽取 By 苏剑林 | 2020-01-03 | 1640位读者 | 引用在开发bert4keras
的时候就承诺过,会逐渐将之前用keras-bert实现的例子 逐渐迁移到bert4keras来,而那里其中一个例子便是三元组抽取的任务。现在bert4keras的例子 已经颇为丰富了,但还没有序列标注和信息抽取相关的任务,而三元组抽取正好是这样的一个任务,因此就补充上去了。 基于Bert的三元组抽取模型结构示意图 点击阅读全文... 分类:信息时代 标签:语言模型,
信息抽取
阅读全文 抢沙发26 Dec
“非自回归”也不差:基于MLM的阅读理解问答 By 苏剑林 | 2019-12-26 | 1646位读者 | 引用 前段时间写了《万能的seq2seq:基于seq2seq的阅读理解问答》 ,探索了以最通用的seq2seq的方式来做阅读理解式问答,并且取得相当不错的成绩(单模型0.77,超过参加比赛时精调的最佳模型)。这篇文章我们继续做这个任务,不过换一个思路,直接基于MLM模型来做,最终成绩基本一致,但能提高预测速度。 用MLM做阅读理解的模型图示(其中表示标记) 点击阅读全文... 分类:信息时代标签:问答 ,
语言模型
,
生成模型
,
文本生成
阅读全文 5 评论23 Dec
2020年全年天象
By 苏剑林 | 2019-12-23 | 1233位读者 | 引用 Astronomy Calendar of Celestial Events2020年全年天象
翻译自NASA:http://eclipse.gsfc.nasa.gov/SKYCAL/SKYCAL.html(北京时间)
2011年版本
2012年版本
2013年版本
2014年版本
2015年版本
2016年版本
2017年版本
2018年版本
2019年版本
点击阅读全文... 分类:天文探索 标签:天象 , 天文阅读全文
抢沙发
14 Dec
基于CONDITIONAL LAYER NORMALIZATION的条件文本生成 By 苏剑林 | 2019-12-14 | 2020位读者 | 引用 从文章《从语言模型到Seq2Seq:Transformer如戏,全靠Mask》 中我们可以知道,只要配合适当的Attention Mask,Bert(或者其他Transformer模型)就可以用来做无条件生成(Language Model)和序列翻译(Seq2Seq)任务。 可如果是有条件生成呢?比如控制文本的类别,按类别随机生成文本,也就是ConditionalLanguage
Model;又比如传入一副图像,来生成一段相关的文本描述,也就是ImageCaption。
相关工作
八月份的论文《Encoder-Agnostic Adaptation for Conditional Language Generation》 比较系统地分析了利用预训练模型做条件生成的几种方案;九月份有一篇论文《CTRL: A Conditional Transformer Language Model for ControllableGeneration》
提供了一个基于条件生成来预训练的模型,不过这本质还是跟GPT一样的语言模型,只能以文字输入为条件;而最近的论文《Plug and Play Language Models: a Simple Approach to Controlled TextGeneration》
将p(x|y)p(x|y)转化为p(x)p(y|x)p(x)p(y|x)来探究基于预训练模型的条件生成。 条件Normalization示意图 不过这些经典工作都不是本文要介绍的。本文关注的是以一个固定长度的向量作为条件的文本生成的场景,而方法是CONDITIONAL LAYER NORMALIZATION——把条件融合到Layer Normalization的ββ和γγ中去。 点击阅读全文... 分类:信息时代 标签:语言模型,
文本生成
,
attention 阅读全文抢沙发
5 Dec
万能的SEQ2SEQ:基于SEQ2SEQ的阅读理解问答 By 苏剑林 | 2019-12-05 | 3307位读者 | 引用今天给bert4keras
新增加了一个例子:阅读理解式问答(task_reading_comprehension_by_seq2seq.py ),语料跟之前一样,都是用WebQA和SogouQA ,最终的得分在0.77左右(单模型,没精调)。 用seq2seq做阅读理解的模型图示方法简述
由于这次主要目的是给bert4keras增加demo,因此效率就不是主要关心的目标了。这次的目标主要是通用性和易用性,所以用了最万能的方案——seq2seq来实现做阅读理解。 用seq2seq做的话,基本不用怎么关心模型设计,只要把篇章和问题拼接起来,然后预测答案就行了。此外,seq2seq的方案还自然地包括了判断篇章有无答案的方法,以及自然地导出一种多篇章投票的思路。总而言之,不考虑效率的话,seq2seq做阅读理解是一种相当优雅的方案。 这次实现seq2seq还是用UNILM的方案,如果还不了解的读者,可以先阅读《从语言模型到Seq2Seq:Transformer如戏,全靠Mask》 了解相应内容。 点击阅读全文... 分类:信息时代标签:问答 ,
语言模型
,
文本生成
阅读全文 9 评论1 Dec
级联抑制:提升GAN表现的一种简单有效的方法 By 苏剑林 | 2019-12-01 | 2407位读者 | 引用 昨天刷arxiv时发现了一篇来自星星韩国的论文,名字很直白,就叫做《A Simple yet Effective Way for Improving the Performance of GANs》 。打开一看,发现内容也很简练,就是提出了一种加强GAN的判别器的方法,能让GAN的生成指标有一定的提升。 作者把这个方法叫做Cascading Rejection,我不知道咋翻译,扔到百度翻译里边显示“级联抑制”,想想看好像是有这么点味道,就暂时这样叫着了。介绍这个方法倒不是因为它有多强大,而是觉得它的几何意义很有趣,而且似乎有一定的启发性。正交分解
GAN的判别器一般是经过多层卷积后,通过flatten或pool得到一个固定长度的向量vv,然后再与一个权重向量ww做内积,得到一个标量打分(先不考虑偏置项和激活函数等末节): D(x)=⟨v,w⟩(1)(1)D(x)=⟨v,w⟩ 也就是说,用vv作为输入图片的表征,然后通过vv和ww的内积大小来判断出这个图片的“真”的程度。 点击阅读全文... 分类:信息时代 标签:几何 , GAN, 生成模型
阅读全文 2 评论25 Nov
6个派生优化器的简单介绍及其实现 By 苏剑林 | 2019-11-25 | 2235位读者 | 引用 优化器可能是深度学习最“玄学”的一个模块之一了:有时候换一个优化器就能带来明显的提升,有时候别人说提升很多的优化器用到自己的任务上却一丁点用都没有,理论性质好的优化器不一定工作得很好,纯粹拍脑袋而来的优化器也未必就差了。但不管怎样,优化器终究也为热爱“深度炼丹”的同学提供了多一个选择。 近几年来,关于优化器的工作似乎也在慢慢增多,很多论文都提出了对常用优化器(尤其是Adam )的大大小小的改进。本文就汇总一些优化器工作或技巧,并统一给出了代码实现,供读者有需调用。基本形式
所谓“派生”,就是指相关的技巧都是建立在已有的优化器上的,任意一个已有的优化器都可以用上这些技巧,从而变成一个新的优化器。 已有的优化器的基本形式为: gt=ht=θt+1=∇θLf(g≤t)θt−γht(2)(2)gt=∇θLht=f(g≤t)θt+1=θt−γht 其中gtgt即梯度,而g≤tg≤t指的是截止到当前步的所有梯度信息,它们经过某种运算ff(比如累积动量、累积二阶矩校正学习率等)后得到htht,然后由htht来更新参数,这里的γγ就是指学习率。 点击阅读全文... 分类:信息时代 标签:python , 优化, keras
阅读全文
抢沙发
13 Nov
N维空间下两个随机向量的夹角分布 By 苏剑林 | 2019-11-13 | 3258位读者 | 引用 昨天群里大家讨论到了nn维向量的一些反直觉现象,其中一个话题是“一般nn维空间下两个随机向量几乎都是垂直的”,这就跟二维/三维空间的认知有明显出入了。要从理论上认识这个结论,我们可以考虑两个随机向量的夹角θθ分布,并算算它的均值方差。概率密度
首先,我们来推导θθ的概率密度函数。呃,其实也不用怎么推导,它是nn维超球坐标的一个直接结论。 要求两个随机向量之间的夹角分布,很显然,由于各向同性,所以我们只需要考虑单位向量,而同样是因为各向同性,我们只需要固定其中一个向量,考虑另一个向量随机变化。不是一般性,考虑随机向量为 x=(x1,x2,…,xn)(3)(3)x=(x1,x2,…,xn)而固定向量为
y=(1,0,…,0)(4)(4)y=(1,0,…,0) 点击阅读全文... 分类:数学研究标签:概率 ,
分析 阅读全文11 评论
* 1
* 2
* 3
* 4
* ...
* 120
* »
关于站长
苏剑林|BOJONE,科学空间博主,数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房爱好者......目前26岁,还在单调递增。中山大学研究生,致力于分享科学之美~ 你也许会关心: * 科学空间|Scientific Spaces 介绍 * 科学空间QQ交流群:67729435 * 科学空间微信交流群:spaces_ac_cn * 常见问题集:《科学空间FAQ》智能搜索
支持整句搜索!网站自动使用结巴分词 进行分词,并结合ngrams排序算法给出合理的搜索结果。热门标签
网站 转载
天象
积分
python
力学
模型
深度学
概率 生成模型节日 几何
数论
微分方程
方程 生活
费曼
情感
复数
矩阵
竞赛
翻译
引力
级数
素数
最新文
* 用bert4keras做三元组抽取 * “非自回归”也不差:基于MLM的阅读理解问答 * 2020年全年天象 * 基于Conditional Layer No... * 万能的seq2seq:基于seq2seq的阅... * 级联抑制:提升GAN表现的一种简单有效的方法 * 6个派生优化器的简单介绍及其实现 * n维空间下两个随机向量的夹角分布 * JoSE:球面上的词向量和句向量 * Keras:Tensorflow的黄金标准最近评论
* 猪猪p
:
苏神您好,query 与 key 之间的操作不是内积吧,是矩阵乘积吧,您用的函数tf.mat...
* linda_Xu
:
大神,您文中将batch顺序打乱的方式获得负样本,我目前模型是针对每个图片进行建模,batch...* 知识兔兔
:
万分感谢!!!!!!!!!!!!!!!1* 知识兔兔
:
苏神,我想问一下,我这里装0.x版本时,make的时候各种找不到文件时为啥?* 菜
:
arxiv上的O-GAN论文Figure 1(b)的caption有typo* 鱼呲呲
:
博主
我想对自定义的loss中传入参数,这个参数需要和y_true保持相同索引,动态变化,这种...* 鱼呲呲
:
大神太牛逼了
* 苏剑林
:
有dynamic routing的过程才叫胶囊,而不是因为squash。* Mulan
:
博主好,感觉你的文章写得特别好呀,易懂。 我感觉有些问题我有点不是很理解, 1.不太理解胶囊的...* yufeng
:
RaFM: Rank-Aware Factorization Machines, ICML20...友情链接
* 宇宙驿站
* 科学松鼠会
* 数学研发
* 空间天文网
* Seatop
* Xiaoxia
* 积分表-网络版* matrix67
* 丝路博傲
* 宇宙的心弦
* 卢昌海主页
* TAHOROOM
* ph4ntasy 饭特稀* 数学之家
* 有趣天文奇观 * 天文地理知识 * 创造狮创意导航* bsky
* TwistedW
* godweiyang
* AI柠檬
* DrivingC
* 聚星科技论坛 * 王登科-DK博客 * 贾维斯的小屋* 瓦特兰蒂斯
* 申请链接
本站采用创作共用版权协议,要求署名、非商业用途和保持一致。转载本站内容必须也遵循“署名-非商业用途-保持一致 ”的创作共用协议。 2009-2020 Scientific Spaces. All rights reserved. Theme by laogui . Powered by Typecho . 备案号: 粤ICP备09093259号 。Details
Copyright © 2024 ArchiveBay.com. All rights reserved. Terms of Use | Privacy Policy | DMCA | 2021 | Feedback | Advertising | RSS 2.0