BLCL的博客小馆

binance币安理财存U年化收益40% !!牛市躺着就是收钱,闲置资金记得放理财!立即注册立享收益!!

首页

关于

归档

loading..
算法

layoutLM微调FUNSD数据集

引言对表单、合同、收据等信息抽取、理解,单从NLP角度来做就丧失了一些比较重要的特征,比如排版、位置、字体大小、字体颜色等特征。 如何引入这些特征对于关键信息抽取(Key Information Extraction)就比较重要。 此篇文章围绕FUNSD数据集来进行,尝试在不同的layoutLM模型上实现,以及对比各自的效果。 FUNSD数据集常见的数据集有FUNSD和XFUND,XFUND是一个融合了多语言的训练集,数据更为丰富。不过此处选择FUNSD来进行实验。 FUNSD全称为Form Understanding in Noisy Scanned Documents,直译过来就是嘈杂的扫描文档的表单理解,因为是扫描件,或多或少都会有些噪点的,也可看官网的描述。 数据集地址。 下载数据后,例如data..

更多

Jira里JQL实现查找上一个「工作日」的任务

厂里终于开始用笨拙的Jira了。总体用下来跟 Teambition 相比各有各的笨处。。。 默认的 board 过滤器有点不好用。本着为了stand-up meeting和周报快速检索上一个工作日和当周干了什么,找到一个 filter 写法: JQL过滤上一个工作日干了啥: (updatedDate < endofweek("-8d") AND updatedDate > startofday("-3d")) OR updatedDate > startofday("-1d") 这里不是简单的查昨天干了啥。比如周一需要看周五干了啥。所以有个 -8d 并 -3d 的神奇操作。具体的逻辑自己琢磨 过滤本周干了啥 updatedDate >= startOfWeek(0) Jira这..

更多

跟ChatGPT玩 20q 游戏

Q: can we play the 20q game? A: Sure, we can play the 20 Questions game! I'll think of an object, and you can try to guess what it is by asking up to 20 yes or no questions. Are you ready to begin? Q: yes. Is it a man? A: No, I'm sorry, but the object I am thinking of is not a man. You can ask another question to try to narrow down what the object might ..

更多
loading..
前端树莓派python

树莓派监控摄像头制作

前段时间买了台小主机,替换树莓派做云盘/下载器,也安装了jellyfin和aria2等其他自建服务,性能比树莓派强很多。于是树莓派又吃灰了,这次用它做个监控摄像头。 外观 外观 演示 制作 制作过程我没有记录下来,需要的物品如下: 树莓派 x1 树莓派专用摄像头 x1 MG995舵机(180度) x2 雪糕棍若干 热熔胶枪+热熔胶棒 5v电源+杜邦线若干 用外接电源给两个舵机供电,需要注意的是外接电源和树莓派必须共地,否则PWM不会起作用。两个舵机的信号线接树莓派gpio的第16和18个针。 代码 详细代码在Github仓库。前端用的react,后端是fasta..

更多

Web Animation实现页面逐渐变灰

在2006年我开始网上留下印记的时候,写了一个 dHTML 特效模拟XP关机对话框变灰, 那个时候大行其道的还是IE6,用的还是微软特有的 filter:progid:DXImageTransform.Microsoft.Fade 叠加两个实现。 今天(2022-11-30)恰好长者去逝,学习一下最新的css姿势再实现一次。本来想用 CSS Animation+Filter实现,还是比较麻烦。比如我参考的例子是模仿 Red Dead Redemption 2 照片效果css #invert{ filter: invert(1.0) grayscale(1.0); } #photo{ animation: blur 5s infinite alternate; } @ke..

更多
loading..
CTFWriteUp

CTF | 2022 PKU GeekGame 2nd WriteUp

前言 第二届北京大学信息安全综合能力竞赛 2022 年 11 月 19 日(周六)~ 26 日(周六) 北京大学信息安全综合能力竞赛(PKU GeekGame)是以信息安全相关知识能力为主的入门向竞赛,比赛目的是普及网络与信息安全相关知识,并选拔部分优秀同学加入到北京大学 CTF 战队。 本届竞赛将继续追求题目新颖有趣、难度具有梯度,让没有相关经验的新生和具有一定专业基础的学生都能享受比赛,在学习的过程中有所收获。 我们对优胜者给予丰厚的激励,并颁发由北京大学计算中心和计算机学院签发的获奖证书。 题目考察的内容涉及到信息安全的各个方面,包括萌新能愉快探索的入门题目和具有一定选拔作用的题目: Misc: 综合技能(常见编码和文件格式、代码审计等) Web: 网站安全(Web 漏洞利用、JavaScrip..

更多
算法

textrank关键句

引言最近在面试北京技术负责人一位候选者(学校杠杠的)时,他对现在公司的新闻领域做摘要时说准确率能达99%,并且也通过了他们内部验证以及用户的对外展示(这家公司你就可劲想吧)。心里是有点不太相信可以达到这么高,理由: 新闻常见字数成千上万,对于这种情况人的理解也有所差异,但只要摘要中出现核心关键词/句子基本也认可。 对于所用到的无监督的方式(用到了textrank),目前业界的上限在那,同时受限于特征工程。 对于使用生成式模型,比如使用PGN,这类方式就要有标注数据。以及有个问题就是生成文本不可控,这也是目前业界在研究的方向。 用到了textrank,那么句子都是从原文中获得的,那么连续性无法保证,更应该说从原文提取关键句子,代表原文。 之前没做过这方面,就比较好奇怎么实..

更多

Twitter资助的 Bluesky项目

发现一个有点好玩的东东 ATP(Authenticated Transfer Protocol)协议,是 ActivityPub 的竞品。ATP对应 blusky,AP 对应 Mastodon 其中维护者pfraze谈到为什么要抛开 ActivityPub 单独搞一套协议: There are a lot of differing design decisions. Account portability is a major reason why we chose to build a separate protocol. Signed data repositories and DIDs are both unique to ATP and not terribly easy to retrofit..

更多
loading..
算法

单塔文本匹配

介绍文本匹配是研究两段文本之间的关系。 此处介绍两种,分别是point-wise和pair-wise语义匹配模型。 point-wise是ptm+二分类,判断句子相似度。pair-wise是ptm+score,判断两个句子相似度得分,可用于排序。最近实现了一个,可参考pairwise-match。 粗排方面有sentence transformer以及SimBERT,再比如DSSM。 这些先记下,等后面有时间了再实现总结。 更新关于双塔模型中的sentence transformer,网络结构如下: 其中pooling为比如Sentence的维度为(1,7,768),那么就对7那一维做mean操作。 由于共用同一个pretrained model,将向量提前保存到数据库。当..

更多
1495051525386