RuiRui Blog

Thinking will not overcome fear but action will.

生信笔记-2(celloracle 推断基因调控网络)

这篇Blog介绍celloracle原理以及怎样使用celloracle推断基因调控网络。 基因调控网络(GRN)是解读基因互作的重要工具,基于单细胞单组学或者多组学数据的基因调控网络推断也是前几年的一个热门研究方向。celloracle是2023年发表在Nature上的一篇论文,使用单细胞多组学数据进行GRN推断并进行扰动分析。 对于多组学GRN推断,分析上的一个不便之处是很少有一个完...

单细胞预训练模型工作总结(2)

这篇blog主要记录如下内容: 自己的单细胞预训练模型尝试。 自己的bert-base和gpt2预训练尝试。 单细胞预训练模型尝试 这段时间主要尝试了如下工作: Transformer-based scRNA-seq pretrain Multi-omic pretrain scATAC-seq pretrain Transformer-based sc...

生信笔记-1

这篇blog记录GSEA原理和scanpy内HVG筛选的策略。 GSEA(gene set enrichment analysis) GSEA 目标 已知一个参考基因集合S,S通常与性状或者功能相关。给定一组样本的基因表达数据,这组样本具有标签数据(例如某种性状或者实验组-对照组),希望判断,与标签相关的差异表达基因,是否在参考基因集合S中富集。如果富集,参考基因集合S相关的性状或者功...

Probability problems(1)

Record a few probability problems that were done recently. EX 1 Question source: Optiver prove it 1 Youtube Question Prove that \[\lim_{n\rightarrow\infty} P_n = \frac{1}{2^{2n}} \sum_{i=0}^{n...

单细胞预训练模型工作总结(1)

最近想借助transformer架构去解决手头数据的建模分析问题,同时,本着“击败敌人首先要了解敌人”的思想,想要证实我的一些大逆不道想法,还是要深入了解一下scRNA-seq预训练模型这一两年来的进展。这篇博客是对近期的一些论文阅读的总结。 首先感谢OmicsML ( https://github.com/OmicsML/awesome-foundation-model-single-c...

回声定位物种单细胞多组学数据分析工作总结

回声定位物种单细胞多组学数据分析工作总结 孙睿 2024.07.11 工作概况 研究问题 研究思路 当前进展 主要难点 经验交流 非模式物种,10X多组学数据基本处理 基因组注释问题 fastq数据问题 ...

360大模型算法实习经历

最近结束了在360公司的大模型算法的实习,想要记录下实习的经历和一些想法,本篇博客的基本内容如下: 面试经历 主要工作内容 实习体验与个人收获 面试经历 拿到360的大模型算法实习是一个非常意外的事情。去年十一月份的时候,我在boss直聘上收到了360HR的面试邀请。自己当时处在一个挺迷茫的阶段,手头上有一个单细胞数据分析的课题,但是进展并不顺利,不知道怎样从数据中分析出...

样本不平衡对单细胞数据整合的影响

最近的分析工作做了很多单细胞数据整合的尝试,对数据整合分析这个步骤也算是有了一点经验。正好看到NBT上发表了Characterizing the impacts of dataset imbalance on single-cell data integration1这篇工作,认真读一下,参考一下别人的经验。论文的通讯作者是多伦多大学的王波教授,之前的博客也介绍过他们组scGPT。个人还是很...

scGPT论文解读

最近在做一份大模型的实习,了解了LLM相关知识后回头看下生信方向,尤其是单细胞方向大模型的进展。这次的论文是scGPT: toward building a foundation model for single-cell multi-omics using generative AI。论文是2024年1月份被Nature Methods接收的,但是2023年的时候就挂在biorxiv上了,...

MetaNeighbor论文解读

这篇博客简单记录下18年发表在nature communications上的一个工作,Characterizing the replicability of cell types defined by single cell RNA-sequencing data using MetaNeighbor的建模思路.作者后续使用这个工具做分析,陆续发表了一篇nature protocols, 一...