RuiRui Blog

Thinking will not overcome fear but action will.

SATURN论文解读

本篇博客记录自己对24年Nature Methods上的文章 Toward universal cell embeddings: integrating single-cell RNA-seq datasets across species with SATURN 的解读。文章的通讯作者是 Jure Leskovec,图神经网络方向的大佬。解读这篇文章的目的是因为自己最近也在思考单细胞数据跨...

cellranger-arc bug fix(2)

记录一下这周处理犬蝠10X-multi-omics数据的一个报错。报错如下 2024-01-26 03:36:31 [runtime] (run:local) ID.QFPC.SC_ATAC_GEX_COUNTER_CS.SC_ATAC_GEX_COUNTER._SC_ATAC_GEX_ANALYZER._GEX_CLUSTERING_COMPUTER.ATAC_RUN_GR ...

cellranger-arc 使用说明及bug fix

本篇博客主要记录自己最近在使用10X的cellranger系列软件(cellranger, cellranger-atac, cellranger-arc)过程中遇到的一个问题及解决过程,顺带整理下相关的软件使用步骤,方便后续工作查找。我们首先从bug说起。 BUG修复 问题概述 遇到的问题是,手头一批10X-multiome数据在使用cellranger-arc count 进行处理时...

变分推断总结

最近做单细胞多组学数据整合分析时,用到了MOFA1这个基于变分推断的多组学整合方法,于是决定花点时间学习一下变分推断这部分内容,这篇博客是自己学习变分推断过程中的一点笔记。阅读这篇笔记需要对参数推断、最优化内容有一定的了解。 变分推断(variational inference) 在贝叶斯统计中,一个常见的问题是后验概率的推断,记$x$是观测值,$z$是隐变量,希望得到$p(z\vert...

scRNA-seq分析基本流程

scRNA-seq 基本分析流程 这篇博客主要个人使用scanpy进行10X scRNA-seq数据的基本分析流程。分析使用的数据是10X multiome产生的的小鼠海马scRNA-seq数据,数据目前未公开。如果想要尝试博客中的一些分析,可以使用公开的小鼠海马单细胞数据。另外multiome产生的数据,通常质量会比单模态的scRNA-seq数据要差一些,所以数据中counts不是特...

GBDT算法(1):基本理论

背景 GBDT(gradient boosting decision tree)是机器学习中的一类经典算法,也是kaggle, 天池这些机器学习比赛中常见的解决方案。在chatGPT发布后带来的all in神经网络的背景下,GBDT依旧凭借其较好的解释性、不错的性能、较低的训练成本以及更加容易上手的学习曲线,值得想要参与机器学习比赛的新手玩家去学习。本文主要总结一下GBDT算法的基本理...