Feilijiang

New Beginnings


  • Home

  • Tags

  • Categories

  • Schedule

生信数据库

Posted on 2021-10-29

格式数据库

https://genome.ucsc.edu/FAQ/FAQformat.html#format1

bam文件:https://samtools.github.io/hts-specs/SAMv1.pdf

bam文件:https://genome.sph.umich.edu/wiki/SAM

查看sam flag:https://broadinstitute.github.io/picard/explain-flags.html

tissue-specific TF motif binding site

funMotifs: Tissue-specific transcription factor motifs

http://bioinf.icm.uu.se:3838/funmotifs/

Tissue-specific Gene Expression and Regulation

TF interaction
http://bioinfo.wilmer.jhu.edu/tiger/

mouse tissue-specific information

scientific reports

mTFkb: a knowledgebase for fundamental annotation of mouse transcription factors
https://sunlab.cpy.cuhk.edu.hk/mTFkb/download.php

搜索技巧

Posted on 2021-10-28

文献搜索可以到ncbi搜索

网址:https://pubmed.ncbi.nlm.nih.gov/?term=%22Brief+Bioinform%22%5Bjour%5D+AND+Shi+J

pubmed 搜索研究人员输入框

(Buenrostro JD,[Author]) AND (“1998/01/01”[Date - Publication] : “3000”[Date - Publication])

文献阅读:Assessing single-cell transcriptomic variability through density-preserving data visualization

Posted on 2021-10-26

文献:

UMAP和TSNE忽略了原始空间中数据点的局部密度,结果产生了误导的可视化,密集分布的细胞子集被给予了比它们在数据集中的转录多样性所产生的更多的视觉空间。

局限性:两种方法的目的都是在可视化中准确地保留每个数据点的原始局部邻域,同时更允许远程畸变。换句话说,原始数据中相邻的数据点与相邻的数据点在可视化中没有区别。

在scRNA-seq数据中,这一遗漏的异质性信息与细胞亚群中基因表达的可变性相对应。因此,在可视化中准确描述局部密度的差异可以提供另一个“维度”的信息,反映迄今为止对单细胞转录组学景观的隐藏的洞察力。

为此,我们发展了一种广义的、可微分的局部密度测度,称为局部半径,它直观地表示到一个给定点的最近邻居的平均距离

Overview of density-preserving data visualization.

Visualizing the heterogeneity of immune cells in tumor.

Visualizing immune cell specialization and diversification in peripheral blood.

Visualizing time-dependent transcriptomic variability in C. elegans development.

General applicability of density-preserving data visualization.

Density-preserving visualization is almost as computationally efficient as existing approaches

motif富集分析

Posted on 2021-10-25

HOMER 工具

1. scanMotifGenomeWide.pl

给定motif序列,在指定基因组上检索,并且注释所在位置。

1
2
3
4
5
6
cd ~/anaconda3/envs/py36/share/homer/bin
scanMotifGenomeWide.pl /media/ggj/NEW/DifferentiationForce/xbp1/xbp1-Genome/custom_xbp1.motif hg38 -bed > xbp1.sites.hg388.bed

awk '{print $4"\t"$1"\t"$2"\t"$3"\t"$6}' /media/ggj/NEW/DifferentiationForce/xbp1/xbp1-Genome/wholeGenome/xbp1.sites.hg388.bed > homer_peaks.tmp

annotatePeaks.pl homer_peaks.tmp hg38 1> xbp1.sites.hg388.peaksAnno.xls 2> xbp1.sites.hg388.annLog.txt
2. findMotifsGenome.pl / findMotifs.pl

There are 3 basic ways to run HOMER - with FASTA files, with Gene Identifiers, or from Genomic Positions.

1
2
3
4
## 生成背景文件
scrambleFasta.pl Erythroid_seq.fa >background.fa
## 输入fasta文件,只能包含一条序列
homer2 denovo -i Erythroid_seq_sample.fa -b background.fa > ./homer/example.txt
格式转换

http://embnet.ccg.unam.mx/rsat/convert-matrix_form.cgi

MEME to PFM

文献阅读:Mapping single-cell atlases throughout

Posted on 2021-10-21

Cell type families spanning the animal tree of life

定义transitivity measure(传递性)
没有形成trios的为低可信度,删除。

python 函数

np.nonzero函数是numpy中用于得到数组array中非零元素的位置(数组索引)的函数

文献阅读20211020:Gene expression across mammalian organ development

Posted on 2021-10-20
Organ developmental transcriptomes

先整体分析:聚类,差异性的来源。后转到动态变化的基因,研究了动态基因的种类,功能上的约束。转录因子和基因的占比等等。

数据: 群体转录组,6个哺乳动物和1个鸟类(人、恒河猴、小鼠、大鼠、兔、负鼠、鸡),7个组织,包含:三个胚层的七个器官:脑(前脑/大脑)和小脑(后脑/小脑)(外胚层);心、肾、卵巢和睾丸(中胚层);肝(内胚层)(图1a)。时间序列从早期器官发生到成年,再加上灵长类动物的衰老。

整体:PCA分析:tissue>stage>species,来自不同器官的最早样本聚在一起,表明有很强的共性.

定义动态变化基因。基因具有功能上更强的约束性,随着时间动态器官数量的增加,约束性更强。增加的限制延伸到剂量变化,而对重复和缺失变异的耐受性较差。在发育过程中,表达的器官特异性DDGs的比例增加,这与器官分化和成熟有关。转录因子则相反,其在发育早期的贡献最大。

问题:如何定义组织特异性的基因,如何定义动态变化的基因

Developmental correspondences and heterochrony 协同性和异时性

卡耐基时期的对应:a dynamic time warping algorithm 。

在晚熟物种中,强烈的器官成熟发生在出生后,而在早熟物种中,它与出生重叠。

异时性是指某发育程序随时间变化而变化。总体而言,除了负鼠心脏早期发育和人、兔卵巢早期发育外,器官特异性的对应与整体的对应是一致的。在哺乳动物性腺发育过程中,异时性是丰富的,这代表了性腺形态发生极端变异性的另一种机制。

Relationships between evolution and development 发育和进化的关系

沙漏模型
我们对单个器官的观察进行了总结,一致发现不同物种之间的转录组相关性随着发育时间的延长而下降。
因此,积极选择的增加可能也有助于器官在发育过程中的分子和形态分化。

综上所述,这些分析表明,物种在发育过程中所观察到的形态和分子差异的增加是由随着发育的推进而减少的功能限制(图3a, b)以及同时增加的阳性选择(图3c)和新基因的添加所驱动的

Pleiotropy and the evolution of development 多向性
Evolution of developmental trajectories 感兴趣

文献阅读20211019

Posted on 2021-10-19

文献: Genetic and epigenetic coordination of cortical interneuron development

为了研究细小蛋白(PV)和生长抑素(SST)神经元间同源性的建立,我们首先试图确定它们可以与投射神经元区分的最早时间点,投射神经元是内侧神经节隆起(MGE)的另一种主要衍生物。我们之前的研究表明,在转录水平上,这种区别首次在有丝分裂后的群体中被发现,当细胞分化成三个分支,分别对应特定的命运:神经元间前体(分支1)和投射神经元前体(分支2和3)。为了探究是否有更早的染色质特征表明神经元间的一致性,我们比较了胚(E) 13,即MGE神经元间神经发生的高峰期,这些前体群体的RNA表达和染色质可及性。

Transcription and chromatin in the MGE

远端元件早于转录因子的表达,晚于细胞分裂的结束。
流式方法分选MGE相关细胞,然后分出三个枝丫。
早期组细胞:与基因表达相比,发育相关基因的启动子可及性通常提前增加,持续时间更长来识别最早的特征。
分裂后期细胞:三个枝丫(两种方法),接下来,我们进行差异表达分析,以确定最早的分支基因在有丝分裂后的细胞中表达。为了识别与这些基因相关的远端染色质元件,我们整理了它们周围的ATAC-seq峰,并训练了一个分类器来识别那些对区分分支身份最有帮助的元素。
聚焦到转录因子:基因表达开始之前,远端位点变得可及。
远端元件和细胞周期的关系:未能在细胞周期结束前检测到分支1中间神经元的相关远端元件。
目前没有证据表明中间神经元在细胞周期结束前从投射细胞分化。

Remodelling upon cortical settling

在成人皮质中间神经元中,scRNA-seq和scacc -seq谱密切相关。然而,我们对这些在E13位点的群体的研究显示,在发育中的细胞中,转录和染色质标记之间存在不一致。(使用CCA来说明。)

通过RNA和ATAC的整合分析,发现RNA和ATAC的overlap程度随发育上升的。
然后看ATAC的分析,发现P2前后 jaccard分析成两个模块,同时查看元件的peak,也是P2开始和成年的类似。

所以中间神经元位于皮层层的发育窗口期是染色质结构发生实质性重塑的时期。

分析both migratory (E14–E18) and post-settling (P2–P28) timepoints之间的差异motif

我们的scATAC-seq分析表明,某些转录因子以细胞类型特异性的方式利用,尽管不是选择性表达的。所以使用CUT&RUN sequencing进行验证。

Divergence of gene regulatory networks

构建了调控网络,从网络的整体性和edge的方面,查看了common和specific的network的变化情况,shared network变少,specific的网络增强。

这一观察表明染色质景观已经被塑造成这样,细胞类型特异性的基因表达可以被介导,而不需要选择性转录因子表达。(不懂这个结论是如何得到的?)

Loss of Mef2c perturbs development

检测了敲除前后几个方面的变化。分析还是很有趣的,没有看分析过程。

文献阅读:Cell Types of Origin in the Cell Free Transcriptome in Human Health and Disease

Posted on 2021-10-18

1.理解什么叫做cell-free RNA
目的:确定cell-free RNA的组织来源
方法:1.使用TM的整体转录组来做反卷积;2.使用TM的单组织转录组图谱和人类蛋白图谱RNA共识来构建cell type signature scores.
Cell-free RNA (cfRNA)

文章思路:

  1. 使用图谱反卷积cell-free的RNA发现来自全身各个组织
    利用支持向量对细胞型特异RNA进行反卷积回归,一种反褶积方法,以前应用于分解大量组织转录组部分细胞类型贡献。利用基因空间定义基矩阵使细胞类型的线性独立性最大化

  2. 对于在TM中缺乏的细胞类型,那就是要利用HFP图谱来做一个补充

  3. 计算了各种细胞类型和病变细胞类型的差异基因

1.
同时检测核内的蛋白质水平和转录组水平,
量级:上千的核

确定组织中核蛋白的基因调控靶点是一项挑战。在这里,我们描述了转录组和表位的核内细胞标度(inCITE-seq),这是一种可扩展的方法,可在数千个细胞核平行测量多重核内蛋白水平和转录组,从而实现转录因子(TF)水平和基因表达的体内联合分析。我们应用inCITE-seq来描述小鼠大脑中神经元活性在药理学诱导下的细胞状态相关变化。将基因表达建模为定量蛋白水平的线性组合,揭示了每个TF和已知基因靶标的全基因组关联。TF相关基因作为不同的模块共同表达,每个模块都反映了TF的阳性或阴性水平,这表明我们的方法可以解开相对推定的贡献。转录因子增加基因表达,增加推断基因网络的可解释性。inCITE-seq可以阐明核蛋白组合如何在天然组织环境中塑造基因表达,直接应用于固体或冷冻组织和临床。

核内检测的方式不受到细胞消化的影响。
使用dna偶联抗体在单细胞分辨率下联合测量表面蛋白水平和RNA的方法,如通过测序对转录组和表位进行细胞索引(CITE-seq)13和RNA表达及蛋白测序分析
(REAP-seq)14,最近适应细胞质蛋白靶点15 -19,已应用于循环免疫细胞20,21。然而,这些方法不太适合非免疫细胞和固体组织,因为解离破坏了细胞膜的完整性。

由于无所不在的非特异性结合,dna偶联抗体在细胞核内具有“粘性”。

这些研究表明,由于反应的异步性和动态穿梭,核定位在一起刺激的单个细胞之间可能会有所不同

inCITE-seq detects nuclear translocation of a TF induced by an extracellular signal.

Relating genome-wide expression to p65 protein levels.

inCITE-seq profiling of the mouse brain after in vivo induction of seizure

RNA profiles from inCITE-seq reveal key cell subsets of the mouse hippocampus.

Protein levels match cell type-specific and condition-specific expression in RNA-based clusters.

Relating protein and mRNA levels of inCITE target genes.

Modeling genome-wide association with each protein recovers known TF targets.

TF-associated genes are coexpressed as distinct modules in excitatory neurons.

Inferred TF impact on genes depends on treatment context and cell type.

文献阅读:Lineage tracing meets single- cell omics: opportunities and challenges

Posted on 2021-10-10

文献阅读Lineage tracing meets single- cell omics: opportunities and challenges

以反映它们潜在的高维性质和它们的常规表示为低维欧几里得曲面或图
state manifolds; to reflect both their underlying high-dimensional nature and their routine representation as low- dimensional Euclidean surfaces or graphs.

在细胞分化过程中,状态流形可以提供高分辨率的细胞轨迹描述。

1. Inferring cell histories from state manifolds

1. Defining cell states

定义细胞类型的信息越来约丰富。

2. Mapping state manifolds

基于图的分析是有用的,因为它们转换了一组孤立的测量值(单细胞转录组)变成一个连接的结构(图表),然后可以使用一套丰富的已有的数学方法进行分析。
任何2D和3D可视化都只能作为表示更强大的数据分析形式的结果的辅助工具。
另外一类方法根据manifold来推测出细胞的动力学和分化等级。
为了改进这些在动态推断方面的努力,最近的一些研究已经成功地推断了状态的瞬时动态,其基础是新生mRNA丰度的测量、剪接与未剪接mRNA的比率(例如,RNA速度)、蛋白质翻译或由代谢物标记的mRNA周转率。还有时序性的信息。

3. Limitations of state manifolds for dynamic inference

在这方面,树状细胞状态层次结构与真正的谱系分析得到的细胞状态层次结构形成了鲜明的对比。在一个状态流形上,分支点可能是假设的:细胞分裂可能发生在一个分支点上,也可能不发生在一个分支点上,来自每个分支的两种细胞都可能沿着流形的一个分支前进,而不是探索所有的分支。相反,在谱系树中,每个分支点都严格对应于一个分支事件。状态轨迹甚至不需要是严格的树状结构,而谱系层次结构总是严格的分支树。因此,尽管种群水平结构可以追踪单个细胞经历的分子状态的动态序列(图2a,b),但一些特定的原因可能会模糊或误导研究人员对潜在的动态和/或命运关系的理解。

2. Inferring cell histories in lineage tracing

1. Lineage-tracing paradigms

2. Clonal versus population tracing

3. Imaging-based methods for lineage tracing

4. Lineage tracing by barcode-sequencing

5. Performance, trade-offs and further innovations

6. Prospective lineage tracing on state manifolds

3. Applications of lineage tracing on state manifolds

1. Lineage phylogenies on state manifolds

2. Clonal resampling on a state manifold

3. Computational tools for state–lineage mapping

4. Pitfalls in lineage barcoding on a state manifold

阅读重点

4. Emerging concepts

1. State manifolds as models

状态轨迹和谱系编纂了细胞发育历史中两个不同但互补的方面,每一种类型的分析都可以为个体发生和基因调控提供见解。在这篇综述中,我们概述了状态流形的一些重要局限性,并描述了将真实谱系测量与单细胞组学相结合的动机和工具。从这些方法的早期应用,我们提出了三个新兴的概念:第一,状态流形作为模型;第二,细胞状态分岔与细胞分裂的耦合模式;第三,树描述细胞分化层次的有效性

在这篇综述中,我们提出了lineage和state representations之间可能出现的矛盾(图2)并讨论了如何利用克隆信息来阐明这些发育关系。这些矛盾证明了状态流形(state trajectory)不是绝对可靠的。相反,它们是数据驱动的模型,遵循特定的假设集和数据处理标准。

目前,大多数状态流形是由原始状态测量中最主要的covariation以无偏方式构造的。在这种做法下,scRNA-seq manifold的定义特征将反映健壮的、可变的转录特征,因此不能保证强调细胞命运的决定,这可能与命运决定发生时低水平表达的调控基因相关。

到目前为止,状态流形的构建都没有包含来自克隆数据的信息。然而,状态和谱系关系不需要保持冲突:一旦谱系的信息被建立,它可以用来改进我们表示状态流形的方法。例如,谱系信息的直接和简单的使用是在鉴定偏向谱系的祖细胞状态的分子标记。事实上,新的命运标记已经从结合的谱系和状态系统发育实验和克隆-重采样研究中推断出来。

谱系信息也可以用来训练构建状态流形的算法,以避免如图2所示的错误。这样的行为需要一个概念上的转变,即把state manifolds作为一组特定的高维基因表达特征的模型,而不是作为覆盖细胞分化轨迹的绝对或普遍参考。

2. Variability of individual lineage trees

state manifolds和mitotic lineage trees都可以定义层次结构。这两个等级之间关系的本质是什么?提出两种可能的关系:一种是mitotic coupling 和population coupling. mitotic coupling 是确定的,当细胞state manifolds的分支点与细胞分裂事件紧密对应时,就会发生有丝分裂偶联(图6a,左)。海鞘87和秀丽隐杆88的确定谱系树就是很好的例子。
相比之下,population coupling将发生在克隆和分裂历史不影响任何单个细胞的前进或其命运选择。相反,细胞行为是不确定的,可以用一组沿特定轨迹移动的转移概率来描述。
因此,种群耦合可能导致高度可变的谱系树,类似于那些随机分支过程,不会在生物体内部或生物体之间精确复制。在这种情况下,对命运等级结构进行高分辨率重建的努力可能无法产生一个单一的具有代表性的谱系发展树,但状态-谱系耦合在多个观察到的谱系树上的分布应该被证明具有很高的信息量。

分化的层次的结构是什么?
这个问题的答案首先取决于一个人考虑的是state manifolds和mitotic lineage trees。

在没有细胞融合的情况下,谱系通常可以看作是一个分支树,每个分支点代表一个有丝分裂事件。状态流形可以是树状的,但根据系统的生物学特性,它们不一定是树状的。因此,状态流形代表了发现细胞分化过程的结构(即拓扑)的机会。当状态流形与谱系测量相结合时,人们就有机会独立地拒绝或确认关于这些结构的特定假设。正如我们上面所描述的,几个最近的研究已经证明了状态收敛(state convergence)的证据,在状态流形上,两个或更多不同的命运轨迹收敛到相同的最终位置。因此,这种端点状态由起源不同的细胞组成,这些细胞可能保留也可能不保留不同的功能或电位。我们回顾了免疫细胞、神经嵴谱系和内胚层群体状态收敛的例子。相反的情况,状态分化(state divergence)也被观察到,有丝分裂的姐妹细胞(谱系高度相关)迅速进入不连续状态。state manifolds可以发生作为不对称细胞分裂的结果,特别是在分裂的细胞质组分只传递到两个有丝分裂子细胞之一的情况下。这种情况下可能会产生缺乏中间状态的状态转换,因此在任何采样深度上都不会以分岔事件的形式出现在状态流形上。这两种情况——收敛和发散——将导致状态流形偏离严格的树状结构,并可能由描述良好的生物情况产生。

谱系和流形的关系,强调谱系的重要性,以及流形结构的局限性,需要结合两者来看。

文献阅读 Statistical mechanics meets single-cell biology

疑问:waddington state manifolds的概念及应用

统计力学来帮助我们从单细胞特性(微观状态)的角度来加深对组织功能(宏观状态)的理解。

沃尔顿图谱的三个重要基本概念:

  1. 首先,有机体的细胞可以杰出的发展可能产生广泛的不同数量的其他细胞,表明分化效力层次的存在,传统上被描绘为高度的景观,这暗示着一个势能函数的存在。
  2. 第二,细胞优先占据特定的稳定区域,Waddington称之为“局部吸引子”,与观察到的细胞类型相对应。
  3. 景观是“渠化”成特定的吸引盆地,定义了连接吸引子状态彼此的低能量路径。

GRN- based Waddington landscapes

从scRNA- seq数据建模的状态流形对于深入理解细胞生物学和实现分子和再生医学的目标是至关重要的。它需要对三个主要的景观特征进行推断:代表功能相关细胞类型的局部吸引子状态,它们在歧管中的海拔高度,影响它们的分化潜能,以及通常称为的低能量路径
“沿袭轨迹”,将这些吸引子状态连接在一起

为什么随机过程是单细胞动力学的恰当描述,主要有两个原因。

  1. 首先,在同一细胞中,在流形的的不同位置测量转录组是不可能的,因为测量的行为本身就会破坏细胞。
  2. 其次,细胞内的分子经历了真正的随机变化,而不是连续变化28,31,45,这意味着在最基本的层面上,单细胞动力学是概率的。然而,值得注意的是,确定性连续型单细胞动力学可能仍然来自潜在的概率过程

State manifolds from scRNA-seq data

Solving the drift–diffusion equations: inference of the state manifold.

Modelling cell types as local attractors.

Bottom-up modelling of potency

细胞多能性的预测有两种方法,一种是bottom-up,只从细胞测量数据出来,推算细胞潜能,可能受到数据噪音的影响,另一种是up-bottom,测量的是相对潜能,需要进行类比。

细胞多能性相关参数
包括染色质的开放程度,蛋白质-蛋白质相互作用(PPIs)的频率和hubness和表达基因的总数量(基因计数)

Modelling cell-fate transitions

Future outlook and perspectives

同源基因

Posted on 2021-10-02

TransDecoder:fa

作用:从FASTA序列预测编码区(cds)

使用教程: https://github.com/TransDecoder/TransDecoder/wiki

参考教程; https://www.bioinfo-scrounger.com/archives/106/

输入:transriptome的fasta文件,输出cds预测文件包含fasta和pep文件

输入:
输出:cds的fasta文件

cds的pep文件:

命令

1
2
3
## transfer transcriptome to coding sequence using transdecoder
TransDecoder.LongOrfs -t dd_Smed_v6.pcf.contigs.fasta
TransDecoder.Predict -t dd_Smed_v6.pcf.contigs.fasta

orthoFinder

同源基因预测

1
/media/ggj/home/ggj/Documents/data/fei/Rpackage/OrthoFinder_source/orthofinder.py -f /media/ggj/NEW/DifferentiationForce/orth/human_smed/
<i class="fa fa-angle-left"></i>123…7<i class="fa fa-angle-right"></i>

Feilijiang

生物信息 记录 分享 博客

70 posts
5 categories
7 tags
0%
© 2021 Feilijiang
Powered by Hexo
|
Theme — NexT.Pisces v5.1.4