-
服务器使用conda环境构建R包
问题背景:昨天在学校服务器默认的Rstudio上面想安装运行R的monocle3包,安装过程报错如下,在安装依赖sf的时需要系统中GDAL版本大于2,而系统默认版本的小于2。由于linux权限问题,无法直接更新该软件,试了多种方法仍无法解决该问题,于是在自己conda中新建一个R环境,安装最新的r-base,自己安装monocle3。checking GDAL version >= 2.0.1... noconfigure: error: sf is not compatible...…
-
配置文件yaml编写规则
layout: posttitle: “配置文件yaml编写规则”date: 2021-10- 26description: “yaml是一个专门用来写配置文件的语言”yaml文件规则 区分大小写; 使用缩进表示层级关系,使用空格键缩进,而非Tab键缩进 缩进的空格数目不固定,只需要相同层级的元素左侧对齐; 文件中的字符串不需要使用引号标注,但若字符串包含有特殊字符则需用引号标注; 注释标识为# yaml文件数据结构 对...…
-
编程规范
文件及文件夹命名规范 尽量不要数字、_开头 分隔符尽量使用_,使用其他分隔符如-使用R读入需要修改对应的参数,否则会被强行转换 输出的文件,最好加上时间戳,文件夹最好不要加时间戳,不方便后续调用,按照功能或者使用工具名命名 命名方式: 文件名:(样本名/分组名_)功能(分析类型)_使用工具名_时间戳.后缀名 group1_vs_group2_differentiallyExpres...…
-
GSEA富集分析
GSEA定义Gene Set Enrichment Analysis (基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。其输入数据包含两部分,一是已知功能的基因集 (可以是GO注释、MsigDB的注释或其它符合格式的基因集定义),一是表达矩阵(不能用差异基因来跑GSEA),软件会对基因根据其于表型的关联度(可以理解为表达值的变化)从大到小排序,然后判断基因集内每条注释下的基因是否富集于表型相关度排序后基因表的上部或下部,从而...…
-
linux常用命令及使用
打包压缩 tar -c # 建立打包文件-t # 查看打包的文件内容含有哪些文件名-x # 解包或者解压缩,可搭配-c在特定目录解压-z # 通过gzip进行压缩、解压缩-v # 在压缩、解压缩过程中将处理的文件名显示-f # 后理解接待处理文件名# 压缩文件tar -zcv -f filename.tar.gz(压缩后文件名) 要被压缩的文件或者目录# 解压缩tar -zxv -f filename.tar.gz(待压缩文件名) -C 欲解压目录 ...…
-
linux环境R及R包使用经验总结
R语言安装问题 1.1 源码编译 下载源包make编译,但是会有很多问题,不好搞; 1.2 编译后打包下载 使用apt-get或者yum直接下载安装使用,很方便 1.3 anaconda下载 使用anaconda安装,方便管理和后期迁移维护等,安装方法,可以去anaconda官网使用关键词搜索r-base选择一个channel进去,下面有包的安装方法,推荐使用conda-forgeconda官方提供的包进行安装,这个版本的R...…
-
转录组测序数据分析与解读
前言“你把表达量和差异表达的表格给我就行了”花那么多钱就换两张表格,你的良心不会痛么!(当年表达芯片都这么做的也没见谁良心痛啊)当然,毕竟别人不一定靠这个吃饭,但 (找不到工作的) 学生物的你,稍微了解一下测序的分析流程还是值得的,毕竟技多不压身嘛。所以这一部分主要介绍转录组测序的分析流程和原理,从拿到原始数据开始,讲到KEGG/Gene Ontology等功能注释,顺便推荐一下常用软件。字数所限,这一篇先讲 (不生成文章能用的图表的) Data Cleaning和比对,如果只想知道怎么看...…
-
RNAseq原始数据rRNA污染识别与移除
简介从细胞提取到的RNA序列中,其中占大部分(80%以上)的都是rRNA,这就是所说的“量大”。在转录组测序中,我们一般关注的是信使RNA(mRNA),因此,rRNA并不是目标序列,不去除rRNA的话,测序时会产生很多无用的rRNA序列数据,这就是所说的“不管饱”。而且,就算是去掉了rRNA之后,mRNA的含量也不算是大头,因为还有其他的非编码RNA存在,比如tRNA、ncRNA等,但比起去除rRNA前已经好很多了。一般来说,转录组在实验阶段就会针对rRNA量大的问题进行处理,方法就我所知...…
-
conda使用
简介conda有miniconda和anaconda两个软件,一个是轻量、一个是预装了很多软件的完整版,推荐安装miniconda 。使用conda可以创建不同的软件运行环境,不同的软件环境彼此隔离,不会冲突,也可以在不同的环境中安装同一个软件的不同版本,如python,来满足不同的运行环境需求。另外,conda可以方便进行软件的安装和管理,使用conda install 包名进行安装。特别注意: **直接使用conda进行软件的安装速度很慢,可以使用mamba**来替换conda进行使用...…
-
RNA测序概述
前言“课题做不下去了,要不测个序吧!”作为一个分子生物学实验室出来的学渣,在学生生涯的最后几年,经常能听到这句话。随着RNA测序的价格愈发走低,在缺乏明确目标的情况下,RNA测序已逐渐成为分子生物学课题中,筛选后续研究方向最为省时省力、经济实惠的手段。研究者往往使用RNA测序来推进项目的进展,然而,许多新入行的研究者对RNA测序的原理知之甚少,应用也仅仅停留在获取基因表达量的水平上,对于二代测序技术来说,这无异于莫大的浪费。这个系列的文章,就是想跟大家简单聊聊RNA测序的数据如何生成,如何...…
-
python配置文件使用介绍---configparser
简介python自带的configparser模块可以读、写、改配置文件ini配置文件包含三部分,section、ItemName、value注意: section对大小写敏感,而ItemName不区分大小写,在配置编写完写入配置文件后,item大写会变成小写 section在配置文件中必须唯一,name在不同section中可以重复使用,value可以使用多行的值 value如果存在空格,作为参数传给其他变量需要注意使用双引号,否则会按照空格拆分成多个值传入而出错[Default]...…
-
docker一些常用知识点总结
docker几个重要概念 docker:类似一个轻量级的虚拟机,仅保留内核,去除了很多无关的功能,在其上可以独立的安装大量容器,每个容器都有独立的运行环境。 仓库 存放docker镜像 镜像(image) 打包的运行环境 容器 (container)镜像在docker上运行后就是对应的一个容器 dockerfile 通过dockerfile可以自定义生成一个镜像docker一些常用操作docker服务启动systemctl start docker镜像的查找 代...…
-
R语言实现4道编程题
第一题题目统计一段序列A、C、G、T出现次数,序列长度至多1000ntGiven: A DNA string “s” of length at most 1000 nt.Return: Four integers (separated by spaces) counting the respective number of times that the symbols ‘A’, ‘C’, ‘G’, and ‘T’ occur in “s”.示例input:AGCTTTTCATTCTGACT...…
-
算法
layout: posttitle: “算法”date: 2021-06-17description: “算法的一些介绍”tag: 算法 用来解决一类问题的方法;可以通过时间复杂度和空间复杂度来评估评估方法 时间复杂度 即程序运行需要消耗的时间。因为不同机器、不同输入消耗的时间都不同,所以评价时间复杂度的指标,一般用笼统的方式O(1)、O(n)等表示的单位来评估。他们的单位大小为: O(1)<O(logn)<O(n)<O(n*logn)<O(...…
-
计算机组成原理
layout: posttitle: “计算机组成原理”date: 2021-06-16description: “计算机核心组成元件及工作原理简单介绍;操作系统简单工作原理”tag: 计算机组成原理 操作系统CPU PC —存放内存中指令位置,程序指令集 Register—寄存器,存放内存中指令位置的数据,以及需要调用的数据 RLU—计算单元,用来对寄存器中的数据进行计算,完成后再把寄存器中的数据写入内存 cache—缓存,L1,L2,...…
-
面向对象编程
layout: posttitle: “面向对象编程”date: 2021-06-11description: “介绍面向对象编程的一些概念,例子”tag: 对象 类 Class 对象、类、实例、接口、共有、私有、方法、属性背景类定义: 是现实世界的抽象与简化,决定可使用数据对象的操作或方法 首先,必须考虑如何表示股票。如stock类(股票),可以将一股作为基本单位,定义一个表示一股股票的类,但是这意味着需要100个对象才能表示100股,这不现实。可以将某人持有的某种股票作为...…
-
Pytorch深度学习
layout: posttitle: “pytorch深度学习”date: 2021-05-27description: “”tag: pytorch 深度学习概念 机器学习和深度学习原理: 算法,是基于人类指定规则, 机器学习是Input经过人类手动提取特征(真正的输入x),然后mapping from features是完成y对x的函数映射,output是y 表型学习是features的提取也可以学习,自动提取 深度学习,是把数据输入的最简单特...…
-
生物知识概念理解
layout: posttitle: “生物知识概念理解”date: 2021-05-20description: “”tag:概念参数理解 GSEA gene ranking方法 默认为Signal2Noise, 还有log2_Ratio_of_Classes, 基因与样本表型之间的相关性 Max Size和Min Size参数 有时会发现你的GSEA结果为啥富集的通路很少,一些关心的通路则根本没在结果中出现,一种原因就是其根本没参与GSEA的计算。 ...…
-
Complexheatmap使用
layout: posttitle: “complexHeatmap热图包使用”date: 2021-05-19description: “”tag:library(ComplexHeatmap)# dataset.seed(123)nr1 = 4; nr2 = 8; nr3 = 6; nr = nr1 + nr2 + nr3nc1 = 6; nc2 = 8; nc3 = 10; nc = nc1 + nc2 + nc3mat = cbind(rbind(matrix(rnorm(nr1*...…
-
二代测序原理
转至知乎-白墨(仅用于个人学习)虽然三代测序现在已经商用,但是目前的主流还是二代测序,尤其是Illumina公司的测序方式更是大行其道。那么,下面我们从四个方面来说说illumina家的二代测序是怎么得到的生物数据。 样本准备 *Sample Prep* 成簇 *Cluster Generation* 测序 *Sequencing* 数据分析 *Data Analysis*0、二代测序基本原理基于可逆终止的,荧光标记dNTP,做边合成边测序1、样本准备 *Sample Prep...…