Linux文件排序和FASTA文件操作

作者:电脑系统
$ sort -n test | uniq -d
3
9
15

对两列文件,安照第二列举办排序, sort -k2,2n。

多行FASTA连串提取要麻烦些,三个主意就是转成单行类别,用地方的法子管理。

sed和tr都为最常用的字符替换工具。

或然轻巧点,间接用前边的awk略微做下改善。

# awk的操作就是镀金上一步的结果,去除多余的空白,然后调换2列
$ sort test2 | uniq -c | awk 'BEGIN{OFS="t";}{print $2, $1}'
a    3
b    2
c    1
d    1
e    1

收拾下uniq -c的结果,使得原始行在前,每行的计数在后。

$ sort -nu test
0
3
6
9
12
15

sort -u: 去除重复的行,等同于sort | uniq

文本排序

调换单行系列FASTA文件,提取一定基因的队列,最轻巧易行的是行使grep命令。首要用处是相当文件中的字符串,以此为根底,实行黄金年代多级的操作。即使会选取正则表明式,将会充足有力。正则表达式版本众多,大概每一个语言都有投机的准则。

$ cat <<END >test.fasta
> >SOX2
> ACGAGGGACGCATCGGACGACTGCAGGACTGTC
> ACGAGGGACGCATCGGACGACTGCAGGACTGTC
> ACGAGGGACGCATCGGACGACTGCAGGAC
> >POU5F1
> CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT
> CGGAAGGTAGTCGTCAGTGCAGCGAGTCC
> >NANOG
> ACGAGGGACGCATCGGACGACTGCAGGACTGTC
> ACGAGGGACGCATCGGACGACTGCAGG
> ACGAGGGACGCATCGGACGACTGCAGGACTGTC
> ACGAGGGACGCATCGGACGACTGCAGGACTGT
> END

# 给>号开头的行的行尾加个TAB键,以便隔开名字和序列
# TAB键不可见,直接看看不大
# ()表示记录匹配的内容,1则表示()中记录的匹配的内容
# 后面我们专门讲sed
$ sed 's/^(>.*)/1t/' test.fasta 
>SOX2    
ACGAGGGACGCATCGGACGACTGCAGGACTGTC
ACGAGGGACGCATCGGACGACTGCAGGACTGTC
ACGAGGGACGCATCGGACGACTGCAGGAC
>POU5F1    
CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT
CGGAAGGTAGTCGTCAGTGCAGCGAGTCC
>NANOG    
ACGAGGGACGCATCGGACGACTGCAGGACTGTC
ACGAGGGACGCATCGGACGACTGCAGG
ACGAGGGACGCATCGGACGACTGCAGGACTGTC
ACGAGGGACGCATCGGACGACTGCAGGACTGT

#使用cat -A 可以显示文件中所有的符号
# ^I 表示tab键
# $表示行尾
$ sed 's/^(>.*)/1t/' test.fasta | cat -A
>SOX2^I$
ACGAGGGACGCATCGGACGACTGCAGGACTGTC$
ACGAGGGACGCATCGGACGACTGCAGGACTGTC$
ACGAGGGACGCATCGGACGACTGCAGGAC$
>POU5F1^I$
CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT$
CGGAAGGTAGTCGTCAGTGCAGCGAGTCC$
>NANOG^I$
ACGAGGGACGCATCGGACGACTGCAGGACTGTC$
ACGAGGGACGCATCGGACGACTGCAGG$
ACGAGGGACGCATCGGACGACTGCAGGACTGTC$
ACGAGGGACGCATCGGACGACTGCAGGACTGT$

# 把所有的换行符替换为空格
# 主意第二个参数,引号内为空格
$ sed 's/^(>.*)/1t/' test.fasta | tr 'n' ' '
>SOX2     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC >POU5F1     CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC >NANOG     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT 

# 把最后一个空格替换为换行符
$ sed 's/^(>.*)/1t/' test.fasta | tr 'n' ' ' | sed -e 's/ $/n/'
>SOX2     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC >POU5F1     CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC >NANOG     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT

# 把  ' >'替换为换行符 注意被替换的是 空格 大于号
# 当连用多个替换命令时,使用-e 隔开
$ sed 's/^(>.*)/1t/' test.fasta | tr 'n' ' ' | sed -e 's/ $/n/' -e 's/ >/n>/g'
>SOX2     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC
>POU5F1     CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC
>NANOG     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT

# 把所有的空格替换掉
$ sed 's/^(>.*)/1t/' test.fasta | tr 'n' ' ' | sed -e 's/ $/n/' -e 's/ >/n>/g' -e 's/ //g'
>SOX2    ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC
>POU5F1    CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGTCGGAAGGTAGTCGTCAGTGCAGCGAGTCC
>NANOG    ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGT

# 把TAB键转换为换行符
$ sed 's/^(>.*)/1t/' test.fasta | tr 'n' ' ' | sed -e 's/ $/n/' -e 's/ >/n>/g' -e 's/ //g' -e 's/t/n/g' 
>SOX2
ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC
>POU5F1
CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGTCGGAAGGTAGTCGTCAGTGCAGCGAGTCC
>NANOG
ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGT
# 生成单行序列FASTA文件
$ cat <<END >test.fasta
> >SOX2
> ACGAGGGACGCATCGGACGACTGCAGGACTGTC
> >POU5F1
> ACGAGGGACGCATCGGACGACTGCAGGACTGTC
> >NANOG
> CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT
> END
$ cat test.fasta 
>SOX2
ACGAGGGACGCATCGGACGACTGCAGGACTGTC
>POU5F1
ACGAGGGACGCATCGGACGACTGCAGGACTGTC
>NANOG
CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT

# grep匹配含有SOX2的行
# -A 1 表示输出的行中,包含匹配行的下一行 (A: after)
$ grep -A 1 'SOX2' test.fasta 
>SOX2
ACGAGGGACGCATCGGACGACTGCAGGACTGTC

# 先判断当前行是不是 > 开头,如果是,表示是序列名字行,替换掉大于号,取出名字。
# sub 替换, sub(被替换的部分,要替换成的,待替换字符串)
# 如果不以大于号开头,则为序列行,存储起来。
# seq[name]: 相当于建一个字典,name为key,序列为值。然后就可以使用name调取序列。
$ awk 'BEGIN{OFS=FS="t"}{if($0~/>/) {name=$0; sub(">", "", name);} else seq[name]=$0;}END{print ">SOX2"; print seq["SOX2"]}' test.fasta
>SOX2
ACGAGGGACGCATCGGACGACTGCAGGACTGTC

sort file | uniq -d: 拿到重新的行(d = duplication卡塔尔(قطر‎

sort: 排序,暗中同意按字符编码排序。如若想按数字大小排序,需加多-n参数。

FASTA体系提取

Linux文件排序和FASTA文件操作。seq: 发生黄金年代连串的数字; man seq查看其切实行使。大家那使用seq产生中游解析所用到的输入文件。

awk是二个无敌的文本管理工科具,其管理数量情势为按行管理。每一趟读入后生可畏行,实行操作。OFS: 输出文件的列分隔符 (output file column separtor卡塔尔(英语:State of Qatar);FS为输入文件的列分隔符 (默感觉空白字符卡塔尔(قطر‎。awk中的列从第1到n列,分别记录为$1, $2 … $n。BEGIN表示在文书读取前先安装基本参数;与之相呼应的是END,只文件读取完结之后实行操作。不以BEGIN, END最初的{}正是文件读取、管理的一些。

 

# 差别只在一点
# 对于单行fasta文件,只需要记录一行,seq[name]=$0
# 对于多好fasta文件,需要把每一行序列都加到前面的序列上,seq[name]=seq[name]$0
$ awk 'BEGIN{OFS=FS="t"}{if($0~/>/) {name=$0; sub(">", "", name);} else seq[name]=seq[name]$0;}END{print ">SOX2"; print seq["SOX2"]}' test.fasta
>SOX2
ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC

Linux文件排序和FASTA文件操作。sort file | uniq -c: 得到每行重复的次数。

# 第一列为每行出现的次数,第二列为原始的行
$ sort -n test | uniq -c
  1 0
  2 3
  1 6
  2 9
  1 12
  2 15

# 换一个文件看的更清楚
$ cat <<END >test2
> a
> b
> c
> b
> a
> e
> d
> a
> END

# 第一列为每行出现的次数,第二列为原始的行
$ sort test2 | uniq -c
      3 a
      2 b
      1 c
      1 d
      1 e

# 在执行uniq操作前,文件要先排序,不然结果很诡异
$ cat test2 | uniq -c
      1 a
      1 b
      1 c
      1 b
      1 a
      1 e
      1 d
      1 a
# 产生从1到10的数,步长为1
$ seq 1 10
1
2
3
4
5
6
7
8
9
10
# 产生从1到10的数,步长为1,用空格分割
$ seq -s ' ' 1 10
1 2 3 4 5 6 7 8 9 10
# 产生从1到10的数,步长为2
# 如果有3个数,中间的数为步长,最后一个始终为最大值
$ seq -s ' ' 1 2 10
1 3 5 7 9
$ cat <(seq 0 3 17) <(seq 3 6 18) >test
$ cat test 
0
3
6
9
12
15
3
9
15

 

# 可能不符合预期的排序,系统首先排0,然后排1, 3, 6, 9
$ sort test
0
12
15
15
3
3
6
9
9
# 按数字大小排序
$ sort -n test
0
3
3
6
9
9
12
15
15
# 第二列按数值大小排序
$ sort test2 | uniq -c | awk 'BEGIN{OFS="t";}{print $2, $1}' | sort -k2, 2n
c    1
d    1
e    1
b    2
a    3

# 第二列按数值大小排序
# 第二列相同的再按第一列的字母顺序的逆序排序 (-r)
# 注意看前3行的顺序与上一步结果的差异
$ sort test2 | uniq -c | awk 'BEGIN{OFS="t";}{print $2,$1}' | sort -k2,2n -k1,1r
e    1
d    1
c    1
b    2
a    3

本文由分分快三计划发布,转载请注明来源

关键词: 分分快三计划