count matrix from a txt file, grep -c for a tab delimited file? I have a text file, here's the `head` of it: 1 TACCCTGTAGAACCGAATTTGT miRNA mmu-mir-10b PM 2 GCATTGGTGGTTCAGTGGTAGAATTCTCGCCT ...--prophetes.ai

count matrix from a txt file, grep -c for a tab delimited file? I have a text file, here's the `head` of it: 1 TACCCTGTAGAACCGAATTTGT miRNA mmu-mir-10b PM 2 GCATTGGTGGTTCAGTGGTAGAATTCTCGCCT tRNA Mus_musculus_tRNA-Gly-GCC-4-1 PM 3 TACCCTGTAGATCCGAATTTGT miRNA mmu-mir-10a PM 4 GCATTGTGGTTCAGTGGTAGAATTCTCGCCT tRNA Mus_musculus_tRNA-Gly-GCC-2-2 IM 5 ACCCTGTAGAACCGAATTTGT other other NA 6 TACCCTGTAGAACCGAATTTG other other NA 7 GCATTGGTTCAGTGGTAGAATTCTCGCCT tRNA Mus_musculus_tRNA-Gly-GCC-2-7 IM 8 GCATTTGTGGTTCAGTGGTAGAATTCTCGCCT tRNA Mus_musculus_tRNA-Gly-GCC-4-1 IM 9 TACCCTGTAGAACCGAATTTGTG miRNA mmu-mir-10b PM 10 GGTGAATATAGTTTACAAAAAACATTAGACTGTGAATC tRNA tRNA-His IM I'd like a count matrix based on the 4th value in each line such that I have something like mmu-mir-10b 2

You can use `awk`, in case you want to get all duplicated located in position #4 (assuming data delimited by whitespaces):

$ awk '{seen[$4]++} END{for(x in seen) print x, seen[x]}' infile
other 2
Mus_musculus_tRNA-Gly-GCC-2-2 1
Mus_musculus_tRNA-Gly-GCC-2-7 1
mmu-mir-10a 1
mmu-mir-10b 2
tRNA-His 1
Mus_musculus_tRNA-Gly-GCC-4-1 2

First fields are the data and second filed is corresponding duplicates of that.