Описание тега gpt
У меня есть два файла genelist.txt
и data.txt
. genelist.txt
просто содержит один столбец ~500 генов имена, в то время как data.txt
это файл с разделителями табуляции, который содержит ~1000 столбцов (выборок) и ~30 000 строк (ген имена). Общая схема data.txt
описанные ниже.
Образец 1 Образец 2 Образец 3 Образец 4
Гена 1.04 1.81 1.92 0.45
Ген B 1.11 1.12 0.92 1.32
Гена C 0.72 0.71 0.85 1.12
Гена D 1.19 1.42 0.13 0.32
Мне нужно, чтобы извлечь все строки (все строки, т. е. все выборки) от data.txt
содержащие каждый из ~500 генов имена в genelist.txt
и эти строки извлекаются в отдельный файл. Мне сказали, чтобы использовать grep или awk и посмотрел на как это сделать, однако, как простой биолог с мало/нет опыта программирования у меня возникли небольшие неприятности. Было бы возможно, чтобы кто-нибудь объяснил, как это делается, и, надеюсь, предоставить какой-то код для меня, чтобы начать.
Было бы также быть аккуратным, если добыча вернулся только термины, соответствующие всему имени Гена в genelist.txt
. Например, если я АБВ123 , но не ABC1234 в genelist.txt
я хотел только АБВ123 , чтобы быть извлечены и не ABC1234.
Кроме того, после этого как бы я затем проверить, чтобы увидеть, какие из моих генов genelist.txt
не были включены в добыче? (т. е. некоторые гены могут быть неправильно назвали, поэтому мне придется вернуться и снова извлекает их с их альтернативным и/или правильное название).