이 튜토리얼은 “단백질 서열을 이용한 단백질 2차구조 예측 딥러닝 모델"을 만들기 위한 데이터 처리 및 프로그래밍 과정을 담고 있습니다. 본 과정을 통해 기초적인 데이터 처리를 위한 python 활용법을 익히고, 가장 간단한 형태의 Deep learning model인 1D-CNN을 이용한 학습을 진행해봅니다. python 및 numpy의 활용법을 익히기 위한 과정이므로 최대한 외부 라이브러리 활용을 자제하고 기초적인 수준에서 아래 과정을 따라 가길 권장합니다.
편의상 8일 이상 과정으로 나눴으나, 숙련도 및 진행도에 따라 빠르게 혹은 느리게 진행 가능합니다. 진행에 필요한 모든 파일은 각 단계별로 제공된 링크에서 다운로드 가능합니다.
본 튜토리얼은 아직 작성 중이며, 앞으로 진행하면서 지속적으로 업데이트 예정입니다.
Daily todo list
Day I. PDB parser coding
To learn: How to parse a text file to extract desired information
input: PDB file (Download an example from PDB; e.g. https://files.rcsb.org/download/1UBQ.pdb)
outputs:
per-residue & per-atom coordinate as python dictionary (e.g. xyz[1][’N’] = [1.00, 0.80, 2.50])
1-letter sequence (e.g. ADGEFPL…)
Hints
Day II~III. Backbone torsion angle calculator coding