Biomedical Chemistry: Research and Methods, 2019, 2(3), e00109

На пути к автоматизированному мета-анализу биомедицинских текстов в области клеточной иммунотерапии

Д. Девяткин1*, A. Молодченков1, A. Лукин1, Я.С. Ким2, A.A. Бойко3, П.A. Каралкин4, J.-H. Chiang5, Г.Д. Волкова6, A.Ю. Лупатов2

1 Федеральный исследовательский центр «;Информатика и управление »,
РАН, 119333, Москва, пр. 60-лет Октября, 9; *e-mail: devyatkin@isa.ru
2 Институт биомедицинской химии, 119121, Москва, ул. Погодинская, 10
3 Институт биоорганической химии им. Шемякина и Овчинникова, 117997, Москва, ул. Миклухо-Маклая, 16/10
4 Московский научно-исследовательский онкологический институт имени П.А. Герцена -
филиал ФГБУ «НМИЦ радиологии» Минздрава, 125284, Москва, 2-й Боткинский проезд, 3
5 National Cheng Kung University, Tainan City, Taiwan
6 Московский государственный технологический университет «СТАНКИН», 127994, Москва, Вадковский пер., 1

Ключевые слова: злокачественные опухоли; клеточная иммунотерапия; анализ текстов; автоматизированный мета-анализ

DOI:10.18097/BMCRM00109

Полная версия статьи доступна на английском языке.

Клеточная иммунотерапия это перспективный подход к лечению хронических инфекций, аутоиммунных нарушений и злокачественных опухолей. Существует множество стратегий иммунотерапии рака, включая инъекции различных иммунных эффекторных клеток, размноженных и «обученных» в клеточной культуре. В качестве альтернативы для достижения терапевтического эффекта могут быть использованы клетки, представляющие опухолевый антиген на своей поверхности в «понятном» для иммунной системы виде. Результаты исследований в этой области представлены в тысячах текстов, ручной анализ которых затруднен. Мы разработали подход для автоматического анализа текстов в этой области биомедицинской науки. В данной работе мы представляем первые результаты автоматического анализа данных, извлеченных из абстрактов научных статей, доступных в PubMed. На корпусе извлеченных текстов мы демонстрируем ассоциации между типами опухолей и наиболее часто используемыми способами клеточной терапии.

Рисунок 1. Информационная система для мета-анализов текстов биомедицинской направленности.
Рисунок 2. Количественная динамика публикации документов, посвященных различным способам клеточной иммунотерапии онкологических заболеваний. Данные были получены с использованием разработанной информационной системы, включающей словарь наименований способов иммунотерапии, составленный специалистами в данной предметной области. В качестве объекта анализа использовали корпус аннотаций статей, извлеченных из PubMed. DC vaccine – дендритноклеточная вакцина. TIL – опухоль-инфильтрирующие лимфоциты. CAR-T-cells – T-клетки с химерным антигенраспознающим рецептором. CIK – цитокин индуцированные киллеры. LAK – лимфокин активированные киллеры.
Рисунок 3. Динамика изменения соотношения количеств публикаций, посвященных различным способам клеточной иммунотерапии онкологических заболеваний. Данные были получены с использованием разработанной информационной системы, включающей словарь наименований способов иммунотерапии, составленный специалистами в данной предметной области. В качестве объекта анализа использовали корпус аннотаций статей, извлеченных из PubMed. DC vaccine – дендритноклеточная вакцина. TIL – опухоль-инфильтрирующие лимфоциты. CAR-T-cells – T-клетки с химерным антигенраспознающим рецептором,. CIK – цитокин индуцированные киллеры. LAK – лимфокин активированные киллеры.
Рисунок 4. Количественное распределение всех извлеченных документов, содержащих упоминания конкретных способов клеточной иммунотерапии в контексте наименований типов опухолей. Полный корпус текстов аннотаций был проанализирован с использованием разработанной информационной системы. Были задействованы словари наименований способов иммунотерапии и типов опухолей, составленные специалистами. DC vaccine – дендритноклеточная вакцина. TIL – опухоль-инфильтрирующие лимфоциты. CAR-T-cells – T-клетки с химерным антигенраспознающим рецептором. CIK – цитокин индуцированные киллеры. LAK – лимфокин активированные киллеры.reTCR-T-cells – T-клетки с перенаправленным антигенраспознающим рецептором. AP B-cells – антигенпрезентирующие В-клетки, или AP – антиген презентирующий. ADCC – антителозависимая клеточная цитотоксичность. CAR-NK-cells – естественные киллерные клетки с химерным антигенраспознающим рецептором
Рисунок 5. Количественное распределение документов, посвященных клиническим исследованиям и содержащих упоминания конкретных способов клеточной иммунотерапии в контексте наименований типов опухолей. TIL – опухоль-инфильтрирующие лимфоциты. CAR-T-cells – T-клетки с химерным антигенраспознающим рецептором. CIK – цитокин индуцированные киллеры. LAK – лимфокин активированные киллеры.reTCR-T-cells – T-клетки с перенаправленным антигенраспознающим рецептором. AP B-cells – антигенпрезентирующие В-клетки, или AP – антиген презентирующий. ADCC – антителозависимая клеточная цитотоксичность. CAR-NK-cells – естественные киллерные клетки с химерным антигенраспознающим рецептором

ЗАКРЫТЬ
Таблица 1. Поисковые запросы и количество извлеченных документов для различных типов исследовательских работ.

ЗАКРЫТЬ
Таблица 2. Количество извлеченных документов с упоминаниями различных способов иммунотерапии онкологических заболеваний.

ЗАКРЫТЬ
Таблица 3. Ассоциативные паттерны способов клеточной иммунотерапии и типов онкологических заболеваний.

ЗАКРЫТЬ
Таблица 4. Качественные характеристики разработанной информационной системы для мета-анализов текстов биомедицинской направленности.

ФИНАНСИРОВАНИЕ

Работа выполнена при финансовой поддержке РФФИ, гранты16-29-07246 и 16-29-07210.

ДОПОЛНИТЕЛЬНЫЕ МАТЕРИАЛЫ

К данной статье приложены дополнительные материалы, свободно доступные в электронной версии (http://dx.doi.org/10.18097/BMCRM) на сайте журнала.

ЛИТЕРАТУРА

  1. Palucka, K., & Banchereau, J. (2013). Dendritic-cell-based therapeutic cancer vaccines. Immunity, 39(1), 38-48. DOI
  2. Lupatov, A. Yu., Karalkin, P. A., Boyko, A. A., & Yarygin, K. N. (2018). Autotransplantation of T-lymphocytes as a tool for antigen-specific immunotherapy of oncological diseases. Vestnik Transplantologii i Iskusstvennykh Organov, 20(3), 95-104. DOI
  3. Krallinger, M., Rabal, O., Lourenço, A., Oyarzabal, J., & Valencia, A. (2017). Information retrieval and text mining technologies for chemistry. Chemicalreviews, 117(12), 7673-7761. DOI
  4. Tsuruoka, Y., Tateishi, Y., Kim, J.-D., Ohta, T., McNaught, J., Ananiadou, S., & Tsujii, J. (2005). Developing a robust part-of-speech tagger for biomedical text. Advances in Informatics, 3746, 382−392.>/li>
  5. Miyao, Y., & Tsujii, J. (2008). Feature forest models for probabilistic HPSG parsing. computational linguistics, 34(1), 35−80. DOI
  6. Hina, S., Atwell, E., & Johnson, O. (2010). Secure information extraction from clinical documents using snomed ct gazetteer and natural language processing . International conference for internet technology and secured transactions. IEEE, 1-5.
  7. Aronson, A. R., & Lang, F. M. (2010). An overview of MetaMap: historical perspective and recent advances. Journal of the American Medical Informatics Association, 17(3), 229–236. DOI
  8. Jagannatha, A. N., & Yu, H. (2016). Structured prediction models for RNN based sequence labeling in clinical text. Proceedings of the conference on empirical methods in natural language processing. NIH Public Access, 2016, 856–865.
  9. Mika, S., & Rost, B. (2004). Protein names precisely peeled off free text. Bioinformatics, 20(1), i241−i247. DOI
  10. McDonald, R., & Pereira, F. (2005). Identifying gene and protein mentions in text using conditional random fields. BMC Bioinformatics, 6(1), S6. DOI
  11. Zeng, D., Sun, D., Lin, L., & Liu, B. (2017). LSTM-CRF for drug-named entity recognition. Entropy, 19 (6), 283. DOI
  12. Wang, Y., Liu, S., Afzal, N., Rastegar-Mojarad, M., Wang, L., Shen, F., Kingsbury, P., & Liu, H. (2018). A comparison of word embeddings for the biomedical natural language processing. Journal of Biomedical Informatics, 87, 12-20. DOI
  13. Shelmanov, A. O., Smirnov, I. V., & Vishneva, E. A. (2015). Information extraction from clinical texts in Russian. Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference “Dialogue”, 14(21), 537-549.
  14. Yadav, M., & Goyal, N. (2015). Comparison of open source crawlers – a review. International Journal of Scientific and Engineering Research, 2229(5518), 1544-1551.
  15. Larionov, D., Shelmanov, A., Chistova, E., & Smirnov, I. (2019). Semantic role labeling with pretrained language models for known and unknown predicates. Proceedings of Recent Advances of Natural Language Processing, 620-630. https://github.com/IINemo/isanlp
  16. Agrawal, R., & Srikant, R. (1994). Fast algorithms for mining association rules. Proceedings of the 20th Very Large Data Base Conference, 487-499.
  17. Zaki, M. J. (2000). Scalable algorithms for association mining. IEEE Transactions on Knowledge and Data Engineering, 12(3), 372–390. DOI
  18. Rosenberg, S. A., Yang, J. C., Sherry, R. M., Kammula, U. S., Hughes, M. S., Phan, G. Q., & Dudley M. E. (2011). Durable complete responses in heavily pretreated patients with metastatic melanoma using T-cell transfer immunotherapy. Clinical Cancer Research, 17(13), 4550-4557. DOI
  19. Radvanyi, L.G., Bernatchez, C., Zhang, M., Fox, P.S., Miller, P., Chacon, J., & Hwu, P. (2012). Specific lymphocyte subsets predict response to adoptive cell therapy using expanded autologous tumor-infiltrating lymphocytes in metastatic melanoma patients. Clinical Cancer Research, 18(24), 6758-6770. DOI
  20. Kochenderfer, J. N., Wilson, W. H., Janik, J. E., Dudley, M. E., Stetler-Stevenson, M., Feldman, S. A, & Rosenberg, S. A. (2010). Eradication of B-lineage cells and regression of lymphoma in a patient treated with autologous T cells genetically engineered to recognize CD19. Blood, 116(20), 4099-4102. DOI
  21. Flach, P. (2012). Machine learning: the art and science of algorithms that make sense of data. Book, Cambridge University Press.
  22. Lin, C., Miller, T., Dligach, D., Bethard, S., & Savova, G. (2019) A BERT-based universal model for both within-and cross-sentence clinical temporal relation extraction. Proceedings of the 2nd Clinical Natural Language Processing Workshop, 65-71. https://www.aclweb.org/ anthology/W19-1908
  23. Pang, N., Qianm L., Lyu, W., & Yang, J-D. (2019) Transfer learning for scientific data chain extraction in small chemical corpus with BERT-CRF model. arXiv preprint arXiv:1905.05615
  24. Hakala, K., Kaewphan, S., Salakoski, T., & Ginter, F. (2016) Syntactic analyses and named entity recognition for PubMed and PubMed Central—up-to-the-minute. Proceedings of the 15th Workshop on Biomedical Natural Language Processing, 102-107.
  25. Lupatov, A. Y., Yarygin, K. N., Panov, A. I., Suvorov, R. E., Shvets, A. V., Volkova, G. D. (2015). Assessment of dendritic cell therapy effectiveness based on the feature extraction from scientific publications. Proceedings of the International Conference on Pattern Recognition Applications and Methods (ICPRAM), 2, 270-276. DOI
  26. Boyko, A. A., Kaidina, A. M., Kim, Y. C., Lupatov, A. Yu., Panov, A. I., Suvorov, R. E., Shvets, A. V. (2016). A framework for automated meta-analysis: dendritic cell therapy case study. 8th International Conference on Intelligent Systems (IEEE), 8, 160-166. DOI