잠시 kakobrain에서 발표한 pororo 리뷰

이름보니 주 개발자분의 아이가 한참 어린이집 다닐 정도 되시는 분일듯.

 

Github repository 링크:

kakaobrain/pororo: PORORO: Platform Of neuRal mOdels for natuRal language prOcessing (github.com)

 

kakobrain pororo란?

pororo performs Natural Language Processing and Speech-related tasks.

It is easy to solve various subtasks in the natural language and speech processing field by simply passing the task name.

자연어 처리와 스피치 관련 여러 라이브러리를 제공하는 듯 하다. NER 관련한 부분에 관심이 있어 이부분을 주로 살펴본다.

 

pororo 설치

WSL의 Ubuntu에 설치. 설치시 torch 1.6.0 제한이 있다. 잠시 리뷰가 목적이니 우선 CPU로 구성하자.

conda create -n pororo python=3.6
conda activate pororo

# cpu only로 설치 GPU 설치 등은 아래 링크 참조
# https://pytorch.org/get-started/previous-versions/#v160
conda install pytorch==1.6.0 torchvision==0.7.0 cpuonly -c pytorch

pip install pororo

 

 

NER 관련 정보 및 코드

한글은 국립국어원에서 제공하는 말뭉치의 형태소를 이용하는 듯 하다.

Named Entity Recognition — PORORO: Platform Of neuRal mOdels for natuRal language prOcessing 0.3.1 documentation (kakaobrain.github.io)

 

간략히 NER 코드를 테스트

from pororo import Pororo

ner = Pororo(task="ner", lang="ko")
ner("손흥민은 28세의 183 센티미터, 77 킬로그램이며, 현재 주급은 약 3억 원이다.")

ner("손흥민은 28세의 183 센티미터, 77 킬로그램이며, 현재 주급은 약 3억 원이다.", apply_wsd=True)

 

wsd를 적용한 후의 결과가 매우 흥미롭다. 이것만으로도 여러 NLP ML모델이나 Azure의 Cognitive Service API와 연동해 해볼것들이 있을 듯 하다.

 

apply_wsd=False apply_wsd=True
[('손흥민', 'PERSON'), [('손흥민', 'PERSON'),
 ('은', 'O'),  ('은', 'O'),
 (' ', 'O'),  (' ', 'O'),
 ('28세', 'QUANTITY'),  ('28세', 'AGE'),
 ('의', 'O'),  ('의', 'O'),
 (' ', 'O'),  (' ', 'O'),
 ('183 센티미터', 'QUANTITY'),  ('183 센티미터', 'LENGTH/DISTANCE'),
 (',', 'O'),  (',', 'O'),
 (' ', 'O'),  (' ', 'O'),
 ('77 킬로그램', 'QUANTITY'),  ('77 킬로그램', 'WEIGHT'),
 ('이며,', 'O'),  ('이며,', 'O'),
 (' ', 'O'),  (' ', 'O'),
 ('현재', 'O'),  ('현재', 'O'),
 (' ', 'O'),  (' ', 'O'),
 ('주급은', 'O'),  ('주급은', 'O'),
 (' ', 'O'),  (' ', 'O'),
 ('약 3억 원', 'QUANTITY'),  ('약 3억 원', 'MONEY'),
 ('이다.', 'O')]  ('이다.', 'O')]

 

Character BERT

구조적인 부분에서 Character BERT 를 이용하는 것으로 예상되고, 여러가지 조합이 가능할 듯 하다.

characterBERT.png

helboukkouri/character-bert: Main repository for "CharacterBERT: Reconciling ELMo and BERT for Word-Level Open-Vocabulary Representations From Characters" (github.com)

 

NLP와 관련된 정보 사이트

NLP With U (nlp-with-u.github.io) 에서 여러 정보를 확인 가능하였다.

여러 NLP 도구와 말뭉치 등 다양한 정보를 한눈에 볼 수 있다.

추천!

 

참고링크

NLP With U (nlp-with-u.github.io)

kakaobrain/pororo: PORORO: Platform Of neuRal mOdels for natuRal language prOcessing (github.com)

 

No. Subject Author Date Views
Notice SQL강좌: 챗GPT와 함께 배우는 SQL Server 무료 강좌 목차와 소개 (2023년 9월 업데이트) 코난(김대우) 2023.08.18 22179
Notice Python 무료 강좌 - 기초, 중급, 머신러닝(2023년 6월 업데이트) 코난(김대우) 2021.01.01 12260
54 AI, 머신러닝, MLOps – Azure에서 톺아보기! | Developer Digital Meetup Tour 코난(김대우) 2022.11.15 76
53 자동화된 ML, 나도 해보자! | ep4-1. 자동화된ML 결과 해석하기 | 애저 듣고보는 잡학지식 코난(김대우) 2022.11.11 43
52 자동화된 ML, 나도 해보자! | ep3-2. GUI로 자동화된ML 직접 해보기 | 애저 듣고보는 잡학지식 코난(김대우) 2022.11.09 49
51 자동화된 ML, 나도 해보자! | ep3-1. GUI로 자동화된ML 직접 해보기 | 애저 듣고보는 잡학지식 코난(김대우) 2022.11.05 40
50 자동화된 ML, 나도 해보자! | ep2. 애저ML 처음 시작하기 | 애저 듣고보는 잡학지식 코난(김대우) 2022.11.02 35
49 자동화된 ML, 나도 해보자! | ep1. 자동화된 ML이 왜 필요한가 | 애저 듣고보는 잡학지식 코난(김대우) 2022.11.01 49
48 자동화된 ML, 나도 해보자! | ep0. 인트로 | 애저 듣고보는 잡학지식 코난(김대우) 2022.10.31 66
47 마이크로소프트 신텍스(Syntex) file 코난(김대우) 2022.10.27 45
46 텍스트로 3D 오브젝트를 생성 - 구글의 DreamFusion file 코난(김대우) 2022.10.21 402
45 콘텐츠가 데이터 분석을 만났을 때 - #hashTECH Start-Up 코난(김대우) 2022.10.18 57
44 DALL-E 2 - Azure OpenAI 서비스 file 코난(김대우) 2022.10.18 103
43 Ignite 2022의 Codex 데모 - 2022년 10월 버전 file 코난(김대우) 2022.10.16 53
42 kakaobrain pororo - Natural Language Inference 리뷰 코난(김대우) 2021.10.29 791
41 (4) AzureML - Azure Machine Learning 모델 배포(Deploy) [1] file 코난(김대우) 2021.10.27 447
40 (3) AzureML - Azure Machine Learning 구성요소 file 코난(김대우) 2021.10.27 292
39 (2) AzureML - Azure Machine Learning 이란 무엇인가? file 코난(김대우) 2021.10.25 338
38 kakaobrain pororo - Automated Essay Scorer 리뷰 코난(김대우) 2021.10.21 304
» kakobrain에서 발표한 pororo 리뷰 file 코난(김대우) 2021.10.20 1238
36 Azure Databricks MLflow를 이용한 MLOps - CI/CD 및 deployment 포함 file 코난(김대우) 2021.10.15 238
35 Azure Databricks MLflow를 이용한 MLOps file 코난(김대우) 2021.10.14 260





XE Login