머신러닝 & AI 개발자 Tip & 강좌 게시판

Data Scientist와 개발자를 위한 머신러닝, AI 등 개발 Tip과 강좌 게시판 입니다. 일반적인 머신러닝은 물론 딥러닝(Tensorflow, Keras, PyTorch 등), 인공지능 관련 업무를 진행하면서 얻은 Tip이나 강좌, 새로운 소식을 적어 주시면 다른 개발자 분들에게 큰 도움이 됩니다.

 

잠시 kakobrain에서 발표한 pororo 리뷰

이름보니 주 개발자분의 아이가 한참 어린이집 다닐 정도 되시는 분일듯.

 

Github repository 링크:

kakaobrain/pororo: PORORO: Platform Of neuRal mOdels for natuRal language prOcessing (github.com)

 

kakobrain pororo란?

pororo performs Natural Language Processing and Speech-related tasks.

It is easy to solve various subtasks in the natural language and speech processing field by simply passing the task name.

자연어 처리와 스피치 관련 여러 라이브러리를 제공하는 듯 하다. NER 관련한 부분에 관심이 있어 이부분을 주로 살펴본다.

 

pororo 설치

WSL의 Ubuntu에 설치. 설치시 torch 1.6.0 제한이 있다. 잠시 리뷰가 목적이니 우선 CPU로 구성하자.

conda create -n pororo python=3.6
conda activate pororo

# cpu only로 설치 GPU 설치 등은 아래 링크 참조
# https://pytorch.org/get-started/previous-versions/#v160
conda install pytorch==1.6.0 torchvision==0.7.0 cpuonly -c pytorch

pip install pororo

 

 

NER 관련 정보 및 코드

한글은 국립국어원에서 제공하는 말뭉치의 형태소를 이용하는 듯 하다.

Named Entity Recognition — PORORO: Platform Of neuRal mOdels for natuRal language prOcessing 0.3.1 documentation (kakaobrain.github.io)

 

간략히 NER 코드를 테스트

from pororo import Pororo

ner = Pororo(task="ner", lang="ko")
ner("손흥민은 28세의 183 센티미터, 77 킬로그램이며, 현재 주급은 약 3억 원이다.")

ner("손흥민은 28세의 183 센티미터, 77 킬로그램이며, 현재 주급은 약 3억 원이다.", apply_wsd=True)

 

wsd를 적용한 후의 결과가 매우 흥미롭다. 이것만으로도 여러 NLP ML모델이나 Azure의 Cognitive Service API와 연동해 해볼것들이 있을 듯 하다.

 

apply_wsd=False apply_wsd=True
[('손흥민', 'PERSON'), [('손흥민', 'PERSON'),
 ('은', 'O'),  ('은', 'O'),
 (' ', 'O'),  (' ', 'O'),
 ('28세', 'QUANTITY'),  ('28세', 'AGE'),
 ('의', 'O'),  ('의', 'O'),
 (' ', 'O'),  (' ', 'O'),
 ('183 센티미터', 'QUANTITY'),  ('183 센티미터', 'LENGTH/DISTANCE'),
 (',', 'O'),  (',', 'O'),
 (' ', 'O'),  (' ', 'O'),
 ('77 킬로그램', 'QUANTITY'),  ('77 킬로그램', 'WEIGHT'),
 ('이며,', 'O'),  ('이며,', 'O'),
 (' ', 'O'),  (' ', 'O'),
 ('현재', 'O'),  ('현재', 'O'),
 (' ', 'O'),  (' ', 'O'),
 ('주급은', 'O'),  ('주급은', 'O'),
 (' ', 'O'),  (' ', 'O'),
 ('약 3억 원', 'QUANTITY'),  ('약 3억 원', 'MONEY'),
 ('이다.', 'O')]  ('이다.', 'O')]

 

Character BERT

구조적인 부분에서 Character BERT 를 이용하는 것으로 예상되고, 여러가지 조합이 가능할 듯 하다.

characterBERT.png

helboukkouri/character-bert: Main repository for "CharacterBERT: Reconciling ELMo and BERT for Word-Level Open-Vocabulary Representations From Characters" (github.com)

 

NLP와 관련된 정보 사이트

NLP With U (nlp-with-u.github.io) 에서 여러 정보를 확인 가능하였다.

여러 NLP 도구와 말뭉치 등 다양한 정보를 한눈에 볼 수 있다.

추천!

 

참고링크

NLP With U (nlp-with-u.github.io)

kakaobrain/pororo: PORORO: Platform Of neuRal mOdels for natuRal language prOcessing (github.com)

 

No. Subject Author Date Views
42 kakaobrain pororo - Natural Language Inference 리뷰 코난(김대우) 2021.10.29 64
41 (4) AzureML - Azure Machine Learning 모델 배포(Deploy) file 코난(김대우) 2021.10.27 38
40 (3) AzureML - Azure Machine Learning 구성요소 file 코난(김대우) 2021.10.27 24
39 (2) AzureML - Azure Machine Learning 이란 무엇인가? file 코난(김대우) 2021.10.25 36
38 kakaobrain pororo - Automated Essay Scorer 리뷰 코난(김대우) 2021.10.21 40
» kakobrain에서 발표한 pororo 리뷰 file 코난(김대우) 2021.10.20 39
36 Azure Databricks MLflow를 이용한 MLOps - CI/CD 및 deployment 포함 file 코난(김대우) 2021.10.15 30
35 Azure Databricks MLflow를 이용한 MLOps file 코난(김대우) 2021.10.14 43
34 Azure Databricks - MLflow를 이용한 머신러닝(5) - Model 배포 file 코난(김대우) 2021.10.14 42
33 Azure Databricks - MLflow를 이용한 머신러닝(4) - Model Registry file 코난(김대우) 2021.10.12 37
32 Azure Databricks - MLflow를 이용한 머신러닝(3) - Project file 코난(김대우) 2021.10.08 32
31 Azure Databricks - MLflow를 이용한 머신러닝(2) - Tracking file 코난(김대우) 2021.10.08 30
30 Azure Databricks - MLflow를 이용한 머신러닝(1) file 코난(김대우) 2021.10.08 26
29 Azure Databricks - Spark에서 머신러닝 분산 처리 file 코난(김대우) 2021.10.07 23
28 PySpark cheat sheet 자료 - RDD, 데이터 처리 file 코난(김대우) 2021.10.01 26
27 PySpark을 이용한 머신러닝 튜토리얼 예제 코난(김대우) 2021.10.01 48
26 Form Recognizer로 문서에서 표 데이터 추출 file 코난(김대우) 2021.01.21 238
25 MLaaS - (1) 12가지의 머신러닝을 먼저 도입한 기업들의 고민 file 코난(김대우) 2021.01.15 399
24 Python 머신러닝 강좌 - 15. Matplotlib으로 데이터 시각화(visualization) file 코난(김대우) 2021.01.09 272
23 Python 머신러닝 강좌 - 14. NumPy와 Pandas 코난(김대우) 2021.01.09 215





XE Login