СоАвтор

СоАвтор – платформа и открытый набор инструментов для редакций и журналистов-фрилансеров, который призван сделать процесс создания контента максимально комфортным и быстрым.

Инструменты для СоАвтора разрабатываются на основе открытой аналитической платформы OT. В ближайших планах полная интеграция приложения с платформой: сбор и обработка данных, запуск аналитических алгоритмов, а также сборка и запуск приложения будет осуществляться на платформе. Публичный репозиторий с инструментами платформы OT coming soon.

Сейчас мы разрабатываем следующие инструменты:

Отслеживание событий и трендов в режиме реального времени (работа со структурированными новостными форматами и парсинг новостных источников). Для этого мы пишем модуль для непрерывного парсинга новостных изданий и придумываем, как отслеживать информативные изменения в статьях.
Подбор релевантных статей к готовому материалу для автоматического формирования модуля бэкграунда (справочной информации или предыстории события). Для этого мы используем инструменты для поиска семантически похожих текстов в архиве и инструменты для генерации саммари из нескольких документов.

Разработка ведется вместе с профессиональным сообществом, чтобы сделать рабочий процесс для редакций и фрилансеров максимально удобным. Платформа "СоАвтор" имеет модульную структуру. Вы можете придумать новый инструмент, который упрощает работу с текстом, или принять участие в работе над теми, что уже в разработке. Вступайте в наше сообщество на Discord и присылайте свои #идеи того, как можно использовать “СоАвтор” при работе с контентом.

English below

Запустить приложение у себя

Установка

Скачайте файлы проекта или сделайте форк и воспользуйтесь командой git clone
Скачайте файлы с данными: ru_stopwords.txt и news_df.parquet
Скачайте файлы моделей: rubert_tiny и rut5_base_sum
Откройте терминал и перейдите в директорию проекта
Используйте pip install requirements.txt, чтобы установить все нужные библиотеки

Запуск

Поменяйте в файле config.yaml пути к файлам данных и моделям
Откройте терминал и перейдите в директорию проекта
Наберите в терминале команду streamlit run menu.py
Приложение по умолчанию будет доступно по адресу http://localhost:8501 P.S.: приложение можно запустить на своём датасете, если будет соблюдён формат. Пример датасета и описание формата в директории data.

Как участвовать в разработке проекта

Текущие задачи

Обновляемая лента новостей
Модуль для подключения к соцсетям
Анализ трендов по постам из социальных сетей
Классификация evergreen новостей

Помочь решить одну из текущих проблем

Проверьте есть ли открытые проблемы в Issues и выберите одну из них
Если у вас есть своя идея, как законтрибьютить в этот проект, откройте в Issues новый тикет (как это сделать, описано ниже).
Сделайте форк проекта, начните работать над тикетом и внесите свои изменения через pull request.

Добавить проблему (issue)

Если вы нашли баг или недоработку, мы будем признательны, если вы оставите её описание в разделе Issues с тегом bug.
Если у вас есть вопросы по функционалу или вы не понимаете баг это или фича, оставьте нам вопрос в разделе Issues с тегом question.
Если у вас есть идея, какие возможности вы хотели бы ещё видеть в приложении, но не уверены, что можете их самостоятельно реализовать, добавьте описание идеи в раздел Issues с тегом enhancement.

Что ещё я могу делать

Принять участие в обсуждении этого проекта или ваших собственных идей в дискорде нашего сообщества WellnessDataClub.
Взять СоАвтор за основу для разработки собственного open source продукта. СоАвтор сейчас работает с новостями и соцсетями, вы можете начать работать с другим типом данных :)
Примите участие в другом нашем open source проекте OpenMask

Launch this project locally

Installation

Download project files or make fork and use git clone
Download data files: ru_stopwords.txt и news_df.parquet
Download models: rubert_tiny и rut5_base_sum
Using the terminal, change directory to the project's directory
Use pip install requirements.txt

Launch

Change paths to the data and models inside config.yaml
Using the terminal, change directory to the project's directory
Run streamlit run menu.py
The app is available with http://localhost:8501 by default P.S.: this app can be launched with your own data in the right format Dataset example, format description are in the data directory.

How to participate in this project

Current tasks

Updating news feed
One module to collect social network data
Trend analysis based on social network posts
Evergreen news classification

Help to resolve one of current issues

Check if there is an open issue that you'd like to solve
If you have your own idea or see a bug, add a new issue (instructions below)
Make fork from this project, make changes and add them with new pull request.

Add an issue

Add bugs or smth that has to be finished to Issues with bug tag.
If you have questions about functionality or code ask in Issues withquestion tag.
If you have some ideas about new functions, suggest it in Issues with enhancement tag.

What else can I do

Take part in the discussion of this project or your own ideas with our Discord community WellnessDataClub.
Use this project as a base for your own open source product. We now work with news, you csn choose another data type :)
Become a part of our another project OpenMask

NLP project that works with news (NER, context generation, news trend analytics)

Related tags

Overview

СоАвтор

Запустить приложение у себя

Установка

Запуск

Как участвовать в разработке проекта

Текущие задачи

Помочь решить одну из текущих проблем

Добавить проблему (issue)

Что ещё я могу делать

Launch this project locally

Installation

Launch

How to participate in this project

Current tasks

Help to resolve one of current issues

Add an issue

What else can I do

Owner

Korean extractive summarization. 2021 AI 텍스트 요약 온라인 해커톤 화성갈끄니까팀 코드

CVSS: A Massively Multilingual Speech-to-Speech Translation Corpus

Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

中文生成式预训练模型

构建一个多源（公众号、RSS）、干净、个性化的阅读环境

gaiic2021-track3-小布助手对话短文本语义匹配复赛rank3、决赛rank4

Unsupervised Language Model Pre-training for French

Transformer training code for sequential tasks

GSoC'2021 | TensorFlow implementation of Wav2Vec2

A NLP program: tokenize method, PoS Tagging with deep learning

This repository will contain the code for the CVPR 2021 paper "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields"

pkuseg多领域中文分词工具; The pkuseg toolkit for multi-domain Chinese word segmentation

Machine learning models from Singapore's NLP research community

Basic yet complete Machine Learning pipeline for NLP tasks

Open-source offline translation library written in Python. Uses OpenNMT for translations

A paper list for aspect based sentiment analysis.

DeepSpeech - Easy-to-use Speech Toolkit including SOTA ASR pipeline, influential TTS with text frontend and End-to-End Speech Simultaneous Translation.

ACL22 paper: Imputing Out-of-Vocabulary Embeddings with LOVE Makes Language Models Robust with Little Cost

Sequence modeling benchmarks and temporal convolutional networks

Longformer: The Long-Document Transformer